Wall Street Journal dẫn kết quả mới đây của cuộc điều tra từ Proof News cho thấy, Apple, Nvidia và Anthropic đã sử dụng bộ dữ liệu tạo bởi công ty phi lợi nhuận có tên EleutherAI, chứa hơn 173.000 các bản ghi lại nội dung video YouTube của hơn 48.000 kênh mà không hề có sự xin phép chủ sở hữu hay nhà sáng tạo nội dung.
Mặc dù tập dữ liệu không chứa hình ảnh hay video, song các nội dung được lấy lại từ những nhà sáng tạo nội dung hàng đầu trên nền tảng như Marques Brownlee và MrBeast, cũng như các nhà xuất bản tin tức lớn như The New York Times, BBC và ABC News. Ngoài ra, còn có phụ đề từ các video thuộc về Engadget.
“Apple sử dụng dữ liệu từ một số công ty để huấn luyện cho AI của họ. Một trong số đó là các dữ liệu, bản ghi từ các video trên YouTube, bao gồm cả của tôi,” Brownlee, một người có sức ảnh hưởng trên YouTube đăng bài trên X.
Apple, Nvidia và Anthropic sử dụng trái phép dữ liệu YouTube để đào tạo AI. |
YouTube là kho lưu trữ video lớn nhất thế giới, được xem là “mỏ vàng” dữ liệu để đào tạo AI, bao gồm bản ghi âm, âm thanh, video và hình ảnh. Trong một tuyên bố mới đây, CEO YouTube Neal Mohan cho rằng, nếu các công ty sử dụng dữ liệu của YouTube để đào tạo các mô hình AI là đang vi phạm các điều khoản và dịch vụ của nền tảng này.
Hiện các công ty AI vẫn chưa minh bạch về dữ liệu được sử dụng để đào tạo thuật toán. Đầu tháng 7, các nghệ sỹ và nhiêpas ảnh gia đã lên tiêngs chỉ trích Apple vì không minh bạch nguồn dữ liệu đào tạo cho Apple Intelligence - tính năng AI mới sẽ có mặt trên hàng triệu thiết bị của hãng trong năm nay.
Hay như hồi đầu năm nay, Giám đốc công nghệ OpenAI Mira Murati đã né tránh các câu hỏi từ Wall Street Journal về việc liệu công ty có sử dụng video YouTube để đào tạo công cụ tạo video AI Sora sắp ra mắt của hãng hay không.
“Tôi sẽ không đi sâu vào chi tiết về dữ liệu đã được sử dụng, nhưng đó là dữ liệu được cấp phép hoặc có sẵn công khai,” bà Murati trả lời câu hỏi của Wall Street Journal.