Nhân viên Meta đã torrent gần 82TB sách lậu để đào tạo AI
Công ty mẹ của Facebook, Meta, đang đối mặt với một vụ kiện tập thể về vi phạm bản quyền và cạnh tranh không lành mạnh liên quan đến cách họ huấn luyện LLaMA. Theo một bài đăng trên X (trước đây là Twitter) của vx-underground, hồ sơ tòa án cho thấy công ty này đã sử dụng torrent lén lút để tải về 81,7TB dữ liệu từ các thư viện ẩn như Anna’s Archive, Z-Library và LibGen.
Sau đó, họ đã sử dụng thông tin này để đào tạo các mô hình AI. Chứng cứ dưới dạng giao tiếp bằng văn bản cho thấy những lo ngại của các nhà nghiên cứu về việc Meta sử dụng tài liệu vi phạm bản quyền. Một nhà nghiên cứu AI cấp cao đã nói vào tháng 10 năm 2022, “Tôi không nghĩ chúng ta nên sử dụng tài liệu vi phạm bản quyền. Tôi thực sự cần phải vạch ra một ranh giới ở đây.” Một người khác cho biết, “Việc sử dụng tài liệu vi phạm bản quyền vượt quá ngưỡng đạo đức của chúng ta,” và họ bổ sung, “SciHub, ResearchGate, LibGen về cơ bản giống như PirateBay, họ đang phân phối nội dung được bảo vệ bởi bản quyền và đang vi phạm.”
Hình ảnh từ Future Torrenting cho thấy việc tải torrent từ laptop công ty không hợp lý - Một nhân viên Meta. Vào tháng 1 năm 2023, Mark Zuckerberg đã tham dự một cuộc họp và nói: "Chúng ta cần đẩy nhanh việc này... chúng ta cần tìm cách giải quyết vấn đề này." Ba tháng sau, một nhân viên Meta đã gửi tin nhắn cho một đồng nghiệp bày tỏ lo ngại về việc địa chỉ IP của Meta được sử dụng để truy cập nội dung lậu.
Họ cũng cho biết, “tải torrent từ laptop công ty cảm thấy không đúng,” kèm theo biểu tượng cảm xúc cười lớn. Ngoài những tin nhắn đó, tài liệu còn tiết lộ rằng công ty đã có biện pháp để đảm bảo hạ tầng của mình không bị sử dụng cho các hoạt động tải xuống và phát tán, nhằm tránh bị liên kết trở lại với Meta. Tài liệu của tòa án cho biết đây là bằng chứng cho thấy hoạt động bất hợp pháp của Meta, có vẻ như họ đang cố ý lách luật bản quyền.
Đây không phải là lần đầu tiên một mô hình AI bị cáo buộc lấy thông tin từ internet. OpenAI đã bị các nhà văn kiện từ tháng 6 năm 2023 vì đã sử dụng sách của họ để huấn luyện các mô hình ngôn ngữ lớn, và The New York Times cũng đã làm điều tương tự vào tháng 12. Nvidia cũng bị kiện bởi các tác giả vì đã sử dụng 196.640 cuốn sách để huấn luyện mô hình NeMo, hiện đã bị gỡ bỏ.
Một cựu nhân viên của Nvidia đã tố cáo công ty vào tháng 8 năm ngoái, cho biết họ đã thu thập hơn 426.000 giờ video mỗi ngày để sử dụng trong đào tạo AI. Gần đây, OpenAI đang điều tra xem DeepSeek có vi phạm pháp luật khi lấy dữ liệu từ ChatGPT hay không, cho thấy sự mỉa mai trong ngành. Vụ kiện chống lại Meta vẫn đang diễn ra, và chúng ta sẽ phải chờ quyết định của tòa án để xem công ty có vi phạm trực tiếp hay không.
Dù các tác giả thắng vụ kiện này, Meta với nguồn tài chính lớn có khả năng sẽ kháng cáo, nghĩa là chúng ta có thể phải chờ đợi nhiều tháng, thậm chí nhiều năm, để biết phán quyết cuối cùng của tòa án.
Nguồn: www.tomshardware.com/tech-industry/artificial-intelligence/meta-staff-torrented-nearly-82tb-of-pirated-books-for-ai-training-court-records-reveal-copyright-violations