WIRED: Nhiều trang web lớn ngăn Apple thu thập dữ liệu phục vụ đào tạo AI

#ai

Một số hãng tin và mạng xã hội lớn đã từ chối tham gia chương trình đào tạo trí thông minh nhân tạo (AI) của Apple, chưa đầy ba tháng sau khi Apple ra mắt công cụ AI của mình.

Theo nguồn tin từ WIRED, Facebook, Instagram, Craigslist, Tumblr, The New York Times, The Financial Times, The Atlantic, Vox Media, USA Today và công ty mẹ của WIRED, Condé Nast, nằm trong số nhiều tổ chức lựa chọn việc loại trừ dữ liệu của họ khỏi chương trình đào tạo AI của Apple. Sự lạnh nhạt này của các tổ chức lớn phản ánh sự thay đổi đáng kể trong cả nhận thức và cách sử dụng các trình thu thập dữ liệu web trong nhiều thập kỷ vừa qua. Giờ đây, khi các bot này đóng vai trò quan trọng trong việc thu thập dữ liệu đào tạo AI, chúng đã trở thành vùng xung đột về quyền sở hữu trí tuệ và tương lai của web.

Công cụ của Apple có tên là Applebot-Extended, cho phép chủ sở hữu trang web yêu cầu Apple không sử dụng dữ liệu của họ để đào tạo AI. (Trong một bài đăng giải thích cách thức hoạt động của nó, Apple gọi tính năng là "kiểm soát việc sử dụng dữ liệu".) Applebot phiên bản đầu tiên, được công bố vào năm 2015, được dùng để thu thập dữ liệu trên internet nhằm cung cấp thông tin chất lượng cho các công cụ tìm kiếm của Apple như Siri và Spotlight. Tuy nhiên, gần đây, mục đích của Applebot đã mở rộng: Dữ liệu mà nó thu thập cũng có thể được sử dụng để đào tạo các mô hình nền tảng mà Apple đã tạo ra cho các dự án AI của mình.

Theo Apple, Applebot-Extended là cách mà hãng công nghệ này tôn trọng quyền của nhà xuất bản. Trên thực tế, nó không ngăn Applebot nguyên bản thu thập dữ liệu trang web, vốn ảnh hưởng đến cách nội dung của trang web đó xuất hiện trong các sản phẩm tìm kiếm của Apple, mà thay vào đó, công cụ này ngăn dữ liệu đó được sử dụng để đào tạo các mô hình ngôn ngữ lớn của Apple và các dự án AI tạo sinh khác. Về bản chất, đây là một bot để tùy chỉnh cách hoạt động của một bot khác.

Các nhà xuất bản có thể chặn Applebot-Extended bằng cách cập nhật file văn bản trên trang web của họ được gọi là “Giao thức loại trừ robot” (Robots Exclusion Protocol) hoặc robots.txt. File này đã quản lý cách các bot thực hiện việc thu thập dữ liệu trên web trong nhiều thập kỷ. Và giống như chính các bot này, giờ đây nó là trung tâm của một cuộc chiến lớn hơn về cách AI được đào tạo. Nhiều nhà xuất bản đã cập nhật file robots.txt của họ để chặn các bot AI từ OpenAI, Anthropic và các công ty AI lớn khác.

Theo WIRED.

Nguồn: WIRED: Các trang web lớn chặn Apple thu thập dữ liệu để train AI