Trí tuệ nhân tạo (AI) phụ thuộc hoàn toàn vào dữ liệu. Để huấn luyện các thuật toán thực hiện những gì chúng ta mong muốn, cần một lượng dữ liệu khổng lồ, và chất lượng dữ liệu đầu vào sẽ quyết định chất lượng đầu ra. Tuy nhiên, đây chính là vấn đề: các nhà phát triển và nhà nghiên cứu AI thực sự biết rất ít về nguồn gốc của dữ liệu mà họ đang sử dụng. So với sự phát triển phức tạp của các mô hình AI, việc thu thập dữ liệu của AI vẫn còn rất sơ khai. Những bộ dữ liệu khổng lồ thường không có thông tin rõ ràng về nội dung bên trong hay nguồn gốc. Sáng kiến Nguồn gốc Dữ liệu (Data Provenance Initiative), bao gồm hơn 50 nhà nghiên cứu từ các trường đại học và ngành công nghiệp, đã đặt ra một câu hỏi rất đơn giản: Dữ liệu để xây dựng AI đến từ đâu? Trong nghiên cứu của mình, họ đã kiểm tra gần 4.000 bộ dữ liệu công khai, bao gồm hơn 600 ngôn ngữ, 67 quốc gia, trong suốt ba thập kỷ. Các bộ dữ liệu này đến từ 800 nguồn khác nhau và gần 700 tổ chức. Kết quả cho thấy một xu hướng đáng lo ngại: cách AI thu thập dữ liệu đang có nguy cơ tập trung quyền lực một cách áp đảo vào tay một số ít công ty công nghệ lớn. Theo nghiên cứu, vào đầu thập niên 2010, các bộ dữ liệu được thu thập từ nhiều nguồn khác nhau. Trước đây, dữ liệu không chỉ đến từ các bách khoa toàn thư và internet, mà còn từ các nguồn như biên bản họp quốc hội, báo cáo thu nhập, và dự báo thời tiết. Khi đó, các bộ dữ liệu AI được chọn lọc kỹ lưỡng từ nhiều nguồn khác nhau để phù hợp với từng nhiệm vụ cụ thể. Tuy nhiên, khi transformers, kiến trúc nền tảng cho các mô hình ngôn ngữ, được phát minh vào năm 2017, ngành AI bắt đầu nhận thấy hiệu suất tăng lên đáng kể khi các mô hình và bộ dữ liệu trở nên lớn hơn. Hiện nay, hầu hết các bộ dữ liệu AI được tạo ra bằng cách thu thập dữ liệu tràn lan từ internet. Kể từ năm 2018, internet đã trở thành nguồn dữ liệu chủ đạo cho tất cả các loại hình như âm thanh, hình ảnh và video. Khoảng cách giữa dữ liệu lấy từ web và các bộ dữ liệu được chọn lọc kỹ càng như trước đây ngày càng lớn. Nhu cầu về quy mô lớn cũng đã thúc đẩy việc sử dụng dữ liệu tổng hợp một cách đáng kể. Những năm gần đây, các mô hình AI đa phương thức ngày càng phát triển có thể tạo ra video và hình ảnh. Cũng giống như các mô hình ngôn ngữ lớn, những mô hình này đòi hỏi lượng dữ liệu khổng lồ, và nguồn dữ liệu tốt nhất cho mục đích này chính là YouTube. Đối với các mô hình video, như biểu đồ dưới đây cho thấy, hơn 70% dữ liệu cho cả tập dữ liệu âm thanh và hình ảnh đều đến từ một nguồn duy nhất. Điều này có thể trở thành một lợi thế lớn cho Alphabet, công ty sở hữu YouTube. Trong khi dữ liệu văn bản được phân phối rộng rãi trên web và do nhiều trang web, nền tảng khác nhau kiểm soát, dữ liệu video lại tập trung chủ yếu vào một nền tảng duy nhất. Vì Google cũng đang phát triển các mô hình AI riêng của mình, lợi thế lớn này đặt ra câu hỏi về cách công ty sẽ chia sẻ dữ liệu này với các đối thủ cạnh tranh. Sự tập trung dữ liệu này cũng làm dấy lên câu hỏi liệu trải nghiệm con người có được phản ánh chính xác trong tập dữ liệu hay không và chúng ta đang xây dựng những loại mô hình nào. Người dùng đăng video lên YouTube với một nhóm người xem cụ thể trong đầu, và cách họ hành động trong những video đó thường nhằm tạo ra hiệu ứng nhất định. Liệu dữ liệu này có nắm bắt được tất cả sự tinh tế của nhân loại và cách mà chúng ta tồn tại không? Các công ty AI thường không chia sẻ dữ liệu mà họ đã sử dụng để huấn luyện các mô hình của mình. Một lý do là họ muốn bảo vệ lợi thế cạnh tranh. Lý do khác là do cách các tập dữ liệu được tập hợp, đóng gói và phân phối phức tạp và không minh bạch, nên có lẽ chính họ cũng không biết rõ nguồn gốc của toàn bộ dữ liệu. Ngoài ra, họ có thể không nắm đầy đủ thông tin về các ràng buộc liên quan đến cách sử dụng hoặc chia sẻ dữ liệu. Các nhà nghiên cứu tại Data Provenance Initiative phát hiện rằng các tập dữ liệu thường đi kèm với giấy phép hoặc điều khoản hạn chế, ví dụ, giới hạn việc sử dụng chúng cho mục đích thương mại. Sự thiếu nhất quán trong nguồn gốc dữ liệu khiến các nhà phát triển khó đưa ra lựa chọn đúng đắn về dữ liệu cần sử dụng. Điều này cũng gần như khiến việc đảm bảo chắc chắn rằng mô hình không được huấn luyện trên dữ liệu có bản quyền trở nên bất khả thi. Gần đây, các công ty như OpenAI và Google đã ký các thỏa thuận chia sẻ dữ liệu độc quyền với các nhà xuất bản, các diễn đàn lớn như Reddit, và các nền tảng mạng xã hội trên internet. Tuy nhiên, đây lại trở thành một cách khác để họ tập trung quyền lực. Những hợp đồng độc quyền này có thể phân chia internet thành các khu vực mà chỉ một số người có quyền truy cập. Xu hướng này mang lại lợi ích cho các ông lớn AI, những người có đủ khả năng tài chính để thực hiện các thỏa thuận này, trong khi gây bất lợi cho các nhà nghiên cứu, tổ chức phi lợi nhuận và các công ty nhỏ hơn, những đối tượng sẽ gặp khó khăn trong việc tiếp cận dữ liệu. Các công ty lớn cũng có nguồn lực tốt nhất để thu thập các tập dữ liệu. Dữ liệu được sử dụng để huấn luyện các mô hình AI cũng bị lệch nặng về thế giới phương Tây. Hơn 90% các tập dữ liệu mà các nhà nghiên cứu phân tích có nguồn gốc từ châu Âu và Bắc Mỹ, trong khi chưa đến 4% đến từ châu Phi. Những tập dữ liệu này phản ánh một phần thế giới và văn hóa của chúng ta, nhưng chúng ta lại hoàn toàn bỏ qua những phần khác. Sự thống trị của tiếng Anh trong dữ liệu huấn luyện được giải thích một phần bởi thực tế rằng hơn 90% nội dung trên internet vẫn là tiếng Anh, và ở nhiều nơi trên thế giới, kết nối internet còn rất kém hoặc thậm chí không có. Một lý do khác là sự tiện lợi: Việc tạo ra các tập dữ liệu bằng các ngôn ngữ khác và cân nhắc đến các nền văn hóa khác đòi hỏi rất nhiều công sức. Sự tập trung vào phương Tây của các tập dữ liệu này trở nên đặc biệt rõ ràng với các mô hình đa phương thức. Ví dụ, khi một mô hình AI được yêu cầu mô tả hình ảnh và âm thanh của một đám cưới, nó có thể chỉ thể hiện được các đám cưới phương Tây, vì đó là tất cả những gì nó đã được huấn luyện. Điều này củng cố các định kiến và có thể dẫn đến các mô hình AI thúc đẩy một thế giới quan thiên về phương Tây và làm lu mờ các ngôn ngữ và văn hóa khác. Theo MIT.