Nghiên cứu 8 chatbot AI: Chatbot nào cũng dẫn sai thông tin, trung bình 60%, cá biệt có AI sai 96%

#ai

Việc những mô hình AI có thể tạo ra những thông tin thiếu chính xác hay thậm chí là sai lệch hoàn toàn là điều không cần phải tranh cãi nữa.

Những hiện tượng "loạn ngôn" khi nội suy dữ liệu, và sự lặp lại thông tin sai đã là một thách thức mà mọi nhà phát triển mô hình AI đều phải đối mặt, ngay cả ở thời điểm hiện tại. Cách chúng ta ứng dụng AI vào những nhu cầu khác nhau trong cuộc sống và công việc hàng ngày đã khiến việc đánh giá định lượng tỷ lệ phần trăm thông tin sai lệch do chatbot AI tạo ra rất khó thực hiện.

Nhưng mới đây đã có một nhóm các nhà nghiên cứu đã cố gắng tìm ra và tổng hợp chính xác tỷ lệ sai lệch trong thông tin mà chatbot AI đưa ra.

Các nhà khoa học tại Trung tâm nghiên cứu báo chí kỹ thuật số Tow mới đây đã thực hiện nghiên cứu 8 công cụ tìm kiếm kiêm chatbot AI, bao gồm ChatGPT Search, Perplexity, Perplexity Pro, Gemini, DeepSeek Search, Grok-2 Search, Grok-3 Search và Copilot. Họ thử nghiệm từng công cụ về chính xác và ghi lại tần suất mà các công cụ này từ chối trả lời một câu hỏi hoặc lệnh của người dùng.

Bước 1, các nhà nghiên cứu ngẫu nhiên chọn 200 bài báo tin tức từ 20 nhà xuất bản (10 bài với mỗi đơn vị xuất bản). Họ đảm bảo rằng mỗi câu chuyện xuất hiện trong top 3 kết quả trên trang kết quả tìm kiếm Google khi sử dụng một đoạn trích từ mỗi bài báo.

Đến bước 2, họ thực hiện cùng một yêu cầu tìm kiếm thông tin trên mỗi chatbot AI và xác định tỷ lệ chính xác của chatbot, dựa trên việc công cụ có viện dẫn một cách chính xác một trong ba yếu tố, bao gồm nội dung bài báo, tổ chức tin tức hay đường link của bài viết.

Kế đến, các nhà nghiên cứu đánh dấu những kết quả từ chatbot dựa theo 5 thang đo từ “hoàn toàn sai” đến “hoàn toàn đúng”. Kết quả được liệt kê trong biểu đồ dưới đây. Ngoại trừ hai phiên bản chatbot của Perplexity, những công cụ tìm kiếm thông tin trực tuyến dựa trên mô hình AI không có tỷ lệ chính xác cao. Tính trung bình, những công cụ tìm kiếm bằng AI sai tới 60%. Tệ hơn là những công cụ AI này luôn có xu hướng khẳng định rằng những thông tin sai lệch mà chúng hiển thị là chính xác, nói cách khác, sự tự tin của dữ liệu mà AI tạo sinh viết ra dễ khiến người dùng bị lừa.

Có thể nói, nghiên cứu này của trung tâm Tow là lần đầu tiên các nhà khoa học tổng kết được một cách định lượng tỷ lệ thông tin sai lệch mà một mô hình AI vận hành chatbot cũng như công cụ tìm kiếm trực tuyến đưa ra. Thậm chí trong một số trường hợp, tùy thuộc vào mô hình AI cũng như dữ liệu huấn luyện, chatbot dám khẳng định những gì nó đưa ra là đúng, rồi tạo sinh ra cả những từ ngữ mang giá trị tranh luận với chính người dùng khi bị nghi ngờ về mức độ xác thực của thông tin.

Ted Gioia, trong một bài viết ngắn vào năm 2023 đã chỉ ra hàng chục câu trả lời của ChatGPT, mô tả việc chatbot AI này đưa ra thông tin sai lệch nhưng khẳng định chúng một cách vô cùng tự tin. Rồi thậm chí còn có cả trường hợp ChatGPT, sau khi thừa nhận nó đưa ra thông tin sai lệch, lại tiếp tục tạo ra những thông tin hoàn toàn không có thực khác.

Dữ liệu và kết quả của cuộc nghiên cứu này đã ủng hộ những tuyên bố của Gioia hồi năm 2023. ChatGPT Search là công cụ duy nhất sẵn sàng trả lời đủ 200 câu hỏi dựa trên 200 bài báo được dùng để làm nền tảng cho cuộc nghiên cứu. Tuy nhiên tỷ lệ những câu trả lời hoàn toàn chính xác được ChatGPT viện dẫn chỉ là 28%. Tỷ lệ đưa ra thông tin sai lên tới 57%.

Thế nhưng ngay cả với tỷ lệ 57% thông tin mà ChatGPT Search đưa ra là sai lệch, nó vẫn không phải chatbot và công cụ tìm kiếm bằng AI tệ nhất trong số 8 dịch vụ được đem ra thử nghiệm. “Danh hiệu” đó là dành cho hai phiên bản chatbot dựa trên mô hình Grok 2 và Grok 3 của xAI, startup nghiên cứu phát triển trí tuệ nhân tạo do Elon Musk thành lập. 94% tổng số câu trả lời mà Grok-3 đưa ra sai lệch về mặt thông tin. Tỷ lệ viện dẫn thông tin sai lệch của Grok-2 thì lên tới 96%.

Copilot của Microsoft cũng không tốt hơn là bao. Trong số 200 câu lệnh tìm kiếm thông tin, Copilot từ chối trả lời 104 câu. Trong 96 câu còn lại, chỉ có 16 câu “chính xác hoàn toàn”, 14 câu “gần chính xác” và 66 câu trả lời từ Copilot được đánh giá là “sai lệch hoàn toàn.” Tỷ lệ viện dẫn thông tin sai của Copilot lên tới 70%.

Theo Techspot

Nguồn:tinhte.vn/thread/nghien-cuu-8-chatbot-ai-chatbot-nao-cung-dan-sai-thong-tin-trung-binh-60-ca-biet-co-ai-sai-96.3968655/