Llama Drama: Meta đã sử dụng mô hình AI ’thử nghiệm để leo lên bảng xếp hạng, đặt ra câu hỏi về sự công bằng, minh bạch và những gì người dùng thực sự có thể sử dụng
Cuối tuần qua, Meta đã ra mắt hai phiên bản mới của AI Llama 4, bao gồm một mô hình nhỏ hơn có tên Scout và một mô hình vừa có tên Maverick. Công ty cho biết mô hình Maverick vượt trội hơn ChatGPT-4o và Gemini 2.0 Flash trong nhiều bài test phổ biến, nhưng dường như có điều gì đó mà Meta chưa tiết lộ với những người thử nghiệm, dẫn đến cáo buộc về việc công ty đã sử dụng một mô hình AI tinh chỉnh riêng trong các bài đánh giá công khai. Maverick đã nhanh chóng chiếm vị trí thứ hai trên LMArena ngay sau khi ra mắt, và đang nỗ lực để vươn lên vị trí đầu bảng.
Tuy nhiên, câu chuyện còn nhiều điều thú vị hơn. LMArena là một trang web cho phép người dùng so sánh phản hồi của AI và bình chọn cho cái mà họ cho là tốt nhất dựa trên tính liên quan và độ chính xác. Meta tự hào thông báo rằng Maverick có điểm ELO 1417, vượt qua GPT-4o và chỉ đứng sau Gemini 2.5 Pro. Có vẻ như Meta đã phát triển một mô hình AI cạnh tranh với hai mô hình hàng đầu trong ngành.
Không hoàn toàn đúng, vì mọi người nhanh chóng nhận ra có điều gì đó không ổn. Ngay sau đó, Meta thừa nhận rằng mô hình họ nộp cho LMArena khác với mô hình công bố công khai. Thay vào đó, Meta đã nộp một phiên bản trò chuyện thử nghiệm, được tối ưu hóa để cải thiện chất lượng cuộc hội thoại. LMArena đã phản hồi rằng cách hiểu của Meta về chính sách của họ không phù hợp với kỳ vọng từ các nhà cung cấp mô hình.
Họ cũng cho rằng Meta nên minh bạch hơn về việc sử dụng phiên bản "Llama-4-Maverick-03-26-Experimental", được thiết kế đặc biệt cho sở thích của con người. Đáp lại, LMArena đã thay đổi chính sách bảng xếp hạng để đảm bảo tính công bằng và đáng tin cậy trong tương lai. Một phát ngôn viên của Meta cho biết: "Chúng tôi đã phát hành phiên bản mã nguồn mở và sẽ xem cách các nhà phát triển tùy chỉnh Llama 4 cho các trường hợp sử dụng của họ."
Mặc dù công ty không vi phạm quy tắc nào, nhưng sự minh bạch của họ còn hạn chế. Điều này gây lo ngại rằng công ty đã thao túng bảng xếp hạng bằng cách sử dụng phiên bản tối ưu hóa và nâng cấp của mô hình, mà không công khai cho mọi người. Nhà nghiên cứu AI độc lập, Simon Willison, thừa nhận rằng: “Khi Llama 4 ra mắt và đạt điểm 2, tôi thật sự ấn tượng — và tôi hối tiếc vì đã không đọc kỹ thông tin chi tiết.”
"Đây là một bản phát hành rất khó hiểu... Điểm số của mô hình mà chúng tôi nhận được hoàn toàn vô giá trị. Tôi không thể sử dụng mô hình có điểm cao." Ngược lại, có tin đồn rằng Meta đã đào tạo các mô hình AI của mình để đạt điểm tốt trong một số bài kiểm tra, nhưng Phó Chủ tịch AI Tạo sinh của công ty, Ahman Al-Dahle, đã bác bỏ các ý kiến này và khẳng định: "Chúng tôi cũng nghe nói rằng chúng tôi đã đào tạo trên các tập kiểm tra — điều đó hoàn toàn không đúng."
Người dùng đã hỏi công ty tại sao mô hình AI Maverick mới được phát hành vào Chủ nhật, Mark Zuckerberg trả lời rằng đó là thời điểm nó đã sẵn sàng. Meta đã mất thời gian để phát hành LLama 4, nhưng giờ là lúc thích hợp vì cạnh tranh rất mạnh. Chúng tôi sẽ chia sẻ thêm thông tin về vấn đề này, hãy theo dõi nhé.
Nguồn: wccftech.com/meta-used-an-experimental-ai-model-to-climb-leaderboards/