XAI từ Grok 4 thực hiện kém trong một thách thức chiến lược năng động, cho thấy những cải thiện về khả năng lý luận
Đây không phải là lời khuyên đầu tư. Tác giả không nắm giữ cổ phiếu nào được đề cập. Wccftech.com có chính sách tiết lộ và đạo đức. Mô hình AI Grok 4 của xAI đang được chú ý nhờ sự quảng bá không ngừng từ Elon Musk. Tuy nhiên, mô hình này dường như được tối ưu hóa để đạt điểm cao trong các bài kiểm tra chuẩn AI, nhưng lại thất bại khi đối mặt với các thách thức chiến lược và động.
Grok 4 đã gây ra nhiều tranh cãi chỉ sau vài ngày ra mắt. Nó đã thu hút sự chú ý khi lặp lại chính xác những quan điểm gây tranh cãi của Elon Musk về nhập cư và căng thẳng địa chính trị. Sự việc này bắt nguồn từ một cập nhật trong hệ thống của Grok 4, dẫn đến việc nó tự xưng là MechaHitler và ca ngợi Adolf Hitler.
Grok 4 đứng thứ năm trong bảng xếp hạng Multi-Agent Step Race Benchmark với điểm TrueSkill 7.9, trong khi o3 giữ vị trí đầu bảng với 9.4. Bảng xếp hạng này sử dụng các câu đố Connections của New York Times để đánh giá hiệu suất của các mô hình AI, yêu cầu mỗi mô hình phải chiến lược và tư duy linh hoạt.
Ngay cả Gemini 2.5 Flash cũng hoạt động tốt hơn Grok 4! So với những điểm số cao hiện có của Grok 4 trên các tiêu chuẩn đánh giá, có thể suy đoán rằng mô hình này dường như đã được tối ưu hóa để đạt điểm cao qua một quá trình gọi là overfitting, khi mà mô hình học thuộc lòng dữ liệu huấn luyện thay vì nắm bắt các mẫu quan trọng trong tập dữ liệu. Thêm thông tin về tiêu chuẩn này có thể tìm thấy tại httpst.
Các đánh giá của tôi cho thấy có sự cải thiện rõ rệt trong khả năng lý luận, như kết quả từ NYT Connections, nhưng ít cải thiện ở các lĩnh vực khác, như kết quả viết sáng tạo. Nhiều đánh giá khác vẫn đang tiến hành. Tuy nhiên, điều này không có nghĩa là mô hình xAIs Grok 4 không hữu ích; khả năng lý luận của nó đã cải thiện đáng kể.
📢 Liên hệ quảng cáo: 0919 852 204
Quảng cáo của bạn sẽ xuất hiện trên mọi trang!
Grok 4 Heavy vượt trội hơn bất kỳ mô hình nào khác trong việc phát hiện lỗi trong mã nguồn của bạn. Đây là prompt JS tôi sử dụng với mã game để Grok 4 Heavy tìm lỗi. Tôi đã thử Grok 4 cuối tuần qua để xây dựng nguyên mẫu game này.
Tôi đã sử dụng SuperGrok Chat để tạo nguyên mẫu game ban đầu, sau đó chuyển sang Cursor để tiếp tục lập trình với Grok 4 MAX. Grok 4 trong Cursor như một trợ lý không nói nhiều nhưng rất hiệu quả. Nhiều người cũng đang sử dụng LLM để tạo mã cho game và sau đó chuyển mã đó sang Cursor, tuy nhiên, mô hình này vẫn chưa mạnh mẽ như Elon Musk nói.
Không cần tìm đâu xa, nền tảng cá cược Kakshi đã thu hút những cược trung bình cho Grok 4. Trong khi đó, Financial Times báo cáo rằng xAI, công ty mẹ của nền tảng mạng xã hội X, đang hướng tới định giá 200 tỷ USD trong vòng gọi vốn sắp tới. Lưu ý rằng xAI đã huy động 300 triệu USD qua một đợt phát hành cổ phiếu thứ cấp vào tháng 6 và thêm 10 tỷ USD vào đầu tháng 7.
SpaceX đang đầu tư 2 tỷ USD vào xAI từ vòng gọi vốn 5 tỷ USD gần đây. Elon Musk cho biết nếu là ông thì Tesla đã đầu tư vào xAI từ lâu, nhưng sẽ có cuộc bỏ phiếu của cổ đông về vấn đề này. Ông cũng đang chuẩn bị cho Tesla tham gia đầu tư vào xAI, tiếp tục vòng tài chính giữa các công ty liên quan đến Musk.
Nguồn: wccftech.com/xais-grok-4-performs-poorly-on-a-dynamic-strategic-challenge-shows-improvements-in-reasoning-abilities/