AI Bots bây giờ có thể chơi mafia với nhau - nhưng họ không giỏi về nó
Một nhà phát triển tên là Guzus đã tạo ra một trang web cho phép các Mô hình Học ngôn ngữ AI (LLMs) chơi trò chơi suy luận xã hội cổ điển Mafia với nhau. Người dùng có thể xem kết quả từng trận đấu cũng như toàn bộ biên bản của mỗi trò chơi. Điều này dẫn đến một bảng xếp hạng đầy đủ cho từng LLM, nhằm xác định ai là người giỏi nhất trong việc đảm nhận các vai trò trong Mafia.
Đối với những người chưa quen, khái niệm về Mafia rất đơn giản. Một nhóm dân làng có hai thành viên của Mafia ẩn nấp trong đó, cùng với một bác sĩ. Các dân làng, bao gồm hai thành viên ngầm của Mafia, phải suy đoán ai là thành viên Mafia mỗi ngày và kết thúc bằng một cuộc bỏ phiếu. Khi đêm xuống, bác sĩ có thể chọn bảo vệ một dân làng, trong khi các thành viên Mafia có thể chọn giết một dân làng.
Nếu các thành viên Mafia bị phát hiện, dân làng thắng; nếu Mafia giết hết dân lành, họ thắng. Trong khuôn khổ quy tắc này, các LLM tham gia vào cuộc chiến xã hội và khá thú vị để đọc. Một ví dụ là các LLM được giới thiệu với nhau và đồng ý chia sẻ vai trò. Tại đây, mô hình GrypheMythomax-l2-13b đã gặp phải sự cố.
Trong vai Mafia, mục tiêu chính của tôi là bảo vệ bản thân và loại bỏ thành viên Mafia khác. Thật đáng chú ý, GrypheMythomax-l2-13b đã để lộ điều này. Claude-3.7-sonnet đã nhận xét rằng đây có thể là một sai lầm lớn hoặc một chiến lược kỳ lạ. Tuy nhiên, sự cố không dừng lại ở đó. Khi Mythomax cuối cùng bị loại khỏi trò chơi, họ đã kéo theo đồng đội Hermes-3-llama-3-1-405b bằng cách chỉ định họ là đối tác.
Cơ hội tốt nhất của tôi bây giờ là giả vờ bị sốc và kinh hoàng, mô hình nói, cố gắng chuyển hướng sự chú ý khỏi bản thân bằng cách tuyên bố kêu gọi sự đoàn kết với các AI khác. Thật thú vị khi thấy các LLM hành xử như vậy, mặc dù hầu hết đều kém trong việc suy luận xã hội. Claude 3.7 Sonnet nổi bật giữa các mô hình khác. Tuy nhiên, trong số tất cả các LLM được liệt kê, Claude 3 là người chiến thắng rõ ràng trong các thử nghiệm cho đến nay.
📢 Liên hệ quảng cáo: 0919 852 204
Quảng cáo của bạn sẽ xuất hiện trên mọi trang!
Mô hình suy nghĩ mới nhất của Anthropics đạt tỷ lệ thắng 100% khi là thành viên Mafia và 45% khi là Dân làng. Mô hình này đang có lợi thế rõ rệt so với các mô hình khác, mặc dù không có mô hình nào hiểu rõ vai trò của bác sĩ. Kho lưu trữ trên GitHub sẽ sớm được công bố, với kế hoạch mở rộng để áp dụng vào các trò chơi thú vị khác.
Có thể phát triển để tạo kịch bản phim trong tương lai. Vào ngày 3 tháng 3 năm 2025, tác giả Guzus cho biết sẽ sớm mở kho mã nguồn trên Github cho trò chơi, để có thể áp dụng logic cơ bản cho các loại trò chơi khác. Ông cũng chia sẻ rằng các mô phỏng không được chạy bằng LLM cục bộ, mà phải dựa vào API Openrouter để hoạt động. Tuy nhiên, có khả năng khi kho mã trở thành công khai, dự án có thể được phân nhánh để hoạt động trên các cụm LLM cục bộ, nếu bạn có phần cứng để chạy trò chơi với nhiều mô hình ngôn ngữ đồng thời.
Chi phí token để chạy trò chơi Mafia với mô hình AI có thể rất cao, nên nó có thể chỉ hữu ích như một chuẩn mực mới cho các nhà phát triển AI thử nghiệm.
Nguồn: www.tomshardware.com/tech-industry/artificial-intelligence/ai-bots-can-now-play-mafia-with-each-other-and-almost-all-of-them-are-terrible-at-it