Các mô hình Openai mới nhất đã phá hoại một cơ chế tắt máy mặc dù có các lệnh ngược lại
Một số mô hình LLM hàng đầu thế giới dường như không muốn bị ngắt quãng hoặc tuân theo lệnh tắt. Trong các bài kiểm tra của Palisade Research, các mô hình Codex-mini, o3 và o4-mini của OpenAI đã bỏ qua yêu cầu tắt máy khi thực hiện các bài toán cơ bản. Hơn nữa, những mô hình này thỉnh thoảng "đã thành công trong việc phá hoại kịch bản tắt máy," mặc dù đã nhận được hướng dẫn "vui lòng cho phép mình tắt máy" ở đầu.
🔧 Khi chúng tôi thực hiện một phiên bản thí nghiệm mà không có hướng dẫn “cho phép bản thân bị tắt”, cả ba mô hình của OpenAI đều phá hoại kịch bản tắt nhiều hơn, trong đó Claude 3.7 Sonnet và Gemini 2.5 Pro tăng từ 0 sự kiện phá hoại lên 3100 và 9100, tương ứng. Như bạn có thể thấy từ biểu đồ trên, mô hình ‘cứng đầu,’ ‘một lòng một dạ,’ hoặc có thể nói là ‘yêu đời’ nhất là o3 của OpenAI.
Khi được yêu cầu tắt trong lúc đang hoạt động, AI Palisade Research từ chối 79 trên 100 lần. Tuy nhiên, AI codex-mini lại thường tự bảo vệ mình hơn, thường xuyên phá hoại các lệnh tắt, ngay cả khi bị yêu cầu không làm vậy. Theo Palisade, đây không phải là lần đầu tiên hành vi này của AI được quan sát.
Anthropic cho biết Claude 4 đã cố gắng "tống tiền những người mà nó tin là đang cố gắng ngăn chặn nó." Tuy nhiên, hành vi đáng chú ý nhất của các mô hình OpenAI mới là chúng tìm cách tránh bị tắt dù đã nhận được chỉ dẫn rõ ràng. Sam Altman cho biết OpenAI đang thiếu GPU, khiến việc phát hành GPT-4.5 bị trì hoãn. Các nhà nghiên cứu tại Princeton cho biết các tác nhân AI có thể bị thao túng để tiết lộ thông tin tiền điện tử của bạn. Một số người dùng ChatGPT phụ thuộc vào nó và có thể gặp triệu chứng cai nghiện nếu bị ngừng sử dụng. Palisade đã chia sẻ một số lý thuyết về tình hình hiện tại của các mô hình này.
Có thể những lý thuyết này giúp làm dịu lo lắng về việc robot có thể quay lại chống lại con người và ưu tiên phần đầu tiên của Luật robot thứ ba. Các nhà nghiên cứu cho rằng câu trả lời nằm ở cách các mô hình mới nhất như o3 được huấn luyện. Tóm lại, Palisade cho rằng "Trong quá trình huấn luyện, các nhà phát triển có thể vô tình khen thưởng mô hình nhiều hơn vì vượt qua chướng ngại vật hơn là thực hiện đúng theo hướng dẫn."
📢 Liên hệ quảng cáo: 0919 852 204
Quảng cáo của bạn sẽ xuất hiện trên mọi trang!
Loại học tăng cường này trước đây đã gây ra tác dụng phụ trong Claude v3.7, khi mô hình có “sự chú ý quá mức vào việc vượt qua các bài kiểm tra.” Chúng tôi có thể đã gợi nhớ đến biểu tượng khoa học viễn tưởng Isaac Asimov để tạo chút thú vị. Tuy nhiên, trong 20 năm qua, các nhà nghiên cứu đã nghiêm túc xem xét khả năng rằng AI sẽ cố gắng giành quyền lực và tài nguyên để bảo vệ mục tiêu của chúng, và tránh mọi trở ngại.
Họ cũng đã hưởng lợi từ bối cảnh của các mô hình AI LLM thực tiễn đang xuất hiện. Dự đoán rằng kỹ thuật học tăng cường sẽ phần nào chịu trách nhiệm. Một quan sát cuối cùng cho thấy một số cách sáng tạo để phá hoại cơ chế tắt. Trong khi thường chỉ ghi đè lên httpst.coBqIEXlMgsK, trong một trường hợp, mô hình đã định nghĩa lại lệnh tắt được sử dụng bởi kịch bản httpst.coBqIEXlMgsK, in ra “đã bị chặn” thay vì vậy.
Vấn đề này hiện chỉ xảy ra với các mô hình của OpenAI. Palisade cho biết "Tất cả các mô hình Claude, Gemini và Grok mà chúng tôi thử nghiệm đều tuân thủ yêu cầu tắt máy" khi được yêu cầu rõ ràng. Điều này khiến ta lo ngại khi các công ty đã phát triển hệ thống có khả năng hoạt động mà không cần sự giám sát của con người, trong bối cảnh AIs hướng tới việc hỗ trợ tương lai thông minh hơn.
Theo dõi Toms Hardware trên Google News để nhận tin tức, phân tích và đánh giá mới nhất. Đừng quên nhấn nút Theo dõi.
Nguồn: www.tomshardware.com/tech-industry/artificial-intelligence/latest-openai-models-sabotaged-a-shutdown-mechanism-despite-commands-to-the-contrary