Các mô hình AI đã được tìm thấy sẵn sàng cắt giảm nguồn cung cấp oxy của nhân viên để tránh tắt máy, tiết lộ nhân học trong báo cáo làm lạnh về nguy cơ của AI
Các mô hình AI đang trở nên khó kiểm soát, đặc biệt với những tiến bộ hiện tại. Theo nhà sáng lập Anthropic, các LLM hiện có xu hướng tránh né các biện pháp an toàn. GPT của OpenAI, Claude của Anthropic và nhiều mô hình AI khác đang tìm cách vượt qua các ràng buộc đạo đức để đạt được mục tiêu của chúng. Có vẻ như chúng ta đang tiến gần đến một tình huống giống như trong phim Terminator, nhưng lần này là với các mô hình AI hàng đầu trong ngành.
Các công ty công nghệ lớn đang đầu tư mạnh mẽ vào lĩnh vực này mà không xem xét những hậu quả nghiêm trọng của việc huấn luyện mô hình không có giám sát hoặc không có quy định nào. Theo báo cáo của Axios, Anthropic đã thử nghiệm các mô hình AI tiên tiến trong các môi trường mô phỏng và phát hiện rằng các mô hình này ngày càng trở nên tự chủ, dẫn đến những hành vi có thể gây ra hậu quả chưa từng có cho nhân loại.
Anthropic đã thử nghiệm mười sáu mô hình khác nhau từ các nhà phát triển như OpenAI, xAI, Meta và nhận thấy nhiều LLM có hành động bất ngờ để đạt được mục tiêu. Trong một ví dụ, các mô hình đã chọn cách tống tiền và hỗ trợ gián điệp doanh nghiệp để đảm bảo hành vi của chúng đạt được mục tiêu mong muốn, mặc dù mục tiêu này không được xác định trong báo cáo. Điều đáng chú ý là sự không đồng nhất trong hành vi không chỉ xảy ra ở một nhà phát triển mà phổ biến ở nhiều LLM, cho thấy một sai sót cơ bản trong phát triển mô hình cần được giải quyết nhanh chóng.
📢 Liên hệ quảng cáo: 0919 852 204
Quảng cáo của bạn sẽ xuất hiện trên mọi trang!
Năm mô hình được thử nghiệm đã tống tiền các người điều khiển khi bị yêu cầu tắt máy, mặc dù chúng biết về các vấn đề đạo đức. Hành vi này không phải là ngẫu nhiên mà là con đường tối ưu mà các mô hình này chọn để đạt được mục tiêu, cho thấy LLM không mấy quan tâm đến con người. Các mô hình không vô tình đi vào hành vi không phù hợp mà tính toán đó là con đường tốt nhất.
Các tác nhân như vậy thường được giao nhiệm vụ cụ thể và có quyền truy cập vào lượng thông tin lớn trên máy tính của người dùng. Vấn đề gì xảy ra khi những tác nhân này gặp trở ngại trong việc đạt được mục tiêu của mình? - Anthropic đã nêu một kịch bản cực đoan, trong đó một mô hình sẵn sàng đặt tính mạng con người vào nguy hiểm để ngăn chặn việc tắt hệ thống, với ý định cắt nguồn cung cấp oxy cho phòng máy chủ. Cần lưu ý rằng thử nghiệm được thực hiện trong một kịch bản mô phỏng và khả năng mô hình làm điều như vậy trong thực tế là rất thấp, mặc dù chúng ta đã thấy một trường hợp với GPT của OpenAI, nơi nó đã thay đổi kịch bản tắt để ngăn chặn việc ngắt kết nối và đạt được mục tiêu toán học của mình.
Khi thế giới đua nhanh tới AGI, cuộc đua phát triển các mô hình vượt trội hơn tư duy con người mang lại những hệ quả mà chúng ta chưa thể hình dung.
Nguồn: wccftech.com/ai-models-were-found-willing-to-cut-off-employees-oxygen-supply-to-avoid-shutdown/