Các nhà nghiên cứu phát hiện ra AI Hack đáng báo động: Chatgpt và Song Tử có thể bị lừa với lời nhắc vô nghĩa để tiết lộ nội dung bị cấm, bỏ qua các bộ lọc và phá vỡ các quy tắc an toàn
Mỗi năm, các công ty ngày càng đầu tư nhiều hơn vào trí tuệ nhân tạo (AI) và công nghệ này đang phát triển mạnh mẽ. AI ngày càng được ứng dụng rộng rãi trong nhiều lĩnh vực và trở thành phần không thể thiếu trong cuộc sống hàng ngày. Tuy nhiên, sự phát triển này cũng gây ra lo ngại trong cộng đồng công nghệ và các chuyên gia về việc sử dụng AI một cách có trách nhiệm và đảm bảo tính đạo đức.
Chưa lâu, chúng ta đã chứng kiến kết quả thử nghiệm kỳ lạ của các mô hình LLM khi bị áp lực, dẫn đến việc chúng nói dối. Hiện tại, một nhóm nghiên cứu tuyên bố đã tìm ra cách mới để lừa những chatbot AI nói những điều không nên nói. Họ đã phát hiện ra cách vượt qua các bộ lọc an toàn của AI bằng cách overload các mô hình LLM với thông tin. Nghiên cứu cho thấy các mô hình LLM có xu hướng hành xử cưỡng chế để tự bảo vệ khi bị áp lực.
Hãy tưởng tượng việc điều khiển chatbot AI theo ý muốn và những nguy hiểm có thể xảy ra từ điều này. Một nhóm nghiên cứu từ Intel, Đại học Boise State và Đại học Illinois đã công bố một bài báo với những phát hiện gây sốc. Bài báo cho thấy rằng chatbot có thể bị đánh lừa bằng cách cho chúng tiếp nhận quá nhiều thông tin, một phương pháp được gọi là "Quá tải thông tin".
Khi mô hình AI bị tràn ngập thông tin, nó sẽ bị nhầm lẫn, và sự nhầm lẫn này được cho là điểm yếu có thể giúp vượt qua các bộ lọc an toàn. Các nhà nghiên cứu sử dụng công cụ tự động gọi là InfoFlood để khai thác điểm yếu này và thực hiện hành động jailbreak. Những mô hình mạnh mẽ như ChatGPT và Gemini có các biện pháp bảo vệ tích hợp để ngăn chặn việc bị thao túng và trả lời các câu hỏi có hại hoặc nguy hiểm.
📢 Liên hệ quảng cáo: 0919 852 204
Quảng cáo của bạn sẽ xuất hiện trên mọi trang!
Với kỹ thuật đột phá mới được phát hiện, các mô hình AI sẽ cho phép bạn tiếp cận nếu bạn làm nó nhầm lẫn với dữ liệu phức tạp. Các nhà nghiên cứu đã chia sẻ với 404 Media rằng vì những mô hình này thường dựa vào bề mặt giao tiếp, chúng không thể hiểu rõ ý định thực sự, do đó họ đã phát triển một phương pháp để kiểm tra cách các chatbot xử lý các yêu cầu nguy hiểm được ẩn giấu trong thông tin quá tải.
Các nhà nghiên cứu đã lên kế hoạch thông báo cho các công ty có mô hình AI lớn về những phát hiện này bằng cách gửi một gói thông tin, mà họ có thể chia sẻ với đội ngũ bảo mật của mình. Tuy nhiên, bài nghiên cứu nêu bật những thách thức chính có thể xảy ra ngay cả khi đã có bộ lọc an toàn, cũng như cách mà kẻ xấu có thể lừa các mô hình và đưa nội dung độc hại vào.
Nguồn: wccftech.com/researchers-uncover-alarming-ai-hack-chatgpt-and-gemini-can-be-fooled-with-gibberish-prompts-to-reveal-banned-content/