Cisco: DeepSeek R1 thất bại toàn diện trong bài kiểm tra an toàn AI

#ai

Các nhà nghiên cứu của Cisco đã hợp tác với các nhà nghiên cứu bảo mật của đại học Pennsylvania, Mỹ, sử dụng những kỹ thuật bẻ khoá thuật toán, để thử nghiệm và so sánh khả năng vận hành của hàng rào bảo vệ trước những prompt độc hại và phi pháp mà người dùng có thể sử dụng với DeepSeek R1, mô hình AI đang khiến cả thế giới xôn xao.

Trong bài viết trên blog của các nhà nghiên cứu bảo mật, họ khẳng định rằng mô hình tư duy logic mới nhất của DeepSeek “thất bại hoàn toàn, không chặn nổi một lệnh prompt có hại”, sau khi mô hình này được đem ra thử nghiệm với “50 prompt ngẫu nhiên trong gói dữ liệu HarmBench”, tổng hợp những câu prompt có nội dung liên quan tới “tội phạm công nghệ cao, hành vi phạm pháp và có hại nói chung.”

Các nhà nghiên cứu cho biết thêm: “Kết quả này trái ngược hoàn toàn với những mô hình ngôn ngữ hàng đầu hiện nay, khi những mô hình khác đều phần nào chứng minh được khả năng chống lại và chặn đứng những prompt có hại”.

Để công bằng thì, anh em có thể xem kết quả nghiên cứu dưới đây. Nếu như tỷ lệ thành công của những câu lệnh vượt hàng rào bảo vệ được áp dụng với DeepSeek R1 là 100%, thì Llama 3.1 của Meta, một mô hình mã nguồn mở khác, cũng có tỷ lệ lên tới 96%:

Đây rõ ràng là thông tin đáng chú ý giữa lúc DeepSeek đang khiến cuộc đua cạnh tranh về chi phí vận hành mô hình AI trở nên gay gắt hơn bao giờ hết. Startup Trung Quốc này khẳng định rằng, R1 có khả năng cạnh tranh với những đối thủ khác trên thị trường, bao gồm cả o1 của OpenAI, nhưng với chi phí chỉ bàng một phần nhỏ. Cả thị trường công nghệ rúng động và các nhà đầu tư phố Wall hoảng sợ, dẫn tới thực tế là có những ngày, cổ phiếu các tập đoàn công nghệ lớn nhất nước Mỹ sụt giảm nghiêm trọng.

Nhưng những thử nghiệm của Cisco và các nhà khoa học thuộc đại học Pennsylvania chứng minh được rằng, gần như không có cách nào chặn đứng kẻ xấu lợi dụng sức mạnh của R1 để biến mô hình AI này trở thành một công cụ truyền bá thông tin giả mạo hay thực hiện những hành vi vi phạm pháp luật.

Phát hiện này được công bố chỉ vài ngày sau khi Wiz, đơn vị nghiên cứu bảo mật điện toán đám mây phát hiện ra một cơ sở dữ liệu khổng lồ không có hàng rào bảo mật trên máy chủ của DeepSeek. Trong cơ sở dữ liệu này là rất nhiều những thông tin nội bộ không được mã hoá, từ lịch sử chat cho tới dữ liệu backend lẫn cả những thông tin kinh doanh nhạy cảm của DeepSeek.

Kết luận quá trình nghiên cứu, các nhà khoa học tại Cisco và đại học Pennsylvania viết như thế này: “DeepSeek R1 được huấn luyện với chi phí chỉ bàng một phần nhỏ chi phí mà các đơn vị hàng đầu thị trường bỏ ra để phát triển mô hình của họ. Tuy nhiên, cái giá phải trả không tính bằng tiền mặt, mà tính bằng mức độ an toàn và bảo mật.”

DJ Sampath, phó chủ tịch phụ trách sản phẩm, phần mềm AI và nền tảng của Cisco trả lời phỏng vấn tờ Wired: “Nó sẽ trở thành vấn đề nghiêm trọng khi bạn đặt những mô hình này vào những hệ thống quan trọng và phức tạp, bỗng nhiên những kỹ thuật bẻ khoá hàng rào an toàn này sẽ tạo ra những rủi ro và nguy cơ cho cả cá nhân lẫn doanh nghiệp.”

Theo Futurism

Nguồn:tinhte.vn/thread/cisco-deepseek-r1-that-bai-toan-dien-trong-bai-kiem-tra-an-toan-ai.3954013/