GPU Rowhammer mới khai thác âm thầm làm hỏng các mô hình AI trên thẻ NVIDIA cao cấp với GDDR6 VRAM
Một nhóm nghiên cứu đã phát hiện ra một cuộc tấn công mới gọi là GPUHammer, có khả năng đảo bit trong bộ nhớ của GPU NVIDIA, làm hỏng mô hình AI mà không cần can thiệp vào mã nguồn hay dữ liệu đầu vào. May mắn thay, Nvidia đã đưa ra hướng dẫn để giảm thiểu rủi ro này. Tuy nhiên, nếu bạn đang sử dụng thẻ đồ họa với bộ nhớ GDDR6, bạn nên lưu ý đến vấn đề này. Nhóm nghiên cứu từ Đại học Toronto đã chứng minh rằng cuộc tấn công có thể giảm độ chính xác của mô hình AI từ 80 xuống dưới 1 chỉ bằng cách đảo một bit trong bộ nhớ.
Không chỉ là lý thuyết, họ đã thử nghiệm trên một card đồ họa NVIDIA RTX A6000, sử dụng kỹ thuật liên tục tác động vào các ô nhớ cho đến khi một ô gần đó bị lật, gây rối loạn dữ liệu. GPUHammer là phiên bản tập trung vào GPU của một vấn đề phần cứng đã biết gọi là Rowhammer. Vấn đề này đã tồn tại trong lĩnh vực CPU và RAM từ lâu. Cụ thể, các chip nhớ hiện đại được đóng gói rất chặt chẽ, nên việc đọc hoặc ghi liên tục vào một hàng có thể gây nhiễu điện, làm lật bit ở các hàng lân cận.
Bit bị lật có thể là bất cứ thứ gì—một số, một lệnh, hoặc phần trọng số của mạng nơ-ron—và đó là nơi xảy ra vấn đề. Đừng bỏ lỡ: thẻ microSD SanDisk 512GB cho Nintendo Switch 2 giảm giá 37%, chỉ còn 78 USD, hàng có hạn. Màn hình cong LG Ultragear 32 inch giờ chỉ còn 196 USD, rẻ hơn cả ngày hội giảm giá Amazon Prime. Các ưu đãi công nghệ và phần cứng PC như GPU, CPU, SSD, màn hình và hơn thế nữa đang có sẵn. Đến nay, điều này chủ yếu là mối quan tâm với bộ nhớ hệ thống DDR4, nhưng GPUHammer cho thấy nó cũng có thể xảy ra trên VRAM GDDR6, loại VRAM được sử dụng cho nhiều card NVIDIA hiện đại, đặc biệt trong các tác vụ AI và workstation.
Đây là một vấn đề nghiêm trọng, đặc biệt trong những tình huống cụ thể. Các nhà nghiên cứu đã chỉ ra rằng, ngay cả khi có một số biện pháp bảo vệ, họ vẫn có thể gây ra nhiều lỗi bit trong các ngân hàng bộ nhớ. Trong một trường hợp, điều này đã làm hỏng hoàn toàn một mô hình AI đã được đào tạo, khiến nó trở nên vô dụng. Điều đáng lo ngại là kẻ tấn công không cần truy cập vào dữ liệu của bạn; họ chỉ cần chia sẻ cùng một GPU trong môi trường đám mây hoặc máy chủ và có thể can thiệp vào công việc của bạn theo cách họ muốn.
Cuộc tấn công đã được thử nghiệm trên RTX A6000, nhưng rủi ro ảnh hưởng đến nhiều GPU dòng Ampere, Ada, Hopper và Turing, đặc biệt là những mẫu dùng trong workstation và server. NVIDIA đã công bố danh sách đầy đủ các mẫu bị ảnh hưởng và khuyến nghị sử dụng ECC cho hầu hết chúng. Tuy nhiên, các GPU mới như RTX 5090 và H100 đã tích hợp ECC trực tiếp trên chip, tự động xử lý mà không cần người dùng cấu hình.
📢 Liên hệ quảng cáo: 0919 852 204
Quảng cáo của bạn sẽ xuất hiện trên mọi trang!
Nếu bạn chỉ ngồi ở nhà lo lắng về thiết lập cá nhân, thì đây không phải là kiểu tấn công nhắm vào game thủ cá nhân hay máy tính gia đình. Nó liên quan nhiều hơn đến các môi trường GPU chia sẻ như máy chủ chơi game đám mây, cụm đào tạo AI, hoặc thiết lập VDI, nơi nhiều người dùng chạy tác vụ trên cùng một phần cứng. Tuy nhiên, ý tưởng rằng bộ nhớ trên GPU có thể bị can thiệp một cách lén lút là điều mà toàn ngành cần nghiêm túc xem xét, đặc biệt khi ngày càng nhiều trò chơi, ứng dụng và dịch vụ dựa vào AI.
NVIDIA đã khuyến nghị người dùng bật ECC (Mã sửa lỗi) nếu GPU của họ hỗ trợ tính năng này. ECC giúp phát hiện và sửa lỗi trong bộ nhớ, nhưng sẽ làm giảm hiệu suất khoảng 10% cho các tác vụ học máy và giảm khoảng 6-6.5% VRAM khả dụng. Tuy nhiên, với công việc AI nghiêm túc, điều này là xứng đáng.
Bạn có thể kích hoạt tính năng này bằng công cụ dòng lệnh nvidia-smi với lệnh nvidia-smi -e 1. Bạn cũng có thể kiểm tra xem ECC có đang hoạt động hay không bằng nvidia-smi -q | grep ECC. Các cuộc tấn công như GPUHammer không chỉ làm hệ thống bị treo hay gây ra lỗi mà còn ảnh hưởng đến tính toàn vẹn của AI, tác động đến cách mà các mô hình hoạt động và đưa ra quyết định. Những thay đổi này diễn ra ở cấp độ phần cứng và gần như vô hình trừ khi bạn biết chính xác điều gì cần tìm.
Trong các ngành công nghiệp được quản lý như y tế, tài chính hay lái xe tự động, việc này có thể gây ra những vấn đề nghiêm trọng như quyết định sai lầm, sự cố bảo mật và hậu quả pháp lý. Dù người dùng trung bình không trực tiếp gặp rủi ro, GPUHammer là một lời cảnh tỉnh. Khi GPU ngày càng phát triển từ trò chơi sang AI, công việc sáng tạo và năng suất, những rủi ro cũng gia tăng. An toàn bộ nhớ, ngay cả trên GPU, không còn là tùy chọn.
Theo dõi Toms Hardware trên Google News để nhận tin tức, phân tích và đánh giá mới nhất. Đừng quên nhấn nút Theo dõi.
Nguồn: www.tomshardware.com/pc-components/gpus/new-rowhammer-attack-silently-corrupts-ai-models-on-gddr6-nvidia-cards-gpuhammer-attack-drops-ai-accuracy-from-80-percent-to-0-1-percent-on-rtx-a6000