Nghiên cứu cho thấy khả năng của GPuhammer để phá hủy độ chính xác của mô hình AI trên GPU bộ nhớ GDDR6 từ 80% đến chỉ 0,1%
Các nhà nghiên cứu tại Đại học Toronto đã chứng minh rằng tấn công kiểu RowHammer có thể làm giảm độ chính xác của mô hình AI trên GPU, đặc biệt là các GPU cao cấp sử dụng VRAM GDDR6, chỉ với những thay đổi một bit trong các ngân hàng DRAM. Tấn công này có thể gây ra sự cố mà không bị phát hiện.
Lỗ hổng RowHammer cho phép kẻ tấn công phá hủy dữ liệu trong các ô nhớ cũng có thể ảnh hưởng đến bộ nhớ GPU. Các nhà nghiên cứu đã chứng minh điều này bằng cách gây ra hiện tượng đảo bit trên các ngân hàng DRAM của bộ nhớ video, cụ thể là GDDR6 VRAM của NVIDIA RTX A6000, dẫn đến hiệu suất GPU trong các mô hình AI bị suy giảm đáng kể. Ngay cả khi có các biện pháp bảo vệ ở mức phần cứng như tần suất làm mới DRAM TRR, một lần đảo bit trong giá trị FP16 cũng khiến độ chính xác dự đoán của DNN giảm từ 80 xuống chỉ còn 0.
GPUHammer hoạt động qua ba bước: Tái thiết kế ánh xạ ngân hàng DRAM, Tối ưu hóa hiệu quả tấn công, và Đồng bộ hóa với chu kỳ làm mới DRAM. Các nhà nghiên cứu đã giải thích chi tiết từng bước trên trang web, giúp họ kích hoạt sự đảo bit đơn trong bốn ngân hàng DRAM bằng cách sử dụng 12K kích hoạt cho mỗi lần đảo bit.
📢 Liên hệ quảng cáo: 0919 852 204
Quảng cáo của bạn sẽ xuất hiện trên mọi trang!
Nói đơn giản, bộ nhớ GDDR6 trên RTX A6000 gặp vấn đề, nhưng các GPU khác có bộ nhớ GDDR6 như RTX 3080 không bị ảnh hưởng. Điều này có thể do sự khác biệt trong chip nhớ GDDR6 mà NVIDIA sử dụng từ các nhà cung cấp khác nhau như Samsung, SK Hynix và Micron. Tương tự, không có hiện tượng bit flip trên RTX 5090, cũng như các thẻ trung tâm dữ liệu như A100 và H100 với bộ nhớ HBM (High Bandwidth Memory).
Bạn không cần lo lắng nếu sở hữu RTX A6000, vì GPUHammer có thể được giảm thiểu bằng cách bật ECC (Mã sửa lỗi). Tuy nhiên, điều này có thể làm giảm hiệu suất của RTX A6000, với hiệu suất ML inference chậm hơn tới 10 lần và giảm 6.25% dung lượng VRAM khả dụng. NVIDIA cũng đã phát hành thông báo bảo mật về lỗ hổng này và khuyên nên bật ECC ở cấp hệ thống cho các GPU bị ảnh hưởng.
Rất may, nhiều GPU hiện đại như Hopper và Blackwell đã bật ECC mặc định.
Nguồn: wccftech.com/gpuhammer-can-decrease-ai-model-accuracy-from-80-to-0-1-percent-on-rtx-a6000/