Nvidia Blackwell & AMD MI325X Showdown trong các điểm chuẩn suy luận MLPERF mới nhất: B200 Shatters Records, Bản năng chiến đấu chống lại Hopper
NVIDIA và AMD vừa công bố các tiêu chuẩn hiệu suất MLPerf Inference mới nhất cho các GPU mới của họ, bao gồm Blackwell B200 và Instinct MI325X. Kết quả cho thấy NVIDIA vượt trội hơn đáng kể so với đối thủ về hiệu suất thô trong các bài kiểm tra MLPerf Inference v5.0.
Như đã thấy trong quá khứ, không chỉ sức mạnh GPU thô, mà cả tối ưu hóa phần mềm và hỗ trợ cho các hệ sinh thái AI mới cũng rất quan trọng. Hệ thống GB200 NVL72 — kết nối 72 GPU NVIDIA Blackwell để hoạt động như một GPU khổng lồ — đã đạt hiệu suất cao hơn gấp 30 lần trên chuẩn Llama 3.1 405B so với phiên bản NVIDIA H200 NVL8 trong lần này.
Kỳ tích này đạt được nhờ hiệu suất gấp ba lần trên mỗi GPU và miền kết nối NVIDIA NVLink lớn gấp 9 lần. Trong khi nhiều công ty thực hiện các bài kiểm tra MLPerf trên phần cứng của họ để đánh giá hiệu suất, chỉ có NVIDIA và các đối tác của họ công bố kết quả trên bài kiểm tra Llama 3.1 405B. Các triển khai suy diễn sản xuất thường có hạn chế về độ trễ trên hai chỉ số chính. Chỉ số đầu tiên là thời gian đến token đầu tiên (TTFT), tức là thời gian để người dùng bắt đầu nhận được phản hồi từ mô hình ngôn ngữ lớn.
Thời gian mỗi token đầu ra (TPOT) là yếu tố thứ hai, thể hiện tốc độ mà các token được gửi đến người dùng. Thử nghiệm Llama 2 70B mới có TPOT ngắn hơn 5 lần và TTFT thấp hơn 4.4 lần, mang lại trải nghiệm người dùng phản hồi nhanh hơn. Trong bài kiểm tra này, hệ thống NVIDIA DGX B200 với tám GPU Blackwell đạt hiệu suất gấp ba lần so với việc sử dụng tám GPU NVIDIA H200, tạo ra tiêu chuẩn cao cho phiên bản thử nghiệm Llama 2 70B khó khăn hơn.
Kết hợp kiến trúc Blackwell và phần mềm tối ưu mang lại hiệu suất suy diễn cao hơn, mở ra cơ hội cho các nhà máy AI tăng cường trí tuệ, sản lượng và tốc độ xử lý token. NVIDIA đã giới thiệu về Green Giant, đơn vị dẫn đầu với những kỷ lục ấn tượng từ các GPU Blackwell mới như B200.
Giá đỡ GB200 NVL72 với 72 chip B200 dẫn đầu, cung cấp hiệu suất cao gấp 30 lần so với NVIDIA H200 tại các bài kiểm tra Llama 3.1 405B. NVIDIA cũng ghi nhận hiệu suất gấp ba lần trong bài kiểm tra Llama 70B khi so sánh hệ thống B200 8 GPU với H200 8 GPU. AMD cũng giới thiệu bộ tăng tốc Instinct MI325X 256 GB mới nhất của mình, xuất hiện trong cấu hình x8.
Kết quả của AMD cho thấy họ đang ngang hàng với hệ thống H200, và dung lượng bộ nhớ lớn chắc chắn giúp ích cho các mô hình LLM khổng lồ, nhưng vẫn còn kém xa Blackwell B200. Với nền tảng Ultra sẽ ra mắt vào cuối năm nay dưới dạng B30, AMD cần duy trì tốc độ phát triển cả về phần cứng lẫn phần mềm. Họ có dòng sản phẩm Instinct MI350.
Hopper H200 141 GB x8 700W 19.45 18.30, Hopper H100 80 GB x8 700W 18.37 16.04, Instinct MI325X 256 GB x8 1000W 17.10 16.18. Các benchmark cho dòng Hopper H200 cho thấy hiệu suất suy diễn đã tăng 50% so với năm ngoái, mang lại lợi ích lớn cho các công ty đang sử dụng nền tảng này.
Nguồn: wccftech.com/nvidia-blackwell-amd-mi325x-showdown-mlperf-inference-benchmarks/