NVIDIA công bố Blackwell Ultra B300, 1,5x nhanh hơn B200 với 288 GB HBM3E và 15 PFLOPS dày đặc FP4
GPU trung tâm dữ liệu Nvidia Blackwell Ultra B300 đã được công bố hôm nay trong bài phát biểu của CEO Jensen Huang tại GTC 2025 ở San Jose, CA. GPU mới này cung cấp 50% bộ nhớ và khả năng tính toán FP4 cao hơn so với giải pháp B200 hiện có, nâng cao độ cạnh tranh trong việc phát triển các mô hình AI nhanh hơn và mạnh mẽ hơn. Nvidia cho biết sản phẩm này được thiết kế cho thời kỳ lý luận, nhắc đến các LLM AI tinh vi như DeepSeek R1, có khả năng thực hiện nhiều hơn là chỉ lặp lại thông tin đã được xử lý trước đó.
Blackwell Ultra B300 không chỉ là một GPU đơn. Ngoài khối xây dựng B300 cơ bản, còn có các giải pháp giá đỡ máy chủ B300 NVL16 mới, trạm GB300 DGX và giải pháp giá GB300 NV72L. Khi kết hợp tám giá NV72L, bạn sẽ có toàn bộ Blackwell Ultra DGX SuperPOD với 288 CPU Grace, 576 GPU Blackwell Ultra, 300TB bộ nhớ HBM3e và 11.5 ExaFLOPS FP4. Những hệ thống này có thể được kết nối với nhau trong các giải pháp siêu máy tính mà Nvidia phân loại là nhà máy AI.
Nvidia cho biết Blackwell Ultra sẽ có khả năng xử lý FP4 dày gấp 1.5 lần, nhưng không rõ các loại xử lý khác có tăng trưởng tương tự hay không. Chúng ta dự đoán điều này, nhưng có thể Nvidia đã thực hiện nhiều hơn là chỉ tăng số lượng SM, tăng đồng hồ và nâng cao dung lượng của các khối HBM3e. Chẳng hạn, tốc độ đồng hồ có thể chậm hơn một chút ở chế độ FP8 hoặc FP16. Dưới đây là thông số chính mà chúng tôi có, kèm theo một số suy đoán về dữ liệu khác được đánh dấu bằng dấu hỏi.
So sánh Nvidia Blackwell Ultra B300 và Blackwell B200:
- FP4 Tensor Dense/Sparse: 1530 petaflops
- FP6/FP8 Tensor Dense/Sparse: 7.515 petaflops
- INT8 Tensor Dense/Sparse: 7.515 petaops
- FP16/BF16 Tensor Dense/Sparse: 3.
- FP4 Tensor Dense/Sparse: 1020 petaflops
- FP6/FP8 Tensor Dense/Sparse: 510 petaflops
- INT8 Tensor Dense/Sparse: 510 petaops
- FP16/BF16 Tensor Dense/Sparse: 3.57 petaflops
- FP4 Tensor Dense/Sparse: 714 petaflops
- FP6/FP8 Tensor Dense/Sparse: 3.57 petaflops
757.5 petaflops, 2.55 petaflops, 1.83-3.5 petaflops TF32 Tensor DenseSparse; 1.88-3.75 petaflops, 1.25-2.5 petaflops, 0.9-1.8 petaflops FP64 Tensor Dense; 68 teraflops, 45 teraflops, 30 teraflops. Bộ nhớ: 288GB (8x36GB), 192GB (8x24GB). Băng thông: 8 TB/s. Công suất: 1300W, 700W. Chúng tôi đã yêu cầu làm rõ về hiệu suất và chi tiết của Blackwell Ultra B300 và được thông báo rằng GPU Blackwell Ultra trong GB300 và B300 là các chip khác với GPU Blackwell trong GB200 và B200.
GPU Blackwell Ultra được thiết kế để đáp ứng nhu cầu tính toán trong thời gian kiểm tra với hiệu suất FP4 tăng 1.5 lần. Điều này có nghĩa là chip B300 có kích thước lớn hơn để chứa nhiều lõi tensor hơn. Dù chúng tôi đang chờ thêm thông tin, nhưng rõ ràng là GPU B300 sẽ cung cấp hiệu suất tính toán cao hơn nhiều so với B200. Việc có thêm 50MB bộ nhớ trên chip sẽ cho phép xử lý các mô hình AI lớn hơn với nhiều tham số hơn, và khả năng tính toán đi kèm sẽ hỗ trợ điều này.
Nvidia đã đưa ra một số ví dụ về hiệu suất tiềm năng, nhưng điều này được so sánh với Hopper, gây khó khăn trong việc đánh giá. Chúng tôi muốn thấy so sánh giữa B200 và B300 trong các cấu hình tương tự với số lượng GPU bằng nhau, nhưng hiện tại không có dữ liệu đó. Bằng cách sử dụng các lệnh FP4 và kết hợp B300 với thư viện phần mềm Dynamo để phục vụ các mô hình suy luận như DeepSeek, Nvidia cho biết một giá NV72L có thể đạt hiệu suất suy luận cao gấp 30 lần so với cấu hình Hopper tương tự.
Con số đó đến từ những cải tiến ở nhiều lĩnh vực của sản phẩm, bao gồm NVLink nhanh hơn, bộ nhớ tăng, khả năng tính toán bổ sung và FP4. Ví dụ, Blackwell Ultra có thể xử lý lên tới 1.000 token/giây với mô hình DeepSeek R1-671B, nhanh hơn so với Hopper chỉ đạt tối đa 100 token/giây. Điều này tạo ra sự gia tăng gấp 10 lần về hiệu suất, giảm thời gian xử lý truy vấn lớn.
Thời gian giảm từ 5 phút xuống còn 10 giây. Các sản phẩm B300 dự kiến sẽ bắt đầu được vận chuyển trước cuối năm, vào nửa sau của năm. Dự kiến sẽ không có vấn đề gì về bao bì và mọi thứ sẽ không bị trì hoãn. Nvidia cũng cho biết đã đạt doanh thu 11 tỷ từ Blackwell B200B100 trong năm tài chính trước và dự đoán sẽ tăng mạnh con số đó trong năm tới.
Nguồn: www.tomshardware.com/pc-components/gpus/nvidia-announces-blackwell-ultra-b300-1-5x-faster-than-b200-with-288gb-hbm3e-and-15-pflops-dense-fp4