Cụm AI CloudMatrix mới của Huawei đánh bại Nvidia's GB200 by Brute Force, sử dụng 4 lần sức mạnh
Do không thể sử dụng công nghệ quy trình tiên tiến để sản xuất vi xử lý cao cấp cho AI, Huawei phải lắp đặt nhiều vi xử lý hơn so với đối thủ để đạt hiệu suất tương đương. Để thực hiện điều này, Huawei áp dụng chiến lược đa dạng, bao gồm vi xử lý HiSilicon Ascend 910C với hai chiplet, các kết nối quang học và giải pháp Huawei AI CloudMatrix 384 rack-scale dựa trên phần mềm độc quyền, theo báo cáo của SemiAnalysis.
Hệ thống này có hiệu suất mỗi watt thấp hơn 2.3 lần so với Nvidia GB200 NVL72, nhưng vẫn cho phép các công ty Trung Quốc đào tạo các mô hình AI tiên tiến. CloudMatrix 384 của Huawei là một hệ thống AI quy mô rack bao gồm 384 bộ vi xử lý Ascend 910C, được sắp xếp trong mạng lưới quang hoàn toàn kết nối tất cả với nhau. Hệ thống này trải dài trên 16 rack, trong đó có 12 rack tính toán với 32 bộ tăng tốc mỗi rack và bốn rack mạng hỗ trợ kết nối băng thông cao bằng 6,912 bộ thu phát quang 800G LPO.
Khác với các hệ thống truyền thống sử dụng dây đồng, CloudMatrix hoàn toàn dựa vào quang học cho kết nối trong và giữa các tủ, cho phép băng thông truyền thông cực cao. CloudMatrix 384 là máy cấp doanh nghiệp với khả năng chịu lỗi và được thiết kế để mở rộng. Về hiệu suất, CloudMatrix 384 cung cấp khoảng 300 PFLOPs tính toán BF16, gần gấp đôi so với hệ thống Nvidia GB200 NVL72 với khoảng 180 PFLOPs BF16.
Hệ thống cung cấp băng thông bộ nhớ tổng cộng cao gấp 2,1 lần mặc dù sử dụng HBM2E và dung lượng HBM lớn hơn 3,6 lần. Nó cũng có băng thông mở rộng cao gấp 2,1 lần và băng thông mở rộng ngoài cao gấp 5,3 lần nhờ vào các kết nối quang. Tuy nhiên, hiệu suất này đi kèm với nhược điểm là hệ thống tiêu tốn năng lượng kém hơn 2,3 lần mỗi FLOP, kém hơn 1,8 lần mỗi TB băng thông bộ nhớ.
Hiệu suất của Huawei CloudMatrix CM384 kém hơn 1 lần so với Nvidia GB200 NVL72 trên mỗi TB bộ nhớ HBM. So sánh giữa hai sản phẩm:
- BF16 dense PFLOPS: GB200 NVL72 đạt 180.0 PFLOPS, CloudMatrix CM384 đạt 300.0 PFLOPS (kém 1.7 lần).
- Dung lượng HBM: GB200 NVL72 có 13.8 TB, CloudMatrix CM384 có 49.2 TB (gấp 3.6 lần).
- Băng thông HBM: GB200 NVL72 là 576.0 TB/s, CloudMatrix CM384 là 1229.0 TB/s (gấp 2.1 lần).
- Băng thông Scale Up: GB200 NVL72 đạt 518400.0 Gbs uni-di, CloudMatrix CM384 đạt 1075200.0 Gbs uni-di (gấp 2 lần).
1x Tăng kích thước miền: 72.0 GPU → 384.0 GPU (5.3x)
Băng thông mở rộng: 28800.0 Gbs uni-di → 153600.0 Gbs uni-di (5.3x)
Công suất toàn hệ thống: 145 kW → 559 kW (3.9x)
Công suất mỗi BF16 dense FLOP: 0.81 WTFLOP → 1.87 WTFLOP (2.3x)
Công suất mỗi băng thông bộ nhớ: 251.7 W per TBs → 455.2 W per TBs (1.8x)
Công suất mỗi dung lượng bộ nhớ: 10.5 kWTB → 11.4 kWTB (1.1x)
Tuy nhiên, điều này không quan trọng vì các công ty Trung Quốc như Huawei không thể tiếp cận GB200 NVL72 của Nvidia.
Nếu muốn đạt hiệu suất cao trong đào tạo AI, họ sẽ sẵn sàng đầu tư vào CloudMatrix 384 của Huawei. Mức giá điện trung bình ở Trung Quốc đã giảm từ 90,70 MWh năm 2022 xuống còn 56 MWh ở một số khu vực vào năm 2025, nên người dùng CM384 của Huawei không lo bị lỗ do chi phí điện. Với nguồn năng lượng dồi dào nhưng silicon tiên tiến hạn chế, giải pháp AI của Huawei dường như hoạt động hiệu quả ở Trung Quốc.
Vi xử lý HiSilicon Ascend 910C của Huawei đã chuyển sang thiết kế dual-chiplet. Khi lần đầu tiên chúng tôi gặp vi xử lý này, chúng tôi nghĩ nó chỉ có một chiplet tính toán. Tuy nhiên, thực tế là HiSilicon Ascend 910C là vi xử lý dual-chiplet với tám mô-đun bộ nhớ HBM2E và không có die IO, tương tự như AMD Instinct MI250X và Nvidia B200.
Đơn vị này cung cấp 780 TFLOPS BF16, so với 383 TFLOPS BF16 của MI250X và 2.25 - 2.5 TFLOPS BF16 của B200. So sánh giữa Nvidia B200 và Huawei Ascend 910C:
- TFLOPS BF16: B200 đạt 2500.0 TFLOPS, Ascend 910C đạt 780.0 TFLOPS (0.3 lần).
- Dung lượng HBM: B200 là 192.0 GB, Ascend 910C là 128.0 GB (0.7 lần).
- Băng thông HBM: B200 đạt 8.0 TB/s, Ascend 910C đạt 3.2 TB/s (0.4 lần).
- Băng thông Scale Up: 7200.
Ascend 910C của HiSilicon được thiết kế tại Trung Quốc cho các tác vụ huấn luyện và suy diễn quy mô lớn. Chip này sử dụng công nghệ quy trình 7nm và được phát triển bằng các công cụ EDA tiên tiến. Báo cáo từ SemiAnalysis cho biết, trong khi SMIC có thể sản xuất chip compute cho Ascend 910C, phần lớn chip này mà Huawei sử dụng được sản xuất bởi TSMC thông qua các phương pháp giải quyết liên quan đến bên thứ ba như Sophgo, cho phép Huawei có được wafer mặc dù có các hạn chế từ Mỹ.
Huawei ước tính đã mua đủ wafer cho hơn một triệu bộ vi xử lý Ascend 910C từ năm 2023 đến 2025. Khi khả năng của SMIC cải thiện, Huawei có thể chuyển giao nhiều sản xuất hơn cho xưởng chế tạo trong nước. Ascend 910C sử dụng bộ nhớ HBM2E, chủ yếu được cung cấp từ Samsung qua một đối tác khác là CoAsia Electronics. CoAsia đã chuyển giao các linh kiện HBM2E cho Faraday Technology, một công ty dịch vụ thiết kế, sau đó Faraday hợp tác với SPIL để lắp ráp các cụm HBM2E cùng với các chip logic 16nm hiệu suất thấp.
Các bộ lắp ráp này về mặt kỹ thuật đã tuân thủ các quy định kiểm soát xuất khẩu của Mỹ vì không vượt quá ngưỡng nào được quy định. Các đơn vị SiP (hệ thống trong gói) đã được...
Nguồn: www.tomshardware.com/tech-industry/artificial-intelligence/huaweis-new-ai-cloudmatrix-cluster-beats-nvidias-gb200-by-brute-force-uses-4x-the-power