Chiến thuật lực lượng vũ phu của Huawei dường như đang hoạt động - CloudMatrix 384 tuyên bố sẽ vượt trội hơn các bộ xử lý Nvidia chạy
Cụm AI CloudMatrix của Huawei áp dụng cách tiếp cận đơn giản để cạnh tranh với Nvidia, và các nhà nghiên cứu của công ty cùng một đơn vị bên ngoài cho rằng đã đạt được thành công trong một trường hợp. Một bài báo kỹ thuật gần đây cho biết cụm chip Ascend 910C đã vượt qua hiệu suất của chip H800 của Nvidia khi chạy mô hình DeepSeeks R1 LLM. Huawei đã công bố bài báo kỹ thuật hợp tác với startup AI Trung Quốc SiliconFlow, cho thấy cụm CloudMatrix 384 của họ có thể vượt trội hơn Nvidia trong việc chạy các mô hình DeepSeek.
Hệ thống phần cứng và phần mềm của cụm đã vượt trội hơn các hệ thống sử dụng chip H800 của Nvidia, một phiên bản rút gọn của H100 dành cho xuất khẩu sang Trung Quốc, cũng như chip H100 khi chạy mô hình R1 671 tỷ tham số của DeepSeek. CloudMatrix 384 là giải pháp mạnh mẽ cho công ty, bị cấm tiếp cận công nghệ chip tiên tiến. Đây là hệ thống quy mô giá đỡ kết hợp 384 NPU HiSilicon Ascend 910C với 192 CPU trên 16 giá máy chủ, sử dụng kết nối quang học cho tất cả các giao tiếp giữa các máy chủ nhằm đạt tốc độ kết nối nhanh chóng.
Bạn có thể quan tâm đến vi xử lý Huawei Ascend AI 910D, được thiết kế để cạnh tranh với các GPU Blackwell và Rubin của Nvidia. Huawei đã giới thiệu chip AI Ascend 920 để lấp đầy khoảng trống do Nvidia H20 để lại. Giám đốc điều hành của Nvidia cho biết Trung Quốc không thua kém Mỹ về khả năng AI. Bài nghiên cứu cho rằng mục tiêu của Huawei với CM384 là tái cấu trúc hạ tầng AI, trong khi một nhà khoa học khác của Huawei cho rằng bài viết được công bố để xây dựng niềm tin trong hệ sinh thái công nghệ nội địa vào việc sử dụng NPUs phát triển tại Trung Quốc để vượt trội hơn GPU của Nvidia.
Trên lý thuyết, cụm CloudMatrix 384 có khả năng xử lý mạnh mẽ hơn hệ thống Nvidia GB200 NVL72, cung cấp 300 PFLOPs tính toán BF16 so với 180 PFLOPs BF15 của NVL72. Cụm Huawei cũng có phần mềm cạnh tranh với Nvidia cho các mô hình ngôn ngữ lớn (LLMs), với giải pháp CloudMatrix-Infer có thể tạo ra 4.45 token mỗi giây cho mỗi TFLOP và sản xuất phản hồi với tốc độ 1.
📢 Liên hệ quảng cáo: 0919 852 204
Quảng cáo của bạn sẽ xuất hiện trên mọi trang!
Tốc độ 29 token mỗi giây trên mỗi TFLOPS mà bài báo cho là vượt qua framework SGLang của Nvidia. Tuy nhiên, CloudMatrix 384 không vượt trội hơn hoàn toàn so với các giải pháp của Nvidia và nhược điểm lớn nhất của nó là tiêu thụ điện năng cao và hiệu suất thấp. CloudMatrix tiêu thụ gấp bốn lần điện năng của Nvidia GB200 NVL72, với tổng công suất là 559 kW so với 145 kW của NVL72. Việc nhồi nhét nhiều chip vào một đơn vị giúp tăng cường sức mạnh tính toán, nhưng đồng nghĩa với việc hiệu suất giảm, chỉ còn khoảng 2.
Giảm 3 lần. Tuy nhiên, khách hàng Trung Quốc quan tâm đến CloudMatrix không được truy cập vào các cụm AI sử dụng công nghệ Nvidia, nên những so sánh này không quan trọng lắm đối với họ. Thêm vào đó, năng lượng ở Trung Quốc đại lục rất dồi dào, giá điện đã giảm gần 40% trong ba năm qua. Như ông Jensen Huang, giám đốc điều hành Nvidia, đã chia sẻ tại VivaTech ở Pháp hồi đầu tháng, Nvidia vượt trội hơn Huawei về hiệu suất từng chip.
Công nghệ của chúng tôi vượt trội hơn một thế hệ so với họ, như Huang khẳng định, và Huawei đồng ý với điều này. Tuy nhiên, Huang cũng nhấn mạnh rằng AI là một vấn đề song song, vì vậy nếu mỗi máy tính không đủ khả năng, chỉ cần thêm nhiều máy tính hơn. CloudMatrix, dù có kích thước 16 giá và tiêu tốn năng lượng, vẫn là lựa chọn hấp dẫn cho khách hàng Trung Quốc đang tìm kiếm hiệu suất LLM cao nhất, nhờ vào kết nối nhanh chóng và phần mềm mạnh mẽ.
Đối với những ai muốn tìm hiểu sâu hơn về CloudMatrix 384, bài viết của chúng tôi từ lúc ra mắt đã đi sâu vào những yếu tố giúp siêu nút AI này vượt trội hơn so với sản phẩm của Nvidia. Hãy theo dõi Toms Hardware trên Google News để nhận tin tức, phân tích và đánh giá mới nhất. Nhớ nhấn nút Theo dõi.
Nguồn: www.tomshardware.com/pc-components/gpus/huaweis-brute-force-ai-tactic-seems-to-be-working-cloudmatrix-384-claimed-to-outperform-nvidia-processors-running-deepseek-r1