Nhắc tới NVIDIA và sự độc tôn thị trường chip AI hôm nay, hẳn bạn cũng biết "gốc rễ" của vấn đề nằm ở bộ ngôn ngữ lập trình CUDA, thứ giúp cho phần cứng của công ty này dễ dàng triển khai trên nhiều ứng dụng GPGPU. Tuy vậy vẫn có một thứ nếu "nói ngược", nó là nhược điểm của AMD mà nếu "nói xuôi", nó là ưu điểm của NVIDIA. Dĩ nhiên nếu nói xa hơn thì nó cũng là nhược điểm cho cả Intel, nếu bạn tính tới cả dòng sản phẩm Gaudi.
Vậy đó là gì?
Đó chính là liên kết NVLink giúp cho công ty này tạo ra dòng sản phẩm GB200 NVL72. Mặc dù không đóng vai trò tạo ra sức mạnh cho chip xử lý, song NVLink là nền tảng để kết nối nhiều GPU lại với nhau, chỉ trong một cấu hình rack server. Trong đó một cụm cluster có thể chứa tới 72 GPU để phục vụ tính toán AI.
Liên kết NVLink cho phép NVIDIA tạo ra phiên bản rack server Blackwell dễ dàng hơn đối thủ
Về phía đối thủ,
MI325X lẫn Gaudi 3 trong một cấu hình UBB chỉ được tối đa 8 GPU. Và đây chính là điểm mà Blackwell trội hơn đối thủ.
Mặc dù đối với "phàm phu tục tử" như chúng ta, chiếc server 8 GPU đã quá nhiều. Nhưng với các công ty tập đoàn BIG TECH, nó không khác gì "muỗi đốt inox". Ở đây nếu ai từng làm server, IoT app, quản trị IT doanh nghiệp... chắc sẽ hiểu tại sao các công ty lớn cần hạ tầng ICT mạnh. Cụm datacenter càng mạnh thì càng có khả năng phục vụ được nhiều khách hàng, chống chịu tấn công mạng bền hơn, cũng như là down time ít hơn khi cần bảo trì nâng cấp. Với cấu hình tối đa 72 GPU, GB200 đáp ứng điều này tốt hơn MI325X và Gaudi 3.
MI325X lẫn Gaudi 3 hiện chỉ có cấu hình tối đa 8 GPU
Trên thực tế các công ty như Microsoft, Oracle, Amazon, Meta... vốn có khả năng sắm hàng chục - hàng trăm GPU để phục vụ cỗ máy AI thì cái mà họ quan tâm nhiều hơn chính là khả năng liên kết giữa chúng. Sức mạnh tính toán từng con chip cũng quan trọng nhưng không phải duy nhất để quyết định đặt mua một hệ thống. Một rack server chứa được nhiều chip xử lý hơn thường đồng nghĩa với việc nó sẽ xử lý được nhiều dữ liệu hơn. Nó cũng đồng thời dễ triển khai vận hành và bảo trì hơn nhiều cụm server riêng biệt.
Tất nhiên nói đi cũng cần nói lại, Blackwell (GB200/GB300) là dòng sản phẩm đầu tiên NVIDIA có thiết kế dạng rack server. Các thế hệ trước đó gồm cả Hopper (H200) chỉ có cấu hình HGX tối đa 8 GPU (tương tự UBB). Và MI325X lẫn Gaudi 3 chủ yếu được thiết kế để đối đầu với Hopper, không phải Blackwell. Nên sự thua kém về mặt mở rộng hạ tầng datacenter từ AMD lẫn Intel là có thể hiểu được.
Được biết trong tương lai không xa, AMD sẽ triển khai dòng sản phẩm MI400 có thiết kế dạng rack để cạnh tranh với NVIDIA. Nhưng đó sẽ là một câu chuyện khác. Nguồn:tinhte.vn/thread/diem-yeu-khien-amd-instinct-mi325x-kho-canh-tranh-voi-nvidia-gb200-blackwell.4020879/