Huawei bổ sung hỗ trợ suy luận được tối ưu hóa cho Deepseek cho GPUS AI của nó
Vào ngày 27 tháng 1, cùng ngày cổ phiếu Nvidia giảm mạnh sau khi thị trường nhận ra tác động của mô hình LLM Trung Quốc đối với ngành công nghiệp, Huawei đã đăng bài thông báo rằng mô hình AI R1 đã có sẵn miễn phí trên nền tảng ModelArts Studio. Công ty công nghệ này cho biết phiên bản này đã được “tinh chỉnh cho Ascend,” tức là tương thích với các GPU của trung tâm dữ liệu Ascend của Huawei. Mặc dù Huawei không nêu rõ loại GPU Ascend nào được sử dụng cho ModelArts Studio, nhưng các chuyên gia trong ngành AI như Yuchen Jin cho rằng có thể đó là Ascend 910C mới nhất.
GPU mới này được cho là đã được gửi mẫu cho khách hàng vào tháng 9, vì vậy 910C có thể đã được thêm vào các máy chủ đám mây của Huawei. Mặc dù R1 được đào tạo trên hơn hai nghìn GPU H800 từ Nvidia, nhưng việc GPU của Huawei hỗ trợ rõ ràng cho việc chạy LLM là rất quan trọng. Điều này có thể giúp các công ty AI tại Trung Quốc giảm bớt sự phụ thuộc vào các công ty phương Tây như Nvidia và AMD, vốn được ưa chuộng cho cả đào tạo và suy diễn nhờ hiệu suất cao.
Huawei có thể đang bắt kịp. Jin cho biết hiệu suất suy diễn trên chip 910C đạt 60% hiệu suất của H100 từ kinh nghiệm của các nhà phát triển. Với các kernel CUNN được viết tay và tối ưu hóa, hiệu suất còn cao hơn. Jin cũng nhấn mạnh rằng 910C có thể được sử dụng để đào tạo, nhưng R1 đã được đào tạo chính thức bằng chip H800, mặc dù điều đó không có nghĩa là DeepSeek sẽ tiếp tục sử dụng H800 mãi mãi.
Hiệu suất là vấn đề lớn đối với Nvidia tại Trung Quốc, khi các lệnh trừng phạt của chính phủ Mỹ thời Biden ngăn cản việc bán các bộ vi xử lý quá nhanh. Nhiều GPU trung tâm dữ liệu hàng đầu của Nvidia như H200 và B200 không thể xuất khẩu hợp pháp sang Trung Quốc, buộc Nvidia phải phát triển các mẫu mới chỉ đáp ứng giới hạn hiệu suất. Thực tế, H800, mà DeepSeek cho biết đã sử dụng để đào tạo mô hình ngôn ngữ R1, được ra mắt sau đợt hạn chế xuất khẩu GPU đầu tiên của chính quyền Biden nhằm cung cấp lựa chọn thay thế cho H100 bị cấm.
Tuy nhiên, sau đợt trừng phạt tiếp theo, H800 và các GPU Nvidia khác dành cho thị trường Trung Quốc đã bị cấm, dẫn đến việc giảm giới hạn hiệu suất của các chip có thể được bán hợp pháp tại đây. Do các hạn chế xuất khẩu của chính phủ Mỹ, Nvidia buộc phải cạnh tranh tại Trung Quốc bằng phần cứng yếu hơn. Sản phẩm chủ lực của công ty tại Trung Quốc, H20, có bộ nhớ, băng thông bộ nhớ và TFLOPs thấp hơn nhiều so với H200, card cao cấp nhất dựa trên kiến trúc Hopper.
Điều này rõ ràng đã ảnh hưởng thực sự đến tình hình của Nvidia tại Trung Quốc. Vào tháng 5 năm 2024, họ đã bán H20 với giá thấp hơn so với Ascend 910B của Huawei. Tuy nhiên, doanh số H20 đã cải thiện đáng kể trong nửa sau của năm ngoái, với doanh thu tăng 50% trong quý 4 so với quý 3, sau hai quý liên tiếp tăng trưởng mạnh. Dù thế nào, Nvidia chắc chắn sẽ có vị thế tốt hơn trước các đối thủ Trung Quốc nếu có thể bán được các GPU mạnh nhất của mình tại Trung Quốc.
Nvidia không chỉ cạnh tranh ở Trung Quốc, mà việc sử dụng LLM Trung Quốc với hiệu suất cao trên các bộ xử lý Trung Quốc có thể là bước tiến lớn cho công nghệ tự chủ của nước này. Nếu GPU như Ascend 910C đủ khả năng cho đào tạo và suy diễn, nhu cầu về các bộ xử lý phương Tây như H20 sẽ giảm. Tuy nhiên, Trung Quốc vẫn chưa thể hoàn toàn từ bỏ chip phương Tây cho đến khi phát triển sản xuất chip. Các công ty như Huawei đang nỗ lực trong lĩnh vực này.
Nguồn: www.tomshardware.com/tech-industry/artificial-intelligence/huawei-adds-deepseek-inference-support-for-its-ascend-ai-gpus