Mô hình thế hệ tiếp theo của AI Disruptor Deepseek bị trì hoãn bởi các hạn chế xuất khẩu GPU của NVIDIA sang Trung Quốc
DeepSeek đã thu hút nhiều sự chú ý với mô hình AI R1 vào đầu năm nay, nhưng phát triển mô hình R2 thế hệ tiếp theo dường như đã bị đình trệ do thiếu hụt vi xử lý H20 của Nvidia tại Trung Quốc, theo báo cáo của The Information. DeepSeek chưa đưa ra bình luận nào về thời gian ra mắt mô hình R2. Để huấn luyện mô hình R1, DeepSeek đã sử dụng một cụm gồm 50.000 GPU Hopper, bao gồm 30.000 H20, 10.000 H800 và 10.000 H100, được đầu tư bởi High-Flyer Capital Management.
Hiện chưa rõ liệu R2 đã hoàn tất quá trình huấn luyện hay chưa. Theo thông tin từ hai nguồn quen thuộc với dự án, đội ngũ DeepSeek đang làm việc tích cực để cải thiện mô hình, nhưng CEO Liang Wenfeng vẫn chưa hài lòng với khả năng của nó. Công việc vẫn đang tiếp tục nhằm nâng cao hiệu suất trước khi mô hình được cho phép triển khai. R1 đã được nhiều người dùng, bao gồm các startup tư nhân, công ty lớn và nhóm liên quan đến chính phủ, nhanh chóng và rộng rãi áp dụng.
Nhiều người dùng đã chạy mô hình trên vi xử lý H20 của Nvidia. Hiện tại, việc vận chuyển H20 bị hạn chế đang gây ra vấn đề, làm giảm khả năng sử dụng R1 và khó khăn trong việc chuẩn bị cho việc ra mắt R2, theo báo cáo của The Information. Công ty AI Trung Quốc DeepSeek được cho là đang sử dụng các công ty bình phong để tránh các hạn chế về chip của Mỹ. Nvidia đang chuẩn bị GPU HGX H20 giảm bớt cho Trung Quốc để tuân thủ quy định xuất khẩu, trong khi AMD sẽ xây dựng chip AI phù hợp với quy định xuất khẩu cho thị trường Trung Quốc. Nếu mô hình R2 của DeepSeek vượt qua khả năng của các lựa chọn mở hiện có, việc sử dụng dự kiến sẽ tăng vọt vượt qua khả năng của các nền tảng đám mây Trung Quốc, theo thông tin từ nhân viên của các công ty này.
📢 Liên hệ quảng cáo: 0919 852 204
Quảng cáo của bạn sẽ xuất hiện trên mọi trang!
Nhiều tổ chức vẫn sử dụng mô hình R1 trước đây với bộ xử lý H20 của Nvidia, hiện đang khan hiếm. Chính phủ Hoa Kỳ đã hạn chế bán bộ xử lý H20 cho đào tạo và suy luận AI từ giữa tháng 4. Mặc dù H20 là phiên bản rút gọn của GPU H100, nhưng do các công ty AI Trung Quốc phụ thuộc vào phần mềm CUDA của Nvidia, H20 vẫn rất phổ biến tại Trung Quốc, với doanh thu hàng tỷ đô la mỗi quý từ việc bán bộ xử lý này.
Phần mềm AI DeepSeeks được tối ưu hóa cho phần cứng của Nvidia, khiến công ty dễ bị ảnh hưởng bởi chính sách của Mỹ. Mặc dù DeepSeeks khẳng định đã phát triển mô hình với ít tài nguyên hơn các công ty Mỹ như OpenAI, nhưng các biện pháp kiểm soát xuất khẩu gần đây cho thấy sự phụ thuộc lớn vào phần cứng của Mỹ của các công ty AI hàng đầu Trung Quốc. Trong khi đó, OpenAI đã không chính thức cáo buộc DeepSeeks sử dụng các mô hình độc quyền của mình trong quá trình phát triển R1, nhưng công ty này chưa phản hồi công khai về những cáo buộc đó.
Theo dõi Toms Hardware trên Google News để nhận tin tức, phân tích và đánh giá mới nhất. Đừng quên nhấn nút Theo dõi.
Nguồn: www.tomshardware.com/tech-industry/artificial-intelligence/ai-disruptor-deepseeks-next-gen-model-delayed-by-nvidia-h20-restrictions-short-supply-of-accelerators-hinders-development