Deepseek có thể không gây rối như tuyên bố với 50.000 GPU NVIDIA đằng sau nó
Startup Trung Quốc DeepSeek vừa thu hút sự chú ý trong lĩnh vực công nghệ với việc sử dụng tài nguyên tính toán rất thấp cho mô hình AI tiên tiến R1 của mình, được cho là có thể cạnh tranh với mô hình o1 của OpenAI. Mặc dù công ty tuyên bố chi phí huấn luyện chỉ là 6 triệu USD và 2.048 GPU, nhưng công ty phân tích ngành công nghiệp SemiAnalysis cho biết DeepSeek đã gánh chịu chi phí lên tới 1.
DeepSeek đã đầu tư 6 tỷ USD vào hạ tầng phần cứng với đội ngũ 50.000 GPU Nvidia Hopper, cho thấy họ không tái tạo lại việc đào tạo và suy diễn AI với chi phí thấp hơn nhiều so với các ông lớn trong ngành. Theo báo cáo từ SemiAnalysis, hạ tầng của DeepSeek bao gồm 10.000 GPU H800 và 10.000 H100, cùng với các đơn vị H20 được mua thêm.
Các tài nguyên này được phân bổ ở nhiều địa điểm và phục vụ cho các mục đích như đào tạo AI, nghiên cứu và mô hình tài chính. Tổng vốn đầu tư của công ty vào máy chủ khoảng 1,6 tỷ USD, với khoảng 944 triệu USD ước tính chi cho chi phí vận hành, theo SemiAnalysis. DeepSeek đã thu hút sự chú ý của thế giới AI khi công bố yêu cầu phần cứng rất thấp cho mô hình AI DeepSeek-V3 Mixture-of-Experts MoE, thấp hơn nhiều so với của U.
DeepSeek, một công ty mới nổi từ quỹ đầu tư mạo hiểm High-Flyer của Trung Quốc, đã gây tiếng vang trong ngành công nghệ với mô hình AI R1 cạnh tranh với Open AI. Theo báo cáo của công ty phân tích thị trường SemiAnalysis, DeepSeek đã đầu tư khoảng 1,6 tỷ USD vào phần cứng. Năm 2023, High-Flyer đã tách DeepSeek thành một dự án độc lập chuyên về AI.
Khác với nhiều đối thủ, DeepSeek vẫn tự tài trợ, giúp công ty linh hoạt và nhanh chóng trong quyết định. Mặc dù được cho là một nhánh nhỏ, công ty đã đầu tư hơn 500 triệu vào công nghệ của mình. Một điểm khác biệt lớn của DeepSeek là khả năng vận hành các trung tâm dữ liệu riêng, thay vì phụ thuộc vào các nhà cung cấp đám mây bên ngoài như nhiều startup AI khác. Điều này cho phép công ty kiểm soát hoàn toàn các thí nghiệm và tối ưu hóa mô hình AI.
Ngoài ra, DeepSeek cho phép lặp lại nhanh chóng mà không gặp trở ngại bên ngoài, giúp nó hoạt động hiệu quả hơn so với các công ty truyền thống trong ngành. Đặc biệt, DeepSeek chỉ tuyển dụng nhân tài từ Trung Quốc đại lục, không tuyển dụng từ Đài Loan hay Mỹ, tập trung vào kỹ năng và khả năng giải quyết vấn đề thay vì bằng cấp chính thức, theo SemiAnalysis.
Các nỗ lực tuyển dụng tập trung vào các trường như Đại học Bắc Kinh và Đại học Chiết Giang, với mức lương rất cạnh tranh. Nghiên cứu cho thấy một số nhà nghiên cứu AI tại DeepSeek kiếm hơn 1,3 triệu USD, cao hơn mức lương tại các công ty AI hàng đầu khác của Trung Quốc như Moonshot. Nhờ vào dòng chảy tài năng, DeepSeek đã tiên phong trong những đổi mới như Multi-Head Latent Attention (MLA), mất nhiều tháng phát triển và sử dụng nhiều GPU, theo báo cáo từ SemiAnalysis.
DeepSeek chú trọng vào hiệu quả và cải tiến thuật toán thay vì chỉ mở rộng quy mô theo cách thông thường, thay đổi kỳ vọng về phát triển mô hình AI. Điều này đã khiến nhiều người tin rằng sự tiến bộ nhanh chóng có thể giảm nhu cầu về GPU cao cấp, ảnh hưởng đến các công ty như Nvidia. Một thông tin gần đây cho rằng DeepSeek đã huấn luyện mô hình mới nhất chỉ với 6 triệu USD đã tạo ra nhiều sự chú ý, nhưng con số này chỉ đề cập đến một phần chi phí huấn luyện tổng thể—cụ thể là thời gian GPU cần thiết cho việc huấn luyện trước.
DeepSeek không tính đến chi phí nghiên cứu, cải tiến mô hình, xử lý dữ liệu hay hạ tầng tổng thể. Trên thực tế, công ty đã chi hơn 500 triệu USD cho phát triển AI từ khi thành lập. Khác với các công ty lớn bị ràng buộc bởi thủ tục hành chính, cấu trúc gọn nhẹ của DeepSeek cho phép họ thúc đẩy đổi mới AI mạnh mẽ. Sự phát triển của DeepSeek cho thấy một công ty AI độc lập được tài trợ tốt có thể thách thức các lãnh đạo ngành.
Tuy nhiên, cuộc thảo luận công chúng có thể bị ảnh hưởng bởi sự phấn khích. SemiAnalysis cho rằng thành công của DeepSeek dựa trên các khoản đầu tư chiến lược hàng tỷ đô la, những đột phá công nghệ và lực lượng lao động cạnh tranh. Điều này có nghĩa là không có điều kỳ diệu nào. Như Elon Musk đã chỉ ra cách đây khoảng một năm, để cạnh tranh trong lĩnh vực AI, bạn phải chi hàng tỷ đô la mỗi năm, và số tiền chi tiêu thực tế cũng trong khoảng đó.
Nguồn: www.tomshardware.com/tech-industry/artificial-intelligence/deepseek-might-not-be-as-disruptive-as-claimed-firm-reportedly-has-50-000-nvidia-gpus-and-spent-usd1-6-billion-on-buildouts