Tin đồn mô hình Deepseek R2 AI bắt đầu quay trực tuyến;Báo cáo có tính năng chi phí thấp hơn 97% so với GPT-4 và được đào tạo đầy đủ về Huawei, Ascend Chips
Công ty Trung Quốc DeepSeek sắp ra mắt mẫu DeepSeek R2, với thông tin chi tiết đã xuất hiện trên mạng. Mẫu R2 được cho là sẽ gây ảnh hưởng lớn đến thị trường AI, chủ yếu sử dụng chip AI của Huawei. Mẫu R1 trước đó đã chứng minh rằng Trung Quốc không thua kém trong việc phát triển các mô hình AI cao cấp.
Việc Trung Quốc công bố thông tin đã làm chấn động thị trường chứng khoán Mỹ, khiến thị trường này mất hàng tỷ đô la, đồng thời cho thấy rằng việc phát triển các mô hình AI không tốn kém như những gì các công ty như OpenAI đã công bố. Hiện các phương tiện truyền thông Trung Quốc đang đưa tin về tin đồn xung quanh mô hình AI R2 mới của DeepSeek, và không sai khi nói rằng thị trường AI phương Tây có thể sắp chứng kiến một sự phát triển bất ngờ khác từ Trung Quốc.
🚨 Tin đồn về DeepSeek R2 bị rò rỉ! — 1.2T tham số, 78B hoạt động, hybrid MoE — rẻ hơn 97.3% so với GPT 4, 0.07M vào, 0.27M ra — 5.2PB dữ liệu huấn luyện. Điểm 89.7 trên C-Eval2.0 — Tầm nhìn tốt hơn. Điểm 92.4 trên COCO — Sử dụng 82 trên Huawei Ascend 910B. Có sự chuyển dịch lớn khỏi chuỗi cung ứng của Mỹ. Hãy nhớ rằng các tin đồn này cần được xem xét cẩn thận, vì DeepSeek vẫn chưa xác nhận số liệu chính thức về mô hình tiếp theo của họ.
Các nguồn tin Trung Quốc cho rằng mẫu R2 sẽ áp dụng kiến trúc MoE (Mixture of Experts) hybrid, được cho là phiên bản nâng cấp của MoE hiện tại, có thể có cơ chế phân loại tiên tiến hoặc sự kết hợp giữa MoE và các lớp dày để tối ưu hóa khối lượng công việc cao. Với kiến trúc này, DeepSeek R2 dự kiến sẽ có gấp đôi số tham số của R1, đạt 1,2 triệu tỷ tham số.
Chỉ dựa trên thông số đó, R2 được cho là cạnh tranh với GPT-4 Turbo và Google Gemini 2.0 Pro. Báo cáo cho biết với DeepSeek R2, chi phí mỗi token thấp hơn 97.4 so với GPT-4, với 0.07M token đầu vào và 0.27M token đầu ra. So với giá của OpenAI, mô hình R2 của DeepSeek sẽ là lựa chọn tiết kiệm chi phí nhất cho các doanh nghiệp.
Việc phát hành này có thể là một bước ngoặt quan trọng cho AI và kinh tế xung quanh nó. Một thông tin thú vị về DeepSeek R2 là mô hình này đạt 82% công suất của cụm chip Ascend 910B của Huawei, với sức mạnh tính toán đạt 512 PetaFLOPS ở độ chính xác FP16. Điều này cho thấy DeepSeek đã quyết định sử dụng tài nguyên nội bộ cho mô hình chủ đạo tiếp theo của mình. Chúng ta biết rằng công ty AI Trung Quốc này rất quan tâm đến chip AI của Huawei, và việc đào tạo R2 bằng thiết bị nội bộ cho thấy DeepSeek đã tích hợp dọc chuỗi cung ứng AI.
Cần lưu ý rằng những thông tin xung quanh DeepSeek R2 vẫn chỉ là suy đoán và mô hình cuối cùng có thể khác biệt. Tuy nhiên, theo các nguồn tin từ truyền thông Trung Quốc, R2 có vẻ sẽ là một sản phẩm bất ngờ cho các công ty AI lớn.
Nguồn: wccftech.com/deepseek-r2-ai-model-rumors-begin-to-swirl-online/