Deepseek, một công ty khởi nghiệp AI của Trung Quốc, cho biết họ đã đào tạo một mô hình AI có thể so sánh với các mô hình hàng đầu từ các đối thủ nặng ký như Openai, Meta và Anthropic, nhưng với mức giảm 11 lần về số lượng điện toán GPU, và do đó chi phí.Các tuyên bố chưa được xác nhận đầy đủ, nhưng thông báo gây sửng sốt cho thấy rằng trong khi các lệnh trừng phạt của Mỹ đã ảnh hưởng đến sự sẵn có của phần cứng AI ở Trung Quốc, các nhà khoa học thông minh đang làm việc để trích xuất hiệu suất tối đa từ số lượng phần cứng hạn chế để giảm tác động của việc nghẹt thởNguồn cung chip AI của Trung Quốc.Công ty đã có nguồn cung cấp mô hình và trọng lượng, vì vậy chúng tôi có thể mong đợi việc thử nghiệm sẽ sớm xuất hiện.
DeepSeek đã đào tạo mô hình ngôn ngữ hỗn hợp DeepSeek-V3 của mình với 671 tỷ tham số sử dụng cụm chứa 2.048 NVIDIA H800 GPU chỉ trong hai tháng, có nghĩa là 2,8 triệu giờgiấy.Để so sánh, công suất tính toán Meta mất 11 lần (30,8 triệu giờ GPU) để đào tạo Llama 3 của mình với 405 tỷ thông số sử dụng cụm chứa 16.384 H100 GPU trong suốt 54 ngày.
Deepseek tuyên bố nó đã giảm đáng kể nhu cầu tính toán và bộ nhớ thường cần thiết cho các mô hình của thang đo này bằng cách sử dụng các thuật toán đường ống tiên tiến, khung giao tiếp được tối ưu hóa và tính toán độ chính xác thấp cũng như giao tiếp.
Công ty đã sử dụng một cụm gồm 2.048 GPU NVIDIA H800, mỗi cụm được trang bị kết nối NVLink cho GPU-to GPU và Infiniband kết nối cho các giao tiếp giữa nút.Trong các thiết lập như vậy, liên lạc giữa các GPU khá nhanh, nhưng giao tiếp giữa các nút thì không, vì vậy tối ưu hóa là chìa khóa để thực hiện và hiệu quả.Mặc dù Deepseek thực hiện hàng chục kỹ thuật tối ưu hóa để giảm các yêu cầu tính toán của DeepSeek-V3, một số công nghệ chính cho phép kết quả ấn tượng của nó.
Deepseek đã sử dụng thuật toán DualPipe để chồng chéo các giai đoạn tính toán và giao tiếp trong và trên các đợt vi mô tiến lên và lùi và do đó, làm giảm sự thiếu hiệu quả của đường ống.Cụ thể, công văn (mã thông báo định tuyến cho các chuyên gia) và kết hợp (kết quả tổng hợp) đã được xử lý song song với tính toán bằng cách sử dụng các hướng dẫn PTX (thực hiện luồng song song) tùy chỉnh, có nghĩa là viết mã cấp thấp, chuyên dụng có nghĩa là giao diện với NVIDIA CUDAGPU và tối ưu hóa hoạt động của họ.Thuật toán DualPipe giảm thiểu các tắc nghẽn đào tạo, đặc biệt đối với sự song song của chuyên gia chéo nút theo yêu cầu của kiến trúc MOE, và tối ưu hóa này cho phép cụm xử lý 14,8 nghìn tỷ mã thông báo trong quá trình đào tạo trước với chi phí giao tiếp gần bằng không, theo Deepseek.
Ngoài việc triển khai DualPipe, Deepseek đã hạn chế mỗi mã thông báo ở mức tối đa bốn nút để hạn chế số lượng nút liên quan đến giao tiếp.Điều này đã giảm lưu lượng và đảm bảo rằng giao tiếp và tính toán có thể chồng chéo hiệu quả.
📢 Liên hệ quảng cáo: 0919 852 204
Quảng cáo của bạn sẽ xuất hiện trên mọi trang!
Một yếu tố quan trọng trong việc giảm các yêu cầu tính toán và giao tiếp là áp dụng các kỹ thuật đào tạo chính xác thấp.Deepseek sử dụng khung chính xác hỗn hợp FP8, cho phép tính toán nhanh hơn và giảm sử dụng bộ nhớ mà không ảnh hưởng đến sự ổn định số.Các hoạt động chính, chẳng hạn như phép nhân ma trận, được tiến hành trong FP8, trong khi các thành phần nhạy cảm như các lớp nhúng và chuẩn hóa vẫn giữ được độ chính xác cao hơn (BF16 hoặc FP32) để đảm bảo độ chính xác.Cách tiếp cận này làm giảm các yêu cầu bộ nhớ trong khi duy trì độ chính xác mạnh mẽ, với lỗi tổn thất đào tạo tương đối nhất quán dưới 0,25%.
Khi nói đến hiệu suất, công ty cho biết mô hình ngôn ngữ MOE DeepSeek-V3 có thể so sánh với hoặc tốt hơn GPT-4X, Claude-3.5-Sonnet và LLLAMA-3.1, tùy thuộc vào điểm chuẩn.Đương nhiên, chúng ta sẽ phải thấy điều đó đã được chứng minh với bên thứ bađiểm chuẩn.Công ty đã có nguồn cung cấp mô hình và trọng lượng, vì vậy chúng tôi có thể mong đợi việc thử nghiệm sẽ sớm xuất hiện.
(Tín dụng hình ảnh: Deepseek)Mặc dù Deepseek-V3 có thể đứng sau các mô hình Frontier như GPT-4O hoặc O3 về số lượng tham số hoặc khả năng lý luận, thì thành tích của Deepseek cho thấy rằng có thể đào tạo mô hình ngôn ngữ MOE tiên tiến sử dụng tài nguyên tương đối hạn chế.Tất nhiên, điều này đòi hỏi rất nhiều tối ưu hóa và lập trình cấp thấp, nhưng kết quả dường như rất tốt.
Nhóm DeepSeek nhận ra rằng việc triển khai mô hình DeepSeek-V3 đòi hỏi phần cứng nâng cao cũng như chiến lược triển khai tách biệt các giai đoạn giải mã trước và giải mã, điều này có thể không thể thực hiện được cho các công ty nhỏ do thiếu tài nguyên.
"Mặc dù thừa nhận hiệu suất và hiệu quả chi phí mạnh mẽ của nó, chúng tôi cũng nhận ra rằng Deepseek-V3 có một số hạn chế, đặc biệt là về việc triển khai", bài báo của công ty viết."Thứ nhất, để đảm bảo suy luận hiệu quả, đơn vị triển khai được đề xuất cho DeepSeek-V3 là tương đối lớn, điều này có thể gây gánh nặng cho các đội có kích thước nhỏ. Thứ hai, mặc dù chiến lược triển khai của chúng tôi cho DeepSeek-V3 đã đạt đượcTốc độ hơn hai lần so với Deepseek-V2, vẫn còn tiềm năng để tăng cường hơn nữa.
Nguồn: www.tomshardware.com/tech-industry/artificial-intelligence/chinese-ai-company-says-breakthroughs-enabled-creating-a-leading-edge-ai-model-with-11x-less-compute-deepseeks-optimizations-highlight-limits-of-us-sanctions