Trung Quốc không cần máy gia tốc của Cutting-Edge để tiến triển với AI;Dự án mới nhất của DeepSeek, mới nhất hiện đang mang lại sức mạnh năng lượng TFLOPS 8 lần với GPUS NVIDIA H800 GPUS
Trung Quốc đã tìm ra giải pháp thay thế cho các bộ tăng tốc AI giảm sút của NVIDIA, khi dự án mới nhất của DeepSeek mang lại hiệu suất gấp tám lần TFLOPS với bộ tăng tốc AI Hopper H800. Dự án FlashMLA của DeepSeek sẽ giúp ngành công nghiệp AI của Trung Quốc tối ưu hóa sức mạnh từ các GPU Hopper bị cắt giảm của NVIDIA. Có vẻ như Trung Quốc không phụ thuộc vào ai để mở rộng khả năng phần cứng, khi các công ty trong nước, đặc biệt là DeepSeek, đang tận dụng sức mạnh phần mềm để tìm ra giải pháp với thiết bị hiện có.
Những phát triển mới nhất của DeepSeek là những bước đột phá ấn tượng trên thị trường. Theo công ty, họ đã tối ưu hóa việc tiêu thụ bộ nhớ và phân bổ tài nguyên cho các yêu cầu suy diễn, giúp tăng hiệu suất đáng kể từ GPU Hopper H800 của NVIDIA. 🚀 Ngày đầu tiên của OpenSourceWeek, FlashMLA tự hào giới thiệu FlashMLA - kernel giải mã MLA hiệu quả cho GPU Hopper, tối ưu cho các chuỗi có độ dài biến đổi và hiện đã được đưa vào sản xuất.
✅ Hỗ trợ BF16 ✅ Kích thước khối bộ nhớ cache KV phân trang 64 ⚡ Băng thông 3000 GBs, 580 TFLOPS… — DeepSeek deepseekai ngày 24 tháng 2 năm 2025. DeepSeek đang tổ chức tuần OpenSource, giới thiệu công nghệ và công cụ sẽ được cung cấp công khai qua các kho Github. Ngày đầu tiên bắt đầu tốt đẹp với việc ra mắt FlashMLA, một kernel giải mã dành riêng cho GPU Hopper của NVIDIA.
Trước khi tìm hiểu cách hoạt động, hãy điểm qua những cải tiến mà nó mang lại cho thị trường, và chúng thực sự mang tính cách mạng. DeepSeek khẳng định họ đạt được 580 TFLOPS cho phép nhân ma trận BF16 trên Hopper H800, gấp khoảng tám lần tiêu chuẩn ngành. Hơn nữa, với việc sử dụng bộ nhớ hiệu quả, FlashMLA cho phép băng thông bộ nhớ lên tới 3000 GB, gần gấp đôi mức đỉnh lý thuyết của H800.
Điểm quan trọng là tất cả những điều này chỉ có thể thực hiện được thông qua mã lập trình chứ không cần nâng cấp phần cứng. Điều này thật điên rồ. - Tốc độ nhanh chóng 580 TFLOPS trên H800, gấp 8 lần trung bình ngành là 73.5 TFLOPS. - Công nghệ bộ nhớ đạt 3000 GBs, vượt qua đỉnh 1681 GBs của H800. — Visionary x AI VisionaryxAI, 24 tháng 2, 2025. DeepSeeks FlashMLA áp dụng nén key-value theo thứ hạng thấp, giúp phân tách dữ liệu thành các phần nhỏ hơn, cho phép xử lý nhanh hơn và giảm mức tiêu thụ bộ nhớ tới 40-60%.
Một điểm thú vị khác là việc sử dụng hệ thống phân trang dựa trên khối, cho phép phân bổ bộ nhớ linh hoạt tùy thuộc vào cường độ của tác vụ, thay vì chỉ sử dụng một giá trị cố định. Điều này giúp các mô hình xử lý các chuỗi có độ dài biến đổi hiệu quả hơn, từ đó nâng cao hiệu suất. Sự phát triển của DeepSeeks cho thấy thế giới tính toán AI không phụ thuộc vào một yếu tố duy nhất mà rất đa dạng, điều này được thể hiện rõ ràng qua FlashMLA.
Hiện tại, công cụ này dường như chỉ dành cho GPU Hopper, và thật thú vị để xem hiệu suất mà H100 có thể đạt được thông qua FlashMLA.
Nguồn: wccftech.com/china-doesnt-need-cutting-edge-accelerators-to-progress-with-ai/