DGX B200 Blackwell Node Đặt kỷ lục thế giới, phá vỡ hơn 1.000 TPS/người dùng
Nvidia đã thiết lập một kỷ lục AI mới, vượt qua ngưỡng 1,000 token mỗi giây cho mỗi người dùng với mô hình ngôn ngữ Metas Llama 4 Maverick, theo Artificial Analysis trên LinkedIn. Kỷ lục này đạt được nhờ vào node DGX B200 mới nhất của Nvidia, trang bị tám GPU Blackwell. Nvidia đã vượt qua kỷ lục trước đó của SambaNova với 1,038 TPSuser, trong khi SambaNova chỉ đạt 792 TPSuser.
Theo báo cáo benchmark của Artificial Analysiss, Nvidia và SambaNova dẫn đầu về hiệu suất. Amazon và Groq đạt điểm gần 300 TPSuser, trong khi các công ty khác như Fireworks, Lambda Labs, Kluster.ai, CentML, Google Vertex, Together.ai, Deepinfra, Novita và Azure đều đạt điểm dưới 200 TPSuser. Kết quả kỷ lục của Blackwell được đạt được nhờ nhiều tối ưu hóa hiệu suất dành riêng cho kiến trúc Llama 4 Maverick.
Nvidia đã thực hiện các tối ưu hóa phần mềm rộng rãi bằng TensorRT và huấn luyện một mô hình giải mã dự đoán sử dụng kỹ thuật Eagle-3, nhằm tăng tốc độ suy diễn trong các mô hình ngôn ngữ lớn (LLM) bằng cách dự đoán các token trước. Hai tối ưu hóa này đã mang lại hiệu suất cao gấp 4 lần so với kết quả tốt nhất trước đây của Blackwell.
Việc triển khai 5 đã bị trì hoãn do thiếu năng lực xử lý. Độ chính xác cũng được cải thiện khi sử dụng kiểu dữ liệu FP8 thay vì BF16, cùng với các hoạt động Attention và kỹ thuật Mixture of Experts, đã gây tiếng vang khi ra mắt với mô hình DeepSeek R1. Nvidia cũng chia sẻ nhiều tối ưu hóa khác mà các kỹ sư phần mềm của họ thực hiện trên kernel CUDA để cải thiện hiệu suất, bao gồm kỹ thuật phân vùng không gian và tráo đổi trọng số GEMM.
📢 Liên hệ quảng cáo: 0919 852 204
Quảng cáo của bạn sẽ xuất hiện trên mọi trang!
TPSuser là một chỉ số hiệu suất AI, viết tắt của tokens mỗi giây mỗi người dùng. Tokens là đơn vị cơ bản trong phần mềm sử dụng mô hình ngôn ngữ lớn (LLM) như Copilot và ChatGPT. Khi bạn nhập câu hỏi vào ChatGPT hoặc Copilot, từng từ và ký tự của bạn được coi là tokens. LLM sử dụng những tokens này để tạo ra câu trả lời dựa trên lập trình của nó. Phần "người dùng" trong TPSuser tập trung vào việc đánh giá hiệu suất cho từng người dùng, thay vì theo nhóm.
Phương pháp đánh giá này rất quan trọng cho các nhà phát triển chatbot AI để cải thiện trải nghiệm người dùng. Càng nhanh chóng cụm GPU xử lý token mỗi giây cho mỗi người dùng, chatbot AI sẽ phản hồi càng nhanh. Hãy theo dõi Toms Hardware trên Google News để nhận tin tức, phân tích và đánh giá mới nhất. Nhớ nhấn nút Theo dõi.
Nguồn: www.tomshardware.com/tech-industry/artificial-intelligence/dgx-b200-blackwell-node-sets-world-record-breaking-over-1-000-tps-user