Nvidia'sMáy gia tốc HGX H200 AINhận một sự thúc đẩy lớn trong Llama 3.1 Inferencing, với thuật toán giải mã độc quyền của NVIDIA "Medusa. "
Nvidia tiếp tục tiến triển trong lĩnh vực hệ sinh thái phần mềm, vì nó đạt được hiệu suất tiếp theo thông qua Medusa
[Thông cáo báo chí]: Khi các mô hình ngôn ngữ lớn (LLM) tiếp tục phát triển về kích thước và độ phức tạp, tính toán đa GPU là điều bắt buộc phải có để cung cấp độ trễ thấp và thông lượng cao mà các ứng dụng AI thế hệ thời gian thực yêu cầu.
Hiệu suất phụ thuộc vào khả năng xử lý các yêu cầu của GPU kết hợp với tư cách là GPU Mighty GPU với giao tiếp GPU-to GPU cực nhanh và phần mềm nâng cao có thể tận dụng tối đa nhiều GPU.Bằng cách chia các tính toán của từng lớp mô hình trên GPU có sẵn bằng cách sử dụng một kỹ thuật gọi là song song tenxơ song song với các thuật toán nâng cao như giải mã đầu cơ, có thể giảm độ trễ tạo mã thông báo, mang lại trải nghiệm người dùng tương tác.
Đối với phục vụ độ trễ rất thấp LLAMA 3.1, các dịch vụ đám mây có thể sử dụng máy chủ NVIDIA HGX H200 đầy đủ, mỗi dịch vụ kết hợp támGPU lõi tenor H200và bốn chip chuyển đổi NVLink đều đến tất cả.Mỗi GPU trong máy chủ có thể giao tiếp với toàn bộ băng thông 900 GB/s với bất kỳ GPU nào khác thông qua NVLink Switch.Băng thông vải GPU-to GPU cao được yêu cầu để giữ cho giao tiếp đa GPU trở thành nút cổ chai trong các trường hợp sử dụng tương tác.
Để thực hiện hiệu quả các thuật toán tối ưu hóa trên các hệ thống NVIDIA H200 HGX, NVIDIA TENSORRT-LLM được sử dụng.Tensorrt-llm là một thư viện Tensorrt nguồn mở, cung cấp hiệu suất suy luận hiện đại trên các LLM mới nhất bằng cách sử dụng nhiều kỹ thuật khác nhau, bao gồm song song tenor và giải mã đầu cơ.
Tối ưu hóa Tensorrt-Llm sắp tới, bao gồm việc cải thiện thuật toán giải mã đầu cơ được gọi là Medusa, cung cấp hiệu suất độ trễ thấp vượt trội trên LLAMA 3.1 70B và LLAMA 3.1 405B của268mã thông báo/thứ hai/người dùng và108mã thông báo/thứ hai/người dùng, tương ứng trên HGX H200.
Medusa tăng cường tạo mã thông báo lên tới 1,9 lần trên NVIDIA HGX H200
Các LLM dựa trên máy biến áp là tự động hồi quy, có nghĩa là các mã thông báo cần được tạo tuần tự, giới hạn thông lượng mỗi bước tạo thành một mã thông báo.Thông thường, trong suy luận LLM, tốc độ mà một mã thông báo duy nhất được tạo ra phụ thuộc vào mức độ nhanh chóng được tải vào bộ nhớ.Điều này có nghĩa là khối lượng công việc có thể để lại các khả năng lõi tenxơ đáng kể của GPU H200 không được sử dụng đúng mức.
Giải mã đầu cơ là một kỹ thuật làm tăng thông lượng tạo mã thông báo trên mỗi bước tạo mã thông báo bằng cách sử dụng mô hình dự thảo của Google để cố gắng dự đoán nhiều mã thông báo tiếp theo ngoài mã thông báo tiếp theo.Target LLM sau đó, các ứng dụng dự đoán của các ứng cử viên dự đoán và xác nhận chúng song song với mã thông báo tiếp theo, sử dụng hiệu quả hơn các tài nguyên tính toán GPU song song có sẵn.Nếu LLM ban đầu chấp nhận bất kỳ chuỗi ứng cử viên nào, nhiều mã thông báo được tạo trong bước tạo và do đó tăng tốc tạo mã thông báo.
Medusa, được mô tả trong nàygiấy, là một thuật toán giải mã đầu cơ sử dụng mô hình gốc làm mô hình dự thảo, tránh sự phức tạp của hệ thống và sự khác biệt phân phối khi sử dụng một mô hình dự thảo riêng biệt.Kỹ thuật này sử dụng việc giải mã bổ sung trên các đầu, được gọi là Heads Medusa, để dự đoán các mã thông báo ứng cử viên ngoài mã thông báo tiếp theo.Mỗi đầu Medusa tạo ra một phân phối mã thông báo vượt quá trước đó.
Nguồn hình ảnh: Nvidia
Với Medusa, HGX H200 có thể tạo ra 268 mã thông báo mỗi giây cho mỗi người dùng cho Llama 3.1 70b và 108 cho Llama 3.1 405B.Đây là hơn 1,5 lần Nhanh hơn trên Llama 3.1 70B và nhanh hơn 1,9 lần trên Llama 3.1 405B so với không có Medusa.Mặc dù có sự thay đổi trong tỷ lệ chấp nhận Medusa giữa các nhiệm vụ tùy thuộc vào cách các đầu được điều chỉnh tốt, hiệu suất tổng thể của nó được khái quát trong một loạt các nhiệm vụ.
Medusa Heads cho cả Llama 3.1 70b và Llama 3.1 405B đã được đào tạo bằng cách sử dụng tích hợp trình tối ưu hóa mô hình NVIDIA Tensorrt với khung NVIDIA NEMO.Việc đào tạo đầu Medusa đã sử dụng một xương sống đóng băng, đảm bảo rằng việc sử dụng Medusa mang lại độ chính xác giống hệt nhau cho mô hình cơ sở.
NVIDIA Đổi mới đầy đủ không bao giờ dừng lại
NVIDIA HGX H200 với NVLink Switch và Tensorrt-LLM đã cung cấp hiệu suất suy luận thời gian thực tuyệt vời trên các mô hình cộng đồng phổ biến và đòi hỏi.Để tiếp tục cải thiện trải nghiệm của người dùng và giảm chi phí suy luận, chúng tôi không ngừng đổi mới trên mọi lớp của ngăn xếp công nghệ - chip, hệ thống, thư viện phần mềm, thuật toán, v.v.
Chúng tôi mong muốn chia sẻ các bản cập nhật trong tương lai về hiệu suất suy luận độ trễ thấp của chúng tôi khi cả nền tảng của chúng tôi và các tiến bộ của hệ sinh thái LLM.
Viết bình luận