AMD cótiết lộ mô hình ngôn ngữ nhỏ đầu tiên của nó, AMD-135M, sử dụng giải mã đầu cơ để tận dụng các khả năng của AI, cuối cùng dẫn đến một quy trình công nghệ nâng cao.
AMD quyết định nhảy vào Bandwagon mô hình AI, cho thấy một mô hình ngôn ngữ lớn nhỏ hiệu quả hơn ở việc tạo mã thông báo
[Thông cáo báo chí]: Trong bối cảnh không ngừng phát triển của trí tuệ nhân tạo, các mô hình ngôn ngữ lớn (LLM) như GPT-4 và Llama đã thu hút sự chú ý đáng kể cho khả năng ấn tượng của họ trong xử lý và tạo ngôn ngữ tự nhiên.
Tuy nhiên, các mô hình ngôn ngữ nhỏ (SLM) đang nổi lên như một đối tác thiết yếu trong cộng đồng mô hình AI cung cấp một lợi thế duy nhất cho các trường hợp sử dụng cụ thể.AMD rất vui mừng được phát hành mô hình ngôn ngữ nhỏ đầu tiên của mình, AMD-135M với giải mã đầu cơ.Công việc này thể hiện cam kết với một cách tiếp cận mở đối với AI, điều này sẽ dẫn đến những tiến bộ công nghệ toàn diện, đạo đức và sáng tạo hơn, giúp đảm bảo rằng lợi ích của nó được chia sẻ rộng rãi hơn và những thách thức được giải quyết hợp tác hơn.
AMD-135M: Mô hình ngôn ngữ đầu tiên và nhỏ
AMD-135M là mô hình ngôn ngữ nhỏ đầu tiên cho gia đình Llama được đào tạo từ đầu trên máy gia tốc AMD Bản năng ™ MI250 sử dụng các mã thông báo 670B và được chia thành hai mô hình: AMD-LLAMA-135M và AMD-LLAMA-135M.
- Trước khi đặt trước: Mô hình AMD-LLAMA-135M được đào tạo từ đầu với 670 tỷ mã thông báo chung trong sáu ngày bằng bốn nút MI250.
- Mã Finetuning: Biến thể mã AMD-LLAMA-135M được tinh chỉnh với thêm 20 tỷ mã thông tin mã, mất bốn ngày trên cùng một phần cứng.
Mã đào tạo, bộ dữ liệu và trọng số cho mô hình này có nguồn gốc mở để các nhà phát triển có thể tái tạo mô hình và giúp đào tạo các SLM và LLM khác.
Tối ưu hóa với giải mã đầu cơ
Các mô hình ngôn ngữ lớn thường sử dụng một cách tiếp cận tự phát để suy luận.Tuy nhiên, một hạn chế lớn của phương pháp này là mỗi lần chuyển tiếp chỉ có thể tạo ra một mã thông báo duy nhất, dẫn đến hiệu quả truy cập bộ nhớ thấp và ảnh hưởng đến tốc độ suy luận tổng thể.
Sự ra đời của giải mã đầu cơ đã giải quyết vấn đề này.Nguyên tắc cơ bản liên quan đến việc sử dụng một mô hình dự thảo nhỏ để tạo ra một tập hợp các mã thông báo ứng cử viên, sau đó được xác minh bằng mô hình mục tiêu lớn hơn.Cách tiếp cận này cho phép mỗi lần chuyển tiếp để tạo ra nhiều mã thông báo mà không ảnh hưởng đến hiệu suất, do đó giảm đáng kể mức tiêu thụ truy cập bộ nhớ và cho phép một số đơn đặt hàng cải thiện tốc độ cường độ.
Tăng tốc hiệu suất suy luận
Sử dụng mã AMD-LLAMA-135M làm mô hình dự thảo cho CODELLAMA-7B, chúng tôi đã thử nghiệm hiệu suất suy luận có và không có giải mã đầu cơ trên máy gia tốc MI250 cho trung tâm dữ liệu và bộ xử lý AI Ryzen ™ (với NPU) cho AI PC.Đối với các cấu hình cụ thể mà chúng tôi đã thử nghiệm bằng cách sử dụng mã AMD-llama-135m làm mô hình dự thảo, chúng tôi đã thấy một tốc độ trên máy gia tốc MI250 bản năng, Ryzen AI CPU[2]và trên Ryzen AI NPU[2]so với suy luận mà không cần giải mã đầu cơ. [3]AMD-135M SLM thiết lập quy trình làm việc từ đầu đến cuối, bao gồm cả đào tạo và suy luận, trên các nền tảng AMD được chọn.