Meta được cho là đang thử nghiệm chip AI dựa trên RISC-V đầu tiên của nó để đào tạo AI
Meta là một trong những công ty đầu tiên phát triển chip dựa trên RISC-V cho AI nhiều năm trước nhằm giảm chi phí và giảm sự phụ thuộc vào Nvidia. Theo Reuters, công ty đã thiết kế một bộ tăng tốc nội bộ cho đào tạo AI, có thể có sự hỗ trợ từ Broadcom. Nếu chip này đáp ứng được mục tiêu của Meta, nó có thể giảm sự phụ thuộc vào các GPU AI cao cấp của Nvidia như H100, H200 và B100, B200 để đào tạo các mô hình ngôn ngữ lớn tiên tiến.
Meta và Broadcom đã hoàn thành việc thiết kế bộ tăng tốc AI đầu tiên của Meta với TSMC, và TSMC đã sản xuất mẫu chip đầu tiên. Theo báo cáo, các bên đã thành công trong việc khởi động thiết bị. Hiện tại, Meta đã bắt đầu triển khai giới hạn bộ tăng tốc này để đánh giá hiệu suất trước khi mở rộng sản xuất và triển khai. Chưa rõ liệu các kỹ sư của Meta có đang chạy các bài kiểm tra hiệu suất trên chip mới này hay không.
Thông số kỹ thuật của các chip chưa được tiết lộ, nhưng thường thì chip đào tạo AI sử dụng thiết kế dạng mảng systolic. Kiến trúc này bao gồm một mạng lưới cấu trúc các phần tử xử lý giống hệt nhau (PE) được sắp xếp theo hàng và cột. Mỗi đơn vị thực hiện các phép toán liên quan đến ma trận hoặc vector, và dữ liệu chảy tuần tự qua mạng. Bộ tăng tốc RISC-V tùy chỉnh cho AI được thiết kế để xử lý khối lượng dữ liệu lớn, vì vậy dự kiến sẽ có bộ nhớ HBM3 hoặc HBM3E.
Meta đã xác định các định dạng dữ liệu và lệnh hỗ trợ cho bộ vi xử lý tùy chỉnh của mình nhằm tối ưu hóa kích thước chip, tiêu thụ năng lượng và hiệu suất. Về hiệu suất, bộ tăng tốc cần cung cấp đặc điểm cạnh tranh về hiệu suất trên mỗi watt so với các GPU AI hiện đại của Nvidia như H200, B200 và có thể cả B300 thế hệ tiếp theo. Chip này là bổ sung mới nhất cho chương trình Tăng cường và Suy diễn Meta (MTIA) của Meta.
Chương trình đã gặp nhiều trở ngại, như việc ngừng phát triển khi xảy ra các vấn đề tương tự. Chẳng hạn, Meta đã ngừng sử dụng bộ xử lý nội bộ vì không đạt yêu cầu về hiệu suất và tiêu thụ điện năng trong các thử nghiệm triển khai hạn chế. Sự thất bại này đã khiến Meta thay đổi chiến lược vào năm 2022, đặt hàng lớn cho các GPU của Nvidia để đáp ứng nhu cầu xử lý AI ngay lập tức. Kể từ đó, Meta đã trở thành một trong những khách hàng lớn nhất của Nvidia, mua hàng chục nghìn GPU.
Các đơn vị này rất quan trọng trong việc đào tạo mô hình AI cho các khuyến nghị, quảng cáo và loạt mô hình Llama Foundation. Ngoài ra, GPU của công ty xanh đã được sử dụng cho các quá trình suy luận, hỗ trợ tương tác cho hơn ba tỷ người dùng hàng ngày trên các nền tảng của Meta, theo Reuters. Mặc dù gặp nhiều thách thức, Meta vẫn tiếp tục phát triển chương trình silicon tùy chỉnh. Năm ngoái, Meta đã bắt đầu sử dụng chip MTIA cho các tác vụ suy luận, và trong tương lai, lãnh đạo Meta đã lên kế hoạch sử dụng chip tùy chỉnh của họ cho việc đào tạo AI vào năm 2026.
Kế hoạch là tăng dần mức sử dụng nếu chip đạt được mục tiêu về hiệu suất và công suất, điều này rất quan trọng cho mục tiêu dài hạn của Meta trong việc thiết kế các giải pháp phần cứng tùy chỉnh cho hoạt động trung tâm dữ liệu. Một điểm thú vị là các bộ tăng tốc của MTIA cho việc suy diễn sử dụng lõi RISC-V mã nguồn mở, cho phép Meta tùy chỉnh kiến trúc tập lệnh theo nhu cầu mà không phải trả phí bản quyền cho bên thứ ba.
Chưa rõ liệu bộ tăng tốc đào tạo MTIA có dựa trên kiến trúc RISC-V hay không, nhưng điều này có thể xảy ra. Nếu đúng, Meta có thể đã phát triển một trong những chip RISC-V hiệu suất cao nhất trong ngành.
Nguồn: www.tomshardware.com/tech-industry/artificial-intelligence/meta-is-reportedly-testing-its-first-rsic-v-based-ai-chip-for-ai-training