Meta MTIA: Chip huấn luyện AI tập đoàn này tự phát triển

#ai

Theo những nguồn tin của Reuters, cuối cùng Meta cũng đã đi theo hướng phát triển y hệt như của Microsoft, Amazon và Google, để phần nào bớt phụ thuộc vào những con chip giá hàng chục nghìn USD mỗi chip từ Nvidia. Cụ thể hơn, Meta đang thử nghiệm những phiên bản sản xuất thử của con chip chuyên biệt huấn luyện mô hình ngôn ngữ Llama của họ.

Số lượng chip xử lý được TSMC gia công cho Meta đang có số lượng tương đối thấp, và chúng đều đang được trang bị trong những hệ thống thử nghiệm để xác định hiệu năng. Cũng theo nguồn tin của Reuters, nếu quá trình thử nghiệm diễn ra suôn sẻ, con chip vận hành như kỳ vọng của các kỹ sư của Meta, họ sẽ đặt hàng số lượng lớn chip xử lý hỗ trợ huấn luyện AI cho TSMC gia công.

Như đã đề cập, Microsoft có Maia 100, Amazon Web Services đang thử nghiệm cũng như vận hành Trainium và Inferentia, còn Google thì đã ứng dụng chip TPS thế hệ thứ 5 và thứ 6, với những hy vọng giảm số vốn đầu tư khổng lồ để mở rộng cơ sở hạ tầng nghiên cứu và vận hành các công cụ và dịch vụ AI. Vấn đề hiện giờ là, các nhà đầu tư của những tập đoàn công nghệ lớn nhất hành tinh đều chưa nhìn ra được tiềm năng kiếm lời từ công nghệ AI, dù rằng các tập đoàn đang rót hàng chục, hàng trăm tỷ USD cho thứ công nghệ tạo sinh nội dung ngôn ngữ tự nhiên.

Xét riêng tới trường hợp của Meta, họ đã dự báo số vốn đầu tư trong năm 2025 tăng từ 114 lên 119 tỷ USD. Trong con số đó, lên tới 65 tỷ USD chỉ dùng để đầu tư mở rộng cơ sở hạ tầng data center hỗ trợ cho quá trình nghiên cứu và vận hành các dịch vụ AI.

Giống như nhiều sản phẩm chip chuyên biệt của các tập đoàn công nghệ khác, con chip mang tên MTIA (Meta Training and Inference Accelerator) được thiết kế để chỉ vận hành ở hiệu năng tối đa trong một số những tác vụ cụ thể, thay vì những GPGPU của Nvidia, được thiết kế để xử lý số thực dấu phẩy động, tính toán ma trận và tensor tối ưu cho mọi nhu cầu phổ quát trong ngành AI. Nhờ đó, MTIA phục vụ tốt hơn cho nhu cầu cụ thể của các nhà nghiên cứu AI cũng như các kỹ sư phát triển của Meta, cùng lúc giảm thiểu cả chi phí lẫn điện năng tiêu thụ của toàn bộ hệ thống máy chủ.

Trước đó, để tạo ra được con chip MTIA thế hệ mới, Meta đã thành công trong quá trình tape-out, tạo ra những bản photomask để gửi cho TSMC đưa vào máy quang khắc, cho phép họ “in” những cụm transistor lên bề mặt wafer silicon. Con chip xử lý nào cũng cần tới quá trình tape-out hết. Và tùy vào mức độ phức tạp của mỗi chip xử lý, chi phí tape-out ra những tấm photomask sẽ tốn hàng chục triệu USD, rồi phải thực hiện trong khoảng thời gian 3 đến 6 tháng. Nếu con chip gặp vấn đề trong khâu thiết kế, dẫn tới việc tape-out gặp sự cố, sẽ phải thực hiện lại từ đầu.

Để anh em dễ so sánh, chi phí để Apple thực hiện tape-out những tấm khuôn photomask của thế hệ chip xử lý M3 của họ được cho là chạm mốc 1 tỷ USD.

Cùng lúc cũng phải đề cập tới chuyện, con chip MTIA đang được Meta thử nghiệm là thế hệ tiếp theo của những con chip được các kỹ sư tập đoàn này tự phát triển. Kể từ năm ngoái, MTIA thế hệ đầu tiên đã được ứng dụng phục vụ cho chính những tác vụ trong những ứng dụng MXH mà Meta vận hành, bao gồm hệ thống khuyến nghị nội dung, và sau đó được ứng dụng vào những giải pháp AI tạo sinh, như chatbot Meta AI đang phổ biến hiện nay.

Giám đốc sản phẩm của Meta, Chris Cox tuần trước đã có mặt tại hội thảo công nghệ, truyền thông và viễn thông do Morgan Stanley tổ chức: “Chúng tôi đang làm việc để tìm ra cách vận hành hiệu quả quá trình huấn luyện hệ thống khuyến nghị nội dung, rồi sau đó sẽ nghĩ tới chuyện tối ưu quá trình huấn luyện và vận hành nội suy các sản phẩm AI tạo sinh.”

Giám đốc Cox mô tả MTIA đang là những nỗ lực sơ khai, giống như một đứa trẻ tập bò, rồi mới tập đi và tập chạy. Nhưng theo ông, những giám đốc cấp cao của tập đoàn Meta coi MTIA là thành công lớn.

Nói vậy thực ra cũng dễ hiểu, vì đã từng có thời điểm Meta từ bỏ nỗ lực phát triển những chip xử lý tăng tốc nội suy AI. Hồi năm 2022, họ thất bại trong việc thử nghiệm hiệu năng những con chip tự thiết kế phục vụ nhu cầu huấn luyện AI. Lúc đó, các giám đốc của tập đoàn Meta hủy dự án, chuyển qua rót tiền cho Nvidia để đặt hàng chục nghìn GPU máy chủ.

Đến tận thời điểm hiện tại, Meta vẫn đang là một trong số những khách hàng lớn nhất của Nvidia, vận hành những data center khổng lồ trang bị chip của Nvidia để huấn luyện mô hình, rồi vận hành những mô hình ấy phục vụ cho vài tính năng trong các dịch vụ trực tuyến của Meta, chẳng hạn như thuật toán hiển thị nội dung hay hệ thống hỗ trợ chạy quảng cáo trực tuyến cho Facebook và Instagram, rồi đương nhiên quan trọng nhất là quá trình phát triển mô hình Llama của họ.

Giá trị của những con chip GPU ấy năm ngoái cũng đã bị nhiều chuyên gia đặt câu hỏi. Những nhà nghiên cứu AI đang có những nghi hoặc về khả năng tạo ra những tiến bộ mới trong ngành AI, khi hệ thống máy chủ đám mây chỉ đáp ứng nhu cầu mở rộng nghiên cứu AI bằng cách mở rộng quy mô của cả tham số, dữ liệu huấn luyện cũng như số lượng GPU dùng để huấn luyện AI.

Những lo ngại này trở thành hoảng loạn trên thị trường chứng khoán, khi cuối tháng 1, đầu tháng 2 vừa rồi, DeepSeek công bố V3 và R1, những mô hình ngôn ngữ cũng như mô hình logic chỉ tốn vài triệu USD để huấn luyện, tối ưu hiệu năng xử lý của toàn bộ hệ thống nhờ vào nhiều giải pháp, bao gồm cả chắt lọc dữ liệu.

Theo Reuters

Nguồn:tinhte.vn/thread/meta-mtia-chip-huan-luyen-ai-tap-doan-nay-tu-phat-trien.3968518/