Hôm nay 6/4/2025, Meta đã chính thức ra mắt hai mô hình đầu tiên thuộc series Llama 4, đánh dấu việc triển khai kiến trúc đa phương thức (multimodal) được xây dựng hoàn toàn mới của công ty.
Cả hai mô hình, Llama 4 Scout và Llama 4 Maverick, đều sử dụng thiết kế Mixture-of-Experts (MoE), trong đó chỉ một phần nhỏ các tham số được kích hoạt cho mỗi đầu vào, giúp giảm tải tính toán. Các hệ thống “expert” giống như những mô hình chuyên môn riêng tích hợp vào toàn bộ hệ thống mô hình ngôn ngữ lớn.

Theo Meta, đây là những mô hình Llama đầu tiên có khả năng xử lý đồng thời cả văn bản và hình ảnh trong cùng một kiến trúc. Công ty cho biết các mô hình này đã được huấn luyện trên nhiều loại hình ảnh và video khác nhau để hỗ trợ khả năng hiểu ngôn ngữ thị giác toàn diện. Trong quá trình tiền huấn luyện, hệ thống có thể xử lý tới 48 hình ảnh đồng thời. Trong các đánh giá sau huấn luyện, nó đã chứng minh hiệu suất mạnh mẽ với khả năng nhận diện tối đa tám hình ảnh làm dữ liệu đầu vào.
Mô hình nhỏ hơn, Llama 4 Scout, vận hành dựa trên 17 tỷ tham số hoạt động, thu gọn từ con số tổng cộng 109 tỷ, được phân phối với 16 hệ thống chuyên môn khác nhau. Nó được tối ưu hóa để chạy trên một GPU máy chủ Nvidia H100 duy nhất, và được thiết kế cho các tác vụ như xử lý văn bản dài, trả lời câu hỏi trực quan, phân tích mã nguồn lập trình và hiểu nhiều dạng hình ảnh.
Scout có cửa sổ ngữ cảnh 10 triệu token, tương đương khoảng 5 triệu từ hoặc dài hơn. Mặc dù quy mô ấn tượng, Meta vẫn chưa đề cập đến hiệu quả xử lý các truy vấn phức tạp vượt ra ngoài tìm kiếm từ ngữ đơn giản. Việc công ty sử dụng chuẩn đo "Needle in the Haystack" đã lỗi thời để kiểm tra cửa sổ ngữ cảnh cho thấy những hạn chế nhất định, đặc biệt khi có sẵn các chuẩn đo đạc ngữ cảnh AI tinh vi hơn. Tất cả các mô hình ngôn ngữ vẫn còn tồn tại những hạn chế trong việc hiểu cả văn bản và hình ảnh.
Ngoài ra, mô hình được huấn luyện với độ dài ngữ cảnh chỉ 256K token trong cả quá trình tiền huấn luyện và sau huấn luyện. Cửa sổ ngữ cảnh 10 triệu token được quảng cáo dựa trên khả năng tổng quát hóa độ dài chứ không phải là kết quả của quá trình huấn luyện trực tiếp.
Llama 4 Maverick cũng sử dụng 17 tỷ tham số hoạt động, nhưng lấy từ tổng cộng 400 tỷ, được phân phối trên 128 mô hình chuyên môn khác nhau. Tương tự như Scout, nó sử dụng kiến trúc mixture-of-experts, giúp giảm tải tính toán bằng cách chỉ kích hoạt một tập hợp con các hệ thống xử lý chuyên môn kiến thức cho mỗi lần nhận diện dữ liệu đầu vào. Bất chấp những cải tiến về hiệu quả này, mô hình vẫn cần nguyên một máy chủ Nvidia DGX H100, đầy đủ với 8 GPU để triển khai do quy mô tham số của nó. Nó hỗ trợ cửa sổ ngữ cảnh lên đến một triệu token.
Meta cho biết rằng Llama 4 Maverick vượt trội hơn OpenAI’s GPT-4o và Google’s Gemini 2.0 Flash trong nhiều đánh giá chuẩn. Mô hình cũng đạt được kết quả tương đương với Deepseek V3 trong các tác vụ suy luận và tạo code lập trình, mặc dù sử dụng ít hơn một nửa tổng tham số vận hành Trong cấu hình chat thử nghiệm của mình, Maverick đạt điểm 1417 trên bảng xếp hạng LMArena ELO.
Cả Scout và Maverick đều có sẵn dưới dạng mô hình nguồn mở thông qua llama.com và Hugging Face. Meta cũng đã tích hợp chúng vào các sản phẩm bao gồm WhatsApp, Messenger, Instagram Direct và Meta.ai. Các mô hình Llama 4 bổ sung dự kiến sẽ được công bố tại LlamaCon vào ngày 29 tháng Tư. Bạn có thể đăng ký tại đây.
Scout và Maverick được huấn luyện bằng Llama 4 Behemoth, một mô hình nội bộ lớn hơn với 288 tỷ tham số hoạt động từ tổng cộng 2 nghìn tỷ, được phân phối trên 16 hệ thống chuyên môn. Behemoth đóng vai trò là mô hình giáo viên và, theo Meta, vượt trội hơn GPT-4.5, Claude Sonnet 3.7 và Gemini 2.0 Pro trong các chuẩn đo toán học và khoa học.
Nói cách khác, Llama 4 Scout và Maverick được “chắt lọc” từ chính Llama 4 Behemoth, ứng dụng kỹ thuật không khác nhiều so với những gì Deepseek đã làm để tạo ra V3 và R1, nhưng họ chắt lọc bằng chính mô hình quy mô cực lớn, 2 nghìn tỷ tham số, do họ tự phát triển trước đó. Cụ thể hơn, trên blog chính thức của Meta, họ viết rằng:
"Chúng tôi rất vui mừng chia sẻ bản xem trước của Llama 4 Behemoth, một mô hình giáo viên thể hiện trí thông minh vượt trội so với các mô hình cùng loại. Llama 4 Behemoth cũng là một mô hình đa phương thức mixture-of-experts, với 288 tỷ tham số hoạt động, 16 hệ thống chuyên môn và gần hai nghìn tỷ tham số tổng. Với hiệu suất hàng đầu trong lĩnh vực dành cho các mô hình không suy luận về toán học, đa ngôn ngữ và điểm chuẩn hình ảnh, nó là lựa chọn hoàn hảo để đào tạo các mô hình Llama 4 kích thước nhỏ hơn.
Chúng tôi đã sử dụng phương pháp co-distillation (chưng cất đồng thời) để tạo ra mô hình Llama 4 Maverick, với Llama 4 Behemoth đóng vai trò như một mô hình giáo viên, dẫn đến những cải thiện đáng kể về chất lượng trên các chỉ số đánh giá tác vụ cuối cùng. Chúng tôi đã phát triển một hàm chưng cất hoàn toàn mới, trọng số động, các mục tiêu khác nhau trong suốt quá trình huấn luyện.
Chưng cất đồng thời từ mô hình Llama 4 Behemoth trong giai đoạn tiền huấn luyện giúp phân bổ chi phí tính toán của các lần truyền thẳng (forward passes) tốn nhiều tài nguyên cần thiết, để tính toán các mục tiêu chưng cất cho phần lớn dữ liệu được sử dụng trong quá trình huấn luyện mô hình học trò. Đối với dữ liệu mới bổ sung vào quá trình huấn luyện mô hình học trò, chúng tôi đã thực hiện các lần truyền thẳng trên mô hình Behemoth để tạo ra các mục tiêu chưng cất."
Tuy nhiên, Meta vẫn chưa công bố so sánh với Google’s Gemini 2.5 Pro mới nhất, hiện đang là tiêu chuẩn hàng đầu trong các đánh giá mô hình AI suy luận. Behemoth vẫn đang được huấn luyện và dự kiến sẽ được ra mắt sau này. Một mô hình Llama chuyên dụng cho suy luận vẫn chưa được phát hành, mặc dù CEO của Meta, Mark Zuckerberg, đã nói vào tháng 1 rằng nó đang chuẩn bị được ra mắt.
Sau khi thực hiện quá trình tiền huấn luyện, Meta áp dụng nhiều giai đoạn hậu huấn luyện để cải thiện hiệu suất mô hình. Điều này bao gồm tinh chỉnh có giám sát với các ví dụ được tuyển chọn kỹ lưỡng, sau đó là học tăng cường trực tuyến, sử dụng một hệ thống bất đồng bộ mới giúp tăng hiệu quả đào tạo lên mười lần.
Tối ưu hóa Ưu tiên Trực tiếp (Direct Preference Optimization) sau đó được sử dụng để tinh chỉnh chất lượng đầu ra, với trọng tâm loại bỏ các ví dụ tầm thường. Theo Meta, hơn một nửa tập dữ liệu huấn luyện của Maverick và 95% của Behemoth đã bị lọc bỏ để tập trung các mô hình vào các tác vụ khó khăn hơn.
Meta đang phát hành các mô hình Llama 4 theo giấy phép Llama tiêu chuẩn của mình, nhưng với một hạn chế mới: Các công ty và cá nhân có trụ sở tại EU bị loại trừ khỏi việc sử dụng các mô hình đa phương thức. Hạn chế này không áp dụng cho người dùng cuối.
Theo Meta, động thái này là do "sự không chắc chắn về quy định" xung quanh Đạo luật AI của EU. Quyết định này phản ánh những căng thẳng liên tục giữa Meta và các nhà hoạch định chính sách của EU, với Meta đang thúc đẩy hoặc hướng dẫn rõ ràng hơn hoặc các quy định ít hạn chế hơn, tùy thuộc vào cách giải thích.
Các nhà phát triển ở nơi khác phải hiển thị nhãn "Built with Llama" (Được xây dựng bằng Llama) và chỉ có thể sử dụng tên mô hình được tiền tố bằng "Llama". Các nền tảng với hơn 700 triệu người dùng hoạt động hàng tháng phải xin phép đặc biệt từ Meta. Nguồn:tinhte.vn/thread/meta-llama-4-chinh-thuc-ra-mat-hai-phien-ban-scout-va-maverick-xu-ly-duoc-10-trieu-token.3986075/