Mặc dù có sự phổ biến, Apple tiết lộ các chiến thuật đào tạo mô hình AI - từ cào trên web hàng loạt đến các giao dịch cấp phép bí mật và nội dung tổng hợp
Tại WWDC, Apple chủ yếu giới thiệu ngôn ngữ thiết kế mới cho hệ điều hành mang tên Liquid, đồng thời công bố thế hệ tiếp theo của các mô hình AI nền tảng cho cả thiết bị và đám mây. Sau sự kiện, công ty này đã cung cấp một báo cáo kỹ thuật chi tiết để người dùng và cộng đồng công nghệ có thể hiểu rõ hơn về cách các mô hình của Apple được đào tạo và tối ưu hóa, từ đó giúp hiểu rõ hơn về chiến lược AI của hãng.
Công ty nhấn mạnh trong báo cáo rằng họ đã có một phương pháp tập trung khi đào tạo các mô hình với sự riêng tư và hiệu quả là cốt lõi. Trong báo cáo mang tên "Apple Intelligence Foundation Language Models - Tech report 2025", Apple đã cung cấp thông tin chi tiết về các yếu tố chính của các mô hình AI mới nhất, mặc dù đã mất đi sự phổ biến trong lĩnh vực AI.
Tài liệu đề cập đến mọi khía cạnh, từ kiến trúc mô hình, thời gian đào tạo, đến việc tinh chỉnh mô hình sau đào tạo. Nó cũng khám phá các phương pháp đảm bảo cải tiến kỹ thuật cho các mô hình, giúp chúng hiệu quả hơn mà không xâm phạm quyền riêng tư. Trong khi Apple đã chia sẻ về các mô hình AI trên thiết bị dành cho các nhà phát triển và thông tin về 3 tỷ tham số, hạn chế trước đây là cấu trúc của nó vẫn thưa thớt cho đến nay.
Theo báo cáo, mô hình được chia thành các phần để nâng cao hiệu suất. Phần đầu tiên gọi là Khối 1, chứa hơn 60% các khối xây dựng chính gọi là lớp transformer. AI hiểu ngôn ngữ chủ yếu và sau đó tạo ra phản hồi. Phần thứ hai gọi là Khối 2, nhẹ hơn nhờ loại bỏ hai thành phần kỹ thuật chiếm nhiều bộ nhớ là projection key và value.
Nhờ chiến lược này, Apple đã giảm khoảng 38% bộ nhớ sử dụng của mô hình và cải thiện thời gian phản hồi. Công ty đang tìm cách nâng cao hiệu suất của các mô hình AI tại chỗ và đã từng xem xét việc chạy mô hình lớn hơn khả năng bộ nhớ của thiết bị. Dù không áp dụng cách này, họ vẫn tiếp tục tìm kiếm giải pháp để vượt qua các hạn chế phần cứng và thách thức khác.
Về phía máy chủ của mô hình AI, Apple đã sử dụng kiến trúc tùy chỉnh cho hệ thống Private Cloud Compute của mình. Phương pháp này được gọi là Mixture-of-Experts theo hướng song song (PT-MoE), giúp chia nhỏ các mô hình AI lớn thành những phần nhỏ hơn gọi là các chuyên gia. Nhờ đó, mô hình không cần chạy toàn bộ mỗi lần, mà chỉ tập trung vào chuyên gia phù hợp với nhiệm vụ cụ thể.
📢 Liên hệ quảng cáo: 0919 852 204
Quảng cáo của bạn sẽ xuất hiện trên mọi trang!
Chỉ một phần của mô hình có chuyên môn trong lĩnh vực sẽ được kích hoạt, giúp tiết kiệm hiệu suất và tăng cường hiệu quả. Apple đã thiết kế một kiến trúc Transformer mới gọi là Parallel Track Transformer, với nhiều đường đi hoạt động độc lập và chỉ kết hợp tại những điểm quan trọng. Nhờ quy trình này, mô hình không gặp phải tình trạng chậm hệ thống. Công ty cũng đã khắc phục một trong những vấn đề lớn nhất của Apple Intelligence, đó là hỗ trợ ngôn ngữ hạn chế.
Apple đã cải thiện khả năng đa ngôn ngữ của các mẫu mới bằng cách tăng tỷ lệ dữ liệu không phải tiếng Anh trong quá trình đào tạo từ 8% lên 30%. Điều này bao gồm cả nội dung thực và nội dung do AI tạo ra, giúp mô hình hiểu biết tốt hơn và hỗ trợ nhiều ngôn ngữ hơn, từ đó cải thiện các tính năng như Công cụ Viết.
Khi đào tạo hệ thống AI mới, Apple chủ yếu dựa vào dữ liệu web thu thập từ Applebot, công cụ thu thập dữ liệu của chính công ty. Đặc biệt, Apple tôn trọng quyền riêng tư, nếu một trang web không muốn bị thu thập, công ty sẽ không sử dụng nội dung của trang đó. Apple sử dụng nhiều kỹ thuật khác nhau, chủ yếu dựa vào dữ liệu web công khai để đào tạo mô hình.
Apple có xu hướng lọc nội dung không liên quan và tập trung vào các tập dữ liệu hữu ích. Công ty cũng dựa vào nội dung được cấp phép từ các nhà xuất bản, nhưng không công khai tên các công ty truyền thông mà họ sử dụng. Ngoài ra, Apple sử dụng các mô hình nhỏ hơn để thu thập dữ liệu tổng hợp, đặc biệt trong các nhiệm vụ liên quan đến hình ảnh và ngôn ngữ, mã, hoặc việc thực hiện hướng dẫn, nhằm cải thiện việc tinh chỉnh.
Phương pháp đa dạng của Apple bao gồm dữ liệu hình ảnh, với hơn 10 tỷ cặp hình ảnh và chú thích, bao gồm cả ảnh chụp màn hình và ghi chú viết tay. Apple cũng sử dụng các mô hình của riêng mình để tạo ra chú thích phong phú hơn. Tất cả các phương pháp đào tạo này giúp Apple xây dựng các mô hình thông minh và mạnh mẽ hơn. Cách tiếp cận của Apple trong việc đào tạo mô hình AI được thể hiện rõ ràng, là một chiến lược cân bằng đảm bảo hệ thống mạnh mẽ và linh hoạt mà không làm giảm giá trị cốt lõi về quyền riêng tư.
Nguồn: wccftech.com/despite-its-dip-in-popularity-apple-reveals-ai-model-training-tactics-from-mass-web-scraping-to-secret-licensing-deals-and-synthetic-content/