Ngày 30/7/2024, một nhóm các nhà nghiên cứu từ Apple công bố bài báo trên trang Arxiv với tựa đề “LLM in a Flash: Efficient Large Language Model Inference with Limited Memory”. Nghiên cứu này nêu bật phương pháp tối ưu hóa khả năng xử lý các mô hình ngôn ngữ lớn (LLM) ngay trên thiết bị có giới hạn bộ nhớ, một bước tiến quan trọng trong việc biến trí tuệ nhân tạo trở thành tính năng mạnh mẽ và phổ biến trên các thiết bị cá nhân. Để đạt được điều này, nhóm nghiên cứu tại Apple đề xuất phương pháp lưu trữ mô hình trên bộ nhớ flash và sử dụng kỹ thuật “windowing” và “row-column bundling”, cho phép giảm nhu cầu bộ nhớ và tăng tốc độ xử lý. Công nghệ này mở ra khả năng chạy các mô hình ngôn ngữ lớn ngay trên thiết bị người dùng mà không cần phụ thuộc vào đám mây – một thay đổi có thể làm rung chuyển cả ngành công nghiệp AI. Cùng thời gian này, Apple đã gây chú ý khi công bố nâng cấp bộ nhớ RAM cơ bản cho các dòng iPhone, iPad và máy Mac mới: tối thiểu 16GB cho các máy tính Mac và 8GB cho iPhone/iPad. Động thái này không chỉ để phục vụ hiệu suất và trải nghiệm tốt hơn mà còn hỗ trợ tham vọng tích hợp các mô hình AI phức tạp trên thiết bị cá nhân. Sự nâng cấp phần cứng này giúp Apple mở rộng khả năng AI ngay trên thiết bị, phù hợp với tầm nhìn phát triển Apple Intelligence – một nền tảng AI on-device đầy khác biệt của Apple, được phát triển để thực hiện các tác vụ trí tuệ nhân tạo trực tiếp trên thiết bị, không cần dựa vào đám mây. Bên cạnh Apple thì Google và Microsoft cũng đang tham gia vào xu hướng AI on-device. Hồi tháng 5, Microsoft ra mắt Copilot Plus PC, tích hợp AI trực tiếp trên thiết bị với yêu cầu tối thiểu gồm 256GB SSD, 16GB RAM và một bộ xử lý thần kinh đạt công suất 40 TOPS. Trong khi đó, Google cũng đã công bố yêu cầu 12GB RAM cho các thiết bị Android hỗ trợ AI on-device, nhằm xử lý nhanh các tác vụ AI mà không cần gửi dữ liệu lên đám mây. Động thái này của cả hai cho thấy ngành công nghệ đang hướng đến AI on-device như một giải pháp bảo mật, hiệu suất cao và không phụ thuộc vào kết nối mạng. Tuy thế, AI đám mây vẫn là hướng đi chính của hầu hết các gã khổng lồ công nghệ bởi lý do lợi nhuận và ưu thế có sẵn, đó là dịch vụ đám mây (Microsoft, Alphabet, Amazon) và khai thác dữ liệu khách hàng (Meta). Microsoft và Google đều nâng cấp bộ nhớ Ram cơ bản cho các tác vụ AI on-device Tại sao AI On-Device lại là hướng đi của nhà Táo? Bước đi của Apple nhằm mang trí tuệ nhân tạo trực tiếp lên các thiết bị của người dùng đã đánh dấu sự khác biệt lớn so với các đối thủ trong ngành. Khác với AI đám mây, AI on-device cho phép các thiết bị như iPhone, iPad và Mac thực hiện các tác vụ AI phức tạp ngay trên thiết bị mà không cần truyền dữ liệu lên đám mây để xử lý. Đây là cách Apple muốn đảm bảo các tính năng AI không chỉ mạnh mẽ mà còn bảo vệ quyền riêng tư và bảo mật của người dùng, đồng thời giúp các thiết bị trở nên linh hoạt và có tính phản hồi cao hơn. Khác biệt giữa AI On-Device và AI đám mây, hay Apple và phần còn lại 1. Quyền riêng tư và bảo mật dữ liệu: - AI On-Device: Apple cho rằng dữ liệu cá nhân của người dùng cần được xử lý trực tiếp trên thiết bị và AI on-device cho phép điều đó. Với cách tiếp cận này, các dữ liệu nhạy cảm không phải gửi lên máy chủ từ xa, giúp giảm thiểu nguy cơ rò rỉ thông tin. - AI trên đám mây: Với AI dựa trên đám mây, dữ liệu cá nhân của người dùng phải được truyền tới máy chủ để xử lý, tiềm ẩn nguy cơ mất kiểm soát và xâm phạm quyền riêng tư nếu dữ liệu bị đánh cắp hoặc lạm dụng. 2. Hiệu suất và khả năng phản hồi: - AI On-Device: AI on-device xử lý ngay trên thiết bị của người dùng, giảm độ trễ và không phụ thuộc vào tốc độ kết nối mạng. Điều này giúp trải nghiệm của người dùng mượt mà và nhanh chóng, ngay cả khi không có Internet. - AI trên đám mây: Khi AI phụ thuộc vào đám mây, người dùng phải có kết nối Internet ổn định. Điều này không chỉ làm tăng độ trễ mà còn làm giảm hiệu suất khi mạng kém hoặc mất kết nối. 3. Tiết kiệm năng lượng và tối ưu hóa tài nguyên: Quảng cáoAdmicro AdX - Apple với Chip M: Dòng chip M của Apple được thiết kế tối ưu cho AI on-device, với Neural Engine chuyên dụng và kiến trúc bộ nhớ hợp nhất, cho phép các thiết bị xử lý các tác vụ AI phức tạp mà vẫn duy trì hiệu quả năng lượng. - AI đám mây: Các trung tâm dữ liệu đám mây yêu cầu một lượng năng lượng lớn để vận hành, gây ra lượng khí thải carbon đáng kể. Việc giảm phụ thuộc vào các trung tâm dữ liệu lớn giúp AI on-device trở thành một giải pháp thân thiện hơn với môi trường. Tối ưu hóa phần cứng Dòng chip M được thiết kế để hỗ trợ AI On-Device. Nhằm hiện thực hóa Apple Intelligence và các khả năng AI on-device, Apple không chỉ tập trung vào phần mềm mà còn tối ưu hóa phần cứng với dòng chip M, từ M1 đến M3 và gần đây là M4. - Neural Engine: Apple trang bị Neural Engine trên các chip M với hiệu suất hàng nghìn tỷ phép tính mỗi giây, cho phép thiết bị xử lý các tác vụ AI mà không cần đến đám mây. Neural Engine này giúp các tính năng AI trên iPhone, iPad và Mac trở nên mạnh mẽ và nhạy bén hơn. - Bộ nhớ hợp nhất (Unified Memory Architecture): Bộ nhớ hợp nhất cho phép các thành phần CPU, GPU và Neural Engine chia sẻ một bộ nhớ duy nhất, giảm độ trễ và tăng tốc độ truy xuất dữ liệu, đặc biệt quan trọng khi xử lý các tác vụ AI phức tạp. - Thiết kế tiết kiệm năng lượng: Dòng chip M được tối ưu hóa để tiết kiệm năng lượng, cho phép các thiết bị di động duy trì thời lượng pin lâu dài ngay cả khi thực hiện các tác vụ AI nặng. Nghiên cứu “LLM in a Flash”: Một bước tiến trong tối ưu hóa AI On-Device Quảng cáo Nghiên cứu “LLM in a Flash” của Apple là một phần quan trọng trong chiến lược AI on-device, nhằm tối ưu hóa khả năng xử lý các mô hình ngôn ngữ lớn (LLM) ngay trên thiết bị có bộ nhớ hạn chế. Bằng cách lưu trữ mô hình trên bộ nhớ flash và chỉ tải những phần cần thiết vào DRAM, Apple đã tối ưu hóa việc sử dụng bộ nhớ cho các thiết bị có RAM giới hạn. Các kỹ thuật như “windowing” và “row-column bundling” cho phép mô hình AI xử lý theo từng phần nhỏ của dữ liệu, giảm bớt nhu cầu phải tải toàn bộ mô hình vào RAM. Điều này phù hợp với kiến trúc bộ nhớ hợp nhất của dòng chip M và giúp các thiết bị Apple có thể chạy các mô hình ngôn ngữ lớn ngay trên thiết bị, mở ra khả năng triển khai các mô hình ngôn ngữ phức tạp mà không cần phụ thuộc vào đám mây. Nghiên cứu của Apple về tăng cường hiệu suất mô hình LLMs đối với các thiết bị giới hạn bộ nhớ Tầm nhìn xa hơn: Apple không chỉ tập trung vào hiệu suất và trải nghiệm người dùng hiện tại mà còn có một tầm nhìn dài hạn về sự ưu việt của AI on-device, đặc biệt trong bối cảnh những thách thức của AI trên đám mây ngày càng rõ rệt. 1. Bảo vệ quyền riêng tư tối đa: Với AI on-device, Apple không cần thu thập và xử lý dữ liệu của người dùng trên đám mây, giúp bảo vệ quyền riêng tư và giảm thiểu rủi ro rò rỉ thông tin. 2. Hiệu suất và độ phản hồi cao: Khả năng xử lý AI ngay trên thiết bị giúp các tính năng AI phản hồi tức thì, giảm độ trễ và không phụ thuộc vào tốc độ kết nối Internet. 3. Phát triển bền vững: AI on-device giảm phụ thuộc vào các trung tâm dữ liệu lớn, giúp giảm tiêu thụ năng lượng và khí thải carbon, phù hợp với xu hướng phát triển bền vững. 4. Tính linh hoạt và sẵn sàng cao: AI on-device có thể hoạt động ở bất kỳ đâu, không cần kết nối Internet, giúp người dùng có trải nghiệm liên tục và ổn định trong mọi hoàn cảnh. Kết luận: Bằng việc tối ưu hóa phần cứng với dòng chip M và chip A thế hệ mới cùng các nghiên cứu như “LLM in a Flash”, Apple không chỉ đáp ứng các yêu cầu về hiệu suất và quyền riêng tư cho AI on-device mà còn đặt nền móng cho một tương lai AI bền vững và an toàn. Chiến lược AI on-device của Apple đã mang đến một hướng đi khác biệt, không chỉ mang lại lợi ích thiết thực mà còn củng cố cam kết bảo vệ quyền riêng tư cho người dùng. Trong khi các đối thủ vẫn phụ thuộc vào AI trên đám mây, Apple đã chọn con đường phát triển AI trên thiết bị cá nhân – một con đường đầy hứa hẹn cho tương lai trí tuệ nhân tạo bảo mật và thân thiện với môi trường