Qualcomm vừa ra mắt Snapdragon 8 Elite, mẫu chip smartphone mạnh nhất của công ty, dự kiến sẽ trang bị cho hàng loạt điện thoại cao cấp của hầu hết các brand điện thoại trong vài tuần tới. Tại sự kiện ra mắt, chủ tịch của Qualcomm đã dành ra rất nhiều thời gian để nói tới vai trò của AI mà mẫu chip này hỗ trợ và thực sự, nó sẽ thay đổi hoàn toàn cách người dùng xài điện thoại cùng các ứng dụng trong đó trong tương lai gần. Đằng sau những thay đổi đó chính là một hệ thống AI Agent. Trùng hợp thú vị, CEO Microsoft Satya Nadella mới đây cũng dành rất nhiều thời gian để nói về hệ thống AI Agent trong một sự kiện đang diễn ra. Thú vị hơn nữa, Claude, một trong những chatbot nổi tiếng thời gian qua cũng vừa giới thiệu tính năng Agent AI hiện đã xài được qua API, cho phép AI điều khiển luôn cả máy tính người dùng để thực hiện nhiệm vụ. Vậy AI Agents là cái gì mà ai cũng nói tới? Mời các bạn tham khảo qua bài viết bên dưới nhé. Sự tiến hóa của gen AI trong 3 năm quaTừ LLM… Để dễ hiểu AI Agent là gì, đầu tiên chúng ta nên nhìn lại một chút xíu về sự tiến bộ của genAI trong khoảng hơn 2 năm vừa qua. Từ đâu đó khoảng 2022, khái niệm mô hình ngôn ngữ lớn (LLM) đã cực kỳ phổ biến. Thời điểm đó chứng kiến sự bùng nổ của các model được huấn luyện lên tới hàng chục tỷ tham số đến từ OpenAI, Anthropic, Google, rồi Mistral, Meta,... Lúc đó, các model hầu hết đều được huấn luyện bộ não vector database theo kiểu là nhét mọi thứ mà loài người đã tạo ra dưới dạng kỹ thuật số vào cho nó. Và rồi nhanh thôi, người ta nhận thấy rằng cách tiếp cận "dạy AI" đó bộ lộc quá nhiều nhược điểm. Do bản chất được huấn luyện bằng các tập data có giới hạn và không hoàn chỉnh, nên dẫn tới model sẽ trả lời không chính xác ở rất nhiều thông tin, đặc biệt là các thông tin mang tính thời sự hoặc thông tin ngách của một nhóm người hay mỗi người. Nghiêm trọng hơn, nó còn tạo ra những câu trả lời có vẻ hợp lý nhưng chứa thông tin sai - hiệu tượng mà người ta gọi là Hallucianation. Thí dụ như với model lúc đó đó, dù xịn cỡ nào, bạn đặt câu hỏi "tôi còn bao nhiêu ngày phép trong năm nay để dẫn bồ đi Đà Lạt chơi vài ngày", chắc chắn model chẳng biết do nó đâu có data quy định của công ty bạn. Có thể thấy LLM "truyền thống" khá cứng nhắc, hiểu biết có giới hạn và rất khó để có thể thích ứng với các thông tin mới, khó khăn trong việc cập nhật. … đến RAG … Và thế là đâu đó khoảng đầu 2023, bùng nổ lên một giải pháp khác giúp phần nào khắc phục các yếu điểm này. Lúc đó, người ta tìm cách giải quyết chuyện đó bằng cách cho phép "dạy thêm" cho model với các thông tin chuyên biệt, nhằm tìm cách phục vụ cho một nhu cầu đặc thù nào đó của mỗi cá nhân / tổ chức. Đây chính là cách tiếp cận của RAG - Retrieval-Augmented Generation. Nôm na, các thông tin chuyên biệt sẽ được đưa vào dạy thêm cho model. Lúc đó, khi người dùng truy vấn bằng prompt, câu truy vấn đó sẽ được đưa vào tìm kiếm trong database dạy thêm (cũng là một vector database), sau đó mới tiếp tục chuyển cho model chính để tạo ra câu trả lời cho người dùng. Thí dụ như kết hợp model Mistral với một data tổng hợp các quy định của công ty, hệ thống này sẽ trả lời được câu hỏi bên trên của người dùng. Nó có thể đưa ra câu trả lời đúng cho câu hỏi "còn bao nhiêu ngày phép". Trên đây chính là hoạt động cơ bản của một hệ thống RAG (thực ra người ta gọi đúng là Compound AI System, nhưng mà mình dùng RAG luôn cho nó dễ hiểu). Dựa trên nguyên tắc này, người ta đã tạo ra rất nhiều hệ thống RAG, mỗi RAG sẽ chuyên dụng cho 1 nhu cầu. Giải pháp RAG rõ ràng tiết kiệm, nhanh chóng để có được một hệ thống phục vụ cho một cá nhân mà không cần đi dạy lại model lớn vốn phức tạp hơn rất nhiều. Quảng cáoAdmicro AdX Hiện tại, nhiều bên đang áp dụng cách tiếp cận này để tạo ra các hệ thống AI Chatbot hữu dụng hơn, phục vụ cho đa dạng các nhu cầu của cá nhân và doanh nghiệp, phân tích các tài liệu chuyên ngành,... Thậm chí các hãng công nghệ lớn cũng tạo ra các hệ thống RAG này và cung cấp cho người dùng, thí dụ như NVIDIA Chat RTX, HP Companion và thậm chí là NotebookLM rầm rộ lên mấy tháng nay trong giới nghiên cứu, học tập thì ban đầu cơ bản nhất cũng là một dạng RAG. Tiếp tục quay trở lại thí dụ lên kế hoạch đi Đà Lạt chơi. Hệ thống RAG trên đã có thể trả lời được vụ số ngày nghỉ phép. Tuy nhiên, bây giờ mình muốn hỏi tiếp nó là nên đi nhà xe nào lên Đà Lạt? Nhiều khả năng nó sẽ không trả lời được do bản chất, nó chỉ mới biết thêm vụ quy định của công ty và flow hoạt động của nó cũng sẽ đi qua database kiến thức quy định của công ty. Vậy là để giải quyết, mình phải làm thêm một RAG nữa, trong đó dạy cho nó kiến thức của mọi nhà xe chạy tuyến SG - Đà Lạt. Vậy thử hình dung, cứ mỗi chuyện mới mình muốn hỏi AI lại phải xài một RAG khác, là một hệ thống khác, quá phiền và mất thời gian đúng không? … và AI Agent Vậy là tới đầu năm 2024 này, người ta đã tìm được cách để có thể cố giải quyết sự rắc rối đó. Đó chính là AI Agent. Về bản chất, nếu chúng ta nhìn kỹ thì hệ thống RAG bên trên là một hệ thống đường thẳng kiểu: người dùng Prompt > search query > Database dạy thêm > Database model chính > tạo câu trả lời. Bây giờ thay vì mỗi RAG độc lập như vậy, chúng ta gom các RAG lại với nhau và lâp trình một logic để điều hướng đường đi của prompt để nó đi tới đúng data dạy thêm cần truy vấn. Đó chính là ý tưởng để tạo nên một hệ thống AI Agent. Có thể hình dung, 1 hệ thống RAG nói trên chính là 1 Agent. Và nếu chúng ta điều hướng logic của cả hệ thống, chúng ta sẽ có thể phối hợp các LLM, các RAG lại với nhau để phục vụ nhiều yêu cầu của người dùng trong 1 hệ thống lớn thống nhất. Cho dễ hình dung, nguyên một hệ thống AI Agent sẽ có nhiều ông công nhân AI (gọi là các agent), mỗi ông này sẽ chịu trách nhiệm xử lý 1 chuyện chuyên biệt, 1 ông quản lý, chia việc cho các ông khác. Chi tiết về hệ thống AI Agent Quảng cáo IBM họ định nghĩa AI Agent là AI Agent là một hệ thống AI tiên tiến được vận hành bởi các mô hình ngôn ngữ lớn (LLM) có khả năng tự lập kế hoạch và thực hiện các hành động phức tạp để giải quyết vấn đề. Hộ hệ thống Ai Agent sẽ có khả năng: Khả năng lập luận (Reasoning): AI Agent sử dụng LLM để phân tích vấn đề, chia nhỏ nó thành các bước nhỏ hơn, và tạo ra một kế hoạch để giải quyết vấn đề một cách hiệu quả. Khả năng hành động (Acting): AI Agent được trang bị các "công cụ" (tools) - là các chương trình bên ngoài - cho phép chúng thực hiện các hành động cụ thể. Ví dụ về các công cụ bao gồm tìm kiếm thông tin trên web, truy vấn cơ sở dữ liệu, thực hiện tính toán, hoặc thậm chí sử dụng một mô hình ngôn ngữ khác để dịch thuật. Khả năng ghi nhớ (Memory): AI Agent có khả năng lưu trữ thông tin từ các tương tác trước đó, bao gồm các cuộc trò chuyện với người dùng và các bước đã thực hiện trong quá trình giải quyết vấn đề. Khả năng này cho phép AI Agent cá nhân hóa trải nghiệm của người dùng và đưa ra quyết định dựa trên ngữ cảnh. Khác với RAG (hay các hệ thống Compound AI), hệ thống AI Agent có khả năng tự chủ. Nghĩa là nó không cần con người lập trình sẵn cách làm việc mà nó sẽ xài chính LLM để tự tạo ra và kiểm soát logic hoạt động của nó để đưa ra quyết định. Với những khả năng đó, hệ thống AI Agent sẽ được dùng để: Giải quyết vấn đề phức tạp: AI Agent có khả năng giải quyết các vấn đề phức tạp đòi hỏi nhiều bước và khả năng thích ứng linh hoạt. Tính linh hoạt và khả năng mở rộng: AI Agent có thể được trang bị nhiều loại công cụ khác nhau, cho phép chúng thực hiện nhiều loại nhiệm vụ. Tự động hóa: AI Agent có thể tự động hóa các quy trình phức tạp, giải phóng con người khỏi các nhiệm vụ lặp đi lặp lại. Quay trở lại thí dụ về vụ lập kế hoạch đi Đà Lạt chơi của mình. Với một hệ thống AI Agent, chỉ 1 vài câu hỏi để 2 bên "hiểu nhau", hệ thống có khả năng trả về luôn 1 kế hoạch hoàn chỉnh, không chỉ gồm số ngày được nghỉ đi chơi, đi bằng nhà xe nào cho tiện, đi lên tới mấy giờ, ở khách sạn nào,... mà nó còn tính coi thời tiết ra sao, có nên đem theo áo khoác chống nước không, có cần mang khăn choàng, cần đem theo bao nhiêu thuốc cảm nếu bạn gái mình hay ốm vặt,... Đó chính là khả năng của Agent AI. Ứng dụng thực tế của AI Agent Thí dụ, bây giờ nhu cầu của mình là một hệ thống mình chỉ cần ngồi đọc voice, nó sẽ tự chuyển voice của mình sang dạng chữ, sau đó lôi các thí dụ minh họa, thuật ngữ chuyên ngành nếu có đề cập tới, cuối cùng là giúp mình hoàn thiện bài viết đó dựa theo các quyết định của mình, rồi sinh ra hình minh họa cho từng phần của bài viết luôn. Lúc này mình sẽ xài Whisper của Meta để nhận diện giọng nói, rồi xài một cái RAG build trên Llama 3.2 7B, sau đó xài tiếp Stable Diffusion 3.5 để gen hình chẳng hạn. Sâu bên trong đó, mình cần Một con Agent nhận lệnh của mình, điều phối và phân chia công việc Agent chuyển voice thành text Một agent đọc text thô, gợi ý các thuật ngữ, thông tin số liệu liên quan Một agent chờ lệnh của con bên trên để đi kiếm tài liệu thuật ngữ Một agent khác gom hết lại và điều chỉnh thành 1 bài viết gợi ý Một agent tạo prompt dựa vào bài viết gần hoàn chỉnh, sau đó gởi vô model SD 3.5 để gen hình. Sơ sơ như vậy, mình có 1 hệ thống mà chỉ cần đọc voice ban đầu, bấm 1 nút, tụi Agent sẽ tự làm việc ở tầng backend và cái mình nhận được là kết quả cuối cùng, 1 bài hoàn chỉnh, có cả hình minh họa cho từng đoạn. Nếu không vừa ý bắt nó làm lại. Đó là thí dụ cho 1 hệ thống AI Agent. Có thể thấy, tất cả mọi thứ rắc rối phức tạp và thủ công sẽ để cho các Agent tự làm với nhau, cái mình quan tâm chỉ là lệnh đầu vào và kết quả đầu ra. Và chính nhờ sự tiện lợi của cách tiếp cận này, các hãng công nghệ đã đưa ra các công cụ để thúc đẩy sự phát triển của Agent AI với mục đích cuối cùng là tạo nên trải nghiệm sử dụng tiện lợi hơn, có được cái mong muốn nhanh hơn. Đơn cử như trường hợp của Qualcomm với con chip Snapdragon 8 Elite vừa ra mắt. Nền tảng và phần cứng được Qualcomm làm sẵn, các OEM và cả các anh dev sẽ hoàn toàn có thể làm ra các tính năng AI Agent cho chính phần mềm của họ. Tại sự kiện, họ demo thử tính năng Agent AI này trong tình huống xài app ngân hàng. Đối với app truyền thống, khi cần tra cứu giao dịch nào đó, chúng ta sẽ vào app, làm theo trình tự qua các bước để coi. Giờ với AI Agent, chúng ta chỉ cần đặt câu hỏi: "Cho tôi coi 3 giao dịch gần nhất". AI Agent sẽ tự đi phối hợp làm việc với nhau (logic sao thì không cần quan tâm), và đưa ra kết quả là 3 giao dịch gần nhất. Đơn giản 1 đầu 1 cuối. Trong thí dụ khác, thí dụ như bạn đang đi mall và thấy một cái áo để trong tủ kính. Bạn nghĩ trong đầu là còn đủ tiền mua hay không. Chỉ cần đơn giản là chụp tấm hình, đưa vào điện thoại và hỏi là tui còn đủ tiền mua cái áo này hay không. Đội AI Agent sẽ tự đi kiếm thông tin chiếc áo, tự xác định giá, rồi tự đi coi số dư ngân hàng, sau đó trả lời câu hỏi của người dùng là còn đủ tiền mua hay không. Vô số ứng dụng mà AI Agent có thể làm được. Việc kết quả trả về có đúng hay không sẽ phụ thuộc lớn vào khả năng suy luận của hệ thống AI mà bản chất là LLM chính. Và chính vì thế mà nếu để ý thời gian gần đây, các bên như OpenAI, Google đều tập trung vào khả năng suy luận khi cập nhật model thay vì nhồi thêm kiến thức vào cho nó (vì sẽ chẳng bao giờ là đủ cả). Chưa dừng lại ở đó, mình có nói chuyện với một anh kỹ sư bên Qualcomm và nền tảng mới của Qualcomm, không chỉ có thể chạy các LLM trên điện thoại, mà cả các model nhỏ hơn trên smartwatch, smart glass, tai nghe,... Mục tiêu là hiểu được người dùng nhiều nhất có thể. Lúc đó, hệ thống AI Agent sẽ là một "trợ lý ảo" vừa nhìn được thế giới, hiểu được ngươi dùng và chỉ cần người dùng đề cập tới một cách rất tự nhiên, trợ lý sẽ đưa ra gợi ý đúng ý nhất. Giống như là mỗi người có một trợ lý cá nhân đã làm việc lâu năm và biết ý của mình vậy. Tương lai đã tới rồi Khác với những công nghệ khác vốn nghe có vẻ viễn tưởng và tương lai xa, hiện tại các ứng dụng AI Agent đã được hỗ trợ từ phần cứng, framework, rồi cả hệ sinh thái trên các AI Dev Hub bởi Qualcomm. Những chiếc máy chạy 8 Elite vài tuần nữa sẽ dần được phát hành từ Samsung, OPPO, Vivo, Xiaomi, Honor, realme, Google,... Và chắc chắn, AI Agent sẽ là thành phần quan trọng trong đó. Ở sự kiện, mình đã coi Honor họ chạy thử ứng dụng trợ lý hoạt động bằng AI Agent. Trong demo, người dùng chỉ cần nói "buồn ngủ quá", AI sẽ tự biết là họ đang cần cà phê, sau đó nó tự đi kiếm các quán cà phê, rồi tự đưa ra gợi ý là có nên đặt cà phê ở quán X đó không. Người dùng ok là nó tự vào app đặt cà phê luôn. Mình có quay lại đoạn demo này, các bạn vào link video bên trên để xem thêm chi tiết nhé. Bởi thế, mình tin rằng những chiếc smartphone trong năm tới rồi cũng sẽ có rất nhiều trợ lý hoạt động như thế, được phát triển bởi từng OEM. Cho tới hiện tại, Samsung và Google là 2 brand mà mình đánh giá là có hệ thống AI hiệu quả, hữu dụng nhất trên smartphone, với hệ sinh thái Samsung Galaxy AI và Google Gemini. Tuy nhiên, các tính năng AI trên Galaxy AI vẫn khá rời rạc, nghĩa là các tính năng vẫn riêng biệt và vẫn theo dạng 1 đầu cuối. Do đó, bước nâng cấp tiếp theo mình tin rằng chắc chăn sẽ là AI Agent. Gemini hiện tại chính là một hệ thống AI Agent với nhiều model trong đó. Với Samsung, mình nghĩ rằng họ hoàn toàn có thể biến Bixby của họ trở thành một hệ thống AI Agent để hữu dụng hơn, làm được nhiều việc như một trợ lý đúng nghĩa hơn. Đặc biệt, sẽ hỗ trợ tiếng Việt. Các smartphone khác như Xiaomi hay OPPO vẫn khá đơn điệu, tính năng xoay quanh tạo ảnh và tóm tắt, sửa câu. Đồng thời chúng cũng hoạt động dựa trên LLM độc lập và vẫn cần chuyển về cloud để xử lý. Một phần nguyên nhân mình cho rằng chính là do dưới local chưa đủ phần cứng để xử lý các model. Tuy nhiên với 8 Elite thì câu chuyện đã hoàn toàn khác bởi nó hoàn toàn đủ phần cứng đẻ chạy các AI Agent này. Bởi thế, năm 2025 sắp tới chắc chắn sẽ là một năm cực kỳ thú vị đối với các tính năng AI trên smartphone. Rõ ràng, smartphone mà chúng ta biết sẽ có các trợ lý ảo thực sự đắc lực, hiệu quả và phổ biến hơn bao gờ hết. Cùng hóng nhé.