'Chưng cất' là gì khiến các công ty AI tiên phong lo ngại?
Chưng cất trong công nghệ AI là quá trình chuyển giao kiến thức từ mô hình lớn (giáo viên) sang mô hình nhỏ hơn (học sinh), giúp mô hình nhỏ đạt hiệu suất tương đương với mô hình lớn. Việc các công ty AI mới sử dụng kỹ thuật này từ các mô hình trước đó đang gây lo ngại cho những công ty tiên phong. Hai nhà khoa học Vishal Yadav và Nikhil Pandey đã chia sẻ thông tin này với Forbes.
Kỹ thuật này cho phép người dùng khai thác chất lượng của các mô hình ngôn ngữ lớn (LLM) và giảm chi phí suy luận. Ali Ghodsi, CEO của Databricks, so sánh việc này như có vài giờ phỏng vấn Einstein để nắm vững kiến thức vật lý. Các mô hình AI hàng đầu từ OpenAI, Google, Meta và Anthropic thường tự học từ đầu với lượng dữ liệu khổng lồ, mất nhiều tháng và tốn hàng chục triệu USD.
Một công ty mới thành lập có thể nhanh chóng tạo ra mô hình tốt chỉ trong vài ngày hoặc vài tuần với chi phí thấp hơn bằng cách sử dụng kết quả từ các AI đi đầu, nhờ vào quy trình chưng cất dễ sao chép. Nhà khoa học Lewis Tunstall đã chia sẻ thông tin này trên blog, và OpenAI cũng đã phát hiện dấu hiệu chưng cất từ DeepSeek.
Các nhà phát triển sử dụng kỹ thuật này để cải thiện hiệu suất trên mô hình nhỏ bằng cách tận dụng đầu ra từ mô hình lớn, giúp đạt được kết quả tương tự với chi phí thấp hơn. Đây là một hoạt động phổ biến trong lĩnh vực AI, nhưng có thể DeepSeek đã vi phạm điều khoản dịch vụ của OpenAI. Bloomberg cho biết OpenAI và Microsoft đang điều tra các tài khoản nghi ngờ của DeepSeek đã sử dụng API của OpenAI năm ngoái và đã chặn quyền truy cập do nghi ngờ vi phạm.
Chetan Puttagunta, chuyên gia của Benchmark, cho biết trong buổi giới thiệu mô hình DeepSeek R1 rằng họ có thể chắt lọc để tạo ra một LLM tốt bằng cách sử dụng quy trình chưng cất, giúp mô hình nhỏ trở nên thông minh hơn với chi phí thấp. Chưng cất không phải là ý tưởng mới trong công nghệ, trước đó đã được ứng dụng nhiều trong lĩnh vực xe tự lái.
Kiểu học tập này có tiềm năng lớn trong nhiều lĩnh vực như xe tự lái, robot và chăm sóc sức khỏe. Trong xe tự lái, nó giúp đào tạo và tinh chỉnh mô hình AI cho các nhiệm vụ như hợp nhất cảm biến và ra quyết định, đồng thời tiết kiệm năng lượng và đảm bảo phản hồi nhanh. Tuy nhiên, thành công của DeepSeek đã khiến nhiều người đặt câu hỏi về việc chi hàng tỷ USD của các doanh nghiệp Mỹ có thực sự mang lại lợi thế hay chỉ là bàn đạp cho đối thủ giá rẻ.
Theo WSJ, các lãnh đạo AI tại Thung lũng Silicon đang xem xét lại mô hình kinh doanh và đặt câu hỏi về giá trị của việc dẫn đầu lĩnh vực, khi chi phí gấp 8 lần so với các công ty theo sau. Mike Volpi, giám đốc công nghệ và nhà đầu tư mạo hiểm, cho rằng điều này cần được cân nhắc.
Sau khi DeepSeek ra mắt, CEO OpenAI Sam Altman cho rằng các mô hình mới của DeepSeek rất ấn tượng về khả năng và giá cả, nhưng OpenAI vẫn tiếp tục lộ trình nghiên cứu của mình. Trong khi đó, Yann LeCun, Giám đốc AI của Meta, cho rằng có sự hiểu lầm khi so sánh khoản đầu tư hàng tỷ USD của công ty Mỹ vào AI với DeepSeek, vì phần lớn số tiền đó dành cho cơ sở hạ tầng suy luận, không phải cho đào tạo.
Trên blog, CEO Anthropic Dario Amodei cho rằng hai mô hình chính của DeepSeek không phải là bước đột phá mà chỉ là một phần trong xu hướng giảm chi phí AI. Dù có những lo ngại, giới công nghệ vẫn hy vọng việc chưng cất sẽ sớm tạo ra các ứng dụng AI chất lượng cao. Ví dụ, nhóm nghiên cứu trên nền tảng Hugging Face đã bắt đầu phát triển một mô hình tương tự DeepSeek tuần trước.
Các mô hình của OpenAI và Google vẫn được đánh giá cao hơn DeepSeek. Những công ty công nghệ lớn này duy trì lợi thế nhờ thường xuyên đổi mới. David Sacks, quan chức Nhà Trắng phụ trách chính sách AI và tiền điện tử, hy vọng các công ty Mỹ sẽ tìm cách làm cho việc phát triển các mô hình AI trở nên khó khăn hơn.
Doanh nghiệp và người dùng cuối ưa chuộng công nghệ giá rẻ. Cạnh tranh trong lĩnh vực AI đã rất gay gắt, và sự gia nhập của DeepSeek cùng các công ty áp dụng phương pháp chưng cất có thể làm giảm giá thêm. Ngoài ra, kỹ thuật chưng cất cũng giúp nâng cao khả năng cho các mô hình AI hiện tại, theo lời giáo sư Ion Stoica từ UC Berkeley.
Bảo Lâm tổng hợp ý kiến về dự án AI 10 triệu USD của Sam Altman và nhận xét tích cực từ Tim Cook về DeepSeek.
Nguồn:vnexpress.net/chung-cat-la-gi-khien-cac-cong-ty-ai-tien-phong-lo-ngai-4844652.html