Những startup nghiên cứu trí tuệ nhân tạo tại Trung Quốc đang có những nỗ lực và giải pháp để bắt kịp với công nghệ được các đơn vị và tập đoàn bên Mỹ phát triển. Tốc độ bắt kịp về khả năng tạo ra những nội dung ngôn ngữ tự nhiên từ những mô hình do người Trung Quốc nghiên cứu đang diễn ra nhanh hơn nhiều so với ước tính của những chuyên gia phương Tây. Điều này đang diễn ra, bất chấp những quy định cấm vận đang cắt đứt nguồn cung những con chip xử lý mạnh nhất trên thị trường hiện tại, trang bị trong những máy chủ đám mây phục vụ huấn luyện cũng như vận hành những mô hình AI hàng nghìn tỷ tham số. DeepSeek, một startup được đầu tư bởi những giám đốc quỹ thành công nhất thị trường Đại Lục, hồi tháng 11 vừa rồi đã công bố phiên bản thử nghiệm của mô hình ngôn ngữ lớn mới nhất do các kỹ sư startup này nghiên cứu. Theo tuyên bố của DeepSeek, mô hình này có khả năng tạo sinh nội dung có thể so sánh được với sức mạnh của o1, mô hình tư duy lý luận của OpenAI, được thử nghiệm hồi tháng 9. Tình hình nghiên cứu phát triển AI bên Trung Quốc, và 4 cái tên nổi bật nhất Vài startup cũng như công ty nghiên cứu AI Trung Quốc cũng đã đưa ra những tuyên bố tương tự, đem so sánh mô hình họ phát triển với những sản phẩm do phương Tây tạo ra. Moonshot AI, một trong những cái tên được coi là đầu ngành phát triển AI Trung Quốc, được cả Alibaba lẫn Tencent đầu tư, vừa rồi đã phát triển được một mô hình mới. Họ nói AI này có khả năng tư duy toán học tiệm cận với sức mạnh của o1. Còn bản thân Alibaba thì nói rằng, một trong những mô hình đang thử nghiệm trong phòng lab của họ tạo ra được sức mạnh xử lý những bài toán cơ bản tốt hơn so với phiên bản thử nghiệm của OpenAI o1. Tuy nhiên, chưa có công ty và startup nào công bố báo cáo nghiên cứu khoa học với dữ liệu chứng minh cho những tuyên bố của họ. Đánh giá mức độ chính xác những tuyên bố của các đơn vị Trung Quốc cũng rất khó, đơn giản vì chưa thể thống nhất những tiêu chí và những bài benchmark cụ thể để xác định sức mạnh của từng mô hình AI do Trung Quốc và Mỹ tạo ra. Bất chấp điều đó, vài chuyên gia về trí tuệ nhân tạo của Mỹ vẫn thừa nhận, Trung Quốc đang đuổi kịp Mỹ với tốc độ rất nhanh. Andrew Carr, một nhà nghiên cứu từng làm việc tại OpenAI là người đưa ra quan điểm đó. Anh cho rằng các nhà nghiên cứu tại DeepSeek đang cố bắt chước mô hình tư duy lý luận của OpenAI, và “đã tìm ra được giải pháp chỉ trong vòng vài tháng, và điều đó đã khiến nhiều đồng nghiệp của tôi cảm thấy bất ngờ.” Một bài kiểm tra được sử dụng để đánh giá sức mạnh của những mô hình AI có khả năng tính toán là bộ đề thi American Invitational Mathematics Examination, dùng để đánh giá khả năng của những học sinh trung học giỏi nhất bên Mỹ. DeepSeek cho biết, mô hình của họ phát triển đạt điểm trung bình trong bài thi AIME kể trên cao hơn so với OpenAI o1 phiên bản preview. Tuy nhiên đúng là một chuyện, nhanh là chuyện khác. Phóng viên tờ Wall Street Journal đã thử tiến hành bài kiểm tra độc lập, và đi đến kết luận rằng, 15 bài toán trong bộ đề AIME năm nay, OpenAI o1 đưa ra kết quả nhanh hơn AI của DeepSeek, Moonshot và mô hình thử nghiệm của Alibaba. Trong một câu đố liên quan tới chiến lược trong một trò chơi hai người, o1 đưa ra câu trả lời trong vòng 10 giây, còn mô hình của DeepSeek mất hơn 2 phút. Và luôn luôn có những vấn đề ảnh hưởng tới khả năng tìm ra được câu trả lời đúng ngay trong lần thử đầu tiên khi AI nhận được đề bài câu đố. Chẳng hạn như những từ khóa không liên quan nhưng bị AI lầm tưởng là dữ kiện để tính toán. Và có lẽ thứ anh em nghĩ tới nhiều nhất chính là những quy định cấm vận từ năm 2022, khi Nvidia, AMD hoặc bất kỳ tập đoàn Mỹ nào cũng bị cấm bán những chip GPU máy chủ mạnh nhất mà họ tạo ra cho các đơn vị, startup và tập đoàn Trung Quốc. Và lẽ đương nhiên, các nhà nghiên cứu AI Trung Quốc cũng đã tìm ra cách để vượt qua giới hạn về mặt phần cứng. Tại Moonshot AI, nhà sáng lập Yang Zhilin cho biết, công ty đang tập trung nghiên cứu giải pháp huấn luyện củng cố, bắt chước cách con người học qua những lần thử - sai. Cách nghiên cứu mô hình AI này cần hiệu năng điện toán thấp hơn khi các nhà nghiên cứu cố gắng cải thiện hiệu năng tạo sinh thông tin của mô hình ngôn ngữ. Kể từ cuối năm 2023, các nhà phát triển AI đã bắt đầu ứng dụng một kỹ thuật có tên là MoE, viết tắt của Mixture of Experts. Giải pháp này là một cơ chế chuyên biệt hóa từng chuyên ngành của từng câu hỏi, từng vấn đề được đưa cho AI tìm lời giải đáp. Với kỹ thuật này, nhu cầu máy chủ đám mây sẽ không còn cao như quá trình huấn luyện phổ quát, không có sự chuyên biệt hóa. Mô hình được huấn luyện dựa trên cơ chế MoE của Tencent được công bố hồi tháng 11, và trong báo cáo kết quả nghiên cứu của họ, các nhà khoa học của Tencent cho biết, hiệu năng của mô hình này ngang ngửa Llama 3.1 được Meta công bố hồi tháng 7. Những nhà nghiên cứu đọc bản báo cáo này cho rằng, mô hình của Tencent có thể đã được huấn luyện trên một hệ thống với tổng hiệu năng chỉ bằng một phần mười so với những gì Meta đã sử dụng để huấn luyện Llama 3.1. DeepSeek, ban đầu là một đơn vị nghiên cứu AI thuộc High-Flyer, một quỹ đầu tư với khối tài sản tổng trị giá 8 tỷ USD, đã từng ứng dụng AI làm mô hình dự báo trong đầu tư tài chính. Năm 2021, DeepSeek kết nối khoảng 10 nghìn chip Nvidia A100, tạo ra một cụm máy chủ đám mây dùng huấn luyện mô hình AI, đặt tên nó là Fire-Flyer 2. Hồi tháng 8, DeepSeek công bố báo cáo nghiên cứu mô hình AI. Họ nói cụm máy chủ Fire-Flyer 2 tạo ra được hiệu năng tiệm cận với hệ thống do chính chủ Nvidia phát triển và bán ra thị trường, cũng sử dụng A100 kiến trúc Ampere. Nhưng hệ thống của người Trung Quốc vừa có chi phí lẫn tiêu thụ điện năng thấp hơn những hệ thống máy chủ Nvidia thiết kế. Hồi tháng 5, báo cáo khoa học về mô hình AI MoE mà DeepSeek nghiên cứu và công bố đã tạo ra tiếng vang trong ngành AI hàn lâm toàn thế giới. DeepSeek tập trung nghiên cứu những mô hình AI mã nguồn mở, nhấn mạnh vào khả năng xử lý những vấn đề toán học và lập trình. Còn Moonshot thì nổi tiếng trên thị trường công nghệ tiêu dùng Trung Quốc nhờ vào chatbot Kimi vận hành không khác nhiều so với ChatGPT, với khả năng xử lý token kích thước lớn, câu lệnh prompt dài AI vẫn hiểu được. Jack Clark, đồng sáng lập Anthropic viết về cụm máy chủ Fire-Flyer 2 của DeepSeek trên blog cá nhân của anh như thế này: “Một cách Trung Quốc có thể vượt qua những quy định kiểm soát cấm vận, đó là phát triển những stack phần mềm lẫn cả phần cứng cực kỳ tốt, chỉ dựa vào những con chip xử lý mà họ có thể tiếp cận và mua được trên thị trường. Rồi sẽ đến thời kỳ mô hình AI cũng sẽ có những giải pháp ”Made in China", hệt như ô tô điện, drone hay vô vàn công nghệ khác." Một số khác thì chọn cách tiếp cận những đơn vị trung gian để tạm nhập tái xuất những chip Nvidia mà chính phủ Mỹ đã liệt vào danh sách cấm xuất khẩu cho Trung Quốc, đương nhiên là với mức giá cao hơn khi phải qua trung gian. Số khác, như đã từng đề cập trong một bài viết trước mình dịch và gửi tới anh em, thì chọn cách vượt rào cấm vận bằng việc thuê luôn data center nước ngoài, những nơi quy định cấm vận không ảnh hưởng tới việc các nhà cung cấp dịch vụ đám mây mua những con chip như H100 hay H200. Trung Quốc: Thuê máy chủ AWS xử lý AI, vậy là qua mặt được quy định cấm vận chip của Mỹ Những giải pháp kỹ thuật hay kinh tế cũng chỉ giúp ích được phần nào cho những startup và các tập đoàn công nghệ Trung quốc. Khi khoảng cách hiệu năng giữa những GPU thế hệ cũ và mới càng lúc càng xa, đặc biệt là khi Nvidia chính thức giao hàng những con chip GB200 kiến trúc Blackwell, thì các startup Trung Quốc sẽ phải tìm ra những giải pháp tối ưu phần mềm khác, hoặc sẽ lại tiếp tục thua sút về tốc độ nghiên cứu phát triển AI so với phương Tây nói chung và nước Mỹ nói riêng. Trung Quốc đầu tư 1 đồng, có lẽ Mỹ đầu tư 9 hay thậm chí là 10 đồng. Mới đây hệ thống siêu máy tính của startup xAI do Elon Musk thành lập đã bắt đầu vận hành, với 100 nghìn GPU Nvidia, và vừa gọi được thêm 5 tỷ USD tiền vốn để mở rộng quy mô cả hệ thống. Amazon Web Services thì đang có kế hoạch thi công một hệ thống siêu máy tính AI khổng lồ với hàng trăm nghìn con chip do đơn vị trực thuộc tập đoàn, Annapurna Labs tự thiết kế. Hiện tại, những startup AI Trung Quốc chỉ được định giá bằng một phần số lẻ so với những startup phương Tây. OpenAI gần đây sau khi thực hiện xong vòng gọi vốn mới nhất, đã được định giá 157 tỷ USD, mà con số đó còn bị ảnh hưởng từ lòng tin của các nhà đầu tư, chưa chắc chắn việc kiếm được tiền từ những công nghệ mà OpenAI phát triển. Nhưng đơn vị nghiên cứu AI đang bắt đầu cuộc chiến cạnh tranh về chi phí thuê API mô hình ngôn ngữ do họ phát triển để kiếm doanh thu. Còn trong khi đó ở Trung Quốc, lấy ví dụ Zhipu AI, họ chỉ được định giá vỏn vẹn 3 tỷ USD sau lần gọi vốn thành công hồi đầu tháng 12. Vì các nhà đầu tư cho rằng nếu bây giờ họ ngay lập tức thực hiện niêm yết chào bán cổ phiếu lần đầu ra công chúng, giá trị vốn hóa thu về sẽ không được như kỳ vọng. Vì lẽ đó, Zhipu AI quyết định hoãn IPO tới nửa cuối năm 2025. Tác phẩm mới nhất của Zhipu AI là một trợ lý AI ra mắt hồi tháng 11, và CogVideoX, một mô hình tạo sinh video cạnh tranh với Runway Gen-3, KlingAI hay OpenAI Sora hồi tháng 7. Howard Huang, cựu giám đốc quản lý cơ sở hạ tầng AI tại một tập đoàn có trụ sở tại Bắc Kinh, Trung Quốc so sánh việc các nhà nghiên cứu đất nước họ cố gắng bắt kịp tốc độ nghiên cứu AI toàn cầu với việc… vừa đeo còng vào chân vừa nhảy múa: “Cơ hội duy nhất để chúng tôi tồn tại là tạp trung vào những gì chúng tôi đã làm tốt.” Theo WSJ