Chỉ vài tháng trước, cuộc đặt cược lớn của Phố Wall vào AI tạo sinh đã có một bước ngoặt khi startup AI Trung Quốc DeepSeek xuất hiện. Bất chấp bản chất dịch vụ chatbot trên web và ứng dụng di động bị kiểm duyệt rất mạnh tay, phiên bản mã nguồn mở của các mô hình từ DeepSeek đã chứng minh rằng một mô hình AI suy luận logic tiên tiến không nhất thiết phải ngốn hàng tỷ USD, hoàn toàn có thể được phát triển, huấn luyện và ứng dụng với nguồn lực khiêm tốn.
Những mô hình của DeepSeek nhanh chóng được các tập đoàn lớn như Huawei, Oppo và Vivo áp dụng về mặt thương mại, trong khi những gã khổng lồ như Microsoft, Alibaba và Tencent nhanh chóng dành cho chúng vị trí trên nền tảng của họ để khách hàng ứng dụng. Giờ đây, mục tiêu tiếp theo của công ty Trung Quốc đang nổi lên này là các mô hình AI tự cải thiện sử dụng phương pháp lặp lại đánh giá-phần thưởng để nâng cao hiệu suất.
Trong một bản thảo nghiên cứu khoa học, các nhà nghiên cứu tại DeepSeek và Đại học Thanh Hoa của Trung Quốc đã mô tả một cách tiếp cận mới có thể làm cho các mô hình AI thông minh và hiệu quả hơn theo kiểu tự cải thiện khả năng. Công nghệ cốt lõi được gọi là điều chỉnh phê bình dựa trên nguyên tắc tự thân (SPCT - self-principled critique tuning), và phương pháp này về mặt kỹ thuật AI thường được biết đến với cái tên mô hình phần thưởng tạo sinh (GRM - generative reward modeling).
Nói một cách đơn giản nhất, kỹ thuật này tương tự như việc tạo ra một vòng lặp phản hồi kết quả nội dung tạo sinh của AI theo thời gian thực.
Một mô hình AI về cơ bản được cải thiện bằng cách tăng kích thước tham số của mô hình trong quá trình huấn luyện. Điều này đòi hỏi rất nhiều công sức và tài nguyên tính toán từ con người. DeepSeek đang đề xuất một hệ thống, nơi "người đánh giá" chất lượng nội dung tạo sinh sẽ đi kèm với bộ tiêu chí và nguyên tắc riêng để đánh giá một mô hình AI khi nó chuẩn bị trả lời các truy vấn của người dùng.
Bộ tiêu chí và nguyên tắc này sau đó được so sánh với tập hợp các quy tắc tĩnh nằm ở trung tâm của một mô hình AI và kết quả mong muốn. Nếu có sự phù hợp cao, một tín hiệu thưởng sẽ được tạo ra, từ đó hướng dẫn AI hoạt động tốt hơn trong chu kỳ tiếp theo.
Các chuyên gia thực hiện nghiên cứu này gọi thế hệ tiếp theo của các mô hình AI tự cải thiện là DeepSeek-GRM. Các bài kiểm tra được liệt kê trong nghiên cứu cho thấy những mô hình này hoạt động tốt hơn so với các mô hình Gemini của Google, Llama của Meta và GPT-4o của OpenAI. DeepSeek cho biết các mô hình AI thế hệ tiếp theo này sẽ được phát hành thông qua kênh phân phối mã nguồn mở.
Chủ đề về AI có thể tự cải thiện khả năng đã thu hút những nhận xét, có lúc đầy tham vọng, nhưng cũng có lúc gây tranh cãi. Cựu CEO của Google, Eric Schmidt, lập luận rằng chúng ta có thể cần một công tắc ngắt cho các hệ thống như vậy. "Khi hệ thống có thể tự cải thiện, chúng ta cần nghiêm túc suy nghĩ về việc ngắt kết nối nó," Schmidt cho biết.
Khái niệm về AI tự cải thiện đệ quy không phải là một ý tưởng mới. Ý tưởng về một cỗ máy siêu thông minh, sau đó có khả năng tự tạo ra những cỗ máy tốt hơn nữa, thực tế bắt nguồn từ nhà toán học I.J. Good vào năm 1965. Năm 2007, chuyên gia AI Eliezer Yudkowsky đưa ra giả thuyết về Seed AI, một AI "được thiết kế để tự hiểu, tự sửa đổi và tự cải thiện đệ quy."
Năm 2024, Sakana AI của Nhật Bản đã trình bày chi tiết khái niệm về một “Nhà khoa học AI”, một hệ thống có khả năng hoàn thành toàn bộ quy trình của một bài nghiên cứu từ đầu đến cuối. Trong một bài báo nghiên cứu được công bố vào tháng 3 năm nay, các chuyên gia của Meta đã tiết lộ các mô hình ngôn ngữ tự thưởng, nơi chính AI đóng vai trò là “người đánh giá” để cung cấp phần thưởng cho AI trong quá trình huấn luyện.
CEO Microsoft Satya Nadella cho biết sự phát triển của AI đang được tối ưu hóa bởi mô hình o1 của OpenAI và đã bước vào giai đoạn phát triển đệ quy: “Chúng tôi đang sử dụng AI để xây dựng các công cụ AI để tạo ra AI tốt hơn”.
Các bài kiểm tra nội bộ của Meta trên mô hình Llama 2 AI bằng kỹ thuật tự thưởng mới này cho thấy nó vượt trội hơn so với các đối thủ như Claude 2 của Anthropic, Gemini Pro của Google và các phiên bản mô hình GPT-4 của OpenAI. Anthropic được Amazon hỗ trợ đã trình bày chi tiết về những gì họ gọi là "sự can thiệp vào phần thưởng", một quá trình bất ngờ "trong đó một mô hình trực tiếp sửa đổi cơ chế phần thưởng của chính nó."
Google cũng không kém cạnh trong ý tưởng này. Trong một nghiên cứu được công bố trên tạp chí Nature đầu tháng này, các chuyên gia tại Google DeepMind đã giới thiệu một thuật toán AI có tên là Dreamer, có thể tự cải thiện bằng cách sử dụng trò chơi Minecraft làm ví dụ thực hành.
Các chuyên gia tại IBM đang làm việc trên phương pháp tiếp cận riêng của họ gọi là huấn luyện đóng gói diễn dịch, nơi một mô hình AI sử dụng các phản hồi của chính nó và đánh giá chúng so với dữ liệu huấn luyện để cải thiện bản thân. Tuy nhiên, toàn bộ tiền đề này không hoàn toàn màu hồng.
Nghiên cứu cho thấy rằng khi các mô hình AI cố gắng tự huấn luyện trên dữ liệu tổng hợp do chính nó tạo ra, nó dẫn đến những khiếm khuyết thường được gọi là "sự sụp đổ của mô hình". Sẽ rất thú vị để xem DeepSeek thực hiện ý tưởng này như thế nào, và liệu họ có thể làm điều đó một cách tiết kiệm hơn so với các đối thủ từ phương Tây hay không.
Theo Digital Trends Nguồn:tinhte.vn/thread/deepseek-va-dai-hoc-thanh-hoa-nghien-cuu-ai-biet-tu-cai-thien-kien-thuc.3987610/