Công ty cũng cho biết bản cập nhật này còn giúp mô hình có khả năng sáng tạo viết luận, tiểu thuyết và các thể loại khác, đồng thời cải thiện khả năng tạo code lập trình giao diện người dùng.
"Mô hình đã chứng minh hiệu suất xuất sắc trong nhiều bài đánh giá chuẩn, bao gồm toán học, lập trình và logic chung," DeepSeek cho biết.
Sự thành công của DeepSeek đã đảo ngược niềm tin rằng các biện pháp kiểm soát xuất khẩu của Mỹ đang kìm hãm sự tiến bộ AI của Trung Quốc, sau khi nó phát hành các
mô hình AI ngang hàng hoặc tốt hơn so với các mô hình hàng đầu trong ngành ở Mỹ với chi phí thấp hơn đáng kể.
Startup Trung Quốc cho biết thêm vào ngày 29/5, rằng một biến thể của bản cập nhật của họ đã được tạo ra bằng cách sử dụng quy trình suy luận được vận hành bởi mô hình R1-0528 để tiếp tục nâng cao mô hình Qwen 3 8B Base của gã khổng lồ công nghệ Trung Quốc Alibaba, thông qua một quá trình được gọi là chưng cất dữ liệu. Kết quả là hiệu suất vượt trội hơn so với mô hình Qwen 3 ban đầu hơn 10%.
"Chúng tôi tin rằng chuỗi suy nghĩ từ DeepSeek-R1-0528 sẽ có ý nghĩa quan trọng đối với cả nghiên cứu học thuật về các mô hình reasoning và phát triển công nghiệp tập trung vào các mô hình quy mô nhỏ," DeepSeek bổ sung.
Bloomberg đã đưa tin về bản cập nhật này vào ngày thứ Tư. Báo cáo cho biết một đại diện của DeepSeek đã thông báo trong một nhóm WeChat rằng họ đã hoàn thành những gì họ gọi là
"nâng cấp thử nghiệm nhỏ" và người dùng có thể bắt đầu kiểm tra nó.
Phản ứng lại sự cạnh tranh từ DeepSeek, Gemini của Google đã giới thiệu các tầng truy cập giảm giá, trong khi OpenAI cắt giảm giá và phát hành mô hình o3 Mini dựa trên ít sức mạnh tính toán hơn.
DeepSeek vẫn được kỳ vọng sẽ sớm phát hành R2, phiên bản kế nhiệm của R1. Reuters đưa tin vào hồi tháng 3, trích dẫn các nguồn tin giấu tên rằng việc phát hành R2 ban đầu dự kiến vào hồi tháng 5. DeepSeek cũng đã phát hành một bản nâng cấp cho mô hình ngôn ngữ lớn V3 của họ vào tháng 3.
Theo Nikkei