Chỉ cần tối ưu phần mềm, DeepSeek nâng sức mạnh chip xử lý AI gấp 8 lần, từ 73 lên... 580 Tflops

#ai

Đấy là những thông tin được chính tài khoản mạng xã hội X của DeepSeek công bố hôm 24/2 vừa rồi. Đầu tiên là lý thuyết trước. MLA là viết tắt của machine learning algorithms. Còn FlashMLA là một giải pháp nhân giải mã những thuật toán máy học vừa được DeepSeek phát triển và công bố ít ngày trước.

Ở khía cạnh kỹ thuật, có thể khẳng định một điều rằng các kỹ sư và nhà nghiên cứu trí tuệ nhân tạo Trung Quốc đang cố tìm cách để vượt qua những giới hạn mà những chip GPU được tạo ra do tác động của những quy định cấm vận của phía Mỹ, từ đó giải quyết được nhu cầu hiệu năng xử lý của máy chủ đám mây đang vận hành để nghiên cứu phát triển những mô hình ngôn ngữ lớn, hay những mô hình hỗ trợ xử lý tư duy logic kết hợp với mô hình ngôn ngữ, để tạo ra những chatbot hay trợ lý AI phục vụ người dùng.

Phải thừa nhận, nếu những gì DeepSeek công bố là chính xác, thì đây là thứ điên rồ nhất mọi người được chứng kiến, khi các kỹ sư và các nhà nghiên cứu Trung Quốc biến câu nói “cái khó ló cái khôn” trở thành hiện thực.

Cụ thể hơn, DeepSeek đang tổ chức một chuỗi sự kiện trực tuyến, gọi là “tuần lễ mã nguồn mở”. Ở đó, họ sẽ lần lượt công bố những công nghệ cũng như công cụ đã và đang được họ nghiên cứu, cung cấp hoàn toàn miễn phí cho các nhà nghiên cứu khác trên toàn thế giới thông qua Github. Và ở ngày đầu tiên của “tuần lễ mã nguồn mở”, DeepSeek công bố FlashMLA.

“Nhân giải mã” thuật toán máy học này được người Trung Quốc thiết kế và tối ưu đặc thù cho một mẫu GPU duy nhất, Nvidia H800, sản phẩm được tập đoàn chip xử lý Mỹ phát triển và sản xuất riêng cho thị trường Trung Quốc, sau khi phía Mỹ có động thái giới hạn cả hiệu năng lẫn băng thông bộ nhớ của những sản phẩm chip xử lý các tập đoàn Mỹ được phép bán cho các khách hàng ở Đại Lục.

Trung bình, những chip H800 kiến trúc Hopper của Nvidia vận hành ở tốc độ xử lý số thực dấu phẩy động khoảng 73.5 teraflops, đối với những phép tính nhân ma trận format BF16. Băng thông bộ nhớ tối đa của H800 ở ngưỡng khoảng 1681 GB/s. Nhưng khi kết hợp với FlashMLA, DeepSeek đã đạt được con số, xin phép nhắc lại là nếu chính xác, thì thực sự đáng sợ: Băng thông 3000 GB/s, hiệu năng nhân ma trận format số thực BF16 đạt 580 teraflops.

Cái đáng sợ là ở chỗ, mọi thành tựu mà DeepSeek công bố khi giới thiệu FlashMLA đều đến từ tối ưu phần mềm, chứ không chọc ngoáy gì phần cứng chip H800 của Nvidia hết.

Và để tối ưu phần mềm, FlashMLA ứng dụng một giải pháp gọi là “nén dữ liệu then chốt”, hiểu đơn giản ngắn gọn là phân chia dữ liệu thành những phần nhỏ, từ đó cho phép xử lý nhanh hơn, tiêu thụ bộ nhớ giảm từ 40 đến 60%. Một yếu tố đáng đề cập khác là FlashMLA áp dụng hệ thống paging theo khối, phân bổ bộ nhớ động tùy thuộc vào tác vụ, thay vì áp dụng một giá trị cố định. Kết quả là, những mô hình xử lý các chuỗi có độ dài thay đổi hiệu quả hơn nhiều, với mục tiêu cuối cùng là nâng cao hiệu suất xử lý mô hình AI.

Trùng hợp là, cũng trong ngày thứ 2, 24/2 vừa rồi, đại sứ quán Trung Quốc tại Mỹ, đặt tại Washington đã phát đi thông báo như thế này: “Khi AI tiếp tục công cuộc tái cơ cấu nhiều ngành nghề và thậm chí là cả cuộc sống hàng ngày của con người, DeepSeek mang nhiệm vụ bổ trợ chứ không phải cạnh tranh với những cái tên hàng đầu trong ngành trí tuệ nhân tạo như OpenAI, Anthropic và Google DeepMind.”

Cũng dễ nhận ra ý đồ của tuyên bố này, đó là xoa dịu chính quyền Washington, nhằm mục đích tránh những quy định cấm vận mới áp dụng đối với ngành bán dẫn nói chung và ngành AI nói riêng tại Trung Quốc.

Tuyên bố trên được đưa ra ngay sau khi một diễn đàn quy tụ những nhà khởi nghiệp công nghệ và các doanh nghiệp tư nhân tại Bắc Kinh. Ở đó có cả Lương Văn Phong, nhà sáng lập DeepSeek, và nó được chủ trì bởi chính chủ tịch Trung Quốc, Tập Cận Bình. Đáng ngạc nhiên hơn cả, là trong hội nghị này, có sự hiện diện của cả Jack Ma, nhà sáng lập tập đoàn Alibaba, người từng phải lánh xa ánh mắt công chúng sau những phát ngôn nhắm tới hệ thống tài chính của Trung Quốc.

Ở đây, ông Tập đã có những tuyên bố ủng hộ DeepSeek. Còn phía đại sứ quán Trung Quốc hôm thứ 2 thì nhìn nhận thành công của DeepSeek là “giúp giảm đáng kể chi phí phát triển AI.” Nhưng cùng lúc, họ cũng khẳng định rằng “các công ty AI tại nhiều khu vực đã đóng góp những lợi thế riêng, dẫn tới tiềm năng tạo ra những giải pháp tốt hơn dành cho tất cả mọi người trên toàn thế giới.”

Theo WCCFTech, Business Insider

Nguồn:tinhte.vn/thread/chi-can-toi-uu-phan-mem-deepseek-nang-suc-manh-chip-xu-ly-ai-gap-8-lan-tu-73-len-580-tflops.3964063/