Microsoft ra mắt model AI 1bit, chạy hiệu quả và chính xác trên cả CPU

#ai

Các nhà nghiên cứu của Microsoft gần đây giới thiệu một model AI 1bit có 2 tỷ tham số và có thể chạy hiệu quả trên những con CPU tiêu chuẩn, bao gồm cả Apple M2. Với tên gọi BitNet b1.58 2B4T, model này vẫn có hiệu suất cao hơn rất nhiều so với các model khác cùng cấu hình của Meta, Google và Alibaba. Đây được đánh giá là một trong những bước tiến quan trọng trong sự phát triển các model AI theo hướng kích thước nhỏ hơn, yêu cầu phần cứng ngày càng giảm đi nhưng vẫn đảm bảo hiệu suất.

Sơ chút cho dễ hiểu, các model sau khi pre train thường sẽ có kích thước rất lớn và yêu cầu phần cứng, bộ nhớ cao để chạy vì nó chứa rất nhiều tham số trong đó. Để chạy được trên các phần cứng thấp hơn, người ta sẽ dùng cách gọi là quantization để "nén" model lại bằng cách cắt bớt các tham số, hoặc chuyển từ số thực FP16 xuống số nguyên INt8,… chấp nhận độ chính xác bị giảm đi.

Trước giờ để làm giảm kích thước model, tuy nhiên thường thì chỉ xuống tới Int8 hoặc cùng lắm là INT4 là độ chính xác đã giảm lớn lắm rồi. Do đó việc model của MS có thể nén xuống tận 1 bit thì thực sự là khá đáng nể. Lợi ích đầu tiên chính là dung lượng của model này sẽ thấp hơn rất nhiều lần so với các model 32bit hoặc 16 bit.

Để làm được chuyện đó, Microsoft dựa trên kỹ thuật gọi là 1 bit quantization, nghĩa là họ tìm được cách "nén" các weight của model xuống chỉ còn 2 giá trị là -1 và 1. Tuy nhiên với BitNet b1.58 thì họ tiến thêm một bước nữa là dùng 3 giá trị -1, 0 và 1 để thể hiện các weight, kết quả cuối cùng là mỗi tham số sẽ chiếm 1.58 bits (log2(3) xấp xỉ 1,58).

Quá trình quantization sẽ được diễn ra trong cả giai đoạn training và inference. Trong quá trình huấn luyện, BitNet sử dụng phương pháp fake quantization, tương tự Quantization-Aware Training (QAT). Điều này cho phép mô hình học cách thích nghi với giới hạn của việc sử dụng độ chính xác thấp ngay từ đầu. Lúc này, các trọng số sẽ được lưu trữ ở dạng INT8 với độ chính xác cao hơn nhưng sau đó khi tới giai đoạn chạy, chúng sẽ được chuyển thành các giá trị ternary (-1, 0, 1) bằng kỹ thuật absmean quantization.

Với quy trình trên, cuối cùng sản phẩm đầu ra là một model kích thước nhỏ, ít tốn chi phí vận hành, hoạt động hiệu suất cao ngay cả với CPU mà không cần GPU mạnh, đồng thời vẫn duy trì độ chính xác dù dữ liệu đã bị nén mạnh, từ đó trả về chất lượng đầu ra tốt.

Trước giờ CPU mạnh ở tính toán tuần tự nên trở nên lép vế hơn khá nhiều so với GPU ở các tác vụ AI vốn đòi hỏi khả năng tính toán song song. Tuy nhiên, với các cách tiếp cận giai đoạn sau này, người ta luôn tìm cách tối ưu hóa hơn. Theo đó, GPU sẽ được dùng để tăng tốc quá trình training, đồng thời phát triển kỹ thuật để tối ưu model sao cho kích thước càng nhỏ nhưng vẫn đảm bảo hiệu suất. Các model nhỏ này sẽ có thể chạy hiệu quả trên các CPU, vận hành các ứng dụng với độ trễ thấp, khả năng phản hồi cao.

Bên dưới đây là miêu tả chi tiết thuật toán của quá trình train model trên, bạn nào quan tâm có thể bấm vào xem thêm ha, họ viết kỹ lắm.

Tham khảo Microsoft HG

Nguồn:tinhte.vn/thread/microsoft-ra-mat-model-ai-1bit-chay-hieu-qua-va-chinh-xac-tren-ca-cpu.4012759/