Các nhà nghiên cứu của Microsoft xây dựng AI LLM 1 bit với các tham số 2B-mô hình đủ nhỏ để chạy trên một số CPUS
Các nhà nghiên cứu của Microsoft vừa phát triển BitNet b1.58 2B4T, một mô hình ngôn ngữ lớn mã nguồn mở với 1 bit và hai tỷ tham số, được đào tạo trên bốn triệu token. Điểm nổi bật của mô hình AI này là nó đủ nhẹ để hoạt động hiệu quả trên CPU; theo TechCrunch, chip Apple M2 có thể chạy được nó. Mô hình cũng có sẵn trên Hugging Face, cho phép mọi người dễ dàng thử nghiệm.
Bitnets sử dụng trọng số 1 bit với ba giá trị có thể -1, 0 và 1, thực chất là mô hình 1.58 bit do hỗ trợ ba giá trị. Điều này tiết kiệm nhiều bộ nhớ so với các mô hình AI phổ biến sử dụng định dạng số thực 32-bit hoặc 16-bit, giúp hoạt động hiệu quả hơn và yêu cầu ít bộ nhớ cũng như sức mạnh tính toán. Tuy nhiên, sự đơn giản của Bitnet có một nhược điểm là độ chính xác thấp hơn so với các mô hình AI lớn hơn.
Tuy nhiên, BitNet b1.58 2B4T bù đắp cho điều này bằng lượng dữ liệu huấn luyện khổng lồ, ước tính hơn 33 triệu cuốn sách. Đội ngũ phát triển mô hình nhẹ này đã so sánh nó với các mô hình hàng đầu như Meta’s LLaMa 3.2 1B, Google’s Gemma 3 1B và Alibaba’s Qwen 2.5 1.5B. BitNet b1.58 2B4T đạt điểm khá tốt trong hầu hết các bài kiểm tra và thậm chí có một số thành tích xuất sắc trong vài tiêu chuẩn đánh giá.
Quan trọng hơn, nó chỉ tiêu tốn 400MB bộ nhớ không nhúng, ít hơn 30 lần so với mô hình nhỏ nhất tiếp theo là Gemma 3 1B với 1.4 GB. Bạn có thể thích máy tính Microsoft Snapdragon X Copilot với hỗ trợ DeepSeek-R1 tại chỗ — Intel, AMD đang phát triển. Card đồ họa Moore Threads được cho là có hiệu suất suy diễn xuất sắc với các mô hình DeepSeek.
Dưới đây là thông tin tóm tắt ngắn gọn:
- 1B Gemma: 2
- 1B Qwen: 3
- 1.5B Non-embedding: 2.5
- 0.4 GB, 2 GB, 1.4 GB, 2.6 GB
- 29ms, 48ms, 41ms, 65ms
- 4 trillion, 9 trillion, 2 trillion, 18 trillion
- 49.91, 37.80, 38.40, 46.67
- 74.79, 63.17, 63.13, 76.01
- 41.60, 34.80, 38.80, 40.80
- 80.18, 64.65, 74.22, 78.04
- 68.44, 60.80, 57.69, 68.28
Dưới đây là phiên bản ngắn gọn của văn bản:
- CommonsenseQA: 71.58, 58.48, 42.10, 76.41
- TruthfulQA: 45.31, 43.80, 38.66, 46.67
- TriviaQA: 33.57, 37.60, 23.49, 38.37
- MMLU: 53.17, 45.58, 39.91, 60.25
- HumanEval: 38.40, 31.10, 37.20, 50.60
- GSM8K: 58.38, 38.21, 31.16, 56.79
- MATH-500: 43.40, 23.00, 42.00, 53.00
- IFEval: 53.48, 62.71, 66.67, 50.12
- MT-bench: 5.85, 5.43, 6.40, 6.12
- Trung bình: 54.19, 44.90, 43.74, 55.23
LLM cần sử dụng framework inference bitnet.cpp để chạy hiệu quả.
Nhóm đã nêu rõ rằng mô hình này sẽ không cải thiện hiệu suất khi sử dụng với thư viện transformers tiêu chuẩn, ngay cả khi có fork cần thiết. Để tận dụng lợi ích của nó trên phần cứng nhẹ, bạn cần tải framework từ GitHub. Kho lưu trữ mô tả bitnet.cpp cung cấp "bộ kernel tối ưu hóa hỗ trợ suy diễn nhanh và không mất mát."
Các mô hình 58-bit trên CPU sắp có hỗ trợ NPU và GPU. Mặc dù hiện tại chưa hỗ trợ phần cứng chuyên dụng cho AI, nhưng vẫn cho phép mọi người với máy tính có thể thử nghiệm AI mà không cần linh kiện đắt tiền. Các mô hình AI thường bị chỉ trích vì tiêu tốn quá nhiều năng lượng để đào tạo và vận hành, nhưng các mô hình LLM nhẹ như BitNet b1.58 2B4T có thể giúp chúng ta chạy AI trên phần cứng kém mạnh hơn.
Điều này có thể giảm sự phụ thuộc vào các trung tâm dữ liệu lớn và giúp những người không có quyền truy cập vào bộ vi xử lý mới nhất, NPU tích hợp và GPU mạnh mẽ cũng có thể sử dụng trí tuệ nhân tạo. Hãy theo dõi Toms Hardware trên Google News để nhận thông tin, phân tích và đánh giá mới nhất. Nhớ nhấn nút Theo dõi.
Nguồn: www.tomshardware.com/tech-industry/artificial-intelligence/microsoft-researchers-build-1-bit-ai-llm-with-2b-parameters-model-small-enough-to-run-on-some-cpus