AI sử dụng mô hình ngôn ngữ trên Windows 98, Pentium II và RAM 128MB

Exo Labs đã viết một bài đăng trên blog chi tiết vềChạy Llama trên Windows 98và đã chứng minh một mô hình ngôn ngữ lớn AI khá mạnh (LLM) chạy trên PC Windows 98 Pentium II 26 tuổi trong một video ngắn trên phương tiện truyền thông xã hội.Đoạn video cho thấy một Elonex Pentium II @ 350 MHz cổ đại khởi động vào Windows 98, và sau đó Exo sau đó kích hoạt công cụ suy luận C thuần túy tùy chỉnh của mình dựa trên Llama2.c của Andrej Karpathy và yêu cầu LLM tạo ra một câu chuyện về Sleepy Joe.Thật đáng ngạc nhiên, nó hoạt động, với câu chuyện được tạo ra với một tốc độ rất đáng nể.

LLM Chạy trên phần cứng Windows 98 PC26 năm với CPU Intel Pentium II và 128MB RAM.Ngày 28 tháng 12 năm 2024

Chiến công mở mắt ở trên không ở đâu gần trò chơi cuối cùng cho EXO Labs.Tổ chức hơi bí ẩn này đã ra khỏi tàng hình vào tháng 9 với một nhiệm vụ "dân chủ hóa quyền truy cập vào AI".Một nhóm các nhà nghiên cứu và kỹ sư từ Đại học Oxford đã thành lập tổ chức.Tóm lại, Exo thấy một số ít các megacorps kiểm soát AI là một điều rất xấu cho văn hóa, sự thật và các khía cạnh cơ bản khác của xã hội chúng ta.Do đó, EXO hy vọng sẽ "xây dựng cơ sở hạ tầng mở để đào tạo các mô hình Frontier và cho phép bất kỳ con người nào điều hành chúng ở bất cứ đâu."Theo cách này, dân gian thông thường có thể hy vọng sẽ đào tạo và điều hành các mô hình AI trên hầu hết mọi thiết bị - và Windows 98 AI Feat điên rồ này là bản demo tổng thể của những gì có thể được thực hiện với (nghiêm trọng) các nguồn lực hạn chế.

Vì video tweet khá ngắn gọn, chúng tôi rất biết ơn khi tìm thấy bài đăng trên blog của ExoChạy Llama trên Windows 98.Bài đăng này được xuất bản dưới dạng ngày thứ 4 của loạt "12 ngày của EXO" (vì vậy hãy theo dõi).

(Tín dụng hình ảnh: Alex Cheema trên GitHub)

Như độc giả có thể mong đợi, thật tầm thường khi EXO chọn một PC Windows 98 cũ từ eBay làm nền tảng của dự án này, nhưng có nhiều rào cản phải vượt qua.Exo giải thích rằng việc đưa dữ liệu lên Pentium II thương hiệu Elonex cũ là một thách thức, khiến họ sử dụng "FTP cũ tốt" để chuyển tệp qua cổng Ethernet của máy cổ.

Biên dịch mã hiện đại cho Windows 98 có lẽ là một thách thức lớn hơn.Exo rất vui khi tìm thấy Llama2.c của Andrej Karpathy, có thể được tóm tắt là "700 dòng C Pure C có thể chạy suy luận trên các mô hình với kiến trúc Llama 2".Với tài nguyên này và Borland C ++ 5.02 IDE và trình biên dịch cũ (cộng với một vài điều chỉnh nhỏ), mã có thể được thực hiện thành một thực thi và chạy tương thích Windows 98.Đây là aLiên kết GitHubđến mã đã hoàn thành.

35,9 TOK/SEC trên Windows 98 Đây là một LLM 260K với LLAMA-archecture. Chúng tôi cũng đã thử các mô hình lớn hơn.Kết quả trong bài viết trên blog.https://t.co/qsvieqlqs9 pic.twitter.com/lrpijertsrNgày 28 tháng 12 năm 2024

Một trong những người tốt sau Exo, Alex Cheema, đã đưa ra quan điểm cảm ơn Andrej Karpathy vì mã của mình, ngạc nhiên trước hiệu suất của nó, cung cấp "35,9 tok/giây trên Windows 98" bằng cách sử dụng LLM 260K với Kiến trúc LLAMA.Nó có lẽ đáng để làm nổi bật rằngKarpathyTrước đây là một giám đốc của AI tại Tesla và là đội ngũ sáng lập tại Openai.

Tất nhiên, một LLM 260K là ở phía nhỏ, nhưng điều này đã chạy với tốc độ tốt trên PC lõi đơn 350 MHz cổ đại.Theo blog EXO, việc di chuyển lên tới 15M LLM dẫn đến tốc độ thế hệ hơn 1 tok/giây.Tuy nhiên, Llama 3.2 1B chậm ở mức 0,0093 tok/giây.

Bitnet là kế hoạch lớn hơn

Đến bây giờ, bạn sẽ nhận thức rõ rằng câu chuyện này không chỉ là về LLM để chạy trên máy Windows 98.Exo làm tròn bài đăng trên blog của mình bằng cách nói về tương lai, mà nó hy vọng sẽ được dân chủ hóa nhờ Bitnet.

"Bitnet là một kiến trúc máy biến áp sử dụng trọng lượng ternary", nó giải thích.Điều quan trọng, sử dụng kiến trúc này, mô hình tham số 7B chỉ cần 1,38GB lưu trữ.Điều đó vẫn có thể tạo ra một tiếng kêu Pentium II 26 tuổi, nhưng đó là ánh sáng lông vũ cho phần cứng hiện đại hoặc thậm chí cho các thiết bị hàng thập kỷ.

EXO cũng nhấn mạnh rằng Bitnet là CPU đầu tiên-yêu cầu GPU đắt tiền.Hơn nữa, loại mô hình này được tuyên bố là hiệu quả hơn 50% so với các mô hình chính xác đầy đủ và có thể tận dụng mô hình tham số 100B trên một CPU duy nhất ở tốc độ đọc của con người (khoảng 5 đến 7 tok/giây).

Trước khi chúng tôi đi, xin lưu ý rằng EXO vẫn đang tìm kiếm sự giúp đỡ.Nếu bạn cũng muốn tránh tương lai của AI bị khóa vào các trung tâm dữ liệu lớn thuộc sở hữu của các tỷ phú và Megacorps và nghĩ rằng bạn có thể đóng góp theo một cách nào đó, bạn có thể tiếp cận.

Đối với một người liên lạc bình thường hơn với các phòng thí nghiệm EXO, họ tổ chức mộtKênh Retro DiscordĐể thảo luận về việc chạy LLM trên phần cứng cũ như Mac cũ, Gameboys, Raspberry Pis, v.v.