Dù ra đời không lâu thế nhưng Cerebras là cái tên mà mọi hãng chip đều phải dè chừng. Đây là công ty đã làm giới công nghệ "bật ngửa" khi lần đầu công bố WSE (Wafer Scale Engine) hồi 2019 với con số transistor mà ngay cả Apple, AMD, NVIDIA, Intel tới 2024 vẫn chưa làm được là 1200 tỷ! Còn với 4000 tỷ transistor và 900,000 nhân AI, Cerebras WSE-3 là con chip lớn nhất nhân loại từng sản xuất được. Về cơ bản mà nói thì WSE thực chất là một con chip được "đúc" ra từ đúng một tấm wafer 300 mm (wafer scale), dựa trên công nghệ SoW của TSMC. Từ đó cho tới nay, Cerebras đã có 3 thế hệ WSE-1, 2, 3 và chúng được triển khai lần lượt trên các hệ thống CS-1, 2, 3 tương ứng. Con chip WSE-3 mới nhất được công bố hồi đầu năm nay dĩ nhiên có kích thước vật lý không đổi, nhưng "nội tạng" chứa tới 4000 tỷ transistor (5 nm) và 900,000 nhân xử lý AI! Công nghệ làm chip TSMC CoW-SoW và sự 'điên loạn' của ngành bán dẫn Thời kỳ những con chip to bằng móng tay, ngón tay, bàn tay... cũng gần đến lúc kết thúc. Sắp tới đây bạn sẽ thấy "con chip" to bằng cái nồi cơm, bếp điện... và ai biết được rằng liệu con chip trong tương lai có “bự” bằng cả cái bàn hay không? … tinhte.vn Đáng nói hơn ở WSE là con chip này không dùng loại bộ nhớ "rẻ tiền" như GDDR hay "tàn tàn" như HBM, mà là "hạng sang" SRAM, với dung lượng cực khủng tới 44 GB, cho phép đạt băng thông lên đến 21 PB/s! Bên cạnh đó để đảm bảo việc liên lạc giữa 900,000 nhân xử lý, WSE-3 còn có một mạng lưới liên kết nội bộ lên đến 214 Pb/s. Tổng quan lại, con chip "khủng long" này cho sức mạnh tính toán tối đa tới 125 Petaflops. Và một siêu máy tính tạo ra từ 2048 node WSE-3 sẽ cho năng lực điện toán tới 256 exaflops! Inference đè bẹp mọi đối thủ Nhưng đó là chuyện hơn nửa năm trước. Còn tại SC24 mới đây, Cerebras vừa công bố loạt thông tin mà cả NVIDIA cũng cảm thấy mình thật... "nhỏ bé". Cụ thể khi so sánh năng lực inference dựa trên mô hình Llama 3.1 405 tỷ tham số (Llama 3.1-405B), hệ thống CS-3 đạt mức output tới 969 token/s, mạnh gấp 75 lần dịch vụ AI nhanh nhất dựa trên GPU của Amazon Web Services. Thực tế không có hệ thống AI nào dùng GPU cán được mức 100 token/s. Chỉ duy nhất nền tảng dùng ASIC của SambaNova là đạt 164 token/s, nhưng so với con số của CS-3 thì... So sáng năng lực output lẫn latency của CS-3 với các nền tảng AI khác CS-3 không chỉ đè bẹp về output, mà cả latency (độ trễ) cũng khiến các đối thủ phải ngậm ngùi. Cụ thể hệ thống của Cerebras chỉ mất có 240 ms để hồi đáp yêu cầu của người dùng. Còn SambaNova dù output hơn các GPU khác nhưng "bị đơ" tới 1620 ms. Công ty này còn "sỉ nhục" đối thủ khi công bố một đoạn clip so sánh tốc độ phản hồi như sau: Cần nói thêm rằng Llama 3.1-405B chỉ mới được Meta công bố hồi giữa năm nay. Còn các mô hình Llama trước đó đều là "muỗi" với công ty này. Ví như Llama 3.1-70B họ đã sớm đạt mốc 2200 token/s. Còn Blackwell của NVIDIA mặc dù mạnh hơn Hopper song chạm tới WSE-3 là điều quá khó với con chip này. WSE-3 "chấp" các hệ thống khác dùng mô hình AI nhỏ hơn Cerebras cũng không quên "troll" các giải pháp GPU của đối thủ kể cả khi chạy Llama 1 tỷ tham số vẫn còn thua đậm CS-3 chạy Llama 405 tỷ tham số! Chạy giả lập phân tử mạnh hơn cả siêu máy tính Nếu có chi tiết nào cần nói rõ, thì ứng dụng siêu máy tính (HPC) và trí thông minh nhân tạo (AI) là 2 mảng khác nhau. Rất nhiều người bị "bé cái lầm" chỗ này. Trong khi các thuật toán AI thường dựa trên các toán tử có độ chính xác không cao (16-bit trở xuống) thì siêu máy tính thường đòi hỏi năng lực tính toán dấu phẩy động càng chính xác càng tốt (thường là FP32, FP64). Chip của Cerebras tuy ban đầu sinh ra cho AI, nhưng mới đây nhất nó cho thấy khả năng chạy HPC cũng rất bá đạo! Chỉ hỗ trợ FP32 nhưng CS-2 thực sự quá mạnh! Cerebras khi hợp tác với các cơ sở nghiên cứu như Phòng thí nghiệm Quốc gia Sandia, Lawrence Livermore và Los Alamos (Mỹ), đã cho con chip của mình thử sức chạy mô phỏng động học phân tử (molecular dynamics) bên cạnh 2 siêu máy tính khác là Frontier và Anton 3. Kết quả đem về hết sức ngỡ ngàng khi CS-2 cho năng suất tới 1.1 triệu bước/s, Anton 3 theo sát nút ở mức 980,000 bước/s và Frontier chỉ đạt 1,470 bước/s. Tất nhiên cần nói rõ động học phân tử chỉ là một ứng dụng HPC, không có nghĩa mọi ứng dụng khác cũng cho kết quả tương tự. Nhưng kết quả trên khiến cho tất cả mọi người phải giật mình trước khả năng của WSE. Cần nói thêm rằng Cerebras đạt được kỷ lục này chỉ với WSE-2, tức con chip thế hệ 2 chứ không WSE-3 như phần trên. WSE-2 có 2.6 tỷ transistor (7 nm) với 850,000 nhân xử lý và 40 GB bộ nhớ SRAM. Còn Anton 3 là hệ thống dựa trên 512 chip ASIC được tối ưu cho tính toán động học phân tử, không phải đa nhiệm như Frontier hay CS-2. Trong danh sách TOP500 mới nhất, Frontier tuy đã bị tụt hạng 2 nhưng El Capitan cũng chỉ mạnh gấp 1.3 lần đàn anh. Do đó nếu có so găng động học phân tử với CS-2 thì El Capitan vẫn hoàn toàn "không có tuổi". Ai có thể dùng Cerebras? Với một sức mạnh "vô đối" như thế, hẳn bạn cũng hình dung cái giá của Cerebras cũng "chát" không tưởng. Tuy vậy, với đa số người dùng như chúng ta, loại sản phẩm/dịch vụ duy nhất mà công ty này đang cung cấp là inference với chi phí khoảng 1 USD cho 1 triệu token output/1000 token input dựa trên mô hình Llama 3.1-70B với các đoạn context có kích thước tối đa 128K. Bảng giá dịch vụ dịch vụ AI của Cerabras trên Llama 3.1-70B Còn với mô hình Llama 3.1-405B, hiện công ty này chỉ cho dùng thử nhưng sang Q1 2025 sẽ bắt đầu cung cấp đại trà. Mức giá dự kiến là 6 USD cho 1 triệu token input và 12 USD cho 1 triệu token output. Ngoài ra Cerebras cũng cung cấp dịch vụ AI đám mây nhưng giá cả không được công khai, bạn sẽ cần liên hệ trực tiếp với hãng.