Mảng sản phẩm doanh nghiệp của Intel vừa có những bước đi mới. Ở mặt trận CPU, công ty vừa giành lại được ngôi vị đầu bảng với dòng sản phẩm Xeon 6900P (Granite Rapids) sau một thời gian dài ở "chiếu dưới". Còn với AI, vì không có ý định tranh vị trí số 1, Gaudi 3 hướng đến mục tiêu thu hút được nhiều khách hàng với mức giá thấp hơn đối thủ đáng kể. Trước hết, Gaudi 3 là một thiết kế chiplet - hay đúng hơn là nhiều die AI (Gaudi 2 chỉ có 1 die AI bên cạnh các die bộ nhớ HBM). Nó gồm 2 die AI đặt liên cận nhau và được bao quanh bởi 8 die HBM2e có dung lượng 128 GB. Dù dung lượng bộ nhớ nhiều như thế nhưng HBM2e là một chuẩn nhớ đã có tuổi, thế nên bộ tăng tốc AI này tương đối "thiệt thòi" hơn các đối thủ được trang bị HBM3 đến từ cả AMD và NVIDIA. Về thông số kỹ thuật, cả 2 die AI Gaudi 3 có tổng cộng 64 TPC, 8 MME, 96 MB SRAM và 24 bộ giao tiếp Ethernet cho tổng băng thông 1200 GB/s mỗi hướng. Gaudi 3 cũng trang bị thêm 16 lane giao tiếp PCIe 5.0 cho phép nó làm việc với các CPU Xeon dưới hình thức host. Ngoài ra, Intel còn kèm thêm 14 bộ decoder giúp tăng tốc giải mã các định dạng hình ảnh H.265, H.264, JPEG, VP9. So sánh với phiên bản tiền nhiệm, Gaudi 2 chỉ có 24 TPC, 2 MME, 48 MB SRAM và 96 GB HBM2e, cho thấy Gaudi 3 mạnh mẽ hơn rất nhiều. Thông số kỹ thuật của Gaudi 3 Tuy vậy Gaudi 3 có một điểm trừ là nó không hỗ trợ toán tử TF32, FP32 và FP16 như Gaudi 2, mà chỉ có FP8 và BF16. Như vậy có thể thấy Gaudi 3 thuần tuý là một bộ tăng tốc AI. Nó sẽ không dùng được cho các ứng dụng siêu máy tính nếu cần tới xử lý FP32 hoặc hơn. H100 vẫn hỗ trợ FP32, FP64, TF32 và FP16. Về hình thức vật lý, Gaudi 3 có 3 dạng gồm PCIe (HL-338), OAM (HL-325L) và Baseboard server gồm 8 chip OAM (HLB-325). Hồi Computex tháng 6 trước, Intel cho biết 1 rack server 8 chip Gaudi 3 có giá 125,000 USD, có nghĩa 1 con chip trung bình chỉ 15,625 USD. Hiện tại, một chiếc card H100 có giá trên 30,000 USD, có nghĩa giá của Gaudi 3 chỉ bằng 1/2 sản phẩm tương đương bên NVIDIA. Các hình thức vật lý của Gaudi 3 Intel cho biết Gaudi 3 mạnh hơn H100 khi chạy mô hình LLaMA 3 Về mặt hiệu năng, tuy Gaudi 3 có 3 dạng tồn tại và chung cấu hình TDP 600 W, nên có lẽ không có khác biệt sức mạnh giữa chúng (2 phiên bản SXM và PCIe của H100 có khác biệt sức mạnh). Intel cho biết khi tính toán ma trận BF16/FP8, Gaudi 3 đạt tốc độ 1835 TFlops, còn tính vector BF16 thì đạt 28.7 TFlops. Con số này bên H100 (bản SXM) là 1979 TFlops cho BF16 (ma trận), 3958 TFlops cho FP8 (ma trận) và 1979 TFlops BF16 (vector). Song khi so sánh năng lực chạy mô hình LLaMA 3, Intel cho biết Gaudi 3 mạnh gấp 1.09 lần H100 ở mức 8 tỷ thông số và gấp 1.19 lần ở mức 70 tỷ thông số. Chi tiết này cho thấy ngoài yếu tố phần cứng thì cấu trúc phần mềm cũng ảnh hưởng đáng kể tới hiệu năng tính toán ngoài thực tế. Quảng cáo Admicro AdX Hệ sinh thái phần mềm cùng các đối tác phần cứng của Gaudi 3 Hiện tại, Gaudi hỗ trợ khá nhiều mô hình AI phổ biến trên thế giới bên cạnh các thư viện & ngôn ngữ lập trình khác nhau. Trước mắt, khách hàng có thể trải nghiệm sức mạnh của Gaudi 3 thông qua dịch vụ đám mây Tiber Developer của công ty này, hoặc qua IBM Cloud. Trong trường hợp nếu muốn "bắt tận tay day tận mặt", các hệ thống server trang bị Gaudi 3 sẽ được cung cấp bởi các thương hiệu Dell, HP và Supermicro, dự kiến có mặt trong Q4 2024.