Bản năng của AMD MI325X mỉm cười với máy ảnh: 256 GB HBM3E
Tại triển lãm CES, AMD đã giới thiệu bộ tăng tốc Instinct MI325X mới nhất cho các tác vụ AI và HPC, đây cũng là vi xử lý duy nhất trên thế giới có 256 GB bộ nhớ HBM3E và hứa hẹn sẽ là một trong những GPU hiệu quả nhất cho suy luận. Mặc dù CES chủ yếu dành cho các sản phẩm điện tử tiêu dùng, nhưng các công ty bán dẫn đã lâu nay sử dụng sự kiện này để trình diễn công nghệ mà họ cho là phù hợp.
Trong khi Nvidia chủ yếu nói về AI trong bài phát biểu, AMD đã giới thiệu một loạt vi xử lý dành cho PC, nhưng điều này không có nghĩa là công ty không có gì mới. Thực tế, AMD đã trình diễn dòng sản phẩm Instinct MI325X hoàn toàn mới. Instinct MI325X trang bị GPU dual-chiplet giống như MI300X, với 19,456 bộ xử lý dòng và 304 đơn vị tính toán, hoạt động với tần số lên tới 2.
Accelerator mới có tốc độ 10 GHz, trang bị 256 GB bộ nhớ HBM3E với băng thông 6 TB/s, thay vì 192 GB HBM3 với 5.3 TB/s. So với Nvidia H200 chỉ có 141 GB HBM3E và 4.8 TB/s, AMD Instinct MI325X dẫn đầu về dung lượng bộ nhớ HBM3E. Trước đó, AMD đã thông báo MI325X sẽ có 288 GB HBM3E, nhưng sau đó giảm xuống 256 GB mà không rõ lý do.
Việc có nhiều bộ nhớ trên bo mạch là rất quan trọng đối với các bộ tăng tốc AI, cả trong việc huấn luyện lẫn suy diễn. Các mô hình AI hiện đại thường có hàng chục tỷ tham số và cần hàng chục ngàn GPU để huấn luyện. Việc lưu trữ các tham số này, cùng với dữ liệu trung gian và gradients, đòi hỏi một lượng bộ nhớ lớn. Vì không có mô hình nào có thể vừa vặn trong bộ nhớ của GPU, các nhà phát triển phải sử dụng các kỹ thuật như phân tán mô hình hoặc chia tensor, điều này làm tăng chi phí tính toán và giao tiếp.
📢 Liên hệ quảng cáo: 0919 852 204
Quảng cáo của bạn sẽ xuất hiện trên mọi trang!
Với nhiều bộ nhớ GPU hơn, cần ít GPU hơn để huấn luyện do giảm bớt chi phí. Các bộ tăng tốc AI xử lý dữ liệu theo lô, và bộ nhớ lớn cho phép sử dụng lô lớn hơn, từ đó tăng tốc độ và hiệu quả huấn luyện cũng như suy diễn. Bộ nhớ nhỏ buộc mô hình phải chạy với kích thước lô nhỏ hơn, giảm hiệu quả. Tuy nhiên, thực tế có thể khác.
Hệ thống với tám GPU Nvidia H100 80 GB tạo ra số lượng token mỗi giây tương đương với máy sử dụng tám GPU AMD Instinct MI300X 192 GB trong bài kiểm tra MLPerf 4.1 với mô hình Llama 2 70B, theo dữ liệu từ AMD và Nvidia vào cuối tháng Tám. Ngược lại, máy chủ 8 chiều với GPU H200 141 GB tạo ra hơn 30 token mỗi giây so với máy 8 chiều MI300X 192 GB.
Hiện tại, có vẻ như Instinct MI300X không thể tận dụng hết khả năng phần cứng của nó, có thể do hạn chế trong phần mềm. Còn về Instinct MI325X, chúng ta sẽ chờ xem liệu nó có vượt qua những hạn chế phần mềm này và có hiệu suất tốt hơn đối thủ hay không.
Nguồn: www.tomshardware.com/tech-industry/artificial-intelligence/amds-instinct-mi325x-smiles-for-the-camera-256-gb-of-hbm3e