AMD thông báo MI350X và MI355X AI GPU, tuyên bố tăng hiệu suất thế hệ 4 lần, suy luận nhanh hơn 35 lần
AMD vừa giới thiệu hai mẫu GPU mới MI350X và MI355X dành cho công việc AI tại sự kiện Advancing AI 2025 ở San Jose, California. Công ty cho biết các bộ tăng tốc này mang lại hiệu suất gấp 3 lần so với thế hệ trước MI300X, giúp AMD cải thiện vị thế cạnh tranh so với đối thủ hàng đầu Nvidia. AMD khẳng định vượt trội hơn Nvidia trong các bài kiểm tra suy diễn tương đồng với tỷ lệ lên tới 1,3 lần.
AMD công bố GPU MI300 Series với hiệu suất AI tăng 4 lần và hiệu suất suy diễn tăng 35 lần so với các mẫu MI300X trước đó, nhờ vào kiến trúc CDNA 4 và quy trình sản xuất tiên tiến hơn. Các nền tảng MI350 đã bắt đầu được vận chuyển từ tháng trước. Hai GPU MI300 sẽ cung cấp giải pháp cho AMD trong năm nay và đến năm 2026 khi công ty chuẩn bị ra mắt MI400.
AMD dự kiến bộ tăng tốc Instinct MI355X sẽ tiêu thụ 1.400 watt. AMD cho biết GPU Instinct MI400X nhanh gấp 10 lần MI300X và sẽ cung cấp năng lượng cho hệ thống Helios với CPU EPYC Venice. AMD đang chuẩn bị phát hành MI450X IF128 cho năm 2026. MI350X và MI355X có thiết kế giống nhau, với tối đa 288GB bộ nhớ HBM3E, băng thông bộ nhớ lên tới 8 TB và hỗ trợ các kiểu dữ liệu FP4 và FP6.
MI350X được thiết kế cho các giải pháp làm mát bằng không khí với công suất TDP thấp hơn, trong khi MI355X tăng cường mức tiêu thụ điện cho các hệ thống làm mát bằng chất lỏng nhằm đạt hiệu suất tối đa. Dưới đây là thông số kỹ thuật của các GPU AMD Instinct MI325X, MI350X và MI355X:
- GPU: MI325X OAM, MI350X OAM, MI355X OAM
- Kiến trúc GPU: CDNA 3 cho MI325X, CDNA 4 cho MI350X và MI355X
- Kích thước bộ nhớ chuyên dụng: 256 GB HBM3E cho MI325X, 288 GB HBM3E cho MI350X và MI355X.
- Bộ nhớ HBM3E: 3 TB, 288 GB, 2.3 TB
- Băng thông bộ nhớ: 6 TB/s, 8 TB/s (từng OAM)
- Hiệu suất FP64: 72 TFLOPs, 577 TFLOPs, 78.6 TFLOPS, 628.8 TFLOPs
- Hiệu suất FP16: 2.61 PFLOPS, 4.6 PFLOPS, 36.8 PFLOPS, 5 PFLOPS, 40.2 PFLOPS
- Hiệu suất FP8: 5.22 PFLOPS, 9.2 PFLOPS, 73.82 PFLOPS, 10.1 PFLOPS, 80.5 PFLOPS
- Hiệu suất FP6: 18.45 PFLOPS, 147.6 PFLOPS, 20.1 PFLOPS, 161 PFLOPS
- Hiệu suất FP4: 18 PFLOPS.
AMD sẽ không phát hành phiên bản APU của chip này như đã làm với MI300A ở thế hệ trước, mà chỉ có thiết kế GPU thuần túy. MI355X có hiệu suất 45 PFLOPS, 147.6 PFLOPS, 20.1 PFLOPS và 161 PFLOPS.
MI350 có dung lượng bộ nhớ HBM3E gấp 6 lần so với các GPU GB200 và B200 của Nvidia, nhưng vẫn cung cấp băng thông bộ nhớ 8TB/s. AMD tuyên bố lợi thế gấp 2 lần về hiệu suất FP64 và FP32 so với chip của Nvidia, điều này không bất ngờ vì Nvidia tập trung tối ưu cho các định dạng độ chính xác thấp thân thiện với AI. Đáng chú ý, hiệu suất ma trận FP64 của MI350 đã giảm một nửa so với MI300X, trong khi hiệu suất vector giảm khoảng 4% qua các thế hệ.
📢 Liên hệ quảng cáo: 0919 852 204
Quảng cáo của bạn sẽ xuất hiện trên mọi trang!
Khi chuyển sang các định dạng độ chính xác thấp hơn như FP16, FP8 và FP4, AMD thường đạt hoặc vượt nhẹ so với các sản phẩm tương đương của Nvidia. Một điểm nổi bật là hiệu suất FP6, hoạt động ở tốc độ FP4, mà AMD coi là đặc điểm khác biệt. Bên cạnh đó, thiết kế mới và hiệu suất cao cũng đi kèm với mức tiêu thụ điện năng tăng, lên tới 1.400W cho mô hình MI355X hiệu suất cao làm mát bằng nước.
Sự tăng trưởng này đáng kể so với mức công suất 750W của MI300X và 1.000W của MI325X. AMD cho biết sự gia tăng mật độ hiệu suất này cho phép khách hàng tích hợp nhiều hiệu suất hơn vào một giá đỡ, từ đó giảm thiểu chỉ số hiệu suất trên tổng chi phí sở hữu (TCO), đánh giá hiệu suất trên mỗi đồng ở cấp độ giá đỡ. Các chip mới có nhiều cải tiến về hiệu suất, nhưng vẫn giữ nguyên các nguyên tắc thiết kế cơ bản trong việc kết hợp 3D và 2D.
Công nghệ đóng gói 5D không thay đổi, sử dụng để kết nối các chip Accelerator Compute Dies (XCD) với IO Dies (IOD) và kết nối các IOD với nhau cùng các khối HBM3E 12-Hi. Chip này có tổng cộng tám chiplet XCD, mỗi chiplet có 32 đơn vị tính toán (CU), tổng cộng là 256 CU. AMD giữ bốn CU dự phòng cho mỗi XCD để cải thiện hiệu suất, và chúng sẽ được tắt khi cần thiết.
XCD chuyển từ công nghệ 5nm ở thế hệ trước sang quy trình N3P của TSMC cho loạt MI350. Chip mới có tới 185 tỷ transistor, tăng 21% so với 153 tỷ của thế hệ trước. Ngoài ra, mặc dù die IO (IOD) vẫn sử dụng quy trình N6, AMD đã giảm số lượng tile từ bốn xuống hai để đơn giản hóa thiết kế. Sự tái tổ chức này giúp AMD tăng gấp đôi bề rộng bus Infinity Fabric, cải thiện băng thông lên tới 5.
5 TBs, đồng thời giảm tiêu thụ năng lượng bằng cách hạ tần số và điện áp bus. Điều này giảm yêu cầu năng lượng cho uncore, cho phép dành nhiều năng lượng hơn cho tính toán. Tương tự như dòng MI300, bộ nhớ cache Infinity Cache nằm trước HBM3E với 32MB cache cho mỗi ngăn HBM. Bộ vi xử lý hoàn chỉnh kết nối với máy chủ qua giao diện PCIe 5.0 x16.
Nguồn: www.tomshardware.com/pc-components/gpus/amd-announces-mi350x-and-mi355x-ai-gpus-claims-up-to-4x-generational-gain-up-to-35x-faster-inference-performance