AMD Bản năng MI350 ra mắt: 3nm, 185 tỷ bóng bán dẫn, bộ nhớ 288 GB HBM3E, hỗ trợ FP4 & FP6, MI355X 35X nhanh hơn MI300 & 2.2x nhanh hơn Blackwell B200
AMD vừa chính thức ra mắt dòng sản phẩm Instinct MI350, bao gồm MI350X và MI350X, với khả năng tích hợp lên đến 185 tỷ transistor. Dòng GPU HPC AI mới này sử dụng kiến trúc CDNA 4 dựa trên tiến trình 3nm của TSMC và hỗ trợ tới 20 PFLOPs tính toán AI.
Chip mới có 185 tỷ bóng bán dẫn, bao gồm hai phiên bản MI350X và MI355X, có sẵn trong cả cấu hình làm mát bằng không khí và nước. Các chip này hỗ trợ các loại dữ liệu AI FP6 và FP4 mới nhất, đi kèm với dung lượng bộ nhớ HBM3e lớn. So với chip B300 của NVIDIA sử dụng quy trình 4nm từ TSMC với 208 tỷ bóng bán dẫn, series MI350 có tổng cộng 256 đơn vị tính toán với 128 bộ xử lý dòng, tương đương 16.384 lõi.
Các lõi này thấp hơn so với series MI325 và MI300, với 304 đơn vị tính toán và tổng số lõi tối đa là 19,456. Các đơn vị tính toán được chia thành tám vùng, mỗi vùng có một XCD chứa 32 đơn vị tính toán. XCD dựa trên công nghệ N3P của TSMC, trong khi các chip I/O kép dựa trên công nghệ N6 của TSMC. IOD bao gồm 128 kênh HBM3E, bộ nhớ cache vô cực và các liên kết Infinity Fabric thế hệ thứ 4.
AMD cho biết dòng sản phẩm Instinct MI350 cung cấp 20 PFLOPs hiệu suất tính toán FP4FP6, tăng 4 lần so với thế hệ trước. Với HBM3e, tốc độ truyền dữ liệu nhanh hơn và dung lượng siêu lớn 288 GB cho cả hai phiên bản. Chip cũng có 256 MB Infinity Cache mới, với bộ nhớ được xếp thành 8 chồng, mỗi chồng chứa 36 GB trong 12-Hi stacks.
Các chip này được trang bị UBB8, một tiêu chuẩn mới cho việc triển khai hạ tầng AI nhanh chóng, cho phép triển khai các nút làm mát bằng không khí và chất lỏng nhanh hơn. Đối với MI355X, chip này cung cấp băng thông bộ nhớ tổng hợp 8 TB, 79 TFLOPs FP64, 5 PFLOPs FP16, 10 PFLOPs FP8 và 20 PFLOPs FP6FP4. Các số liệu này áp dụng cho cấu hình 1400W hàng đầu của chip Instinct MI355X.
Cần lưu ý rằng cả MI350X và MI355X đều sử dụng cùng một chip, nhưng MI355X có chỉ số TDP cao hơn. Dưới đây là các số liệu so sánh giữa MI355X và đối thủ:
- Băng thông cao hơn 1.6 lần
- FP64 cao hơn 1.0 lần
- FP16 cao hơn 2.1 lần
- FP8 cao hơn 1.1 lần
- FP6 cao hơn 2.2 lần
- FP4 cao hơn 1.1 lần
- Băng thông cao hơn 1.6 lần
- FP64 cao hơn 1.0 lần
- FP16 cao hơn 2.0 lần.
Instinct MI355X có hiệu suất cao hơn 0x FP8, 1.0x FP6, 2.0x FP4 và 1.0x so với MI300. AMD vừa công bố hiệu suất suy diễn tăng 35x với Llama 3.1 405B, một bước tiến lớn. Hệ sinh thái mới MI350 sẽ hỗ trợ tối đa 8 GPU MI355 với 2.3 TB bộ nhớ HBM3e và băng thông tổng cộng 64 TB.
Hiệu suất tính toán đạt 63 PFLOPs FP64, 81 PFLOPs FP8 và 161 PFLOPs FP6FP4. Một bộ rack với hệ thống làm mát bằng chất lỏng sẽ chứa từ 96 đến 128 GPU Instinct MI350 series, với tối đa 36 TB bộ nhớ HBM3e, 2.6 Exaflops FP4 và 1.3 Exaflops FP8. Hệ thống sẽ sử dụng CPU Turin EPYC dựa trên kiến trúc nhân Zen 5 và giải pháp kết nối Pollara 400. Sau khi đã trình bày các thông số chính thức, chúng ta có thể thảo luận về hiệu suất thực tế trong các bài kiểm tra AI mà AMD đã giới thiệu.
📢 Liên hệ quảng cáo: 0919 852 204
Quảng cáo của bạn sẽ xuất hiện trên mọi trang!
Chúng ta lại bắt đầu so sánh hiệu suất giữa MI355X và MI300X, với các chip mới mang lại mức tăng từ 2.8x đến 4.2x trong AI. Một chỉ số khác so sánh MI355X với các tác vụ AI phổ biến như DeepSeek R1, Llama 4 và Llama 3.1 cho thấy các chip mới vượt trội hơn hẳn MI300X. MI355X cũng được so sánh với các máy chủ B200 và GB200 từ đối thủ và cho thấy hiệu suất cao hơn.
Tăng 2-1.3 lần. Trong chế độ FP4 của Llama 3.1 405B, các chip AI Instinct mới cung cấp hiệu suất tương đương với máy chủ Blackwell GB200 đắt hơn của NVIDIA, điều này hỗ trợ mục tiêu của AMD. AMD cũng cho biết dòng GPU Instinct MI350 có khả năng tạo ra nhiều hơn 40 token so với giải pháp B200 của NVIDIA. Dòng MI350 sẽ ra mắt hôm nay với sự có mặt qua các đối tác bắt đầu từ quý 3 năm 2025, trong khi dòng MI400 thế hệ tiếp theo đang trong quá trình phát triển và dự kiến ra mắt vào năm 2026.
Tên các bộ tăng tốc AI AMD Instinct:
1. AMD Instinct MI500
2. AMD Instinct MI400
3. AMD Instinct MI350X
4. AMD Instinct MI325X
5. AMD Instinct MI300X
6. AMD Instinct MI250X
Kiến trúc GPU:
- MI300X: CDNA 4 Aqua Vanjaram
- MI250X: CDNA 3 Aqua Vanjaram
Quy trình sản xuất GPU:
Số chiplet XCDs:
Số lõi GPU:
Tóm tắt thông tin:
- FP16 Compute: 6 PFLOPs, 2.6 PFLOPs, TBD
- FP32 Compute: 10 PFLOPs, 5 PFLOPs, 1.3 PFLOPs, 1.3 PFLOPs, 383 TFLOPs, TBD, 157.3 TFLOPs, 163.4 TFLOPs
- FP64 Compute: TBD, TBD, 79 TFLOPs, 81.7 TFLOPs, 47.9 TFLOPs
- VRAM: TBD, 432 GB HBM4, 288 GB HBM3e, 256 GB HBM3e, 192 GB HBM3, 128 GB HBM2e
- Infinity Cache: TBD, 256 MB
- Memory Clock: TBD, 19.6 TBs, 8.0 Gbps, 5.9 Gbps, 5.2 Gbps, 3.
Băng thông bộ nhớ 2 Gbps, 8192-bit; băng thông TBD: 8 TB/s, 6.0 TB/s, 5.3 TB/s, 3.2 TB/s; định dạng TBD: OAM.
Nguồn: wccftech.com/amd-instinct-mi350-mi355x-launched-3nm-185-billion-transistors-288-gb-hbm3e-fp4-fp6-2-2x-faster-blackwell-b200/