Tại sự kiện AI Advanced 2025 vừa diễn ra, AMD đã công bố một loạt các đột phá lớn về phần cứng, phần mềm và giải pháp mạng, đồng thời khẳng định cam kết của công ty trong việc thúc đẩy khả năng AI từ quy mô nhỏ đến lớn. Các thông báo này tập trung vào việc tối ưu hóa hiệu suất, hiệu quả năng lượng và khả năng lập trình để đáp ứng nhu cầu ngày càng tăng của các mô hình AI phức tạp. Đặc biệt hơn, họ tiếp tục củng cố phát triển hệ sinh thái AI mã nguồn mở vốn được đánh giá là có tiềm năng cực kỳ lớn ở hiện tại và tương lai gần.
Đầu tiên là kiến trúc GPU MI350/MI355 (CDNA4) được thiết kế chuyên biệt để phục vụ AI. Mẫu GPU MI355 xây dựng dựa trên kiến trúc CDNA4, được thiết kế chuyên biệt cho các tác vụ AI, đặc biệt là GenAI và các mô hình ngôn ngữ lớn (LLMs). Cải tiến lớn nhất của MI355 là các công cụ ma trận (matrix engines) nâng cao, hỗ trợ các định dạng dữ liệu mới như FP8, FP6 và FP4 micro-formats, cùng với những thay đổi để cải thiện hiệu quả năng lượng trên toàn bộ kiến trúc SOC.
GPU MI355 sử dụng công nghệ đóng gói 3D tiên tiến tương tự dòng MI300, trong đó gồm 8 chiplet tăng tốc (XCD) xếp chồng lên 2 IODs (die I/O). AMD cho biết việc chuyển sang công nghệ silicon Node 3+ mang lại lợi ích về năng lượng đáng kể so với trước đây. Ngoài ra mẫu GPU này tích hợp bộ nhớ HBM3e với tổng dung lượng 288GB, mỗi stack 36GB, đạt tốc độ pin 8 Gbit/giây.
Kiến trúc Infinity Cache vẫn được duy trì trên MI355 với tổng dung lượng 256MB, chia thành 128 kênh, mỗi kênh có 2MB bộ nhớ đệm. Các kết nối bên trong chip được mở rộng và hoạt động ở điện áp thấp hơn để đạt hiệu quả năng lượng tốt hơn, mang lại băng thông cao hơn 1,3 lần mỗi watt so với dòng MI300. Băng thông phân đoạn (bisectional bandwidth) của cầu Infinity Fabric AP giữa hai IOD đạt mốc 5.5 terabyte/giây.
Về mặt logic, MI355 hoạt động như một GPU duy nhất mặc dù được build từ nhiều chiplet. Nó hỗ trợ hai chế độ phân vùng bộ nhớ (NPS1 và NPS2) và các chế độ phân vùng tính toán (SPX, DPX) để tối ưu hóa hiệu suất cho các khối lượng công việc khác nhau.
AMD cho biết họ cũng đã cải thiện các công cụ phần mềm cho lượng tử hóa, bao gồm tính năng làm tròn ngẫu nhiên (stochastic rounding) và các toán tử minmax mới cho NaN (Not a Number), giúp các lập trình viên quản lý dữ liệu AI hiệu quả hơn. Hiệu suất thông lượng tăng gấp 2 lần cho các tốc độ 16-bit và 8-bit so với MI300 trên mỗi đơn vị tính toán.
Về kiến trúc hệ thống và khả năng mở rộng. AMD tiếp tục dựa trên chuẩn UBB 2.0 và hệ sinh thái tương thích HDX để hỗ trợ một kiến trúc hệ thống quen thuộc nhưng mạnh mẽ cho người dùng.
AMD cho biết kiến trúc 8-GPU kết nối trực tiếp sẽ tối ưu cho một lượng lớn các mô hình AI, giúp rút ngắn thời gian triển khai ra thị trường. Các OAM (Open Accelerator Module) được kết nối với nhau thông qua AMD Infinity Fabric, cung cấp băng thông phân đoạn khoảng 150 GB/giây.
Để tản nhiệt cho những con quái vật này, AMD cung cấp hai giải pháp nhiệt cho MI350/MI355: một thiết kế khay 4U tản nhiệt bằng không khí (MI350) hỗ trợ công suất 1 kilowatt và một thiết kế 2U tản nhiệt bằng chất lỏng trực tiếp (MI355) cho phép công suất lên đến 1.5 kilowatt. Đối với MI355 tản nhiệt bằng chất lỏng, một rack có thể chứa tới 128 GPU, cung cấp 36TB bộ nhớ HBM3e và lên đến 2.6 hexaflops tính toán sparse FP4 hoặc FP6. Đối với MI350 tản nhiệt bằng không khí, một rack có thể chứa 64 GPU, cung cấp 18TB bộ nhớ và 1.2 sparse flops FP4 hoặc FP6.
Về hệ sinh thái, AMD cho biết họ cung cấp một giải pháp AI hoàn chỉnh, bao gồm CPU EPYC thế hệ thứ 5 (Turin) với SKU 64 lõi tần số cao được tối ưu hóa cho AI, và DPU Polera 400 của Pensando. Polera 400 AI NIC là một giải pháp mạng tiên phong nhằm giải quyết các điểm nghẽn cổ chai và thời gian giao tiếp kéo dài trong các mạng AI hiện tại.
AMD cho biết các mạng RDMA hiện tại gặp vấn đề với đường dẫn đơn (gây tắc nghẽn), độ tin cậy thấp (do phải gửi lại toàn bộ dữ liệu khi mất gói), giảm bộ đệm chuyển mạch, và thiếu khả năng vận hành. Và 400 AI NIC được thiết kế để giải quyết các vấn đề đó.
Polera 400 AI NIC sử dụng công nghệ DPU của Pensando với kiến trúc có thể lập trình được. Điều này cho phép AMD nhanh chóng triển khai các tính năng mới (như multi-plane multi-path) và tùy chỉnh các phương thức vận chuyển để phù hợp với các môi trường dữ liệu và yêu cầu khác nhau.
NIC này hỗ trợ multi-path (phân tán gói tin qua nhiều liên kết), xử lý gói tin không theo thứ tự tại NIC, và xác nhận có chọn lọc (selective acknowledgement) giúp cải thiện hiệu quả mạng. Nó cũng có thể được lập trình cho cân bằng tải, quản lý tắc nghẽn, định dạng gói tin linh hoạt và mã hóa.
Một thành phần quan trọng của giải pháp này là Rickle, mang lại hiệu suất cao hơn 25% so với RDMA tiêu chuẩn, vượt trội hơn InfiniBand và Ethernet cổ điển. Các tác vụ đồng thời phi toán học (như all-gather, broadcast) được chuyển từ GPU sang NIC, và chức năng "clear to send" cũng được chuyển từ CPU sang NIC để tối ưu hóa hiệu suất.
Cũng tại sự kiện, AMD khẳng định rằng Ultra Ethernet (UEC) được ưu tiên sử dụng cho miền mở rộng quy mô bên ngoài (scale-out domain) và công ty cũng có kế hoạch tích hợp UA Link vào các hệ thống AI trong tương lai và đang hợp tác với các đối tác để phát triển công nghệ chuyển mạch, với khả năng AMD sẽ tự phát triển một bộ chuyển mạch trong tương lai.
Một thông tin thú vị khác tại sự kiện chính là gói phần mềm ROCm 7 hướng tới một nền tảng mã nguồn mở mạnh mẽ cho AI. AMD cho biết họ đẩy nhanh khả năng đào tạo và suy luận, cung cấp hỗ trợ "day-zero" cho các mô hình và framework mới nhất.
ROCm 7 có CI/CD hàng ngày cho các framework cực kỳ phổ biến đối với các kỹ sư AI như PyTorch, Triton, Hugging Face, vLLM và AGI.lang. AMD đã gửi các hệ thống MI350 đến các phòng thí nghiệm hàng đầu như Stanford và UCSD để hợp tác phát triển. Hơn 1.8 triệu mô hình Hugging Face đang chạy hàng ngày trên phần cứng AMD. ROCm 7 mang lại sự cải thiện hiệu suất từ 3x đến 3.8x so với ROCm 6.0 chỉ thông qua các tối ưu hóa phần mềm. Cụ thể, trong so sánh Deepseek R1 200, MI355 cho thấy hiệu suất cải thiện 1.3x.
Cùng với ROCm7, AMD đã phát hành một loạt các mô hình mã nguồn mở như Anstella, Stella Vad, Hummingbird, Network Diffusion, Viking family cùng với tập dữ liệu và kịch bản đào tạo để cộng đồng có thể tái tạo. AMD cũng đang làm việc chặt chẽ với PyTorch, Jax và các thư viện liên quan để cải thiện hiệu suất đào tạo từ đầu đến cuối và khả năng mở rộng.
Để đơn giản hóa việc sử dụng, ROCm 7 sẽ có thể cài đặt dễ dàng chỉ với lệnh "pip install roc-m". AMD cam kết đưa ROCm đến mọi nơi, bao gồm hỗ trợ đầy đủ cho Windows và tích hợp vào các sản phẩm client như Ryzen và Threadripper. AMD cũng sẽ ra mắt AMD Developer Cloud và các khoản tín dụng dành cho nhà phát triển để cung cấp quyền truy cập dễ dàng vào GPU Instinct.
Có thể thấy những công bố này tại AI Advanced 2025 cho thấy AMD đang hướng tới xây dựng một hệ sinh thái toàn diện và mạnh mẽ, không chỉ dừng lại ở các thành phần riêng lẻ mà còn tích hợp phần cứng, phần mềm và mạng để cung cấp các giải pháp AI hàng đầu thị trường. Nguồn:tinhte.vn/thread/amd-gioi-thieu-gpu-mi350-mi355-danh-cho-ai-rocm7-ho-tro-pytorch-windows.4028337/