Google Cloud ra mắt các phiên bản đầu tiên của Blackwell AI GPU
Google Cloud đã ra mắt máy ảo A4X, được trang bị bởi hệ thống NVL72 dựa trên GPU B200 của Nvidia. Các hệ thống này có 72 GPU B200 và 36 CPU Grace. Theo Google, các máy ảo mới này được thiết kế cho các khối lượng công việc AI quy mô lớn, như mô hình ngôn ngữ lớn với ngữ cảnh dài, mô hình suy luận và các tình huống cần xử lý đồng thời lớn. Google cũng cung cấp máy ảo A4 cho đào tạo và phát triển AI chung.
Máy ảo A4X của Google sử dụng máy NVL72 của Nvidia, bao gồm 72 GPU B200 và 36 CPU Grace 72 lõi, cùng với 2.596 lõi Neovers V2 dựa trên Armv9 kết nối bằng NVLinks. Điều này cho phép chia sẻ bộ nhớ liền mạch giữa 72 GPU, cải thiện thời gian phản hồi và độ chính xác trong suy diễn. Hệ thống hỗ trợ nhiều yêu cầu suy diễn đồng thời, phù hợp cho các ứng dụng AI đa phương thức. Về hiệu suất, A4X mang lại hiệu quả đào tạo gấp bốn lần so với A3 sử dụng GPU H100 của Nvidia.
Google Cloud cam kết cung cấp hơn 1 ExaFLOPS sức mạnh tính toán cho mỗi hệ thống GB200 NVL72, với khả năng đạt hiệu suất 1440 PetaFLOPS cho FP8INT8FP6, phù hợp cho việc huấn luyện và suy diễn với các tác vụ song song. Các máy ảo A4X cũng được trang bị bộ điều hợp mạng Titanium ML dựa trên NIC ConnectX-7 của Nvidia, đảm bảo hiệu suất ML nhanh, an toàn và mở rộng, cho phép lưu lượng GPU-to-GPU không bị gián đoạn lên tới 28.8 terabit mỗi giây với 72 × 400 Gbps.
Mạng Jupiter của Google Cloud kết nối các miền NVL72, cho phép mở rộng linh hoạt đến hàng chục nghìn GPU Blackwell trong một cụm không bị chặn. Đặc biệt, các nhóm AI có thể triển khai máy ảo A4X qua Google Kubernetes Engine (GKE), hỗ trợ cụm lên đến 65.000 nút. Google cũng giới thiệu các kỹ thuật chia sẻ và dẫn dòng tiên tiến để tối ưu hóa việc sử dụng GPU cho các triển khai lớn.
A4X VMs tích hợp mượt mà với các dịch vụ của Google Cloud. Google hỗ trợ Cloud Storage FUSE, giúp tăng tốc độ truyền dữ liệu huấn luyện gấp 2.9 lần, trong khi Hyperdisk ML rút ngắn thời gian tải mô hình gấp 11.9 lần. Google Cloud hiện cung cấp cả A4 và A4X VMs, mỗi loại tối ưu cho các khối lượng công việc AI khác nhau. A4X, với hệ thống GB200 NVL72, nhắm đến AI quy mô lớn, mô hình ngôn ngữ dài và ứng dụng có tính đồng thời cao.
Cùng lúc, A4, được trang bị GPU B200 và các bộ xử lý chưa xác định, phù hợp hơn cho việc đào tạo và tinh chỉnh AI tổng quát. Giá của A4X và A4 vẫn chưa được công bố.
Nguồn: www.tomshardware.com/tech-industry/artificial-intelligence/google-cloud-launches-first-blackwell-ai-gpu-powered-instances-72-way-gb200-with-72-b200-gpus-and-36-grace-cpus