GTC 2025: Chi tiết Blackwell Ultra GB300, cùng 2 thế hệ GPU AI mới của Nvidia, Vera Rubin và Feynman

#ai

Ba thế hệ GPU máy chủ đám mây phục vụ cho toàn bộ ngành công nghiệp AI toàn cầu đã được Nvidia giới thiệu tại sự kiện GTC 2025. Anh em hãy cùng mình lần lượt điểm qua những gì CEO Jensen Huang đã công bố tại keynote trong khuôn khổ sự kiện dành riêng cho các nhà phát triển ứng dụng cũng như công nghệ này.

Blackwell Ultra - GB300, hiệu năng tăng 50%

Bây giờ tính ra, cứ mỗi giây, Nvidia lại kiếm được 2.300 USD lợi nhuận nhờ vào cơn sốt AI toàn cầu. Hiện giờ mảng kinh doanh chip xử lý máy chủ và data center của họ đã đem về doanh số khổng lồ, vượt qua cả mảng GPU máy tính để bàn cũng như gaming, thứ từng gánh toàn bộ doanh thu của tập đoàn Nvidia nhiều năm về trước. Với sự ra mắt của GB300, Nvidia kỳ vọng thế hệ chip xử lý AI kiến trúc Blackwell Ultra sẽ tiếp nối đà tăng trưởng đó, dự kiến ra mắt vào nửa cuối năm 2025 này.

Sự ra mắt của thế hệ chip xử lý Blackwell thực sự không diễn ra như kỳ vọng của Nvidia, vì đáng lý ra Blackwell GB100 và GB200 phải được giao cho các đối tác và khách hàng từ cuối năm ngoái chứ không phải trong những tháng đầu năm 2025 này. Để giải quyết những vấn đề trong quá trình thiết kế và gia công chip Blackwell, Nvidia đã phải nỗ lực để đảm bảo nguồn cung chip xử lý kiến trúc Blackwell cho các khách hàng của họ.

Đối với Blackwell Ultra, đầu tiên và quan trọng nhất, sẽ cải thiện mật độ bộ nhớ HBM, nhờ vào những stack chip nhớ HBM3e 12 lớp, được SK Hynix sản xuất và cung cấp độc quyền cho Nvidia. Cùng với đó, hiệu năng xử lý cũng sẽ được cải thiện so với GB100 và GB200 thế hệ Blackwell. Những con chip GB300 sẽ được kết hợp với switch mạng Spectrum Ultra X800 Ethernet thế hệ mới nhất.

Mục tiêu của Blackwell Ultra, là tạo ra hiệu năng mạnh nhất để các tập đoàn và các đơn vị, cho phép họ nghiên cứu phát triển ra những công nghệ và mô hình AI tư duy lý luận logic trong tương lai.

Theo Nvidia, Blackwell Ultra dựa trên nền tảng kiến trúc của Blackwell, vốn được giới thiệu cùng thời điểm này năm ngoái, tại sự kiện GTC 2024. Những chip Blackwell Ultra GB300 sẽ được trang bị trong những rack máy chủ Nvidia GB300 NVL72, và Nvidia HGX B300 NVL16.

GB300 NVL72, y hệt như cái tên, sẽ kết nối 72 chip GB300, kết hợp với 36 chip CPU kiến trúc ARM Neoverse, tên là Grace, con chip vi xử lý quen thuộc từ thời điểm kiến trúc Hopper được ra mắt vài năm về trước. Kết hợp tất cả những chip xử lý này lại với nhau, mỗi rack máy chủ đám mây sẽ vận hành như một chip GPU thống nhất ở quy mô cực lớn.

So sánh với rack GB200 NVL72, bao gồm 72 chip GPU Blackwell thế hệ cũ, GB300 NVL72 tạo ra sức mạnh xử lý tăng 50%. Nhờ đó, những mô hình AI sẽ có thể vận hành ở ngưỡng tham số cao hơn trước, tìm ra giải pháp cho những vấn đề mà người dùng đặt ra, chia nhỏ vấn đề thành từng bước cụ thể, chi tiết, đảm bảo câu trả lời chính xác nhất từ mô hình ngôn ngữ cũng như mô hình logic.

Còn trong khi đó, hệ thống HGX B300 NVL16, với 16 con chip GB300, sẽ tạo ra hiệu năng nội suy nội dung ngôn ngữ tự nhiên từ những LLM mạnh hơn 11 lần, hiệu năng xử lý mạnh hơn 7 lần và tổng dung lượng bộ nhớ nhiều hơn gấp 4 lần so với những hệ thống trang bị chip Hopper thế hệ cũ.

Blackwell Ultra, nhưng mà dưới hình dáng máy tính để bàn

Đấy chính là thứ mà Nvidia, cũng như CEO Jensen Huang gọi bằng cái tên DGX Station. Trên bo mạch chủ của chiếc máy tính để bàn này sẽ là một chip GB300 Blackwell Ultra đơn lẻ, kết hợp với CPU Grace, tổng cộng 784GB bộ nhớ thống nhất để cả CPU lẫn GPU vận hành, networking băng thông 800 Gbps. Với bo mạch được trang bị trong hệ thống desktop dành cho các nhà phát triển và các nhà khoa học nghiên cứu AI này, Nvidia khẳng định hệ thống này tạo ra được hiệu năng xử lý AI 20 petaflops.

Dự kiến các đối tác OEM của Nvidia sẽ chịu trách nhiệm sản xuất phiên bản thương mại của DGX Station, bao gồm Asus, Dell, HP, Boxx, Lambda và Supermicro, dự kiến ra mắt ngay cuối năm nay.

Còn trong khi đó, chiếc máy siêu nhỏ gọn mang tên Project Digits, vốn được hé lộ hồi đầu năm nay tại CES 2025 với mức giá chỉ 3000 USD cũng đã có tên thương mại, DGX Spark. Chiếc máy được ược thiết kế dành cho các nhà nghiên cứu AI, nhà khoa học dữ liệu và sinh viên. Thiết bị này là một hướng đi mới để mang AI dễ dàng tiếp cận với những người có nhu cầu cần nó với một mức giá phù hợp nhưng mang lại một khả năng tính toán thường chỉ có ở các trung tâm dữ liệu quy mô lớn. CEO Jensen Huang coi đây là một bước tiến lớn khi ông kỳ vọng rằng thiết bị sẽ thúc đẩy đổi mới trong các lĩnh vực như robot, hệ thống tự hành và AI tạo sinh bằng cách cung cấp tài nguyên tính toán mạnh mẽ nhưng dễ tiếp cận cho nhóm đối tượng trên.

Nvidia DGX Spark được trang bị chip xử lý GB10, kết hợp CPU Grace và GPU kiến trúc Blackwell của Nvidia, được tối ưu hóa hiệu suất và tiết kiệm năng lượng. Bộ xử lý này giúp thiết bị đạt được hiệu suất lên đến 1 petaflop ở độ chính xác FP4, cho phép xử lý các tác vụ AI quy mô lớn như huấn luyện và tinh chỉnh mô hình. Với hiệu suất này, NVIDIA Project Digits có thể chạy các mô hình trí tuệ nhân tạo có quy mô lên đến 200 tỷ tham số và với khối lượng lớn hơn, hai thiết bị kết nối với nhau có thể hỗ trợ mô hình lên đến 405 tỷ tham số. Hiệu suất này giúp Project Digits vượt xa các máy tính để bàn thông thường, gần như mạnh hơn 1.000 lần so với hiệu năng trung bình mà những chiếc laptop tạo ra.

Rubin & Rubin Ultra: Ra mắt cuối năm 2026

Ngay từ thời điểm hội chợ thiết bị điện toán Computex 2024 tổ chức ở Đài Bắc, Nvidia đã hé lộ roadmap ra mắt những sản phẩm GPU dành cho máy chủ thế hệ mới của họ. Nếu anh em còn nhớ, thì sau Blackwell và Blackwell Ultra, sẽ đến kiến trúc Rubin.

Thời điểm giữa năm 2024, Nvidia cho biết, với những GPU Rubin, kích thước photomask quang khắc EUV thiết kế của con chip lên wafer silicon sẽ có reticle design 4x, lớn hơn con số 3.3x mà Nvidia và TSMC ứng dụng với Blackwell. R100 sẽ được gia công trên tiến trình 3nm TSMC, ứng dụng quy trình đóng gói die bán dẫn CoWoS-L để tạo ra những “siêu chip” kích thước khổng lồ, có khi còn hơn cả B100 Blackwell.

Và kiến trúc Rubin sẽ bao gồm hai sản phẩm: GPU Rubin và CPU Vera. Chip CPU kiến trúc ARM này sẽ thay thế cho Grace, thứ vẫn đang được Nvidia ứng dụng ngay cả với kiến trúc chip GPU AI Blackwell Ultra.

Hệ thống Vera Rubin sẽ có những lựa chọn máy chủ NVL72 hoặc NVL144, ngay từ con số đó anh em cũng có thể đoán được mỗi hệ thống sẽ trang bị 72 hoặc 144 chip Rubin, kẹp chung với 36 hoặc 72 CPU Vera. Dự kiến GPURubin và CPU Vera sẽ ra mắt vào cuối năm 2026, rồi kế đến, phiên bản hoàn thiện và nâng cấp Rubin Ultra sẽ bán ra thị trường vào nửa cuối năm 2027. Những chip xử lý này sẽ được trang bị trong những hệ thống “Oberon Rack”, làm mát bằng chất lỏng.

Về mặt cấu hình, đầu tiên hãy bàn đến hệ thống Nvidia Vera Rubin NVL144. Những con chip GPU Rubin thế hệ mới sẽ sở hữu hiệu năng xử lý số thực dấu phẩy động FP4 lên tới 50 petaflop, mỗi chip được trang bị 288GB bộ nhớ HBM4, băng thông bộ nhớ 13 TB/s. Rồi sau đó anh em hãy nhân những con số này lên 144 lần, vì mỗi rack máy chủ được trang bị tới 144 GPU Rubin. Để điều khiển cũng như chia việc cho 144 chip GPU Rubin, Nvidia sẽ ứng dụng những CPU Vera, 88 nhân, 176 luồng xử lý, kiến trúc tập lệnh ARM, cầu nối bộ nhớ NVLink-C2C băng thông 1.8 TB/s.

Tổng cộng, Nvidia Vera Rubin NVL144 sẽ sở hữu hiệu năng nội suy AI, dựa trên hiệu năng xử lý số thực dấu phẩy động FP4 lên tới 3.6 Exaflops. Hiệu năng huấn luyện mô hình AI, dựa trên hiệu năng xử lý FP8 đạt ngưỡng 1.8 Exaflop, tức là cải thiện 3.3 lần so với hệ thống Blackwell Ultra GB300 NVL72 ra mắt nửa cuối năm nay. Tổng cộng, Vera Rubin NVL144 sẽ sở hữu 75TB bộ nhớ HBM4 thế hệ mới, tăng 60% so với GB300, hiệu năng kết nối NVLink và CX9 tăng gấp đôi, băng thông lần lượt 260 TB/s và 28.8 TB/s.

Nếu anh em thấy như vậy đã là ấn tượng, thì phải nói tới “siêu máy chủ” Rubin Ultra NVL576. Nhìn số, giống hệt như những sản phẩm rack máy chủ hiệu năng cực cao được mình liệt kê trên đây, chắc anh em cũng đã đoán được tổng số GPU Rubin Ultra trong hệ thống này rồi. Nvidia cùng các đối tác sản xuất máy chủ đám mây sẽ ứng dụng 576 chip Rubin Ultra, tạo ra hiệu năng 100 petaflops xử lý số thực FP4. Nhưng hệ thống này vẫn sẽ ứng dụng CPU Vega để giao việc cho từng GPU.

Toàn bộ hệ thống sở hữu 365 TB bộ nhớ HBM4e, băng thông kết nối NVLink 1.5 petabyte/s, băng thông kết nối CX9 115.2 TB/s. Với ngần ấy chip xử lý, Nvidia dự kiến mỗi rank Rubin Ultra NVL576 sẽ tạo ra hiệu năng nội suy FP4 đạt 15 exaflops, và hiệu năng huấn luyện FP8 đạt 5 exaflop. Con số này tăng 14 lần so với một rack máy chủ GB300 NVL72 Blackwell Ultra.

Feynman: HBM thế hệ mới, ra mắt cuối năm 2028

Kiến trúc GPU AI ra mắt năm 2028 của Nvidia được đặt tên để vinh danh nhà vật lý lý thuyết người Mỹ, Richard Feynman, người được biết đến với công trình về phương pháp tích phân đường trong cơ học lượng tử, lý thuyết điện động lực học lượng tử và về tính siêu lỏng của helium lỏng, cũng như trong vật lý hạt, với đề xuất của ông về mô hình parton. Vì những đóng góp của ông đối với sự phát triển của động lực học lượng tử, Feynman, cùng với Julian Schwinger và Shinichiro Tomonaga, nhận giải Nobel Vật lý năm 1965.

Hiện giờ Nvidia tương đối kín tiếng về chi tiết cấu hình thế hệ GPU Feynman. Ngay cả việc GPU sẽ được cung cấp dữ liệu bằng công nghệ chip nhớ nào, HBM4e hay HBM5, chúng ta vẫn chưa biết, vì CEO Jensen Huang mới chỉ đề cập tới việc GPU Feynman sẽ ứng dụng “chip nhớ thế hệ mới.”

Trên những hệ thống máy chủ đám mây NVL, GPU Feynman vẫn sẽ ứng dụng CPU Vera ra mắt năm 2026 để chia việc cho hàng trăm GPU hiệu năng cao. Kết hợp với đó sẽ là những nâng cấp đường truyền và công nghệ kết nối các chip xử lý lại với nhau, chẳng hạn như 8th Gen NVSwitch NVL-Next, Spectrum7 (204T, CPO) và CX10.

Nguồn:tinhte.vn/thread/gtc-2025-chi-tiet-blackwell-ultra-gb300-cung-2-the-he-gpu-ai-moi-cua-nvidia-vera-rubin-va-feynman.3970900/