Một trong những thông báo quan trọng nhất, nhưng ít được đề cập và khó hiểu nhất trong keynote của ông Huang, chính là công cụ phần mềm mới gọi là Nvidia Dynamo, được thiết kế để nâng cao hiệu năng nội suy cho các mô hình tiên tiến.
Dynamo là phiên bản nâng cấp của phần mềm máy chủ nội suy mang tên Triton của Nvidia. Nó phân bổ một cách chủ động tài nguyên GPU cho các giai đoạn khác nhau của quá trình nội suy, chẳng hạn như prefill và decode, vì mỗi giai đoạn có yêu cầu điện toán riêng. Nó cũng tạo ra các gói bộ nhớ đệm thông tin động, quản lý dữ liệu hiệu quả trên nhiều loại bộ nhớ.
Vận hành tương tự như việc Docker điều phối container trong tính toán đám mây, Nvidia Dynamo quản lý thông minh hệ thống tài nguyên điện toán cũng như dữ liệu cần thiết cho quá trình tạo sinh token trong môi trường máy chủ đám mây AI. Nvidia đã gọi Dynamo là "HĐH của nhà máy AI." Thực tế, trên cùng một hệ thống, cùng lượng tài nguyên, Dynamo cho phép tổ chức xử lý lượng yêu cầu nội suy AI cao gấp 30 lần so với bình thường.
Tất nhiên, sẽ không thể là một sự kiện GTC nếu như Nvidia không ra mắt chip và phần cứng mới. Và lần này họ có rất nhiều. Huang đã trình bày xu hướng và roadmap tương lai của những thế hệ GPU họ ra mắt, bao gồm phiên bản cập nhật cho kiến trúc
Blackwell hiện tại, gọi là Blackwell Ultra (GB300), nâng cấp dung lượng bộ nhớ HBM để cải thiện hiệu năng.
Rồi ông giới thiệu tiếp kiến trúc Vera Rubin, với bộ xử lý CPU dựa trên Arm tên là Vera và GPU thế hệ tiếp theo gọi là Rubin, mỗi sản phẩm đều tích hợp nhiều lõi và khả năng mạnh hơn gấp nhiều lần thế hệ trước. Huang thậm chí còn nhấn mạnh về thế hệ GPU kế cận Rubin, lấy theo tên của nhà vật lý học Richard Feynman, từ đó phác họa roadmap ra mắt sản phẩm của Nvidia đến năm 2028 và xa hơn.