Chi tiết RTX 50, GPU Blackwell gaming của Nvidia: Tăng sức mạnh xử lý AI, kiến trúc thay đổi mạnh

#ai

Với thời lượng 90 phút của keynote nơi CEO Jensen Huang giới thiệu những sản phẩm mới nhất của Nvidia, có lẽ chỉ nói về kiến trúc Blackwell phiên bản máy tính cá nhân, những khác biệt của nó so với Blackwell dành cho máy chủ AI và Ada Lovelace trên những card đồ họa RTX 40 series, chắc chắn không thể đủ thời gian. Thành ra, tại CES 2025, Nvidia phải tổ chức riêng một buổi press brief, nơi kiến trúc sư thiết kế những GPU gaming dựa trên kiến trúc Blackwell chia sẻ kỹ lưỡng về những thay đổi trên con chip, trên sản phẩm card đồ họa cũng như những công nghệ mới được ứng dụng.

Dự kiến cuối tháng này, hai sản phẩm đầu tiên của kiến trúc RTX Blackwell, là RTX 5090 và RTX 5080 sẽ chính thức bán ra thị trường, với mức giá lần lượt là 1.999 và 999 USD. Gọi những GPU này là RTX Blackwell là để phân biệt với những con chip như GB200, cũng là Blackwell nhưng chỉ có nhân tensor tăng tốc xử lý huấn luyện và vận hành mô hình AI, giá cả chục nghìn USD mỗi chip, trang bị trong những máy chủ đám mây trong thời gian tới.

Đầu tiên, như keynote của CEO Jensen Huang giới thiệu trên sân khấu, GPU RTX Blackwell dành cho máy tính cá nhân được gia công trên tiến trình 4nm TSMC, phiên bản GPU tiêu dùng mạnh nhất trang bị tối đa 92 tỷ transistor, tốc độ xử lý AI tối đa 4000 TOPS, sức mạnh xử lý ray tracing trên nhân GPU 380 RT Tlops, và sức mạnh xử lý số thực dấu phẩy động FP32 được xác định ở ngưỡng 125 teraflops.

Hỗ trợ cung cấp dữ liệu game từ ổ cứng để GPU xử lý là những chip nhớ GDDR7 thế hệ mới nhất do SK Hynix sản xuất, băng thông bộ nhớ của cả chiếc card đồ họa có thể lên tới 1.8 TB/s.

Với RTX Blackwell, các kỹ sư của Nvidia có vài ý tưởng và mục tiêu ban đầu, để tăng cường hiệu năng xử lý game cho những thế hệ phần cứng máy tính cá nhân mới. Kiến trúc được thiết kế và tối ưu dựa trên những khả năng xử lý neural network và tác vụ xử lý đồ họa mới. Mục tiêu là giảm tiêu tốn dung lượng VRAM, cũng như tối ưu tiêu thụ điện năng, và cùng lúc cải thiện chất lượng đồ họa khi card RTX 50 series xử lý game.

Với những mục tiêu như vậy, Tensor Core được nâng cấp lên thế hệ thứ 5, với hiệu năng xử lý số thực dấu phẩy động FP4 mạnh hơn trước, tối đa 4000 AI TOPS. Nhân Ray Tracing được nâng cấp lên thế hệ thứ 4, được thiết kế để vận hành xử lý ray tracing thời gian thực khi kết hợp với tính năng xử lý Mega Geometry để tạo ra những khung hình thế giới ảo vô cùng chi tiết và nhiều vật thể. Rồi trên bề mặt GPU sẽ là nhân chip quản lý AI Management Processor cho phép vận hành đồng thời nhiều mô hình AI để nâng cấp chất lượng hình ảnh hay tạo sinh những khung hình mới, cùng lúc vận hành cả những tác vụ xử lý và shading hình họa 3D khi chơi game.

Tổng cộng, những stream microprocessor xử lý đồ họa kiến trúc Blackwell trên các card đồ họa RTX 50 series, vừa sở hữu thiết kế mới, vừa tạo ra sức mạnh tính toán FP32 tối đa 125 teraflops, biến khung hình vector thành những điểm ảnh trên màn hình game của anh em.

Những thông số kỹ thuật của card RTX 50 series khác có thể kể đến như chuẩn xuất tín hiệu hình ảnh DisplayPort 2.1 (UHBR20), kết nối với máy tính theo chuẩn PCIe Gen5, và hỗ trợ mã hóa hình ảnh video theo codec NVDEC/NVENC 4K 4:2:2.

Đầu tiên hãy so sánh Stream Microprocessor của Ada Lovelace (RTX 4090) với Blackwell (RTX 5090).

Các cụm nhân SM của kiến trúc Ada được tạo ra phục vụ giải pháp shader đồ họa cổ điển, và hầu như tất cả những nhân tensor xử lý deep learning đều được tận dụng để vận hành tính năng DLSS thế hệ 3, hay tối ưu cho những ứng dụng sáng tạo nội dung. Cùng lúc, GPU kiến trúc Ada cũng chia những nhân xử lý số thực dấu phẩy động FP32 thành hai nhóm. Một nhóm chỉ xử lý được những phép tính FP32, nhóm còn lại xử lý được cả số thực format FP32 lẫn INT32.

Còn với Blackwell, mọi nhân shader đều xử lý được cả hai format số thực FP32 và INT32. Nhờ đó, hiệu năng xử lý những tác vụ như Work Graphs và Shader Execution sẽ được cải thiện đáng kể. Kết hợp những SM này với nhân tensor thế hệ 5 trên mỗi SM, rồi kết hợp với phần mềm Neural Shader ứng dụng mô hình AI, tốc độ xử lý đồ họa game sẽ được cải thiện đáng kể.

Những thay đổi trong kiến trúc vi mạch bán dẫn cho phép những tác vụ xử lý đồ họa được vận hành hiệu quả hơn. Một trong số đó là tác vụ Shader Execution Reordering, thay đổi trình tự xử lý shader cho mỗi vật thể trong khung hình hiệu quả hơn gấp đôi, nhờ vào việc đổi tình tự vận hành mô hình AI và mô hình shading truyền thống, vận hành cả hai cùng một lúc. Những mô hình ấy sau đó sẽ được nhân tensor hoặc nhân shader xử lý.

Bộ nhớ công nghệ GDDR7 cũng tạo ra cải thiện hiệu năng truyền dẫn dữ liệu so với GDDR6 và GDDR6X ứng dụng trên thế hệ card đồ họa cũ. Băng thông bộ nhớ của GDDR7 cao gấp đôi so với GDDR6, vận hành ở xung nhịp cao hơn, nhưng tiêu thụ điện thấp hơn. Cùng lúc, GDDR7 cũng hỗ trợ tín hiệu truyền dẫn dữ liệu PAM4 mới nhất hiện tại. Với những cải thiện về cả băng thông bộ nhớ lẫn tiêu thụ điện năng, GDDR7 có thể sẽ giúp ích rất nhiều cho những thiết kế laptop Max-Q mỏng gọn với những GPU RTX 50 series.

Đối với nhân RT thế hệ thứ 4, phục vụ quá trình xử lý dò tia trong những trò chơi hỗ trợ ray tracing thời gian thực, cụm nhân thế hệ mới này cho phép chạy những phép tính thuộc giải pháp Triangle Cluster Intersection Engine, thay thế cho Triangle Intersection Engine. Khi Nvidia muốn GPU cho phép xử lý hình ảnh 3D quy mô lớn, gọi là Mega Geometry, thì khả năng dò tia theo từng mảng miếng hình họa trong thế giới ảo 3D sẽ giúp card vận hành hiệu quả hơn.

Mega Geometry engine ứng dụng một format mới, gọi là Triangle Cluster Compression, nén và giải nén dữ liệu đồ họa trên card. Và cuối cùng, Linear Swept Spheres, mô phỏng những vật thể di chuyển với mật độ lớn, chẳng hạn như tóc hay lông sẽ giúp tăng tốc xử lý giải pháp RTX Hair & Fur.

Tổng kết lại thì, cụm nhân ray tracing cho phép tăng tần suất dò tia ray triangle intersection lên gấp 8 lần so với thế hệ Turing, gấp đôi so với thế hệ GPU Ada, nhưng bộ nhớ VRAM đòi hỏi thì giảm 25%.

Còn với tensor core thế hệ thứ 5, việc hỗ trợ xử lý tính toán những phép tính với format số thực dấu phẩy động FP4 cho phép tốc độ tính toán tăng gấp 32 lần so với thế hệ card Pascal (RTX 1080 Ti) và gấp đôi so với thế hệ card Ada. Những nhân tensor thế hệ mới này sẽ là nơi xử lý những kỹ thuật Neural Shading & Rendering trong những tác phẩm game PC thế hệ mới, có hỗ trợ công nghệ phủ bề mặt vật thể bằng neural network.

Tất cả những điều đó đưa chúng ta đến với câu chuyện kế tiếp, đó là sắp xếp những tác vụ vô cùng phức tạp kể trên như thế nào. Trên GPU RTX Blackwell, trên bề mặt của GPU, chồng lên trên các SM, các nhân tensor, nhân ray tracing là một bộ Coprocessor gọi là AMP, viết tắt của AI Management Processor. AMP có thể lập trình để vận hành theo ý muốn của các dev, và nó sẽ tương tác với từng cụm nhân xử lý trên GPU. Nó hiểu mỗi cụm nhân trên GPU đang làm việc gì, để từ đó sắp xếp một cách chính xác từng tác vụ trên từng cụm nhân xử lý.

Và để tối ưu tiết kiệm điện năng, những chế độ Power Gating mới được các kỹ sư Nvidia ứng dụng cho GPU Blackwell, ngắt điện hoàn toàn cho từng phần chip xử lý trong trường hợp chúng đang nghỉ ngơi, không chạy tác vụ nào. Một giải pháp khác để tiết kiệm điện năng là ngắt nguồn cả nhân xử lý logic lẫn bộ nhớ SRAM trong trường hợp không có tải tác vụ.

Rail phụ cũng được ứng dụng trên GPU Blackwell, để tách rời đường nguồn cấp điện cho hệ thống nhân xử lý logic và hệ thống chip nhớ, điều chỉnh độc lập điện áp đầu vào, từ đó tối ưu tỷ suất hiệu năng trên tiêu thụ điện năng.

Một khía cạnh nữa của Blackwell cần phải đề cập, chính là khả năng đổi xung nhịp vận hành bộ nhớ VRAM GPU ở tốc độ cực cao, tăng giảm xung nhanh hơn trước cả nghìn lần. Lấy ví dụ, nếu vận hành những tác vụ như mô phỏng vật lý, không dùng hết khả năng của GPU, hoặc khi vận hành những tính năng AI on device, chỉ xử lý trên nhân tensor của card đồ họa, hệ thống sẽ tập trung cho những cụm nhân xử lý các tác vụ ấy được tận dụng tối đa bằng thông bộ nhớ GDDR7.

Hoặc khi CPU không giao tác vụ gì cho GPU xử lý, xung nhịp của GPU lẫn bộ nhớ GDDR7 sẽ hạ xuống mức thấp nhất có thể, vừa mát vừa đỡ tốn điện.

Phần thứ hai của media brief tại CES 2025, nơi các kỹ sư của Nvidia giới thiệu chi tiết tới anh em phóng viên công nghệ và game về kiến trúc chip xử lý RTX Blackwell trên máy bàn và laptop nói về DLSS 4, với cùng lúc rất nhiều những thuật toán AI mới hoàn toàn để giải quyết cùng lúc ba vấn đề: Độ phân giải hình ảnh đưa lên màn hình, độ chi tiết của vật thể di chuyển trong những khung hình được nâng cấp hoặc tạo sinh mới, và số lượng khung hình tạo sinh từ cụm nhân xử lý tensor của card đồ họa.

Có một điều chắc chắn, ở trung tâm của DLSS 4, bên cạnh việc sử dụng thuật toán machine learning để nâng độ phân giải hình render lên đúng như khả năng hiển thị của màn hình máy tính, là một tính năng mới, nâng cấp từ Frame Generation từ thế hệ DLSS 3. Giờ, trên những card đồ họa RTX 50 series, phần cứng sẽ xử lý được một tính năng gọi là Multi Frame Generation.

Cứ mỗi một khung hình mà CPU vẽ vector rồi GPU đắp texture và shading, chip Nvidia sẽ dựa vào đó, vận hành thuật toán AI để tạo ra 3 khung hình mới, cùng lúc vận hành đồng thời những tính năng khác của gói ứng dụng DLSS, để tốc độ khung hình tăng lên nhiều lần. Nhờ đó, RTX 5090 sẽ chơi được game ở độ phân giải 4K, tốc độ 240 FPS, đương nhiên là nếu như anh em có màn hình đáp ứng được hai thông số này.

Nhưng nếu nói thực sự kỹ về DLSS 4, mình đã có một bài viết tổng hợp chi tiết cho anh em rồi, anh em có thể đọc lại ở đây:

CES2025: Chi tiết Nvidia DLSS 4, Frame Generation khỏe gấp 3 đời trước, vẫn cứ là AI hữu ích nhất

Thứ mình muốn nói kỹ hơn, là những mô hình AI mới để không chỉ nâng độ phân giải hay tạo sinh những khung hình mới, mà còn là những mô hình vận hành dựa trên neural network để xử lý chính quá trình shader, đắp những bộ cánh texture bề mặt vật thể cho những hình khối 3D trong mỗi màn chơi, mỗi thế giới ảo.

Như đã nói ở đầu bài viết, kiến trúc RTX Blackwell được tạo ra với tư duy sử dụng AI cho gần như mọi khía cạnh xử lý đồ họa game 3D. Vì thế, một trong những định hướng thay đổi rất mạnh trong tác vụ xử lý đồ họa máy tính là Nvidia đang chuyển dịch sang những công nghệ Neural Shading, định hình bề mặt từng vật thể 3D bằng mô hình deep learning. Hiện tại Nvidia đang hợp tác với Microsoft để cải thiện sức mạnh của Neural Rendering trong API DirectX, để phần mềm và API tận dụng tối đa sức mạnh của những GPU RTX 50 series.

Neural Shading không phải một mô hình AI đồng nhất, không phải một giải pháp duy nhất, mà là tổng hòa của rất nhiều giải pháp xử lý bề mặt và mô hình 3D của các vật thể trong thế giới ảo, như tấm hình trong slide mà Nvidia chia sẻ trên đây.

Trong đó, là những gói mô hình deep learning Neural Textures, Neural Materials, Neural Volumes, Neural Radiance Fields, Neural Radiance Cache, và Neural Compression… Như tên gọi, chúng sẽ hỗ trợ xử lý từ bề mặt vật thể, bề mặt vật liệu vật thể, cho tới cả hiệu ứng ánh sáng phủ lên bề mặt những vật thể như vậy… Còn Neural Compression là tính năng sử dụng AI để nén dữ liệu đồ họa, vừa giảm tiêu thụ VRAM, vừa tạo ra những cảnh game cực kỳ nét và chi tiết, vận hành thông qua những nhân tensor trên GPU RTX 50 series.

Nói theo cách dễ hiểu hơn, thì Neural Shading sẽ là thứ giúp quá trình phát triển game diễn ra nhanh chóng hơn, dễ dàng hơn cho rất nhiều nhà phát triển game, từ tập đoàn lớn cho tới những dev indie quy mô nhỏ đến rất nhỏ. Thay vì phải lập trình shader, thì AI sẽ giúp xử lý vật thể trong thế giới ảo.

Đối với quy trình shader vật thể đồ họa hiện giờ, sử dụng những file dữ liệu chất liệu bề mặt được phát triển một cách truyền thống, sẽ cần từ vài chục tới hàng nghìn dòng code, phụ thuộc game đồ họa đơn giản hay render ra những khung hình vô cùng chân thực trong quá trình phát triển những cảnh quay kỹ xảo cho các bộ phim điện ảnh. Đó là lúc AI có thể sẽ phát huy tác dụng.

Phép thử dưới đây được Nvidia trình diễn dựa trên Half-Life 2 RTX. Dữ liệu bề mặt vật liệu được AI tạo ra dùng y hệt lượng code lập trình như lúc xử lý shading theo kiểu truyền thống, nhưng cùng lúc nó lại sử dụng những dữ liệu có liên quan tới chất liệu của mô hình ảo, như gạch hay bê tông chẳng hạn, xử lý nó trong không gian neural network.

Kết quả là, nếu như dữ liệu bề mặt vật thể sàn gạch như trong hình dưới đây ngốn 47MB bộ nhớ VRAM nếu xử lý theo truyền thống, thì Neural Materials của Nvidia phát triển chỉ ngốn có 16MB VRAM, ít hơn gấp 3 lần:

RTX Neural Radiance Cache thì xử lý nhanh nhờ những gì mô hình AI học được trước đó, phục vụ path tracing, chiếu sáng gián tiếp nhanh hơn. Mô hình AI được huấn luyện theo thời gian thực khi anh em đang chơi game, mở game lên là một mô hình mới được huấn luyện và vận hành trên nhân tensor của GPU RTX Blackwell.

Nó sẽ thu thập dữ liệu ánh sáng di chuyển qua một cảnh game, lưu trữ nó trên bộ nhớ đệm với thông tin vị trí địa điểm ảo trong màn chơi. Nhờ đó, những tia sáng có thể tương tác và có thể được dò với tần suất gần như vô hạn. Nói cách khác, cách ánh sáng tương tác với môi trường và vật thể sẽ chính xác và chân thực hơn rất nhiều.

Còn trong khi đó, một khía cạnh mà Neural Shading hứa hẹn cải thiện chất lượng lên đáng kể, chính là bề mặt làn da và mái tóc của các nhân vật ảo trong game. Thông qua RTX Skin và RTX Neural Faces, Nvidia đã hợp tác với Unreal Technology và Disney để phát triển thuật toán subsurface scattering mới, hỗ trợ path tracing thời gian thực.

Cuối cùng trong bộ RTX Neural Shading là Neural Hair. Nếu giải pháp tính toán cách ánh sáng tương tác với lông và tóc của nhân vật ảo theo cách truyền thống ngốn rất nhiều tài nguyên xử lý, vì một mô hình nhân vật ảo có thể có tới 6 triệu sợi tóc trên mô hình 3D. Với kiến trúc Blackwell, RTX Neural Hair cho phép giảm thiểu số lượng đa giác của tóc và lông xuống tới mức tối đa, VRAM mà game sử dụng để xử lý dữ liệu bề mặt lông và tóc giảm tới 3 lần.