AMD RDNA 4 Kiến trúc DEEP DIE: Đơn vị tính toán mới, lõi raytraces, cải tiến AI và truy tìm đường dẫn đường dẫn và đường dẫn đường dẫn
AMD đã chính thức công bố chi tiết kiến trúc của GPU RDNA 4 thế hệ mới, được thiết kế từ đầu cho dòng Radeon RX 9000. Kiến trúc RDNA 4 bao gồm các đơn vị tính toán mới, lõi AI ray tracing, sẵn sàng cho path tracing. RDNA 4 đã được mong chờ kể từ khi ra mắt RDNA 3 và phiên bản nâng cấp của nó.
1. Kiến trúc RDNA 4 không có phiên bản siêu cao cấp, nhưng có nhiều thay đổi mới giúp cải thiện hiệu suất chơi game, tập trung vào đối tượng game thủ. AMD đã tối ưu hóa RDNA 4 cho các tác vụ chơi game cao cấp, nâng cao hiệu suất raster hóa, hiệu quả tính toán, hiệu suất raytracing, hỗ trợ ML mạnh mẽ, và cải thiện băng thông cho tất cả các tác vụ. So với RDNA 2, GPU RDNA 4 có hiệu suất raster hóa gần gấp đôi.
2. RDNA 4 không có các SKU siêu chuyên nghiệp, nhưng mang lại những cải tiến mới nhằm nâng cao hiệu suất chơi game. AMD đã tối ưu hóa RDNA 4 cho các tác vụ chơi game cao cấp, với hiệu suất raster hóa, raytracing, hỗ trợ ML, và băng thông được cải thiện. So với RDNA 2, GPU RDNA 4 có hiệu suất raster hóa gần gấp đôi.
3. Mặc dù RDNA 4 không có các phiên bản siêu cao cấp, nhưng nó được thiết kế cho game thủ với nhiều cải tiến mới. AMD đã cải thiện hiệu suất raster hóa, raytracing, hỗ trợ ML và băng thông cho RDNA 4, cho thấy hiệu suất raster hóa gần gấp đôi so với RDNA 2.
4. Kiến trúc RDNA 4 không bao gồm
RDNA 4 mang lại hiệu suất raytracing tăng 5 lần và hiệu suất ML FP16 cho các tác vụ ma trận dày tăng 3.5 lần cho mỗi đơn vị tính toán. Tiếp theo, chúng ta sẽ xem xét các thành phần chính trong sơ đồ kiến trúc RDNA 4 để hiểu cách toàn bộ chip hoạt động. Khối xây dựng chính của kiến trúc GPU RDNA 4 là Engine Tính Toán. Các Đơn Vị Tính Mới được trang bị Dual SIMD32 Vector Units và Cải tiến Vận Hành Ma Trận, với tốc độ ma trận dày 2x-16b và 4x-8b, cùng với độ thưa có cấu trúc 42 cho tỷ lệ 2x. RDNA 4 cũng có các cải tiến về shading với việc phân bổ thanh ghi một cách động.
Họ có thể yêu cầu các thanh ghi từ nhóm khi cần và trả lại khi hoàn thành công việc. Phần mềm quản lý tình huống chờ đợi khi phân bổ, giúp xử lý độ trễ bộ nhớ tốt hơn và tăng hiệu suất tổng thể của lõi chia sẻ. Về phía đơn vị số học, có thêm các phép toán Float32 mới, trong khi các cập nhật lịch trình bao gồm rào cản phân tách, tối ưu hóa các thao tác spillfill và cải thiện tiền lấy lệnh.
Thế hệ 3 của đơn vị ray tracing cung cấp tốc độ giao điểm tia gấp đôi, cải thiện nén BVH, tăng tốc độ truy cập và bóng, cùng với hộp giới hạn hướng (Oriented Bounding Boxes). Các lõi ray tracing mới mang lại hiệu suất cao đáng kể cho chip. Mỗi bộ tăng tốc tia cũng được cải tiến với 2x đơn vị giao điểm hộp tam giác, biến đổi phần cứng, quản lý ngăn xếp RT tốt hơn, BVH8 và nén nút cải tiến, cũng như hộp giới hạn hướng. Những nâng cấp này cũng giúp giảm yêu cầu bộ nhớ cho BVH.
Trung bình, RDNA 4 giảm yêu cầu bộ nhớ xuống dưới 60 so với RDNA 3 nhờ thiết kế 8 chiều. Hơn nữa, AMD đã áp dụng giải pháp mới để giảm chi phí duyệt bằng cách mã hóa một phép xoay cho mỗi hộp, giúp bó chặt hình học bên trong, đồng thời căn chỉnh hộp với hình học để giảm bớt không gian, và hướng tia được biến đổi khi vào hộp để phù hợp với phép xoay đã mã hóa.
Kết quả là số bước duyệt giảm, chi phí đỉnh thấp hơn nhờ loại bỏ các điểm nóng trong duyệt, và hiệu suất duyệt cải thiện 10%. RDNA 4 CUs cung cấp hiệu suất duyệt tia gấp đôi so với RDNA 3 ở cùng tần số và băng thông. Bộ xử lý lệnh cũng được cải tiến với các bộ tăng tốc gói tin nâng cao. Bộ nhớ đệm cũng được nâng cấp, hiện cân bằng hơn với 64 MB bộ nhớ đệm 3rd Gen Infinity, 8 MB bộ nhớ đệm L2 và 2 MB bộ nhớ đệm CU tổng hợp.
Về mặt bộ nhớ, kiến trúc GPU RDNA 4 vẫn hỗ trợ GDDR6 nhưng đã được nâng cấp với tốc độ nhanh hơn lên đến 20.00 Gbps và dung lượng tối đa 16 GB cùng giao diện bus 256-bit. RDNA 4 cũng sử dụng các kỹ thuật nén bộ nhớ cải tiến để giảm bớt áp lực lên băng thông. Đối với AI, AMD sử dụng động cơ Tăng tốc Ma trận Thế hệ thứ 3 với tỷ lệ Tensor Dense cải thiện, các kiểu dữ liệu 8b float mới, hỗ trợ Sparse có cấu trúc và khả năng nâng cấp dựa trên ML hoặc Siêu phân giải.
So với RDNA 3, RDNA 4 CUs mang lại hiệu suất tạo hình ảnh SDXL 1.5 cao gấp 2 lần trong điều kiện chuẩn với FP16. Động cơ Media Engine có thiết kế rộng đôi với các động cơ EncodeDecode được cập nhật, cải thiện chất lượng lên đến 25% trong AVC, H.264, H.265, gấp đôi thông lượng AV1 và được tối ưu cho truyền phát độ trễ thấp. Cuối cùng, Động cơ Hiển thị Radiance đã được cập nhật và giờ đây hỗ trợ DisplayPort 2.
RDNA 4 có 1a đầu ra HDMI 2.1b và một công nghệ nâng cấp và làm sắc nét mới. Sơ đồ khối RDNA 4 đại diện cho GPU Navi 48, được sản xuất trên quy trình 4nm của TSMC, với tối đa 53,9 tỷ transistor và kích thước 356,5mm². Chip cũng hoàn toàn tương thích với PCIe Gen5. Giờ là lúc phân tích chip RDNA 4.
GPU Navi 48 Radeon RX 9070 XT có bốn bộ xử lý shader, mỗi bộ chứa nhiều Đơn vị Tính Toán Kép (DCU) chứ không phải là WGP. Mỗi DCU có hai Đơn vị Tính Toán (CU), tổng cộng có 8 DCU hoặc 16 CU trên mỗi bộ xử lý shader, dẫn đến 32 DCU hoặc 64 CU trên chip, tương đương 4096 bộ xử lý dòng. Mỗi DCU có hai động cơ Tăng tốc Tia (Ray Accelerator), tổng cộng 16 RA mỗi bộ xử lý shader và 64 RA toàn bộ. Mỗi DCU cũng tích hợp 4 Động cơ Tăng tốc Ma Trận, tổng cộng 32 MA mỗi bộ xử lý shader và 128 MA toàn bộ.
Mỗi Shader Engine cũng tích hợp bốn R.
Nguồn: wccftech.com/amd-rdna-4-architecture-deep-dive-new-compute-units-raytracing-cores-ai-enhancements-path-tracing/