Người phát ngôn của Nvidia trả lời Reuters, cho biết đây là quy trình hoàn toàn bình thường, khi Nvidia hợp tác phát triển và hoàn thiện sản phẩm với các đối tác lắp ráp máy chủ đám mây và thay đổi thiết kế của máy chủ.
Trước đó, cũng đã có những nguồn tin cho biết Nvidia đã phải trì hoãn chính quá trình để TSMC gia công những con chip Blackwell, thông qua kỹ thuật đóng gói chip kích thước lớn CoWoS-L vì lỗi thiết kế die bán dẫn của B100 và B200. Những con chip thế hệ mới này được TSMC gia công trên máy quang khắc EUV, rồi dùng kỹ thuật CoWoS-L ghép hai die bán dẫn lại để tạo ra một thiết kế chiplet cực lớn với hiệu năng cao, kể cả xử lý tính toán lẫn băng thông bộ nhớ. Thiết kế của Blackwell ứng dụng cả interposer RDL lẫn cầu nối LSI, cho phép tạo ra băng thông kết nối dữ liệu giữa hai die chiplet lên tới 10 TB/s.
Tuy nhiên, Nvidia phát hiện ra một vấn đề, đó là tính chất nhiệt của chiplet GPU, của cầu nối LSI và interposer RDL không đồng nhất, dẫn tới tình trạng cong vênh chip, hậu quả là toàn bộ hệ thống bị crash do lỗi phần cứng. Để giải quyết vấn đề này, Nvidia đã phải thay đổi lớp kim loại phía trên die silicon, nơi đặt những nhân tensor tính toán ma trận của chip Blackwell, rồi củng cố độ bền kết cấu để chip vận hành ổn định hơn.
Vì thế, Nvidia cũng phải thiết kế lại hoàn toàn bản mask mới để TSMC thực hiện quang khắc. Vậy là theo vài nguồn tin không chính thức, Blackwell phải tới cuối tháng 10 vừa rồi mới đi vào sản xuất thương mại. Dự kiến phải tới đầu tháng 1 năm sau, những tập đoàn công nghệ lớn và các đơn vị vận hành dịch vụ máy chủ đám mây mới được nhận những đơn hàng chip Blackwell đầu tiên.
Những vấn đề kể trên hoàn toàn có thể ảnh hưởng tới kế hoạch kinh doanh, doanh thu và lợi nhuận của Nvidia trong hai quý tới. Rồi chính các khách hàng của Nvidia cũng sẽ bị ảnh hưởng, phải trì hoãn kế hoạch ứng dụng Blackwell để cải thiện hiệu năng huấn luyện và vận hành những mô hình AI thế hệ mới.
Theo Tom's Hardware