Máy chủ vận hành AI cần thiết kế lại do GPU Blackwell mới nhất của Nvidia bị quá nhiệt

#android app

Một bài viết mới đây của tờ tạp chí The Information đã dẫn nguồn vài đại diện của các đơn vị sản xuất máy chủ cũng như khách hàng của Nvidia. Những tuyên bố được The Information dẫn lại đều có chung một quan điểm, nói rằng Blackwell, chính xác hơn là những con chip GB200, thế hệ GPU phục vụ cho các data center huấn luyện và vận hành AI mới nhất của Nvidia đang gặp vấn đề. Khi trang bị chúng vào những rack máy chủ kết hợp nhiều chip xử lý cùng vận hành, nhiệt năng mà con chip silicon tỏa ra là quá lớn, dẫn tới tình trạng quá nhiệt.

Hệ quả, Blackwell sẽ lại bị hoãn giao tới các đối tác lớn, vì Nvidia sẽ phải thay đổi thiết kế của toàn bộ hệ thống, giúp chúng vận hành hoàn hảo nhất có thể khi những cái tên như Google, Meta hay Microsoft trang bị GB200 trong data center của họ, giữa cuộc chạy đua AI tạo sinh đang diễn ra rất nóng.

Đối với những cụm máy chủ hiệu năng cực cao trang bị những chip GB200, Nvidia thiết kế để tối đa 72 chip Blackwell cùng vận hành. Những máy chủ này tiêu thụ tới 120 kW điện. Nhưng thiết kế này dẫn tới thực tế là những con chip kích thước cực lớn, phải ghép nhiều die silicon do TSMC gia công lại với nhau bị quá nhiệt trong quá trình vận hành.

Hệ quả, Nvidia đã phải có nhiều lần cân nhắc và điều chỉnh lại thiết kế máy chủ trang bị chip Blackwell, như máy chủ Azure của Microsoft với những chip B200 trong hình ở cover. Và điều đó đã khiến mọi khách hàng lớn của Nvidia, như Meta, Google và Microsoft bày tỏ lo ngại về kế hoạch vận hành những máy chủ Blackwell của họ cũng sẽ bị trì hoãn theo.

Những đối tác sản xuất máy chủ với chip Blackwell đã được Nvidia hướng dẫn thiết kế lại bố cục bên trong rack máy chủ để giải quyết vấn đề quá nhiệt của những con chip với hiệu năng và tiêu thụ điện cực lớn. Nếu như việc điều chỉnh lại thiết kế máy chủ để tối ưu nhiệt và vận hành là điều không mới, hệ quả tất yếu của quá trình này là Nvidia lại phải hoãn giao những máy chủ trang bị chip Blackwell tới tay các khách hàng lớn.

Người phát ngôn của Nvidia trả lời Reuters, cho biết đây là quy trình hoàn toàn bình thường, khi Nvidia hợp tác phát triển và hoàn thiện sản phẩm với các đối tác lắp ráp máy chủ đám mây và thay đổi thiết kế của máy chủ.

Trước đó, cũng đã có những nguồn tin cho biết Nvidia đã phải trì hoãn chính quá trình để TSMC gia công những con chip Blackwell, thông qua kỹ thuật đóng gói chip kích thước lớn CoWoS-L vì lỗi thiết kế die bán dẫn của B100 và B200. Những con chip thế hệ mới này được TSMC gia công trên máy quang khắc EUV, rồi dùng kỹ thuật CoWoS-L ghép hai die bán dẫn lại để tạo ra một thiết kế chiplet cực lớn với hiệu năng cao, kể cả xử lý tính toán lẫn băng thông bộ nhớ. Thiết kế của Blackwell ứng dụng cả interposer RDL lẫn cầu nối LSI, cho phép tạo ra băng thông kết nối dữ liệu giữa hai die chiplet lên tới 10 TB/s.

Tuy nhiên, Nvidia phát hiện ra một vấn đề, đó là tính chất nhiệt của chiplet GPU, của cầu nối LSI và interposer RDL không đồng nhất, dẫn tới tình trạng cong vênh chip, hậu quả là toàn bộ hệ thống bị crash do lỗi phần cứng. Để giải quyết vấn đề này, Nvidia đã phải thay đổi lớp kim loại phía trên die silicon, nơi đặt những nhân tensor tính toán ma trận của chip Blackwell, rồi củng cố độ bền kết cấu để chip vận hành ổn định hơn.

Vì thế, Nvidia cũng phải thiết kế lại hoàn toàn bản mask mới để TSMC thực hiện quang khắc. Vậy là theo vài nguồn tin không chính thức, Blackwell phải tới cuối tháng 10 vừa rồi mới đi vào sản xuất thương mại. Dự kiến phải tới đầu tháng 1 năm sau, những tập đoàn công nghệ lớn và các đơn vị vận hành dịch vụ máy chủ đám mây mới được nhận những đơn hàng chip Blackwell đầu tiên.

Những vấn đề kể trên hoàn toàn có thể ảnh hưởng tới kế hoạch kinh doanh, doanh thu và lợi nhuận của Nvidia trong hai quý tới. Rồi chính các khách hàng của Nvidia cũng sẽ bị ảnh hưởng, phải trì hoãn kế hoạch ứng dụng Blackwell để cải thiện hiệu năng huấn luyện và vận hành những mô hình AI thế hệ mới.

Theo Tom's Hardware

Nguồn: GPU Blackwell đời mới nhất của Nvidia quá nhiệt, phải thiết kế lại máy chủ vận hành AI