NVIDIA nhằm mục đích giải quyết các vấn đề tiêu thụ nước của AI với việc làm mát trực tiếp đến chip-Yêu cầu cải thiện 300 lần với các hệ thống vòng kín
Các trung tâm dữ liệu đám mây hiện đại không chỉ tiêu tốn nhiều năng lượng cho tính toán và làm mát mà còn sử dụng một lượng lớn nước do hầu hết sử dụng hệ thống làm mát bằng nước bay hơi. Ngược lại, các máy GB200 NVL72 và GB300 NVL72 của Nvidia sử dụng hệ thống làm mát bằng nước trực tiếp đến chip, được cho là tiết kiệm năng lượng gấp 25 lần và tiết kiệm nước gấp 300 lần so với các hệ thống làm mát hiện tại. Tuy nhiên, điểm cần lưu ý là các hệ thống NVL72 tiêu thụ hơn bảy lần năng lượng so với các giá rack thông thường.
Các giá máy chủ trung tâm dữ liệu thông thường tiêu thụ khoảng 20kW điện, trong khi các giá dựa trên H100 của Nvidia tiêu thụ hơn 40kW. Tuy nhiên, các hệ thống giá GB200 NVL72 và GB300 NVL72 của Nvidia tiêu thụ từ 120kW đến 140kW, vượt trội so với hầu hết các giá đã được lắp đặt. Do đó, các phương pháp làm mát bằng không khí không còn đủ để quản lý tải nhiệt từ những giá máy chủ có mật độ cao này.
Do đó, Nvidia đã phải áp dụng một giải pháp làm mát mới cho các máy Blackwell của mình, dẫn đến việc phát triển một giải pháp mới. Các hệ thống GB200 NVL72 và GB300 NVL72 của Nvidia sử dụng làm mát bằng nước trực tiếp tới chip. Phương pháp này bao gồm việc tuần hoàn chất làm mát trực tiếp qua các tấm lạnh gắn vào GPU, CPU và các linh kiện sinh nhiệt khác, giúp chuyển nhiệt hiệu quả mà không cần dựa vào không khí.
Khác với hệ thống làm mát bốc hơi hoặc làm mát ngâm, hệ thống làm mát bằng chất lỏng NVL72s là dạng khép kín, do đó chất lỏng không bay hơi hoặc cần thay thế do mất mát trong quá trình chuyển đổi pha, tiết kiệm nước. Trong kiến trúc NVL72, nhiệt được chất lỏng làm mát hấp thụ sẽ được truyền đến hạ tầng làm mát của trung tâm dữ liệu thông qua các bộ trao đổi nhiệt lỏng tại giá. Các đơn vị phân phối chất lỏng (CDUs), chẳng hạn như CoolIT CHx2000, có khả năng quản lý công suất làm mát lên tới 2 mW, hỗ trợ triển khai mật độ cao với độ kháng nhiệt thấp và khả năng tản nhiệt đáng tin cậy.
Hệ thống này cho phép làm mát bằng nước ấm, giảm hoặc loại bỏ sự cần thiết của máy làm lạnh cơ học, từ đó nâng cao hiệu quả năng lượng và tiết kiệm nước. Tuy nhiên, mặc dù giải pháp làm mát bằng nước kín được nhiều người đam mê PC sử dụng, vẫn có một số lý do thực tiễn, kỹ thuật và kinh tế khiến chúng chưa được áp dụng rộng rãi.
Các trung tâm dữ liệu cần tính linh hoạt và dễ tiếp cận để bảo trì, nâng cấp và thay thế linh kiện, vì vậy họ sử dụng các thành phần có thể thay thế nóng. Tuy nhiên, hệ thống kín khí khiến việc thay thế nhanh chóng các máy chủ hoặc GPU hỏng trở nên khó khăn, vì việc phá vỡ niêm phong sẽ ảnh hưởng đến toàn bộ cụm. Ngoài ra, việc dẫn các vòng lỏng kín qua các giá và toàn bộ trung tâm dữ liệu cũng tạo ra độ phức tạp về logistics trong việc lắp đặt ống, dự phòng bơm và cách ly sự cố.
Hiện nay, các giải pháp làm mát trực tiếp bằng chất lỏng sử dụng các đầu nối nhanh với gioăng không nhỏ giọt, cho phép bảo trì mà không cần niêm phong hoàn toàn. Việc phát hiện và cách ly rò rỉ nhanh chóng rẻ hơn so với việc tạo ra một giải pháp niêm phong hoàn toàn cho trung tâm dữ liệu. Tuy nhiên, việc sử dụng hệ thống làm mát bằng chất lỏng quy mô trung tâm dữ liệu vẫn yêu cầu thiết kế lại toàn bộ trung tâm, điều này tốn kém.
Mặc dù vậy, do các bộ vi xử lý Blackwell của Nvidia mang lại hiệu suất vượt trội, những người sử dụng GPU B200 sẵn sàng đầu tư vào việc thiết kế lại. Ngoài ra, Nvidia đã hợp tác với Schneider Electric để phát triển các thiết kế tham chiếu cho cụm DGX SuperPOD GB200 với 1152 GPU, sử dụng CDU lỏng và bộ làm mát có hỗ trợ adiabatic, giúp triển khai hệ thống nhanh chóng với hiệu suất tối ưu.
Mặc dù Nvidia yêu cầu sử dụng hệ thống làm mát bằng chất lỏng cho các GPU và hệ thống Blackwell B200, công ty đã đầu tư vào các thiết kế tham chiếu cho giải pháp làm mát kín để tránh sử dụng các giải pháp làm mát bay hơi, nhằm tiết kiệm nước. Theo dõi Toms Hardware trên Google News để nhận tin tức, phân tích và đánh giá mới nhất.
Hãy nhớ nhấn nút Theo dõi.
Nguồn: www.tomshardware.com/tech-industry/artificial-intelligence/nvidia-aims-to-solve-ais-water-consumption-problems-with-direct-to-chip-cooling-claims-300x-improvement-with-closed-loop-systems