Sự lớn mạnh của AI đang ngày càng tốn kém nhiều tài nguyên hơn. Hiện tại một rack NVL72 GB200 (1 rack máy chủ duy nhất chứa tới 72 GPU Blackwell) và GB300 đã ngốn tới 132 kW - nhiều gấp đôi gấp ba lần một rack server phổ thông (50 - 80 kW). Và con số này sẽ không dừng ở đó khi muốn đạt năng lực xử lý cao hơn thì buộc con chip phải to bự hơn và đốt nhiều điện hơn. Đơn giản vì định luật Moore đã ở mức tới hạn và mật độ transistor không tăng được nhiều nữa. Nói cách khác, server của tương lai sẽ tốn nhiều điện hơn và AI sẽ đứng đầu trong cuộc chơi đó.
Để có thể tăng trưởng “an toàn” trong khoảng chục năm tới, ngoài việc chỉ sản xuất chip AI ra, NVIDIA cũng không thể bỏ qua việc làm sao cấp đủ điện cho chúng vận hành. Nếu lượng điện tiêu thụ của rack tăng tới 700 - 1000 kW dưới điện áp 54 V, nó sẽ cần khoảng không gian tương ứng với 64 máy chủ dạng U chỉ để chứa các thanh đồng (Cu), tương đương với 200 kg đồng/rack. Và nếu cần tới 1 GW điện thì lượng đồng cần thiết gần 500,000 m3!
Trong bối cảnh định luật Moore đang chậm lại, việc tăng hiệu năng không còn chủ yếu đến từ việc tăng mật độ transistor mà đến từ việc tạo ra các con chip lớn hơn, phức tạp hơn và do đó, tiêu thụ nhiều điện năng hơn. Dự báo cho thấy các thế hệ hệ thống AI tiếp theo có thể yêu cầu công suất lên tới 1 megawatt (MW) hoặc thậm chí 2 MW cho mỗi rack, đặt ra một bài toán cấp bách về việc làm thế nào để cung cấp và phân phối một lượng điện năng lớn như vậy một cách hiệu quả.
Hệ thống cấp điện trong các trung tâm dữ liệu truyền thống thường dựa trên điện áp một chiều (DC) ở mức thấp, khoảng 48V hoặc 54V. Kiến trúc này trở nên kém hiệu quả và không bền vững khi phải đối mặt với nhu cầu công suất ở cấp độ hàng trăm kilowatt. Vấn đề cốt lõi nằm ở nguyên lý vật lý cơ bản: công suất (P) bằng hiệu điện thế (V) nhân với cường độ dòng điện (I), hay P=V×I. Do đó, để cung cấp công suất P rất lớn ở hiệu điện thế V thấp, hệ thống phải chịu một cường độ dòng điện I cực kỳ cao. Tuy nhiên, công suất tổn hao dưới dạng nhiệt (Ploss) lại tỷ lệ với bình phương của cường độ dòng điện (Ploss =I2R). Cường độ dòng điện càng cao, tổn thất năng lượng càng lớn. Để xử lý dòng điện cường độ cao này một cách an toàn và tránh quá nhiệt, các thanh dẫn điện (busbar) bằng đồng phải có tiết diện rất lớn và nặng, lên tới 200 kg đồng cho mỗi rack máy chủ như đã nêu trên. Điều này không chỉ gây tốn kém về chi phí vật liệu mà còn chiếm không gian trong trung tâm dữ liệu.
Trước viễn cảnh đó, hãng chip AI này đề xuất mô hình cung cấp điện mới, sử dụng điện áp cao một chiều 800 V HDVC để thay thế hệ thống 54 V hiện tại. Cụ thể ở mô hình cũ, điện xoay chiều cao/trung thế từ mạng lưới được hạ thế xuống còn 415 V AC hoặc 480 V DC, rồi từ đây mới đi qua 200 kg Cu/rack nêu trên để vận hành cỗ máy. Nhưng ở mô hình 800 V HDVC, điện xoay chiều từ mạng lưới vừa được hạ thế, vừa được chuyển đổi tại chỗ sang 800 V DC thông qua bộ phận gọi là power shelf. Dòng điện 800V DC này sau đó sẽ được phân phối trực tiếp đến các bo mạch của máy chủ thông qua một hệ thống thanh dẫn điện nhỏ và nhẹ hơn nhiều. Tại đây, các bộ chuyển đổi DC-DC hiệu suất cao, sử dụng các công nghệ bán dẫn công suất tiên tiến như Gallium Nitride (GaN) hoặc Silicon Carbide (SiC), sẽ hạ áp trực tiếp xuống các mức điện áp thấp mà con chip yêu cầu (ví dụ: 1V, 0.8V). Kiến trúc này loại bỏ hoàn toàn các bộ cấp nguồn (PSU) cồng kềnh trong từng máy chủ, vốn là nguyên nhân chính gây ra tổn thất năng lượng qua nhiều giai đoạn chuyển đổi.
NVIDIA cho biết với cách chuyển đổi trực tiếp này, do cường độ dòng điện giảm xuống đáng kể (hơn 10 lần so với hệ thống 54V cho cùng mức công suất), lượng đồng dùng để tải điện cho cả hệ thống có thể giảm tới 45%, giúp cải thiện 5% hiệu quả tiêu thụ điện, cũng như giảm đáng kể chi phí để xây dựng hạ tầng (nhờ bớt lượng đồng cần dùng và không gian chứa). Chi phí bảo trì có thể giảm tới 70% vì không dùng PSU thì không có rủi ro hư hỏng PSU. Ngoài ra chi phí xây dựng và bảo trì hạ tầng cũng giảm đi do không cần hệ thống làm mát cho các PSU trên trong từng rack.
Tuy vậy, NVIDIA không phải là hãng sản xuất thiết bị điện nên họ cần hợp tác với các đối tác chuyên ngành. Trong đó, các công ty như Infineon, MPS, Navitas, ROHM, STMicroelectronics và Texas Instruments sẽ đóng vai trò cung cấp các chip quản lý năng lượng và các chất bán dẫn công suất hiệu suất cao (GaN, SiC) cần thiết cho các bộ chuyển đổi DC-DC. Các nhà sản xuất linh kiện điện tử hàng đầu như Delta, Flex Power, Lead Wealth, LiteOn và Megmeet sẽ đảm nhiệm việc thiết kế và sản xuất các "power shelf" và các thành phần liên quan. Còn những tập đoàn lớn về giải pháp năng lượng cho trung tâm dữ liệu như Eaton, Schneider Electric và Vertiv sẽ đóng vai trò tích hợp và triển khai các hệ thống cấp điện 800V DC này trên quy mô lớn, đảm bảo tính tương thích và an toàn cho toàn bộ hạ tầng. Nguồn:tinhte.vn/thread/nvidia-phat-trien-he-thong-cap-dien-toi-1-mw-cho-may-chu-ai.4029145/