Exacluster với 144 NVIDIA H200 AI GPU được chi tiết bởi nhà thiết kế của nó: Máy chủ Hydra bước vào cảnh
Đầu tháng này, chúng tôi đã báo cáo về ExaAILabss Exacluster, một cụm 18 máy chạy 144 GPU Nvidia H200, là một trong những cụm đầu tiên sử dụng các bộ vi xử lý này. Kể từ đó, công ty Hydra Host, đơn vị hỗ trợ xây dựng cụm, đã cung cấp thêm thông tin về hệ thống. Cụm sử dụng hệ thống Lenovo với nhiều tùy chỉnh từ Hydra Host.
Máy có thể được cho thuê qua nền tảng Hydras Brokkr khi không được chủ sở hữu sử dụng. Cụm máy gồm 18 nút Lenovo với 144 GPU Nvidia H200 và 20TB bộ nhớ HBM3E, cho hiệu suất tính toán 570 FP8 PetaTOPS cho AI. 16 nút được cấu hình và tối ưu bởi HydraHost cho việc huấn luyện, trong khi 2 nút còn lại dùng cho suy luận.
Ngoài ra, Hydra Host đã cài đặt nền tảng Brokkr để cung cấp, quản lý và cho thuê GPU. Công ty hợp tác với Computacenter để thiết kế kiến trúc mạng hiệu suất cao phù hợp với nhu cầu của cụm máy chủ. Hệ thống sử dụng InfiniBand 3.2Tbps cho lưu lượng east-west và Ethernet 400Gbps cho giao tiếp north-south, bao gồm hai kết nối 200Gbps mỗi máy chủ và các switch Ethernet Dell 400Gbps.
Các kỹ sư mạng của Computacenter đã đảm bảo tất cả các thành phần phù hợp với kiến trúc tham chiếu của Nvidia để đảm bảo tương thích mượt mà. Chúng tôi đã cung cấp 18 nút Lenovo với GPU H200, bao gồm 16 nút kết nối và hai nút inference, thiết kế kiến trúc mạng phối hợp với Computacenter, và hỗ trợ colocating thông qua Patmos, Andrea Holt, đại diện của Hydra Host cho biết. Cụm máy tính này rất mạnh mẽ, ngay cả trong tính toán đa mục đích.
Các máy chủ có 192 bộ vi xử lý 96 lõi, tổng cộng 3,456 lõi, kết hợp với 36TB bộ nhớ DDR5 và 270TB lưu trữ SSD NVMe. Có các khoang dự phòng để mở rộng không gian lưu trữ dễ dàng. Siêu máy tính sử dụng mạng do HydraHost thiết kế riêng. Công ty cũng hợp tác với Patmos để cung cấp dịch vụ colocate, đảm bảo đủ nguồn điện khoảng 100kW và hệ thống làm mát cho các máy móc tiêu tốn nhiều năng lượng và sinh nhiệt cao.
Hiệu suất tốt nhất với giá cả hợp lý, Exacluster có giá 5 triệu, trung bình 277,777 mỗi máy, tương đương với một bo mạch H200 8 chiều thay vì một máy chủ hoàn chỉnh. Điều thú vị là ai đã giúp đạt được mức giá đó. Một mặt, Hydra Host là đối tác gần gũi của Nvidia và chỉ cung cấp GPU Nvidia như một dịch vụ, với phần mềm Brokkr được tối ưu hóa chủ yếu cho CUDA. Mặt khác, ExaAI là công ty có sự hỗ trợ của Nvidia, nên có khả năng nhận được mức giá ưu đãi.
Ryan Horjus, Kỹ sư Bán hàng Chính tại Hydra, cho biết: "Chúng tôi là đơn vị hàng đầu trong việc cung cấp GPU phù hợp với nhu cầu của khách hàng và với giá tốt nhất." Cụm máy này được Nvidia hỗ trợ về thiết kế kiến trúc và chương trình Inception. Hydra đã thực hiện cho Exa, như chúng tôi đã làm cho nhiều công ty khác. Hydra cũng chuyên xây dựng giải pháp tùy chỉnh cho các startup và thậm chí cho thuê máy khi không sử dụng.
Hydra đã giúp các startup tham gia vào cụm của riêng họ để có giá tốt hơn thông qua việc mua sắm số lượng lớn. Họ có thể đạt được mức giá lý tưởng qua mạng lưới của chúng tôi và cũng có thể kiếm tiền từ các máy chủ khi không sử dụng thông qua nền tảng quản lý Brokkr. Brokkr là phần mềm quản lý và cung cấp GPU, đồng thời là nền tảng kiếm tiền cho GPU, cung cấp giải pháp phần mềm trọn gói cho các trung tâm dữ liệu và startup để đưa phần cứng đến tay khách hàng và nhận thanh toán.
Một trong những tính năng chính của nó là cung cấp và quản lý vòng đời máy chủ vật lý tự động, theo Deschapell. Điều này có nghĩa là nền tảng thực hiện tất cả công việc cấu hình và quản lý hệ điều hành máy chủ cơ bản và firmware, thiết lập driver và phần mềm hỗ trợ khác, cũng như chạy thử nghiệm trên GPU và các thành phần khác. Điều này giúp tăng tốc và chuẩn hóa quá trình cung cấp, giảm thiểu thời gian chờ của máy chủ và GPU.
Nó cũng giúp dễ dàng bán lại các máy chủ không sử dụng cho người dùng khác trên nền tảng Brokkr đang tìm kiếm GPU bare metal, nếu nhu cầu về công suất thay đổi.
Nguồn: www.tomshardware.com/tech-industry/artificial-intelligence/exacluster-with-144-nvidia-h200-ai-gpus-detailed-by-its-designer-hydra-host-enters-the-scene