Elon Musk cho biết XAI đang nhắm mục tiêu 50 triệu 'GPU AI tương đương' H100 trong năm năm
Các công ty AI hàng đầu đang khoe khoang về số lượng GPU họ sử dụng hoặc dự kiến sử dụng trong tương lai. Mới hôm qua, OpenAI công bố kế hoạch xây dựng cơ sở hạ tầng cho hai triệu GPU, nhưng giờ đây Elon Musk đã tiết lộ kế hoạch khổng lồ hơn với 50 triệu GPU H100 sẽ được triển khai trong năm năm tới. Tuy nhiên, mặc dù số lượng GPU H100 có vẻ rất lớn, nhưng số lượng GPU thực tế được triển khai có thể không cao như vậy.
Khác với mức tiêu thụ điện năng, mục tiêu của xAI là đạt 50 triệu đơn vị tính toán AI tương đương H100 với hiệu suất năng lượng tốt hơn trong vòng 5 năm. Elon Musk đã viết trên X rằng một GPU Nvidia H100 có thể cung cấp khoảng 1.000 TFLOPS FP16BF16 cho việc huấn luyện AI. Do đó, 50 triệu bộ tăng tốc AI như vậy cần đạt 50 ExaFLOPS FP16BF16 cho việc huấn luyện AI vào năm 2030.
Dựa trên xu hướng cải thiện hiệu suất hiện tại, điều này có thể đạt được trong vòng năm năm tới. Sam Altman cho biết OpenAI sẽ sở hữu hơn 1 triệu GPU vào cuối năm. Trung tâm dữ liệu khổng lồ của OpenAI lớn hơn cả xAI Colossus của Elon Musk, đang đe dọa đến độ ổn định của lưới điện. Colossus đã hoạt động với 200.000 GPU được hỗ trợ bởi pin Tesla, trong khi chỉ có 650.000 GPU Feynman Ultra. Nếu Nvidia và các công ty khác tiếp tục nâng cao hiệu suất huấn luyện BF16/FP16 của GPU với tốc độ chậm hơn một chút so với các thế hệ Hopper và Blackwell, thì 50 ExaFLOPS BF16/FP16 sẽ có thể đạt được.
Dự đoán có thể xAI sẽ sở hữu 3 triệu GPU vào năm 2028 hoặc 650,000 GPU vào năm 2029. Nếu xAI có đủ tài chính để đầu tư vào phần cứng Nvidia, có khả năng họ sẽ đạt được mục tiêu 50 ExaFLOPS cho đào tạo AI sớm hơn. Công ty đã triển khai nhanh chóng các bộ tăng tốc GPU AI mới nhất với siêu cụm Colossus 1 sử dụng 200,000 bộ tăng tốc H100 và H200, cùng với 30,000 đơn vị GB200.
Công ty dự định xây dựng cụm Colossus 2 với 550.000 nút GB200 và GB300, mỗi nút có hai GPU, tổng cộng sẽ có hơn một triệu GPU, và những nút đầu tiên sẽ hoạt động trong vài tuần tới, theo thông tin từ Musk. Nvidia và các công ty khác đã chuyển sang phát hành bộ tăng tốc AI mới hàng năm, và lịch trình của Nvidia hiện giống mô hình Tick-Tock của Intel trước đây, nhưng ở đây đang nói đến cách tiếp cận tối ưu hóa kiến trúc sử dụng một nút sản xuất duy nhất.
Blackwell - Blackwell Ultra và Rubin - Rubin Ultra đem lại hiệu suất tăng đáng kể hàng năm mà không cần chuyển đổi công nghệ quy trình cho kiến trúc đã biết. Nvidia cho biết Blackwell B200 cung cấp hiệu suất suy diễn cao gấp 20,000 lần so với Pascal P100 năm 2016, với khoảng 20,000 FP4 TFLOPS so với 19 FP16 TFLOPS của P100.
Mặc dù không phải là so sánh trực tiếp, chỉ số này vẫn có liên quan đến các nhiệm vụ suy diễn. Blackwell hiệu quả năng lượng hơn Pascal gấp 42,500 lần khi đo bằng joules cho mỗi token được tạo ra.
📢 Liên hệ quảng cáo: 0919 852 204
Quảng cáo của bạn sẽ xuất hiện trên mọi trang!
Lịch trình GPU doanh nghiệp Nvidia:
- Năm 2022: Kiến trúc Hopper, GPU H100, Công nghệ quy trình 4N
- Năm 2023: Kiến trúc Hopper, GPU H200, Công nghệ quy trình 4N
- Năm 2024: Kiến trúc Blackwell, GPU B200, Công nghệ quy trình 4NP
- Năm 2025: Kiến trúc Blackwell, GPU B300, Công nghệ quy trình 4NP
- Năm 2026: Kiến trúc Ultra Rubin, GPU Ultra VR200, Công nghệ quy trình N3P
- Năm 2027: Kiến trúc Rubin, GPU VR300 Ultra, Công nghệ quy trình N3P
FP4 PFLOPs mỗi gói: 10 (2024), 15 (2025), 50 (2026), 100 (2027)
FP8INT6 PFLOPs mỗi gói: 2 (2022-2023), 4 (2024)
Thông số kỹ thuật gói sản phẩm:
- FP64 Tensor: 3467-40 TFLOPS
Bộ nhớ:
Băng thông bộ nhớ:
TDP GPU:
CPU:
- 72-core Grace (một số loại)
- 88-core Vera (một số loại)
Nvidia và các công ty khác không ngừng cải tiến hiệu suất.
Kiến trúc Blackwell Ultra B300-series cung cấp hiệu suất FP4 cao hơn 50% với 15 FPLOPS so với GPU Blackwell gốc với 10 FPLOPS cho suy diễn AI, đồng thời hiệu suất cho các định dạng BF16 và TF32 trong huấn luyện AI cao gấp đôi, nhưng lại có hiệu suất thấp hơn cho các định dạng INT8, FP32 và FP64. BF16 và FP16 là các định dạng thường dùng cho huấn luyện AI, và có khả năng Nvidia sẽ cải thiện hiệu suất cho các định dạng này trong các GPU thế hệ tiếp theo như Rubin, Rubin Ultra, Feynman và Feynman Ultra.
Theo Toms Hardware, Nvidia đã tăng hiệu suất FP16BF16 lên 3.2 lần với H100 so với A100, 2.4 lần với B200 so với H100, và 2.2 lần với B300 so với B200. Tuy nhiên, hiệu suất huấn luyện thực tế còn phụ thuộc vào băng thông bộ nhớ, kích thước mô hình, tối ưu hóa phần mềm song song, hiệu suất kết nối và việc sử dụng FP32 cho các phép cộng.
Nvidia có thể tăng gấp đôi hiệu suất đào tạo với định dạng FP16BF16 của các GPU qua mỗi thế hệ mới. Nếu Nvidia đạt được hiệu suất như vậy.
Nguồn: www.tomshardware.com/tech-industry/artificial-intelligence/elon-musk-says-xai-is-targeting-50-million-h100-equivalent-ai-gpus-in-five-years-230k-gpus-including-30k-gb200s-already-reportedly-operational-for-training-grok