Tesla chi tiết cách nó tìm thấy các lõi bị lỗi trên các siêu máy tính hàng triệu lõi của nó
Việc phát hiện và vô hiệu hóa các lõi gặp sự cố trên một bộ xử lý lớn là rất khó khăn, nhưng Tesla đã phát triển công cụ Stress, có khả năng phát hiện các lõi dễ bị lỗi dữ liệu im lặng không chỉ trên các bộ xử lý Dojo mà còn trên các cụm Dojo với hàng triệu lõi mà không cần ngắt hoạt động. Điều này rất quan trọng, vì một lỗi dữ liệu im lặng có thể phá hủy toàn bộ quá trình đào tạo mất hàng tuần để hoàn thành.
Dojo của Tesla là một trong hai bộ xử lý lớn nhất hiện nay trên thế giới. Những chip wafer quy mô lớn này sử dụng toàn bộ một wafer 300 mm, không thể tạo ra khối lượng tính toán lớn hơn trong một lần. Mỗi bộ xử lý Dojo có tới 8.850 lõi, nhưng một số có thể gây ra lỗi dữ liệu âm thầm (SDC) sau khi triển khai, làm hỏng kết quả của các quá trình đào tạo lớn.
Một bộ xử lý lớn
Với độ phức tạp cực kỳ của Dojo Training Tile, việc phát hiện các die bị lỗi trên chip kích thước lớn không hề dễ dàng, và khi nói đến việc hỏng dữ liệu lặng lẽ (SDC), mọi thứ trở nên phức tạp hơn. Cần lưu ý rằng SDC là điều không thể tránh khỏi trên tất cả các loại phần cứng, nhưng bộ xử lý Dojo tiêu thụ 18.000 ampe và tỏa ra 15.000W công suất, điều này có ảnh hưởng lớn.
Tất cả các lõi phải hoạt động đúng như dự kiến, nếu không, việc huấn luyện AI của Tesla sẽ trở nên phức tạp hơn, vì một lỗi do hỏng dữ liệu có thể làm cho nhiều tuần huấn luyện AI trở nên vô nghĩa. Tesla gọi mỗi bộ vi xử lý Dojo quy mô wafer là một "Training Tile". Mỗi tile chứa 25 chip D1 kích thước 645 mm2, với 354 lõi RISC-V 64-bit tùy chỉnh, mỗi lõi có 1,25 MB SRAM cho dữ liệu và lệnh, được tổ chức thành cụm 5×5 và kết nối với nhau qua mạng mech với băng thông định hướng 10 TBs.
Mỗi D1 hỗ trợ băng thông ngoài chip lên tới 4 TB. Mỗi Training Tile chứa 8.850 lõi, hỗ trợ các định dạng số nguyên 8, 16, 32 và 64 bit. Tesla sử dụng công nghệ InFOSoW của TSMC để đóng gói các bộ vi xử lý Dojo quy mô wafer. Để giảm thiểu rủi ro lỗi lõi, Tesla đã triển khai kỹ thuật fuzzing khác biệt, trong đó tạo ra một tập hợp lệnh ngẫu nhiên và gửi cùng một chuỗi lệnh đến tất cả các lõi.
Sau khi thực hiện, các kết quả được so sánh để tìm sự không khớp. Tuy nhiên, quá trình này mất nhiều thời gian do độ trễ giao tiếp giữa máy chủ và tile đào tạo Dojo. Để tăng hiệu suất, Tesla đã cải tiến phương pháp bằng cách gán cho mỗi lõi một tải trọng độc đáo gồm 0,5 MB hướng dẫn ngẫu nhiên. Thay vì giao tiếp với máy chủ, các lõi lấy tải trọng từ nhau trong tile đào tạo Dojo và thực hiện chúng lần lượt.
📢 Liên hệ quảng cáo: 0919 852 204
Quảng cáo của bạn sẽ xuất hiện trên mọi trang!
Việc trao đổi dữ liệu nội bộ này đã sử dụng giao tiếp băng thông cao từ Dojo training tiles, cho phép Tesla kiểm tra khoảng 4.4 GB hướng dẫn trong thời gian ngắn hơn đáng kể. Tesla sau đó đã cải thiện phương pháp bằng cách cho phép các lõi chạy mỗi tải trọng nhiều lần mà không cần đặt lại trạng thái giữa các lần chạy, điều này đã tạo ra sự ngẫu nhiên trong môi trường thực thi, giúp phát hiện những lỗi tinh vi có thể không bị phát hiện trước đó.
Mặc dù số lượng thực thi tăng lên, nhưng mức độ chậm lại là không đáng kể so với cải tiến độ tin cậy trong phát hiện, theo công ty. Một cải tiến khác là việc định kỳ tích hợp các giá trị đăng ký vào một khu vực SRAM nhất định bằng cách sử dụng phép XOR, làm tăng khả năng xác định các đơn vị tính toán bị lỗi gấp 10 lần khi thử nghiệm trên các lõi bị lỗi đã biết mà không gây suy giảm hiệu suất đáng kể.
Phương pháp của Tesla không chỉ hoạt động ở cấp độ vi xử lý hay ở cấp độ tấm huấn luyện Dojo mà còn ở cấp độ cụm Dojo, giúp công ty xác định các lõi bị lỗi trong hàng triệu lõi hoạt động. Hệ thống giám sát căng thẳng đã phát hiện nhiều lõi bị lỗi trên các cụm Dojo khi được điều chỉnh đúng cách.
Thời gian phát hiện lỗi rất khác nhau. Phần lớn lỗi được phát hiện sau khi thực hiện từ 1 GB đến 100 GB lệnh tải trên mỗi lõi, tương ứng với vài giây đến vài phút chạy. Những lỗi khó phát hiện hơn có thể cần tới 1000 GB lệnh, tức là vài giờ thực thi. Công cụ Stress của Tesla thực hiện thử nghiệm nhẹ nhàng và tự chứa trong các lõi, cho phép kiểm tra nền mà không cần tắt lõi.
Chắc chắn rằng chỉ những lõi được xác định là lỗi mới bị vô hiệu hóa, và mỗi chip D1 có thể chịu đựng một vài lõi bị vô hiệu mà không ảnh hưởng đến chức năng tổng thể. Tesla cũng cho biết ngoài việc phát hiện các lõi lỗi, công cụ Stress đã phát hiện một lỗi thiết kế hiếm gặp, mà kỹ sư đã khắc phục qua điều chỉnh phần mềm. Nhiều vấn đề trong các lớp phần mềm cấp thấp cũng đã được phát hiện và sửa chữa trong quá trình triển khai hệ thống giám sát.
Hiện tại, công cụ Stress đã được tích hợp hoàn toàn vào các cụm Dojo để giám sát tình trạng phần cứng trong quá trình đào tạo AI. Công ty cho biết rằng việc này...
Nguồn: www.tomshardware.com/pc-components/cpus/tesla-details-how-it-finds-punishing-defective-cores-on-its-million-core-dojo-supercomputers-a-single-error-can-ruin-a-weeks-long-ai-training-run