GPU VRAM khổng lồ của AMD trên các thẻ bản năng của nó đã bị hỏng tính năng ngủ đông của Linux
Trong loạt bản vá Linux hôm nay, kỹ sư AMD Samuel Zhang đã nêu bật một vấn đề bất thường khi các máy chủ Linux không thể ngủ đông do lượng VRAM quá lớn và số lượng bộ tăng tốc AMD Instinct cao trên mỗi hệ thống. Các bộ tăng tốc Instinct là GPU mạnh mẽ của AMD, được thiết kế đặc biệt cho trung tâm dữ liệu xử lý AI, tính toán hiệu suất cao và các tác vụ đòi hỏi khác. Một trong những điểm mạnh của các GPU này là chúng có lượng VRAM khổng lồ, như 192GB ở một số mẫu, điều này có vẻ lớn đối với game thủ nhưng khá tiêu chuẩn cho các chip trung tâm dữ liệu hiện đại.
Máy chủ chạy Linux AI AMD này được trang bị tám thẻ Instinct, mang lại tổng dung lượng VRAM khoảng 1.5TB. Tuy nhiên, mặc dù nhiều VRAM thường tốt, nhưng trong trường hợp này, nó có thể gây ra vấn đề bất ngờ. Nguyên nhân chính của sự cố hibernation không phải do số lượng thẻ Instinct mà là cách Linux quản lý bộ nhớ GPU trong quá trình hibernation.
Khi hệ thống bắt đầu chế độ ngủ đông, toàn bộ bộ nhớ GPU sẽ được chuyển vào RAM hệ thống, thường qua Bảng Chuyển Đổi Đồ Họa (GTT) hoặc bộ nhớ chia sẻ (shmem). Sau đó, kernel tạo một hình ảnh ngủ đông bằng cách sao chép toàn bộ nội dung bộ nhớ hệ thống, bao gồm cả VRAM đã bị đẩy ra, vào một vùng nhớ thứ hai trước khi ghi nó vào đĩa.
📢 Liên hệ quảng cáo: 0919 852 204
Quảng cáo của bạn sẽ xuất hiện trên mọi trang!
5TB VRAM tổng cộng có thể làm tăng mức sử dụng bộ nhớ lên tới 3TB, vượt quá khả năng của các máy chủ chỉ có 2TB bộ nhớ hệ thống. Điều này gây ra sự cố trong quá trình ngủ đông. Zhang đang làm việc để khắc phục vấn đề này và đề xuất hai thay đổi chính. Thay đổi đầu tiên nhằm giảm lượng bộ nhớ hệ thống cần thiết trong quá trình ngủ đông, giúp quá trình này thành công.
Tuy nhiên, việc này gây ra một vấn đề mới, vì giai đoạn làm tan băng khi hệ thống khôi phục từ trạng thái ngủ đông có thể mất gần một giờ do lượng bộ nhớ lớn. Để khắc phục, một bản vá thứ ba đã được thêm vào để bỏ qua việc khôi phục các đối tượng bộ đệm trong giai đoạn này, giúp giảm đáng kể thời gian khôi phục. Hiện nay, hầu hết các máy chủ AI cao cấp hoạt động liên tục, vì vậy có thể đặt câu hỏi tại sao ai đó lại cần ngủ đông chúng.
Một lý do phổ biến là giảm tiêu thụ điện trong thời gian ngừng hoạt động và giúp ổn định lưới điện. Do các trung tâm dữ liệu lớn tiêu thụ nhiều năng lượng, điều này có thể giảm nguy cơ mất điện, như trường hợp gần đây ở Tây Ban Nha.
Nguồn: www.tomshardware.com/tech-industry/supercomputers/massive-vram-pools-on-amd-instinct-accelerators-drown-linuxs-hibernation-process-1-5-tb-of-memory-per-server-creates-headaches