AMD ROCm7: CUDA đã có đối thủ mạnh mẽ, hỗ trợ đầy đủ Windows, Pytorch, cài bằng 1 pip duy nhất

#ai

Nếu như trước giờ thế giới gần như thống trị bởi CUDA trong lĩnh vực phát triển AI thì cuối cùng cũng có một đối thủ mã nguồn mở, hỗ trợ đa nền tảng, zero day và đặc biệt là tương thích liền mạch với hệ sinh thái phần cứng hiện hữu. Đó chính là ROCm 7 vừa ra mắt với loạt những nâng cấp đáng giá, bao gồm cả hỗ trợ Windows thay vì chỉ Linux, sẵn hỗ trợ những framework như Pytorch native và nhiều thứ khác.

Với sự ra đời của phiên bản này, AMD đã không chỉ bắt kịp mà thậm chí còn cho thấy rõ mục tiêu vượt qua các xu hướng AI hiện tại để từ đó, thúc đẩy nhanh quá trình phổ cập và dân chủ hóa AI với chi phí / hiệu năng ngày càng tối ưu hơn.

Cho bạn nào lỡ quên, thì để nghiên cứu và tạo ra các ứng dụng AI, thí dụ như chạy thuật toán tạo ảnh Stable Diffusion, người ta cần phải viết dựa trên những framework thí dụ như Pytorch hay TensorFlow nhằm chạy các thuật toán tính toán,… để các thuật toán này chạy thì lại cần xài phần cứng. Mà để phần cứng nó hiểu được và vắt sức mạnh vật lý ra chạy thì cần phải có một "cầu nối" để nói chuyện với driver, và đó chính là những nền tảng như CUDA (mã nguồn đóng cho card NVIDIA) hay ROCm (mã nguồn cho card AMD).

Một cách chính xác, ROCm là một bộ phần mềm mã nguồn mở do AMD phát triển, giúp các nhà phát triển dễ dàng lập trình và tối ưu hóa ứng dụng trí tuệ nhân tạo (AI) và tính toán hiệu năng cao (HPC) trên các GPU của AMD. ROCm cung cấp đầy đủ các công cụ như driver, thư viện, trình biên dịch, debugger, và các API, hỗ trợ các framework AI phổ biến như PyTorch, TensorFlow, giúp quá trình phát triển, huấn luyện và triển khai mô hình AI trở nên nhanh chóng, linh hoạt và hiệu quả hơn.

Ở những phiên bản trước, ROCm khá kín tiếng và quá trình setup, cấu hình cũng sẽ đôi chút phức tạp, chủ yếu qua các CLI trong Linux. Đồng thời cộng đồng nhà phát triển và người dùng khi xưa vẫn chưa nhiều. Tuy nhiên, khoảng 2 năm trở lại đây, những vấn đề đó ngày càng được cải thiện tích cực và cho tới phiên bản 7 hiện tại, mọi thứ đã thay đổi hoàn toàn và ở nhiều khía cạnh, thậm chí còn thân thiện hơn các nền tảng khác.

Lần đầu tiên, ROCm 7 mở rộng hỗ trợ đầy đủ cho cả Windows và GPU Radeon trên các máy tính cá nhân dùng Ryzen, không chỉ giới hạn ở Linux hay các máy chủ chuyên dụng như trước đây. Điều này giúp người dùng phổ thông dễ dàng tiếp cận AI ngay trên laptop hoặc desktop cá nhân

Cụ thể với phiên bản ROCm 7, người dùng chỉ cần chạy một lệnh pip install rocm là đã có thể bắt đầu phát triển AI trên GPU AMD. Điều này cực kỳ tiện lợi, đặc biệt cho những ai mới tiếp cận hoặc muốn tiết kiệm thời gian thiết lập môi trường, không cần phải trải qua nhiều bước thiết lập, đồng thời cũng không bị lệ thuộc vào hệ điều hành + phiên bản driver. Mặt khác, bởi tính chất open source nên người dùng tự do kiểm tra, tùy chỉnh và đóng góp vào hệ sinh thái phần mềm. Mình nghĩ chính hướng đi này đã giúp ROCm rất nhanh có được cộng đồng người dùng và nhà phát triển lớn như hiện nay.

Với ROCm 7, AMD cho biết nó hỗ trợ sâu rộng cho các thư viện AI phổ biến như PyTorch, Triton, Hugging Face, vLLM và AGI-lang. Tích hợp CI/CD hàng ngày giúp đảm bảo tính tương thích, cập nhật và hiệu suất tối ưu. Nó hỗ trợ đầy đủ các định dạng dữ liệu tiên tiến như FP8, tối ưu hóa kernel (tại sự kiện AMD Advancing AI mình dự vừa rồi còn có cả cuộc thi viết kernel ngay tại chỗ phá kỷ lục luôn), đồng thời cải thiện cơ chế giao tiếp nhằm tăng tốc các tác vụ AI phức tạp.

ROCm 7 hiện tại đã được tối ưu cho các kỹ thuật huấn luyện hiện đại như sharding, data parallelism, FSDP và pipeline parallelism, giúp xử lý các mô hình lớn hiệu quả hơn từ 3 đến 3.8 lần so với phiên bản trước đây. Tại sự kiện, nhiều đơn vị nổi tiếng như xAI Grok hay Usloth thần thánh cũng đã xuất hiện và chia sẻ cách họ dùng ROCm 7 để tối ưu hóa quá trình huấn luyện. Cái này có nhiều cái hay lắm, mình hẹn các bạn chia sẻ sau sâu hơn về chuyện train AI ha.

Mặt khác, chính AMD cũng đã phát hành các model mã nguồn mở mà điển hình là Anstella, public các weight, script huấn luyện và dataset để cộng đồng dễ tái tạo và kiểm thử trên phần cứng AMD. Các model nổi bật khác như Stella Vad (mô hình ngôn ngữ hình ảnh đầu tiên của AMD), Hummingberg (text-to-video), Viking (đa ngôn ngữ châu Âu) đều được xây dựng và tinh chỉnh trên cụm GPU AMD chạy ROCm 7.

Một chuyện khác mà ROCm 7 đã giải quyết được chính là lượng token tiêu thụ khi chạy model. Một phần là nhờ vào việc áp dụng suy luận phân tán (distributed inference) với mục đích tiết kiệm token ở quy mô lớn, đồng thời nhờ vào thêm sự hợp tác với các đối tác như LLMD và Slurm, và cả các giải pháp AI doanh nghiệp end to end, quản lý life cirle của AI MLOps, cloud, phân phối cụm và telemetry nhằm tối ưu toàn bộ pipline stack của nhà phát triển.

Và cho bạn nào muốn thử nghịch, hiện tại ROCm 7 chạy trên các phần cứng MI mới nhất đang được cho người dùng xài thử qua AMD Developer Cloud. Chỉ cần đăng ký là chúng ta có token miễn phí để dùng thử, có thể truy cập nhanh qua vào GPU Instinct qua Jupyter notebooks. Các bạn vào link này, sau đó bấm request credit, điền thông tin là sẽ được thử 25 giờ sử dụng với các GPU mạnh nhất của AMD hỗ trợ.

Nguồn:tinhte.vn/thread/amd-rocm7-cuda-da-co-doi-thu-manh-me-ho-tro-day-du-windows-pytorch-cai-bang-1-pip-duy-nhat.4028674/