Video do AI tạo bây giờ có thể với GPU Gaming chỉ với 6GB VRAM
Lvmin Zhang tại GitHub, cùng với Maneesh Agrawala từ Đại học Stanford, đã giới thiệu FramePack tuần này. FramePack cung cấp một giải pháp thực tiễn cho việc khuếch tán video, sử dụng ngữ cảnh tạm thời cố định để xử lý hiệu quả hơn, cho phép tạo ra video dài và chất lượng cao hơn. Mô hình 13 tỷ tham số dựa trên kiến trúc FramePack có thể tạo ra một đoạn video 60 giây chỉ với 6GB bộ nhớ video.
FramePack là một kiến trúc mạng nơ-ron sử dụng kỹ thuật tối ưu hóa đa giai đoạn để tạo video AI cục bộ. Hiện tại, giao diện người dùng của FramePack được cho là chạy một mô hình tùy chỉnh dựa trên Hunyuan, mặc dù tài liệu nghiên cứu đề cập rằng các mô hình đã được huấn luyện sẵn có thể được tinh chỉnh bằng FramePack. Các mô hình khuếch tán thông thường xử lý dữ liệu từ các khung hình ồn trước đó để dự đoán khung hình tiếp theo ít ồn hơn.
Số lượng khung hình đầu vào cho mỗi dự đoán được gọi là độ dài ngữ cảnh tạm thời, tăng theo kích thước video. Các mô hình khuếch tán video tiêu chuẩn yêu cầu dung lượng VRAM lớn, thường bắt đầu từ 12GB. Bạn có thể sử dụng ít bộ nhớ hơn, nhưng điều đó sẽ dẫn đến clip ngắn hơn, chất lượng thấp hơn và thời gian xử lý lâu hơn. Các mô hình Stable Diffusion tối ưu cho AMD có thể đạt được hiệu suất lên tới 3.
Hiệu suất tăng gấp 3 lần trên Ryzen và Radeon. Bạn có thể chơi Quake II được render bằng AI thời gian thực ngay trong trình duyệt. Microsoft giới thiệu WHAMM, cung cấp AI sinh cho trò chơi. FramePack là kiến trúc mới nén các khung hình đầu vào dựa trên độ quan trọng của chúng vào một kích thước cố định, giảm thiểu đáng kể mức tiêu thụ bộ nhớ GPU. Tất cả các khung hình phải được nén để đạt được giới hạn trên mong muốn cho độ dài ngữ cảnh.
Các tác giả mô tả chi phí tính toán tương tự như khuếch tán hình ảnh. Kết hợp với các kỹ thuật giảm thiểu hiện tượng trôi, nơi mà chất lượng giảm theo độ dài video, FramePack cho phép tạo video dài hơn mà không làm giảm đáng kể độ trung thực. Hiện tại, FramePack yêu cầu GPU dòng RTX 3040-50 với hỗ trợ cho các định dạng dữ liệu FP16 và BF16. Hỗ trợ trên các kiến trúc Turing và cũ hơn chưa được xác nhận, và không đề cập đến phần cứng AMD hay Intel.
Linux cũng là một trong những hệ điều hành hỗ trợ. Ngoài RTX 3050 4GB, hầu hết các GPU RTX hiện đại đáp ứng hoặc vượt qua yêu cầu 6GB. Về tốc độ, RTX 4090 có thể đạt tới 0.6 khung hình mỗi giây khi tối ưu hóa với teacache, do đó hiệu suất sẽ khác nhau tùy thuộc vào card đồ họa. Mỗi khung hình sẽ được hiển thị ngay sau khi tạo ra, cung cấp phản hồi hình ảnh tức thì. Mô hình sử dụng có thể có giới hạn 30 FPS, điều này có thể là một hạn chế cho nhiều người dùng.
FramePack đang mở ra cơ hội cho người tiêu dùng bình thường tiếp cận công nghệ tạo video AI mà không cần phụ thuộc vào các dịch vụ bên thứ ba đắt đỏ. Dù bạn không phải là người sáng tạo nội dung, đây vẫn là một công cụ thú vị để tạo GIF, meme và nhiều thứ khác. Tôi sẽ thử nghiệm nó trong thời gian rảnh.
Nguồn: www.tomshardware.com/tech-industry/artificial-intelligence/framepack-can-generate-ai-videos-locally-with-just-6gb-of-vram