Sora - một AI tạo video mới được OpenAI cho ra mắt gần đây đã tạo ra một cơn sốt lớn chưa từng có, thu hút được sự chú ý lớn trên toàn thế giới. Vậy AI này có gì đặc biệt? Hãy cùng Nguyễn Công PC tìm hiểu trong bài viết này nhé!
Giải mã Sora - AI tạo video tân tiến bậc nhất thời điểm hiện tại
Sora không tạo ra video từ việc kết hợp các ảnh lại với nhau mà thay vào đó, nó sinh ra video bằng cách tạo ra các pixel một cách thời gian thực, dựa trên sự hiểu biết sâu sắc về chuyển động vật lý.
Công cụ AI Sora, phát triển bởi OpenAI, được các chuyên gia công nhận là công nghệ tạo video tự động có chất lượng vượt trội nhất thị trường hiện nay. Theo đánh giá của ABC News, "Sora mang lại một bước tiến lớn trong ngành công nghiệp biến đổi từ văn bản sang video".
Video được tạo ra bởi Sora: Nhưng chiếc máy bay giấy bay thành đàn xuyên qua từng hàng cây như thể chúng đang đi di cư vậy
Time bình luận rằng, trước khi có Sora, đã có các mô hình AI khác như Runway và Pika được sử dụng để tạo video, nhưng hạn chế lớn của chúng là chất lượng video không cao và thời lượng ngắn. Ngược lại, Sora có khả năng tạo ra các video dài tới 60 giây với cảnh quay phức tạp, giữ được sự mượt mà và logic, mặc dù vẫn tồn tại một số hạn chế.
Sự đột phá mạnh mẽ của OpenAI
OpenAI chưa chia sẻ chi tiết mô hình của họ, capa phép tạo video từ văn bản, với đại chúng. Trong tài liệu giới thiệu, tổ chức này chỉ nhắc qua loa về công nghệ đứng sau và dữ liệu được sử dụng để huấn luyện mô hình.
"Sora hoạt động dựa trên mô hình khuếch tán, tạo ra video từ một khung hình nhiễu, độ phân giải thấp ban đầu và dần dần làm giảm nhiễu qua từng bước cho đến khi đạt được kết quả mong muốn", giải thích bởi công ty mẹ của ChatGPT về cơ chế của Sora. Điều này giúp AI có khả năng tạo ra toàn bộ video một cách liên tục chứ không phải tạo từng phần nhỏ rồi ghép chúng lại. Mô hình này được thiết kế để dự đoán nhiều khung hình cùng một lúc, đảm bảo tính nguyên vẹn của chủ thể trong khi tái tạo các chi tiết xung quanh.
Cách Sora tạo ra video bằng cách sử dụng thuật toán khử nhiễu
Theo OpenAI, Sora phát triển trên cơ sở công trình nghiên cứu trước về Dall-E, công cụ AI tạo hình ảnh, và ChatGPT, công cụ tạo văn bản. Tuy nhiên, tiến sĩ Jim Fan, một chuyên gia hàng đầu về AI tại Nvidia, cho rằng: "Nếu bạn vẫn nghĩ Sora chỉ là công cụ sáng tạo giải trí giống như Dall-E, bạn cần suy nghĩ lại. Đây là một hệ thống mô hình hóa dựa trên dữ liệu có khả năng mô phỏng cả thế giới thực và ảo".
Ông chỉ ra rằng, điểm mạnh của Sora nằm ở cấu trúc biến áp khuếch tán từ đầu đến cuối của nó. Điều này cho phép mô hình hiểu rõ ràng văn bản trước khi biến đổi nó thành hình ảnh 3D. Sau đó, mô hình dự đoán chuyển động dựa trên các quy tắc vật lý để điều chỉnh mỗi pixel trong video một cách chính xác nhất.
"Khả năng mô phỏng của Sora không chỉ dừng lại ở việc áp dụng những dữ liệu nó đã học; nó còn có thể tự học hỏi để tìm ra giải pháp tối ưu cho việc tạo ra nội dung mới", Fan nhấn mạnh. Ông nói thêm, điểm đặc biệt của Sora không phải là tạo video từ việc ghép các hình ảnh tĩnh lại với nhau mà là khả năng render một dãy pixel một cách liên tục theo thời gian.
Sora có thể tạo ra 5 video cùng một lúc với từng góc quay khác nhau tùy theo yêu cầu của người dùng
Sự ra đời của Sora nhắc nhở giới chuyên môn về công trình AI giải bài toán Olympic do ba nhà khoa học gốc Việt công bố trên Nature tháng qua. OpenAI trong bản mô tả về cơ chế hoạt động của Sora cũng khẳng định rằng công cụ này sẽ là nền tảng cho khả năng của AI trong việc hiểu biết và tái hiện thế giới thực.
"Chúng tôi xem đây là bước tiến quan trọng hướng tới việc thực hiện Trí tuệ Nhân tạo Tổng hợp (AGI)", theo tuyên bố của OpenAI.
:
Viết bình luận