Mình vừa thấy anh ca sĩ Duy Mạnh làm một video ca nhạc với hầu hết các cảnh quay bằng AI rất thú vị. Trong bài viết này, mình sẽ thử phân tích video đó ở góc độ kỹ thuật tạo video bằng AI, sau đó thử gợi ý một workflow để có thể làm ra một video tương tự như vậy bằng những công cụ AI mà mình biết được xem sao nhé.
Qua đó, có thể sẽ giải đáp được khá nhiều thắc mắc của các bạn về cách tạo video bằng model AI, đặc biệt là bằng model Veo 2 / Veo 3 của Google vừa ra mắt gần đây, làm sao để nhân vật có thể giống nhau sau các scene chỉ tối đa 8 giây mỗi lần tạo,…
Để có thể tìm được cách nào có thể làm ra được video tương tự, chúng ta đầu tiên sẽ cần phân tích các điểm đáng chú ý của video dưới góc độ kỹ thuật, giới hạn trong phạm vi sử dụng GenAI để tạo ra hình ảnh, âm thanh.
Dưới góc độ kỹ thuật tạo ảnh / video bằng AI thì sau khi xem video của anh ca sĩ, chúng ta có thể thấy được những đặc điểm sau:
- Nhân vật nam chính trong video được lấy từ hình ảnh thật ngoài đời của Duy Mạnh. Hầu hết các cảnh có nhân vật chính xuất hiện đều cho hình ảnh rất giống với người thật ngoài đời. Các đặc điểm như kiểu tóc, hình xăm trên cổ cũng được nhóm làm video cố tái tạo lại cho giống ngoài đời.
- Nhân vật nữ cũng có nét trên gương rất giống hình ảnh của Duy Mạnh.
- Có sự sai khác về gương mặt của nam ca sĩ trong MV giữa các cảnh (Scene). Tuy nhiên, ở từng scene, gương mặt của nam ca sĩ vẫn giữ lại được đường nét chính cùng các đặc điểm nhận diện.
- Chất liệu bộ quần áo đặc biệt của nhân vật nữ được giữ cố định qua các cảnh quay.
- Các cảnh quay nam ca sĩ hát: cử động nhép miệng theo tiếng nhạc tương đối khớp. Mình dùng từ tương đối ở đây là vì vẫn chưa thực sự đồng bộ tuyệt đối giữa lời bài hát và chuyển động miệng của ca sĩ. Tuy nhiên, tốc độ khẩu hình miệng đóng mở cùng các thao tác biểu cảm của gương mặt, biểu diễn hình thể như đưa tay lên,… đang được làm tương đối tự nhiên và mô phỏng lại khá chính xác cách biểu diễn của ca sĩ ngoài đời thật. Đây là điều rất khó có thể làm được ở thời điểm hiện tại với các công cụ GenAI đại chúng. Bởi thế, điều mà MV làm được ở khía cạnh này đã có thể tính là đã khai thác rất tốt, có sự chuẩn bị nhất định.
- Video có cả những chi tiết như tên biển hiệu cửa hàng, thương hiệu đồng hồ hay logo quả táo tào, tất cả đều được thể hiện tốt.
- Bối cảnh và không gian môi trường trong video cũng được làm tốt.
- Tổng thể 70% hình ảnh trong toàn video dài hơn 4 phút đều ổn, nhưng nếu soi vào chi tiết cảu từng khung hình thì tất nhiên vẫn sẽ có các lỗi thường gặp của nội dung visual do GenAI tạo ra như lỗi text, đặc biệt là text nhỏ, các chi tiết của từng vật thể, chất liệu bề mặt vật liệu bị nhảy qua mỗi frame hình chuyển động,… Dù vậy thì tổng thể là ổn.
Trên đây là những quan sát của mình về video ở giác độ kỹ thuật GenAI hiện tại. Dựa trên những điểm ngon và chưa ngon đó, chúng ta sẽ thử tìm các công cụ, hình thành nên workdflow với khả năng làm được video tương tự như vậy.
Từ các đặc điểm đã phân tích ở trên, chúng ta có thể tóm gọn lại các yêu cầu trong video cần có là:
- Video có thời lượng dài theo ý muốn người dùng.
- Video có hình ảnh chuyển động của con người và kèm theo lời bài khác.
- Một số đoạn cần lời bài hát đồng bộ ở mức tương đối với chuyển động miệng của ca sĩ.
- Gương mặt của ca sĩ và diễn viên chính trong từng cảnh quay phái nhất quán với nhau nhất có thể.
- Đặc điểm nhận dạng của ca sĩ và diễn viên do người dùng đưa vào từ một ảnh người thật mà người dùng muốn.
Hiện tại, có rất nhiều công cụ, rất nhiều cách làm để tạo ra một video theo yêu cầu bên trên, tạo offline hoàn toàn bằng tools chạy local cũng được nhưng đòi hỏi phải setup và phức tạp hơn, đổi lại là kiểm soát được mọi thứ bạn muốn. Các công cụ online thì vô số và rất nhiều cái làm được chuyện đó. Nhưng dù công cụ nào thì với nhu cầu bên trên, không có 1 công cụ duy nhất đáp ứng được mà phải kết hợp nhiều tools AI, mỗi tools làm một giai đoạn thì mới có video theo yêu cầu. (mình tạm gọi là xài nhiều con AI như các bạn hay nói trên mạng á).
Bên dưới đây là một workflow mà mình nghĩ là đơn giản nhất có khả năng tạo ra video theo yêu cầu trên.
Đầu tiên, mình sẽ gợi ý ngắn gọn các bước để làm video nói trên, sau đó giải thích từng bước. Cũng nói thêm rằng với đặc điểm video bên trên của anh ca sĩ Duy Mạnh thì cần chuẩn bị phần hình (video) và phần âm thanh (audio) riêng, sau đó làm thêm 1 bước edit bằng các phần mềm dựng video truyền thống. Nguyên nhân là chúng ta không đòi hỏi cử động miệng được sync tuyệt đối với lời bài hát phát ra, do đó không cần làm bước hết sức phức tạp này.
Về công cụ, ước tính chúng ta sẽ sử dụng:
- SunoAI: tạo bài nhạc bằng tiếng Việt, miễn phí.
- Stable Diffusion: tạo ảnh nhân vật, tạo story board.
- Google Veo 2: Tạo video bằng prompt, mỗi video 8 giây, không có tiếng, hỗ trợ cố định nhân vật
Cái nào dễ làm trước. Đầu tiên sẽ cần tạo file âm thanh bài hát. Đối với trường hợp của MV trên thì do ảnh là ca sĩ nên chắc chắn ảnh sẽ tự hát và tự sản xuất luôn rồi. Nhưng đối với bạn nào muốn làm luôn cả MV ca nhạc như vậy mà không muốn hát hoặc hát cực dở như mình, thì có thể viết lời (hoặc thậm chí nhờ AI viết lời luôn), sau đó dùng công cụ biến thành giai điệu âm nhạc. Hiện có rất nhiều công cụ làm được chuyện này, hỗ trợ tốt tiếng Việt và còn miễn phí nữa. Một trong những cái đó là Suno AI, miễn phí, hiệu quả và hỗ trợ rất tốt tiếng Việt.
Tạo file video. Cái này thì phức tạp hơn nha. Với quy mô của MV trên, không chỉ có thời lượng dài mà còn có câu chuyện, có các cảnh quay và cú máy có mục đích, thì những cái cần có và các bước thực hiện sẽ là:
- Đầu tiên nhất là cần một kịch bản của video. Cái này đơn giản, các bạn có thể nhờ luôn chatGPT hay Gemini hỗ trợ viết một kịch bản theo ý tưởng của các bạn nếu không tự nghĩ ra được như nhà sản xuất chuyên nghiệp.
- Tiếp theo là cần một story board mô tả các góc máy, bố cục và chuyển động dự kiến của nhân vật trong cảnh quay. Hiện có AI hỗ trợ tạo storyboard luôn cho bạn nào không rành về đạo diễn hay kịch bản.
- Trong MV ca nhạc, 50% cảnh trong video là ca sĩ hát với chuyển động miệng cần khớp với lời bài hát lúc đó. 50% còn lại là các cảnh quay B Roll kiểu như cô gái uống rượu, đeo đồng hồ, đi qua chiếc xe,… 2 nhóm video này cần được xử lý riêng, mỗi dạng sẽ có một công cụ hiệu quả để làm ra đúng ý.
- Optional: Riêng trong MV của anh Duy Mạnh thì những scene ca sĩ hát, chuyển động hình thể, biểu cảm rất giống với ảnh ngoài đời. Muốn làm được điều này chúng ta cần một công cụ khác.
- Sau khi đã định hình được phần khung của video MV, kế tiếp chúng ta cần chuẩn bị hình ảnh gốc của nhân vật mong muốn đưa vào video. Như trong trường hợp này thì anh ca sĩ muốn gương mặt của anh ấy làm diễn viên trong MV luôn. Mặt khác, chúng ta cần cố định gương mặt và trang phục của nhân vật qua các cảnh quay khác nhau, do đó chúng ta sẽ dùng AI tạo ảnh để tạo luôn các story board bằng AI trước, sau đó dùng nó để kết hợp với prompt để tạo ra mỗi cảnh quay. Việc làm này sẽ giúp các cảnh quay ổn định, đúng theo kịch bản và đặc biệt là giữ cố định gương mặt của nhân vật. Riêng đối với MV trên, nhân vật nữ mặc một chiếc áo rất đặc biệt và cái này cần train một LORA riêng, sau đó mới dùng nó để tạo ảnh tĩnh. Công đoạn này mình đoán rằng team anh Duy Mạnh tạo bằng ComfyUI với Flux dưới local sẽ tiện hơn, kiểm soát chi tiết tốt hơn, hiệu quả hơn, đặc biệt là video ảnh người thật. Tuy nhiên nếu nhu cầu không quá chi tiết như video thì dùng tools AI online như chatGPT hay Gemini để tạo ảnh cũng được, chỉ là nó khó giữ lại mặt cố định hơn thôi.
- Sau khi đã có story board với hình ảnh được tạo ra bởi Stable Diffusion, chúng ta sẽ lấy từng hình để bỏ vào AI tạo video, dùng prompt miêu tả cảnh quay để tạo ra các scene. Chỗ này mình nghĩ cần dùng Veo 2. Mặc dù nó không tạo ra video kèm tiếng sẵn như Veo 3, nhưng đổi lại nó cho người dùng đưa hình ảnh vào, quy định các scene để AI bám vào và tạo ra video. Từ đó giúp video AI tạo ra ổn định nhân vật giữa các scene. Lợi ích tiếp theo là nó sẽ tạo luôn các video ca sĩ nhép miệng hát.
- Cuối cùng là ghép nối các scene video, bài nhạc, biên tập bằng Premier Pro hoặc Davinci Resolve để tạo ra thành phẩm cuối cùng.
Trên đây là các bước cơ bản để có thể làm được 1 video MV tương tự như anh Duy Mạnh bên trên. Tất nhiên là bên cạnh công cụ, cách làm, bạn cũng cần nhiều thứ khác mà đặc biệt là prompt engineering đúng cách, một số tip để tạo ra cảnh quay mong muốn, thể hiện được đúng ý đồ, ý nghĩa của MV. Bài dài quá rồi, hẹn các bạn bài sau mình chia sẻ quá trình áp dụng workflow trên tạo ra một video hoàn chỉnh nhé.Nguồn:tinhte.vn/thread/phan-tich-va-huong-dan-lam-mv-ca-nhac-bang-ai-p1-yeu-cau-cac-cong-cu-va-nhung-buoc-co-ban.4023707/