Mình sẽ thử nhập vào cùng một prompt ở 2 tài khoản để tạo thử cho mọi người xem chất lượng luôn nha. Prompt này sẽ mô tả video, thông số camera, các góc máy mong muốn, rồi cả thoại của nhân vật.
Về prompt, bạn nào muốn thử có thể dùng mẫu như mình dùng ở đây và thay các nội dung mà các bạn muốn. Prompt cần là tiếng Anh để mô tả cụ thể các thuật ngữ và để model hiểu rõ hơn ý định trả về video đúng ý đồ của chúng ta hơn. Về làm sao để tạo ra một prompt giống như thế này thì mình giải thích ở một bài viết khác ha.
SPECS: 50mm lens, handheld, shallow depth of field, cinematic lighting, NO CAPTIONS OR TEXT.
ÔNG HẢI
(65, graying hair, deep wrinkles, light blue long-sleeved shirt) slowly sips black coffee at a street-side café in District 3, Saigon. The rain falls outside, gently tapping on the awning above.
WIDE SHOT: A quiet corner café with plastic stools, wet pavement reflecting neon signs, occasional motorbikes passing by under umbrellas. Ông Hải sits alone near the edge, coffee steam rising in front of him.
MEDIUM SHOT: He gazes out toward the street, one hand wrapped around a warm cup. A small notebook sits open on the table, next to an old fountain pen.
CLOSE-UP: His worn hands holding the cup tightly. Drops of rain trickle down the plastic canopy above him.
ÔNG HẢI
says with old man voice, slow, reflective, slightly raspy, in Vietnamese
“Không có người đàn ông nào hiểu biết về phụ nữ nhiều như tôi. Còn tôi thì không biết gì về họ.”
EXTREME CLOSE-UP: His eyes – clouded, yet glinting with memory – staring past the falling rain.
[Brief description of environmental movement or lighting change]: The wind pushes a curtain of rain closer to the café edge, a passing motorbike splashes water onto the street. A flicker of lightning briefly brightens the scene.
AUDIO: Soft rain, distant thunder, traffic hum, slow breathing, the gentle clink of ceramic on the table.
KEY ELEMENTS: Rainy Saigon street, old man in solitude, coffee steam, poetic inner monologue, city nostalgia.
Đây là kết quả từ Veo 2 trong tài khoản Pro. Cảnh quay cũng khá ổn, nhưng do bản chất Veo 2 chưa hỗ trợ tạo video có âm thanh nên không có tiếng rồi. Để ý kỹ hơn sẽ thấy lỗi nhiều, điển hình như xe máy chạy ngang đều có che dù, nhưng thực tế đâu có được như vậy.
Và đây là kết quả từ Veo 3 trong tài khoản Ultra. Khá bất ngờ trước kết quả tạo ra, mọi thứ đều rất mượt mà, các góc máy tuân thủ như yêu cầu của mình trong prompt, đặc biệt là giọng nói được đồng bộ với cử động của khuôn mặt, đặc biệt là phần miệng. Tất nhiên để ý kỹ thì phần miệng nhép vẫn chưa thật lắm với giọng nói, giọng nói cũng chưa đúng ý mình.
Thêm một prompt khác:
SPECS: Handheld camera, 35mm lens, neon night lighting, urban realism, NO CAPTIONS OR TEXT.
SCENE DESCRIPTION:
A vibrant night street in Bùi Viện, Ho Chi Minh City – bustling with energy. Colorful neon signs flash in Vietnamese (quán bar, ốc đêm, bia tươi). Loud music from nearby bars, locals and tourists passing by, buzzing scooters in the background.
A Vietnamese male interviewer, early 30s, wearing a casual blue Uniqlo t-shirt, stands confidently holding a microphone. In front of him are two young Vietnamese women, both in trendy black outfits with light makeup and bold streetwear vibes. They’re standing close together, visibly amused.
DIALOGUE (in Vietnamese):
Interviewer (cheerful, playful tone):
“Em nghĩ sao nếu anh rủ em đi dạo dưới ánh đèn neon Bùi Viện nè?”
Girl 1 (grinning, confident):
“Em thà dắt chó đi dạo còn hơn á!”
Girl 2 (laughs, nodding):
“Chuẩn luôn đó!”
CAMERA MOVEMENT:
The camera subtly zooms in on their faces as they laugh, catching the vivid reflections of neon signs in their eyes. Behind them, the glow of red and blue lights pulses off the wet pavement.
AUDIO: Background club music, distant street vendors calling, motorbike engine hums, laughter from the girls clearly audible above the ambient noise.
KEY ELEMENTS: Bùi Viện nightlife, playful street interview, Vietnamese youth culture, authentic local attitude, expressive body language, neon ambiance.
Đây là kết quả từ Veo 2 trong Gemini Pro
Và đây là kết quả từ Veo 3 trong Gemini Ultra
Với cách tạo video trong Gemini thì ưu điểm chính là tiện lợi, chỉ cần prompt và đợi 1-2 phút là có kết quả đầu ra. Rõ ràng là Veo 2 và Veo 3 có sự khác biệt cực kỳ rõ về chất lượng video đầu ra, đặc biệt là nội dung bên trong nó và giọng nói, âm thanh do AI tạo ra đồng bộ với nhân vật trong video.
Tuy nhiên, nhược điểm sẽ là chất lượng của file tạo ra chỉ là 720 chứ chưa lên được 1080, mỗi video chỉ dài tối đa 8 giây và mỗi ngày chỉ được tạo tối đa 5 video với Veo 3, đồng thời việc điều khiển chi tiết các cú máy, độ dài video cũng phức tạp hơn nhiều qua prompt.
Để khai thác hết toàn bộ Veo 3, chúng ta cần dùng Flow với nhiều công cụ điều khiển được góc máy, nội dung hơn, đặc biệt là video đầu ra 1080 và có thể kéo dài thời gian ra nhiều hơn.
Đây là công cụ do Google phát triển và đang được cho dùng ở chế độ labs - thử nghiệm. Công cụ này hiện tại chỉ triển khai cho người dùng Mỹ đăng ký gói Pro hoặc Ultra, tương ứng với các mức tín dụng khác nhau. Đây có thể nói là trình tạo video bằng Veo mạnh nhất, nhiều công cụ nhất, cho phép điều chỉnh cả những cú máy, đường dây video theo story board chi tiết như phim luôn. Một số người dùng đã tạo hẳn phim ngắn trên này.
Đây là giao diện chính của Flow. Mọi người có thể bấm vào Flow TV ở phía trên để vào giao diện xem các video mẫu.
Trong Flow TV, chúng ta sẽ có thể coi được rất nhiều những ý tưởng tạo video, kèm theo prompt tạo ra video đó để chúng ta tham khảo.
Ngoài ra còn coi được rất nhiều phong cách video khác nhau để có thể hình thành ý tưởng dễ dàng hơn. Ở tab phim ngắn còn hẳn những video do người dùng tạo và được feature lên.
Rồi giờ bắt tay vào tạo video, chúng ta bấm nút tạo một dự án mới. Ở tab nhập prompt bên dưới, bạn sẽ thấy 3 chế độ mà Flow hỗ trợ tạo video lần lượt là:
- Tạo video từ văn bản - text to video: cái này là đơn giản nhất, chúng ta nhập prompt vào và hệ thống sẽ tạo ra video cho chúng ta.
- Tạo video từ các khung hình và văn bản: tùy chọn này không chỉ cho chúng ta nhập prompt dạng text vào mà cả cho upload frame hình đầu và cuối của video để định hướng video tốt hơn.
- Tạo video từ các thành phần: cái này sẽ cho phép chúng ta tạo tải storyboard lên tùy ý, cho phép điều khiển tuần tự các góc máy, nội dung ở từng cảnh quay,… Với cái này thì làm phim ngắn theo đúng ý đồ dược luôn.
Ở góc bên phải sẽ có biểu tượng Setting, trong đó cho phép chúng ta tùy chỉnh chất lượng và số lượng của video đầu ra, mình sẽ chọn cao nhất do Veo 3 tạo ra.
Đầu tiên mình thử tạo bằng text, nhập prompt như bên dưới vào và đợi chút, video sẽ tạo ra bên dưới.
SPECS: Handheld camera, 35mm lens, neon night lighting, urban realism, NO CAPTIONS OR TEXT.
SCENE DESCRIPTION:
At a street vendor selling grilled squid in Đà Nẵng night market. A young man in white shirt and glasses interviews a confident woman in leather pants and a crop hoodie while she's chewing.
DIALOGUE:
Interviewer (translate to Vietnamese and say): “If I buy you all this grilled squid stall, will you go out with me?”
Girl (munching, translate to Vietnamese and say): “I only go out with squid, squid is more loyal.”
Vậy là đã có kết quả là một video dài 8 giây, với đầy đủ thoại như thế này.
Bây giờ chỉ cần di chuột vào góc trên bên phải, tải về với tùy chọn 720, 1080 hoặc nhờ nó tạo ảnh GIF rồi tải về.
Giờ muốn tạo cảnh quay khác, dạng phim ngắn, chúng ta có thể bấm vào nút trên bên trái "Thêm vào cảnh"
Một giao diện sẽ hiện ra như thế này. Bây giờ chúng ta tiếp tục prompt để tạo video cho cảnh tiếp theo, từ đó tạo ra độ dài không giới hạn luôn.
Thêm một vài thí dụ khác:
Mình thử upload một ảnh lên thì hiện tại Flow chưa cho xài Veo 3 tạo video từ hình. Thay vào đó, nó trả về tạo bằng Veo 2 và chất lượng chưa ngon lắm. Bên dưới là bài thí dụ.