Stable Diffusion 3.5 đã ra mắt: Liệu có khắc phục được những lỗi về giải phẫu và hình dáng người không tự nhiên như trong phiên bản SD3?

#ai

Nói ngắn gọn nhìn vào hình cover, chắc anh em cũng đã có câu trả lời cho tiêu đề bài viết trải nghiệm phiên bản Stable Diffusion 3.5 rồi.

Tạo hình người nằm dưới mặt đất vẫn chưa giống thật. Dù nếu chúng ta đem so sánh với Stable Diffusion 3, ra mắt hồi tháng 6 vừa qua, vị trí của từng bộ phận trên cơ thể cũng như giải phẫu nói chung tạm chấp nhận được. Nhưng SD 3.5 vẫn gặp nhiều vấn đề liên quan tới bàn tay con người khi mô hình tạo sinh nội suy những điểm ảnh để tạo ra những tấm hình theo yêu cầu của anh em.

Xài Stable Diffusion 3 tạo hình AI: Tạo ký tự tốt hơn hẳn, hình đẹp hơn, không nặng hơn SDXL

Hai ngày trước, 12/6/2024, StabilityAI đã chính thức tung ra checkpoint dạng safetensor của Stable Diffusion 3, phiên bản Medium với 2 tỷ tham số, tức là hoàn toàn đủ khả năng vận hành trên những hệ thống máy tính cá nhân.

tinhte.vn

Lạ một nỗi, trong một vài trường hợp khác, thì yêu cầu tạo hình bàn tay lại đẹp đến đáng ngạc nhiên, so với mặt bằng chung chất lượng hình ảnh mà những mô hình Stable Diffusion phiên bản trước làm được. Chẳng những ngón tay đúng số lượng đúng vị trí, móng tay cũng được nội suy tương đối chính xác về mặt vị trí và giải phẫu:

Còn trong một số trường hợp khác, thì hình ảnh tạo ra bằng SD 3.5 mô phỏng cơ thể người lại tương đối chính xác về tỷ lệ, và nhìn cũng tương đối chân thực:

Stable Diffusion 3.5

Nhưng trước tiên, phải nói một chút về Stable Diffusion 3.5, mô hình AI tạo sinh hình ảnh bằng văn bản của StabilityAI vừa ra mắt 2 hôm trước đã. Hai phiên bản Stable Diffusion 3.5 Large và Stable Diffusion 3.5 Large Turbo được quảng cáo là mô hình tạo sinh hình ảnh mạnh nhất mà StabilityAI tạo ra. Quan trọng hơn, nó là thế hệ mô hình AI mã nguồn mở, có thể tải về miễn phí.

Thậm chí quy định sử dụng SD 3.5 của StabilityAI còn có đoạn, mô hình này hoàn toàn có thể được sử dụng thương mại hóa một cách miễn phí với điều kiện doanh thu của doanh nghiệp dưới 1 triệu USD một năm. Còn nếu doanh thu cao hơn và muốn dùng SD 3.5 để làm content và tạo hình hay thương mại hóa mô hình thông qua những bước đăng ký và trả phí cho startup nghiên cứu AI.

Stable Diffusion 3 không phải một màn ra mắt ưng ý trong mắt StabilityAI, đặc biệt là khi startup này đang gặp rất nhiều khó khăn trong vận hành và tìm kiếm doanh thu. CEO thì vừa từ nhiệm.

Những vấn đề liên quan tới quá trình huấn luyện cũng như những hàng rào bảo vệ để mô hình AI không thể tạo ra những nội dung khiêu dâm ảnh hưởng tới mọi người đã khiến khả năng vận hành tạo ra những hình ảnh giải phẫu cơ thể người của SD3 bị ảnh hưởng nghiêm trọng. Và thay vì sửa nhanh để cập nhật phiên bản mới, StabilityAI quyết định chỉnh sửa toàn diện mô hình gốc, nâng cấp nhiều khía cạnh, và thêm vào đó khả năng tùy chỉnh rất dễ dàng và tự do để tạo ra những phiên bản mô hình SD 3.5 phục vụ đúng nhu cầu của từng đối tượng người dùng.

Quảng cáo

Sẽ có ba phiên bản Stable Diffusion 3.5 được ra mắt. Hai trong số đó hiện tại đã cho anh em tải miễn phí về máy tính. Còn phiên bản thứ ba sẽ ra mắt ngày 29/10:

Stable Diffusion 3.5 Large: 8 tỷ tham số, với khả năng tạo ra chất lượng hình ảnh và mức độ tuân thủ prompt ưng ý nhất, mô hình này hiện tại là sản phẩm mạnh nhất trong số mọi mô hình Stable Diffusion.
Stable Diffusion 3.5 Large Turbo: Phiên bản rút gọn để giảm tải thời gian xử lý, chứ không giảm tải gánh nặng cho phần cứng máy tính. Với phiên bản Turbo, số bước nội suy sẽ chỉ còn có 4 bước trở lên, tạo một tấm hình chỉ mất hơn chục giây đồng hồ.
Stable Diffusion 3.5 Medium: Phiên bản 2.5 tỷ tham số, giảm tải gánh nặng cho phần cứng máy tính, phù hợp nhất cho phần cứng máy tính cá nhân của anh em, tạo ra được những hình ảnh với độ phân giải từ 0.25 đến 2 megapixel.

Hướng dẫn cài đặt SD 3.5

Nếu anh em chưa cài ComfyUI hay thậm chí là còn chưa cài Automatic1111 (tức là trong máy tính chưa có Python và Git), thì mình xin phép liệt kê cụ thể các bước để cài ComfyUI, rồi kế đến mới là tải mô hình SD3 để bắt đầu tạo hình. Khi cài ComfyUI, máy sẽ cài luôn cho anh em những phần mềm có liên quan và cần thiết, không phải thực hiện nhiều bước như Automatic1111.

Truy cập trang GitHub của ComfyUI: https://github.com/comfyanonymous/ComfyUI
Ấn nút tải file nén bản cài ComfyUI trên trang web này tại đây: https://github.com/comfyanonymous/ComfyUI/releases/download/latest/ComfyUI_windows_portable_nvidia_cu121_or_cpu.7z
Giải nén vào vị trí anh em muốn, trong ổ C, D hoặc bất kỳ đâu, kể cả ngoài Desktop.
ComfyUI vận hành tốt nhất trên card đồ hoạ Nvidia, nên sau khi giải nén xong, anh em sẽ click vào file run_nvidia_gpu.bat để khởi chạy hệ thống. Những anh em đang sử dụng card đồ hoạ của AMD sẽ cần tải bộ tập lệnh vận hành nhân GPU do AMD phát triển, là ROCm chứ không có nhân CUDA để chạy, rồi cũng phải tải thêm pytorch và pip để chạy ComfyUI tạo hình bằng AI. Một điểm nữa cần nhấn mạnh, muốn tạo hình bằng SD3 thông qua ComfyUI, phải cài Linux chứ không chạy được trên Windows. Chi tiết anh em có thể tham khảo cụ thể nhất ở trang GitHub của ComfyUI.
Sau khi khởi chạy xong, ra được màn hình chính của ComfyUI trên trình duyệt ở địa chỉ 127.0.0.1:8188, anh em đóng cả trình duyệt lẫn cửa sổ command prompt, rồi tìm tới folder ComfyUI_windows_portable/Update và chạy file bat tên là update_comfyui_and_python_dependencies.
Bước này rất quan trọng vì ComfyUI sẽ cập nhật những node rất cần thiết để vận hành SD3.5, chẳng hạn như node TripleCLIPLoader chẳng hạn. Chạy xong thì anh em đóng cửa sổ command prompt lại.
Giờ là lúc tải mô hình SD3.5.

GitHub - comfyanonymous/ComfyUI: The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface.

The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface. - comfyanonymous/ComfyUI

github.com

Tùy thuộc vào việc anh em muốn làm hình ảnh nhanh hay chất lượng, anh em sẽ cần tải 4 trong 5 mô hình dưới đây, mình có đính kèm link. Muốn làm hình nhanh thì chọn mô hình Turbo, chỉ cần 4 bước nội suy trở lên là có hình như ý muốn.

Stable Diffusion 3.5 Large safetensor: 15.33GB
Stable Diffusion 3.5 Large Turbo safetensor: 15.33GB
Text encoder OpenCLIP-ViT/G
Text encoder CLIP-ViT/L
Text encoder T5-xxl_fp8_e4m3fn

Quảng cáo

Sau khi tải xong 4 file này, anh em bắt đầu bỏ file safetensors SD 3.5 Large và Large Turbo vào folder ComfyUI/models/checkpoints, và ba file text encoder còn lại đều bỏ vào folder ComfyUI/models/clip/.

Bước kế tiếp là tải workflow để giao diện ComfyUI biết phải xử lý mô hình Stable Diffusion 3 ra sao. Anh em tải file zip ở địa chỉ này. Sau đó giải nén sẽ thấy một file json, đó chính là workflow để anh em bắt đầu tạo hình.

Anh em mở ComfyUI bằng file run_nvidia_gpu.bat lên, sau khi ra giao diện ComfyUI trong trình duyệt, anh em kéo thả một trong ba file json vào, chẳng hạn như workflow cơ bản chỉ có tuỳ chọn prompt đơn, bao gồm positive và negative prompt như dưới đây, trang web sẽ tự động tải cho anh em, trông như thế này là bắt đầu tạo hình được:

Screenshot 2024-10-24 173324.jpg

Hình ảnh có độ đa dạng cao hơn SD3, nhưng cần tinh chỉnh

Tất cả những hình ảnh mình tạo bằng Stable Diffusion 3.5 trong bài này đều có chung thông số tạo sinh:

Seed: Ngẫu nhiên
Số bước tạo sinh: 40
CFG: 4.5
Sampler: dpmpp_2m
Scheduler: sgm_uniform
Độ phân giải: 1024x1024 pixel

Với 40 bước tạo sinh, RTX 4080 vận hành SD 3.5 Large với 8 tỷ tham số, kết hợp với 32GB RAM ngốn chừng 40 giây để tạo ra một tấm hình độ phân giải 1024x1024 pixel.

Có thể nhận định ngắn gọn như thế này. Nếu như Stable Diffusion 3 tạo ra khác biệt rõ ràng trong khả năng tạo ra những hình ảnh với ký tự ngôn ngữ được tạo ra một cách chính xác, nhờ vào bộ encoder dịch thuật những dòng chữ trong tấm hình, thì SD 3.5 tạo ra được khác biệt so với SD3 nhờ vào khả năng tạo hình với những kết quả tương đồng với những prompt mà anh em gõ ra để yêu cầu hệ thống xử lý tạo hình.

Thêm nữa, không chỉ riêng việc tạo ra những hình ảnh với chất lượng và chi tiết chân thực như ảnh chụp (đương nhiên là ở tiêu chuẩn nhất định), thì giống như mọi phiên bản Stable Diffusion gốc đã ra mắt trước đây, lợi thế của mô hình này vẫn nằm ở việc nó có thể tạo ra những hình ảnh, những điểm ảnh với phong cách mỹ thuật khác nhau tùy thuộc vào yêu cầu của anh em, từ hình họa đến tranh vẽ, từ pixel art đến ảnh chụp…

Tuy nhiên nếu so sánh với những mô hình được thương mại hóa hoặc những mô hình mã nguồn mở mới ra mắt thời gian gần đây, chẳng hạn như trả phí thì có Midjourney V6.1, hay miễn phí thì có Flux.1 dev, mô hình mà mình từng có dịp giới thiệu tới anh em, nếu kết hợp cả phong cách hình ảnh chân thực như ảnh chụp với việc yêu cầu mô tả chi tiết cơ thể người, SD vẫn kém hơn vài bậc. Bàn tay con người có vẻ vẫn là thứ gây khó dễ đối với chất lượng hình ảnh mà mô hình mới ra mắt.

Thêm nữa, cũng vì được huấn luyện trên nhiều dạng hình ảnh khác nhau về phong cách mỹ thuật, nên như chính bản thân StabilityAI đã thừa nhận, họ để SD 3.5 là một mô hình rất dễ tinh chỉnh và biến đổi để phù hợp với từng nhu cầu sử dụng tạo hình, từng phong cách hình ảnh mà mọi người mong muốn. Thành ra, nếu chỉ đánh giá chất lượng của mô hình mới, phải thừa nhận là SD 3.5 có khác biệt so với SD3 ra mắt hơn 4 tháng trước. Nhưng để SD 3.5 thực sự đạt được tiềm năng thực sự, chắc chắn phải tự thực hiện bước huấn luyện thêm để mô hình trở nên chuyên biệt hơn cho từng thể loại hình ảnh và phong cách mỹ thuật anh em muốn.