Sau khi tải xong 4 file này, anh em bắt đầu bỏ file safetensors SD 3.5 Large và Large Turbo vào folder
ComfyUI/models/checkpoints, và ba file text encoder còn lại đều bỏ vào folder
ComfyUI/models/clip/.
Bước kế tiếp là tải workflow để giao diện ComfyUI biết phải xử lý mô hình Stable Diffusion 3 ra sao. Anh em tải file zip ở
địa chỉ này. Sau đó giải nén sẽ thấy một file json, đó chính là workflow để anh em bắt đầu tạo hình.
Anh em mở ComfyUI bằng file
run_nvidia_gpu.bat lên, sau khi ra giao diện ComfyUI trong trình duyệt, anh em kéo thả một trong ba file json vào, chẳng hạn như workflow cơ bản chỉ có tuỳ chọn prompt đơn, bao gồm positive và negative prompt như dưới đây, trang web sẽ tự động tải cho anh em, trông như thế này là bắt đầu tạo hình được:
Tất cả những hình ảnh mình tạo bằng Stable Diffusion 3.5 trong bài này đều có chung thông số tạo sinh:
- Seed: Ngẫu nhiên
- Số bước tạo sinh: 40
- CFG: 4.5
- Sampler: dpmpp_2m
- Scheduler: sgm_uniform
- Độ phân giải: 1024x1024 pixel
Với 40 bước tạo sinh, RTX 4080 vận hành SD 3.5 Large với 8 tỷ tham số, kết hợp với 32GB RAM ngốn chừng 40 giây để tạo ra một tấm hình độ phân giải 1024x1024 pixel.
Có thể nhận định ngắn gọn như thế này. Nếu như Stable Diffusion 3 tạo ra khác biệt rõ ràng trong khả năng tạo ra những hình ảnh với ký tự ngôn ngữ được tạo ra một cách chính xác, nhờ vào bộ encoder dịch thuật những dòng chữ trong tấm hình, thì SD 3.5 tạo ra được khác biệt so với SD3 nhờ vào khả năng tạo hình với những kết quả tương đồng với những prompt mà anh em gõ ra để yêu cầu hệ thống xử lý tạo hình.
Thêm nữa, không chỉ riêng việc tạo ra những hình ảnh với chất lượng và chi tiết chân thực như ảnh chụp (đương nhiên là ở tiêu chuẩn nhất định), thì giống như mọi phiên bản Stable Diffusion gốc đã ra mắt trước đây, lợi thế của mô hình này vẫn nằm ở việc nó có thể tạo ra những hình ảnh, những điểm ảnh với phong cách mỹ thuật khác nhau tùy thuộc vào yêu cầu của anh em, từ hình họa đến tranh vẽ, từ pixel art đến ảnh chụp…
Tuy nhiên nếu so sánh với những mô hình được thương mại hóa hoặc những mô hình mã nguồn mở mới ra mắt thời gian gần đây, chẳng hạn như trả phí thì có Midjourney V6.1, hay miễn phí thì có Flux.1 dev, mô hình mà mình từng có dịp giới thiệu tới anh em, nếu kết hợp cả phong cách hình ảnh chân thực như ảnh chụp với việc yêu cầu mô tả chi tiết cơ thể người, SD vẫn kém hơn vài bậc. Bàn tay con người có vẻ vẫn là thứ gây khó dễ đối với chất lượng hình ảnh mà mô hình mới ra mắt.
Thêm nữa, cũng vì được huấn luyện trên nhiều dạng hình ảnh khác nhau về phong cách mỹ thuật, nên như chính bản thân StabilityAI đã thừa nhận, họ để SD 3.5 là một mô hình rất dễ tinh chỉnh và biến đổi để phù hợp với từng nhu cầu sử dụng tạo hình, từng phong cách hình ảnh mà mọi người mong muốn. Thành ra, nếu chỉ đánh giá chất lượng của mô hình mới, phải thừa nhận là SD 3.5 có khác biệt so với SD3 ra mắt hơn 4 tháng trước. Nhưng để SD 3.5 thực sự đạt được tiềm năng thực sự, chắc chắn phải tự thực hiện bước huấn luyện thêm để mô hình trở nên chuyên biệt hơn cho từng thể loại hình ảnh và phong cách mỹ thuật anh em muốn.
Vài hình ảnh tạo sinh bằng Stable Diffusion 3.5 Large: