Thử dùng AI Grok để chỉnh sửa ảnh, so sánh nhanh với Gemini 2.0

#ai

Hiện tại người dùng X mua gói Premium+ đã được dùng thử tính năng chỉnh sửa hình ảnh tải lên. Mình có dùng thử một loạt các tình huống và so sánh nhanh luôn với Gemini Flash 2.0 qua Google AI Studio, xin chia sẻ với các bạn.

Nhận xét chung:

AI sẽ gen cùng lúc ra 2 bức ảnh thay vì 1 như Gemini
Grok trả về ảnh có độ phân giải cao
Khả năng thêm các chi tiết vào vật thể khá tốt
Xử lý chữ trên ảnh khá tốt, thêm được cả chữ tiếng Việt
Ảnh do AI gen ra có xu hướng thêm các chi tiết khác, không giữ hoàn toàn những chi tiết trong ảnh
Grok hiện chỉ cho tải lên 1 ảnh nên chưa làm được trò ghép nội dung 2 ảnh lại với nhau.

Phục hồi ảnh cũ

Mình thử tải bức ảnh bị xước lên và đây là kết quả của Grok. Grok sẽ tạo ra cùng lúc luôn 2 ảnh cho người dùng chọn, ảnh độ phân giải cao và mịn màng.

Đây là cùng một prompt tải lên Gemini Flash 2.0. Có thể thấy Gemini giữ lại đặc tính của bức ảnh tốt hơn.

Sửa ảnh nhắm mắt

Trong tình huống ảnh chụp bị nhắm mắt. Mình kêu Grok sửa thành cô gái trong ảnh đang nhìn vào ống kính là nó hiểu ngay và trả về kết quả như thế này. 2 ảnh đều rất hài lòng.

Với Gemini thì nhập prompt tương tự như Grok thì Gemini chưa nhận diện được. Phải sửa prompt lại một chút là kêu nó mở mắt ra trước, rồi mới nhìn vào máy thì mới dược.

Nhiều góc chụp từ ảnh chân dung

Trong tình huống này mình kêu Grok cho bức ảnh chụp nghiêng của cô gái. 2 ảnh AI tạo ra đều rất ưng, giữ nguyên được đường nét của gương mặt cô gái cũng như trang phục.

Đây là kết quả của Gemini, cũng tốt.

Thử thêm tình huống kêu Grok chuyển sang ảnh chụp từ trên xuống thì Grok không nhận diện được.

Đây là kết quả từ Gemini.

Thêm vật thể vào ảnh nội thất

Đây là kết quả của Grok thêm vào. Cơ bản cấu trúc của toàn bộ nội thất được giữ lại. Thể hiện đúng ý đồ là thêm vảo bàn ăn cho 6 người. Tuy nhiên phong cách của bức ảnh có thay đổi đôi chút.

Đây là kết quả của Gemini Flash 2.0. Yếu tố bàn ăn dành cho 6 người chưa được tuân thủ, chỉ tạo thêm một bàn ăn với 4 ghê. Tuy nhiên cấu trúc và phong cách của toàn bộ ảnh gốc được giữ nguyên.

Thay trang phục

Thử kêu Grok thay trang phục của anh trong ảnh. Đây là kết quả của Grok. Nhìn chung bức ảnh tạo ra vẫn hợp lý, chữ trên banner phía sau được giữ ổn định. Tuy nhiên gương mặt chủ thể thay đổi mạnh.

Đây là kết quả của Gemini. Mặt người được giữ nguyên và áo thay đúng ý.

Thử kêu Grok đeo kính vào

Và tương tự với Gemini

Thêm chi tiết vào ảnh

Tình huống này mình muốn anh trong ảnh cầm que kem thay vì micro. Và đây là kết quả của Grok.

Còn đây là kết quả của Gemini.

Tình huống này, mình kêu Grok thêm con gấu bông vào tay cô gái trong ảnh.

Và đây là kết quả của Gemini.

Thay đổi góc máy

Tình huống này, mình kêu Grok zoom out bức ảnh ra để thấy được toàn bộ người của cô gái trong ảnh. Đây là kết quả của Grok.

Và đây là Gemini. Gương mặt có thay đổi mạnh nhưng đổi lại bối cảnh vẫn được giữ lại.

Thử yêu cầu Grok thay đổi góc chụp sang trực diện cô gái

Và đây là kết quả của Gemini. Cả 2 đều thay đổi gương mặt cô gái luôn.

Thay đổi background

Tình huống này, mình thử kêu Grok thay background thành khung cảnh đêm Giáng Sinh mùa đông, có thêm người phía sau và thêm cả dòng chữ chúc mừng năm mới bằng tiếng Việt vào. Đây là kết quả. Cơ bản thì đường nét của chủ thể vẫn được giữ lại nhưng dòng chữ Chúc mừng năm mới chưa đã lắm.

Đây là kết quả của Gemini, gương mặt cô gái hoàn toàn khác luôn, tuy nhiên background và cả dòng chữ phía sau nhìn tự nhiên hơn khá nhiều.

Thử một bức ảnh gốc khác với Grok.

Và kết quả với Gemini

Viết chữ lên áo

Trong tình huống này, mình kêu Grok thêu thêm dòng chữ lên áo của người này. Có thể thấy dòng chữ tiếng Việt được thể hiện tốt với đầy đủ dấu, để ý kỹ thì textture của dòng chữ thể hiện đúng yếu tố "thêu" lên đó, gương mặt của chủ thể gần như được đảm bảo hoàn toàn. Đánh giá cao bức ảnh này.