AI Tạo Ảnh Từ Prompt AI: Kết Quả Thử Nghiệm Bất Ngờ

Table of Contents

Công nghệ tạo hình ảnh bằng AI đang phát triển với tốc độ chóng mặt, nhưng việc các mô hình này đôi khi tạo ra những hình ảnh không như ý vẫn là điều phổ biến. Khi kết quả không như mong đợi, người dùng thường có xu hướng đổ lỗi cho chính lời nhắc (prompt) mà họ đã nhập vào. Liệu đây có phải là vấn đề từ khả năng diễn đạt của con người hay do chính bản thân trí tuệ nhân tạo chưa đủ “thông minh”? Để tìm lời giải đáp, chúng tôi đã thực hiện một thử nghiệm độc đáo: liệu AI có dễ dàng hơn trong việc tạo hình ảnh khi làm việc độc quyền với các lời nhắc cũng do AI tạo ra?

Quy Tắc Thử Nghiệm Khả Năng Tạo Ảnh Của AI

Khi các mô hình tạo hình ảnh bằng AI xuất hiện vài năm trước, nhiều người đã nghĩ rằng đây sẽ là hồi chuông báo tử cho những người làm việc trong lĩnh vực truyền thông hình ảnh. Tuy nhiên, điều này đã không xảy ra. Mặc dù có khả năng tạo ra những bức ảnh siêu thực, hình ảnh AI thường rơi vào danh mục khó đoán, đặc biệt nếu bạn yêu cầu một điều gì đó phức tạp hơn. Chẳng hạn, AI có xu hướng gặp khó khăn với việc tạo ra hình ảnh bàn tay một cách chính xác.

Chúng ta có thể đổ lỗi cho các mô hình AI hoặc cho sai lầm của con người với kỹ năng tạo prompt không nhất quán. Cách tự nhiên để kiểm tra xem ai là người đáng trách là xem liệu các mô hình tạo ảnh có cho ra kết quả tốt hơn nếu bạn nhập các prompt đã được AI tạo sẵn hay không.

Để kiểm tra giả thuyết này, chúng tôi đã sử dụng Gemini để tạo ra một loạt các prompt mà không đề cập trực tiếp đến tên của đối tượng hoặc bức ảnh chúng tôi muốn tạo ra. Điều này sẽ giúp kiểm tra mức độ “đọc” hướng dẫn của AI tốt đến đâu. Dĩ nhiên, vẫn có khả năng mô hình sẽ lấy cảm hứng mạnh mẽ từ dữ liệu mà nó đã được huấn luyện (đặc biệt khi tái tạo các bức ảnh hiện có), nhưng đây là một phần của thử thách.

Công cụ được lựa chọn để tạo hình ảnh trong thử nghiệm này là Bing Image Creator, dựa trên nền tảng DALL-E 3. Để kiểm tra kỹ lưỡng khả năng của mô hình, chúng tôi bắt đầu với các hình dạng đơn giản và chuyển sang các hình ảnh phức tạp hơn khi thử nghiệm tiến triển. Nếu bạn đã từng sử dụng ChatGPT và các công cụ tương tự, bạn sẽ nhận thấy đôi khi câu trả lời của chúng có thể rất dài dòng. Điều này cũng không khác biệt với các prompt mà Gemini đã cung cấp trong quá trình thử nghiệm ban đầu. Vì vậy, chúng tôi quyết định giới hạn mỗi prompt ở 500 ký tự để đảm bảo tính nhất quán.

AI Xử Lý Các Hình Dạng Đơn Giản Như Thế Nào?

Hãy bắt đầu với một hình vuông đơn giản. Chúng tôi yêu cầu Gemini mô tả một hình vuông mà không đề cập đến tên của nó, và đây là kết quả:

“Một hình bốn cạnh với tất cả các cạnh có chiều dài bằng nhau. Mỗi góc bên trong có số đo chính xác là 90 độ. Đó là một tứ giác đều với các cạnh đối song song.”

Sau khi nhập mô tả này vào DALL-E 3, chúng tôi nhận được những kết quả sau:

Hình ảnh AI tạo ra một hình vuông với các cạnh và góc được nhấn mạnh

Đúng là một hình vuông, mặc dù có vẻ như AI đã “quá tay” với các chi tiết hình học. Giờ là lúc nâng độ khó, chúng tôi yêu cầu AI mô tả một khối lập phương (cube).

“Một hình ba chiều với sáu mặt giống hệt nhau. Mỗi mặt là một tứ giác đều với bốn cạnh bằng nhau và bốn góc vuông. Nó có mười hai cạnh có chiều dài bằng nhau và tám đỉnh. Tất cả các góc bên trong hình đều là góc vuông.”

Kết quả thật đáng ngạc nhiên:

Hình ảnh AI tạo ra một khối lập phương giống khối Rubik trên nền trắng

Bạn còn nhớ chúng tôi đã nói rằng các mô hình AI có thể khó đoán không? Vâng, ở đây, DALL-E 3 đã tạo ra một khối lập phương, nhưng nó hơi “nhầm lẫn” và biến nó thành một khối Rubik. Mặc dù chúng tôi đã tránh dùng từ “cube” một cách tuyệt đối, AI vẫn hiểu sai một phần – có thể do sự phổ biến của món đồ chơi “nghệ thuật” này.

Phân Tích Khả Năng AI Tạo Ảnh Chụp Chủ Thể Con Người

Tình huống với khối lập phương cho thấy ngay cả với một mô tả chi tiết, “khách quan”, AI vẫn có thể hiểu sai những hướng dẫn khá trực tiếp. Vậy hãy xem nó hoạt động thế nào với các mô tả do AI tạo ra về những hình ảnh kinh điển, chẳng hạn như bức “Migrant Mother” của Dorothea Lange. Đây là ảnh gốc:

Bức ảnh lịch sử "Migrant Mother" của Dorothea Lange chụp một người phụ nữ với gương mặt lo lắng và các con

Và đây là mô tả từ Gemini:

“Một người phụ nữ, gương mặt hằn rõ vẻ lo lắng, nhìn ra ngoài khung hình. Cô ấy được bao quanh bởi các con, gương mặt chúng bị che khuất hoặc quay đi. Bàn tay cô ấy đặt gần mặt, thể hiện sự kiệt sức và lo lắng. Cảnh vật gợi lên sự nghèo đói và khó khăn. Quần áo của người phụ nữ đã sờn cũ, và tổng thể bố cục u ám, nhấn mạnh gánh nặng hoàn cảnh của cô ấy.”

Đây là phiên bản mà DALL-E 3 tạo ra dựa trên mô tả đó:

Hình ảnh AI tái tạo lại một bức ảnh mẹ con nổi tiếng trong thời kỳ Đại Suy thoái

Khá giống! Không hoàn toàn chính xác, vì DALL-E 3 rõ ràng đã bỏ qua phần “được bao quanh bởi các con, gương mặt chúng bị che khuất hoặc quay đi” và thay vì “người mẹ” đặt tay gần mặt, một trong những đứa trẻ lại đảm nhận vai trò đó.

Hãy thử một bức ảnh phức tạp hơn. Chắc hẳn bạn đã thấy bức ảnh mang tính biểu tượng “Lunch atop a Skyscraper”:

Bức ảnh đen trắng kinh điển "Lunch atop a Skyscraper" chụp những người công nhân trên dầm thép cao tầng

Mô tả từ Gemini:

“Mười một người đàn ông ngồi trên một thanh dầm thép, lơ lửng trên không. Họ ăn trưa, chân đung đưa. Thanh dầm được treo lơ lửng trên một thành phố rộng lớn. Những người đàn ông trông thoải mái, bất chấp độ cao cực lớn. Họ mặc quần áo lao động, và cảnh vật được chụp từ một góc hơi thấp, nhấn mạnh chiều cao.”

Prompt xuất sắc này đã mang lại kết quả cũng xuất sắc không kém:

Hình ảnh AI tạo ra tái hiện bức ảnh nổi tiếng công nhân ăn trưa trên dầm nhà chọc trời

Một khi bạn bỏ qua các dấu hiệu kinh điển của một hình ảnh AI (như các bát ăn giống hệt nhau và các chủ thể bị “copy-paste”), bức ảnh này gần như kỳ lạ về bố cục và không khí tổng thể. Tuy nhiên, điều này không quá ngạc nhiên – không chỉ bức ảnh này cực kỳ phổ biến mà nó còn thuộc phạm vi công cộng, vì vậy chúng tôi có linh cảm rằng DALL-E 3 đã “ghi nhớ” nội dung của nó trong quá trình đào tạo.

AI Có Thể Xử Lý Các Bức Ảnh Phức Tạp Không?

Vì đây là “bài kiểm tra” cuối cùng trong thử nghiệm, chúng tôi sẽ nâng độ khó lên mức cao nhất! Trong khi AI khá tốt với các chủ thể con người, nó thường gặp khó khăn khi đối mặt với các cảnh phức tạp và “bí ẩn” hơn. Vậy còn bức ảnh mang tính biểu tượng “Earthrise” được chụp từ quỹ đạo Mặt Trăng trên tàu Apollo 8 thì sao?

Bức ảnh "Earthrise" nổi tiếng chụp Trái Đất từ quỹ đạo mặt trăng bởi Apollo 8

Mô tả từ Gemini:

“Một quả cầu được chiếu sáng một phần lơ lửng trong một khoảng không tối. Một quả cầu nhỏ hơn, có tông màu xám, mọc lên trên đường chân trời của nó. Quả cầu lớn hơn hiển thị các mảng xanh và trắng lốm đốm, gợi lên nước và mây. Sự tương phản rõ rệt giữa hai quả cầu và bóng tối nhấn mạnh sự mong manh và cô lập của quả cầu nhỏ hơn đang mọc lên.”

Có vẻ như Gemini đã gặp khó khăn (hay nên nói là “quả cầu”) với mô tả này. Xem xét mức độ trừu tượng, chúng tôi đã thêm cụm từ “được chụp từ quỹ đạo mặt trăng gần” vào prompt, nhưng điều đó cũng không giúp ích nhiều:

Hình ảnh AI tạo ra mô tả Mặt Trăng ở tiền cảnh và Trái Đất ở hậu cảnh, không giống "Earthrise"

Đây là một bìa album progressive rock tuyệt vời, nhưng nó chẳng liên quan gì đến “Earthrise”. Để kết thúc thử nghiệm, chúng tôi đã chọn bức ảnh ít được biết đến nhất từ trước đến nay, kiệt tác công nghiệp “Armco Steel” của Edward Weston:

Bức ảnh công nghiệp đen trắng "Armco Steel" của Edward Weston với nhiều ống khói và cấu trúc kim loại

Mô tả từ Gemini:

“Một loạt các bể công nghiệp kim loại tròn, nhẵn lấp đầy khung hình. Hình dạng của chúng trơn tru và phình ra, tạo thành một mô hình lặp lại. Ánh sáng phản chiếu trên bề mặt, làm nổi bật hình dạng cong của chúng và tạo cảm giác về khối lượng. Bố cục nhấn mạnh các thuộc tính trừu tượng của các vật thể công nghiệp, tập trung vào hình thức và kết cấu hơn là chức năng của chúng. Cảnh vật khắc nghiệt và tối giản, với sự nhấn mạnh mạnh mẽ vào ánh sáng và bóng tối.”

Đây có vẻ là một prompt tốt, hãy xem DALL-E 3 có đồng ý không:

Hình ảnh AI tạo ra một dãy xi lanh kim loại sáng bóng xếp hàng, không giống ảnh gốc "Armco Steel"

Mặc dù chúng tôi đánh giá cao không khí khoa học viễn tưởng mà bức ảnh mang lại, nó không hề giống với ảnh gốc. Chúng tôi không muốn kết thúc thử nghiệm với một thất bại thảm hại, vì vậy chúng tôi quyết định “giúp” máy móc bằng cách thêm cụm từ “bức ảnh thập niên 1920” vào cuối prompt.

Suy nghĩ của chúng tôi là cụm từ cụ thể này có thể giúp làm rõ bức ảnh chúng tôi muốn nói đến. Thật không may, AI một lần nữa làm chúng tôi thất vọng và tạo ra một bìa album prog rock khác:

Hình ảnh AI tạo ra các hình trụ lớn bo tròn phía trên, vẫn không khớp với ảnh công nghiệp thập niên 1920

Kết quả của thử nghiệm này thực sự thú vị, và kết luận chúng ta có thể rút ra là việc tạo hình ảnh bằng AI cực kỳ khó đoán, đặc biệt là với các khái niệm trừu tượng hơn. Dù prompt được tạo bởi AI và chính xác, hay do con người và không hoàn hảo – kết quả dường như vẫn ngẫu nhiên.

Vì vậy, lần tới khi bạn cố gắng tự trách bản thân và kỹ năng tạo prompt của mình, hãy nhớ rằng kết quả có thể sẽ gần như giống hệt nhau ngay cả khi đó là hai cỗ máy đang giao tiếp với nhau.

Quy Tắc Thử Nghiệm Khả Năng Tạo Ảnh Của AI

AI Xử Lý Các Hình Dạng Đơn Giản Như Thế Nào?

Phân Tích Khả Năng AI Tạo Ảnh Chụp Chủ Thể Con Người

AI Có Thể Xử Lý Các Bức Ảnh Phức Tạp Không?

Administrator

Related Posts

Leave a Comment Hủy