백엔드 개발 공부, Django로 ‘4개월’이면 가능해요
#인공지능 

이미지 생성모델 초보의 DALLE 3 활용기 (feat. 챗GPT)

오픈AI 챗GPT에 제공된 DALL・E 3 사용 후기와 간단한 팁들을 소개합니다.

2023-10-24 | 전효정

지난 9월 21일(현지시간) OpenAI는 기존의 텍스트-이미지 생성모델인 DALLE의 새로운 업그레이드 버전인 DALL·E 3(이하 DALLE 3)를 발표했습니다. 더불어 10월에 ChatGPT(이하 챗GPT) 유료 사용자들이 새로운 DALLE 3를 연동해서 쓸 수 있도록 하겠다고 공지했었습니다. 챗GPT Plus(월 $20)와 Enterprise 서비스 이용자들은 10월 16일 즈음부터 순차적으로 서비스가 되고 있습니다.

챗GPT와 연동된 DALLE 3에 대해서는 prompt의 이해도가 이전보다 높을 것이라는 세간의 기대감이 있는 것 같습니다. 그래서 저도 써봤습니다.(게을러서 이제야 써봅니다.) 그간 SNS에서는 다양한 분들이 아기자기한 캐릭터부터 예술작품까지 이미지를 생성하여 올려주시는 것들을 보았는데, 그림 초보인 저도 몇가지 테스트를 해보면서 느낀 경험을 공유해 봅니다.

챗GPT와 DALLE 3 로 어떻게 그리지?

일단, 이 두 생성AI는 입력된 텍스트를 기반으로 텍스트 혹은 이미지를 반환합니다. 입력된 텍스트를 프롬프트라고 합니다. 프롬프트의 사전적 정의는 누군가가 무엇인가를 이야기하거나 행동하게 하는 지침 정도로 이야기 할 수 있습니다. 그러므로 본인이 원하는 이밎의 결과를 얻기 위해서는 명확하고 구체적인 프롬프트를 제공해야 합니다.

프롬프트 이전에 생각해야 하는 것은 전체적인 이미지 구상입니다. 생성될 이미지의 목적에 따라 항목과 요소를 결정해야 합니다. 이것이 명확해야 원하는 이미지 스타일을 유지하는 것에 도움이 됩니다. 이미지를 결정하는 대표적인 항목들을 찾아보니 아래와 같습니다.

  • 이미지 스타일 용어 : 사진(Photo), 만화(Cartoon), 3D, 손그림(Drawing), 수채화, 유화, 또는 화가나 예술사조의 스타일
  • 인물 혹은 사물의 특징 : 헤어스타일, 피부색, 옷차림, 감정과 표정, 사물의 형상과 질감, 색상,
  • 배경과 배경의 색상, 풍경, 시간대 : 전체적인 톤, 배경, 낮과 밤, 날씨
  • 전체적인 구도와 배치 : 객체의 지정, 위치와 방향
  • 이미지에 텍스트 추가 : 영어만. (한글을 테스트 해보았으나 재밌는 결과가 ㅎ)
  • 복잡도와 조합 : 상상력을 발휘할 수 있는 영역.

저 모든 용어들을 잘 선택해서 만족할만한 그림을 생성하려면 영어 공부를 열심히 해야겠다 생각했습니다.😆 그리고 잘 정리된 프롬프트 구조가 필요할 것 같습니다. 기본적으로 DALLE 3는 한글로 요청 시 정확하지 않은 이미지를 생성한다고 알려져 있습니다. 그래도 챗GPT의 힘을 믿고 한글로도 몇가지 시도해 봤습니다.

챗GPT와 DALLE 3 로 그림을 그려보자

뭘 그리지? 🤔🫠🥲

고민하다가 뭔가 스마트하게 일하는 개발자의 이미지를 만화느낌으로 그려보고 싶었습니다. 아래의 프롬프트로 생성해봤습니다.

여러 대의 모니터 앞에서 스마트하게 일하는 개발자의 모습을 카툰처럼 심플한 이미지로 그려주세요.

챗GPT가 존대말을 사용하면 결과가 더 좋다는 속설을 따랐습니다. 😆

생성결과가 생각보다 좋지 않았습니다. 모니터 뒤편에 스크린이 나오거나, 모니터를 바라보지 않는 모습이 조금 걸립니다. 그래서 수정 피드백을 올렸습니다. 챗GPT가 사전 결과를 인지하고 있는 점을 감안했습니다.

개발자가 모니터를 바라보면서 일하는 모습이었으면 합니다. 그리고 배경에 창문이 있고 창문너머에 풍경이 있으면 좋겠습니다.

오른쪽 상단과 왼쪽 하단의 이미지가 그나마 제대로 나온 것 같습니다. 전체 구도나 위치를 자세하게 지정하지 않았기 때문에 다양한 형식의 그림이 나온 것 같습니다. 왼쪽 하단의 모니터에 파도가 겹치는 것이 마음에 들지 않아서 지정해서 수정해 봅니다.

왼쪽 하단 이미지에서 모니터에 파도가 나타나는데, 이것만 없애주시면 매우 적합할 것 같습니다.

모니터 위의 파도만 지우고 싶었지만, 전체적으로 파도의 이미지를 잔잔한 배경으로 바꾸었습니다.(그럴 수 있지…🫠) DALLE에도 있는 기능인지는 모르겠지만, 결과 이미지를 지정해서 수정 피드백이 가능하네요. 프롬프트가 더 구체적이었다면 마음에 쏙 드는 이미지를 생성할 수 있었겠다 생각도 듭니다. (아… 영어가 아니어서? 🧐)

DALLE 3의 프롬프트를 만들기 힘들다면? 챗GPT를 이용해 보자

헬스장에서 운동하는 이미지를 챗GPT에 입력하여 4-5줄의 요약을 요청했습니다. 프롬프트의 기본적인 요건을 갖추고 있습니다.

The image showcases an indoor gym with two individuals using modern treadmills. The gym is spacious with large windows revealing a city view, suggesting an urban setting. The woman wears athletic attire with a device on her arm, and the man is in casual workout gear. The environment is well-lit and designed for a refreshing workout experience.

오른쪽 상단과 하단은 나쁘지 않은 이미지가 나왔지만, 왼쪽 상단과 하단은 적합하지 않은 그림도 나옵니다.

DALLE 3는 한글도 그림에 넣을 수 있을까?

아니요. 😆 영어는 예쁘게 들어가는 것 같습니다. 말도 지정해 줄 수 있고, 임의적으로 생성도 가능한 듯 합니다만 한글은 엉뚱하게 나옵니다. 스타일은 지정하지 않았습니다.

눈 내리는 밤, 소녀가 “WOW! I am lucky!”라고 말하는 장면을 그려주세요

영어를 한글로 수정 요청했습니다.

“WOW! I am lucky!”를 한글로 번역해서 바꾸어 주세요.

전체 톤은 유지되었으나, 이미지는 똑같지는 않습니다. 더불어 한글은 이미지에 첨부가 되지 않아서 조금 아쉬웠습니다.

결론

그림 초보라 정말 단순한 이미지만 테스트 해보았지만 챗GPT를 활용한 DALLE 3에서의 그림생성에 대해서 정리해 보면 아래와 같았습니다.

  1. 명확한 이미지 구상은 필요하고, 이에 대한 프롬프트를 잘 설계 하는 것이 원하는 그림을 생성하는 것에 도움이 될 것 같습니다. 출력된 이미지를 클릭하면 프롬프트를 함께 볼 수 있어서 이것을 참고하면 또 도움이 될 것 같네요. 또는 챗GPT에게 샘플 이미지를 주고 프롬프트 생성을 요청하는 것도 방법이라 생각합니다.
  2. 프롬프트의 형식과 용어는 가능한 깔끔하고 명확해야 하겠지만, 챗GPT의 대화 능력이 불명확한 표현도 조금은 이해해 주는 것이 아닐까 싶었습니다. 이 부분은 테스트가 더 많이 필요합니다. 기존의 DALLE가 한글로 프롬프트를 구성했을 때 오류를 발생한다는 여러 글을 보았으나, 챗GPT로는 한글로 요청해도 어느 정도 이해력을 가져가는 것 같다는 느낌도 들었습니다.
  3. 이미지를 지정하여 피드백을 주어 수정이 가능합니다. 하지만, 가능한 싱글 턴으로 생성하는 것이 좋아 보입니다. 수정 피드백에도 명확하게 프롬프트를 요청해야 하는 듯 합니다.
  4. 한글을 이미지에 삽입하는 것은 아직은 불가능합니다.