어도비 디렉터가 본 Generative AI 과거, 현재 그리고 미래
어도비 정현준 디렉터가 설명하는 Generative(생성) AI의 과거, 현재, 그리고 미래. 오늘의 AI 연구자들은 어떤 생각을 가져야 할까요?
이번 모두의연구소 열린세미나 모두팝은 어도비 AI/ML 디렉터로 활동하고 있는 정현준 디렉터님께서 직접 모두의연구소에 방문해주셔서 현재 가장 핫한 주제인 Generative AI의 과거, 현재 그리고 미래에 대한 주제로 세미나를 진행했습니다. 비전공자분들도 이해하기 쉬운 내용으로 재미있게 설명한게 이번 모두팝의 포인트였다고 볼 수 있습니다.
Generative AI 과거
현재 Generative AI는 VAE에서 시작해서 GAN이 주류로 이어지다가 Transformer 모델이 나오면서 NLP의 전성시대가 열립니다. 2019년 중반에 Diffusion 모델이 연구되기 시작했습니다. 2021년에 첫 멀티모달 생성 모델인 DALL-E가 나오고 2022년 중반에 DALL-E2가 나오면서 멀티모달 생성 모델이 가속화되기 시작했습니다. 2022년 말 ChatGPT가 등장하면서 본격적으로 NLP의 생성모델도 급속도로 성장해서 현재는 오픈소스 모델이 수도없이 쏟아져나오고 있습니다.
특히 ChatGPT가 본격적으로 쓰이게 된 2023년부터 타임라인을 보면 2월에 구글에서 Bard가 출시되었고 MS에서는 Bing AI가 출시했습니다. 메타에서는 오픈소스 LLM인 LLaMA를 공개했습니다. 3월의 경우 GPT-4를 공개했으며 MS365 Copilot출시를 알렸습니다. 4월에는 메타에서 이미지 분할 모델인 SAM을 공개했으며 5월에는 구글의 최신 LLM인 PaLM-2를 공개했습니다.
이러한 격동이 있기 전에 NLP와 CV는 어떻게 성장했는지 확인하는 것이 중요합니다.
생성 NLP의 성장
생성 NLP의 성장을 볼 때 중요한 포인트는 Representation과 Embedding을 뽑을 수 있습니다. Representation의 경우 기존에는 각자 단어에 단어장이 있어 따로 만들었고 이를 이어주는 알고리즘이 중요했습니다. 그러나 2010년에 Distributed Representation이라는 기법이 나와 단어에 일정한 의미를 넣을 수 있게 Representation을 수정해서 단어와 단어 사이를 연결해주는 걸 알고리즘이 아닌 데이터 자체로 바꾸게 되었습니다. Meta에서 이에 대한 개념을 확장해서 2013년에 Word2Vec라는 Embedding 모델을 공개했습니다. Word2Vec는 각자 단어들을 Distributed Representation을 기반으로 하는 단어의 벡터 표현을 학습하는 알고리즘입니다. 즉 Word2Vec의 등장으로 단어의 Representation를 직접 조정하는 것이 아닌 모델을 통해 정할 수 있게 되었습니다.
이후 자연어에서 번역 Task를 수행할 때 Attention 메커니즘을 활용해 효율적으로 토큰을 연결해주는 모델이 나왔으며 2017년에는 Attention 메커니즘으로만 이루어진 Transformer라는 모델이 나왔습니다. Transformer는 OpenAI와 Google 모두에게 좋은 영감을 제공했습니다. OpenAI는 GPT라는 모델을 소개하면서 언어모델이 크고 다양한 종류의 데이터를 사전학습할 수 있다는걸 알게 되었고 Google은 BERT를 통해 다양한 언어 모델 task들을 사전학습과 미세조정으로 학습가능하다는 걸 알게 되었습니다.
이렇듯 NLP가 성장한 이유는 Representation Learning의 발견과 GPT나 BERT와 같은 Self-Supervised Learning이 만들어졌다는 것에 있습니다. 또한 데이터와 라벨링이 비교적 값싸졌고 커졌다는 것도 한 대목을 차지하고 있습니다. 마지막으로 Nvidia GPU의 성능이 많이 발전하면서 언어모델 발전을 견인했습니다.
생성 CV의 성장
생성 CV의 경우 가장 기념비적인 모델은 AlexNet이라 볼 수 있습니다. AlexNet은 기존에 있었던 컴퓨터 비전 모델들과 달리 CNN을 활용해서 이미지를 분류하는 모델이었습니다. CNN이 대중화되자 2014년에 Ian Goodfellow는 Discriminator와 Generator를 활용해 컴퓨터 비전에서 첫번째 Generative AI를 만들어냈습니다. 한편으로는 YOLO와 DeepLAB으로 Object Detection과 Semantic Segmentation 모델을 만들어냈습니다. 2017년에 나온 Mask R-CNN은 CNN이전에 사용했던 방식과 CNN모델을 합친 새로운 모델이었습니다.
한편 GAN의 경우 최대한 컨트롤하기 위해서 StyleGAN이나 ObjGAN을 통해 최대한 사람이 컨트롤할 수 있게 발전하고 있습니다. StyleGAN의 경우에는 우리가 원하는 스타일을 넣을 수 있게 만든 모델이며 ObjGAN은 이미지 캡션과 스케치 레이아웃을 통해 최대한 컨트롤할 수 있게 만든 모델입니다.
정리하자면 컴퓨터 비전이 발전한 이유에는 CNN 기반의 Detection과 Segmentation이 발전했기 때문이라 볼 수 있으며 GAN기반 Style Transfer가 나왔으며 이미지 생성과 해상도를 좋게 만드는 모델의 출현도 있습니다. 컴퓨터 비전은 자연어와 달리 산업계에서 사용할 수 있게끔 빠르고 가벼운 모델들을 만들었으며 연구단에서는 더 크고 무거운 모델을 만들어내는 양상을 보여주기도 했습니다.
Generative AI의 현재
그렇다면 2020년부터 2023년까지 AI는 어떻게 발전했을까요? 현재 딥러닝 발전을 기준을 보고 나눈다면 크게 3가지로 나눌 수 있다고 봅니다. 우선 DIffusion 모델과 Transformer류의 모델이 약진을 했으며 멀티모달 ML 모델이 대세가 되었습니다. AI의 급격한 발전으로 AI윤리, 개인정보 보호, 그리고 재사용가능하며 지속가능한 머신러닝 파이프라인을 만드는 것이 중요해졌습니다. 마지막으로 산업계에서는 큰 모델과 작고 빠른 모델에 대한 비교가 지속적으로 이루어지고 있습니다.
BERT 이후 Transformer 모델은 비단 NLP에서만 사용한 것이 아닌 컴퓨터 비전에서도 사용되었습니다. 대표적인 사례로서 2020년에 나온 ViT 모델입니다. 한편 Google은 T5라는 모델을 통해 다양한 Task들을 하나로 통합하려는 시도를 했지만 OpenAI가 발표한 GPT-3가 나오면서 하나의 모델이 다양한 task를 zero-shot으로 수행가능하다는 점을 보여주었습니다. Diffusion 파트의 경우 CLIP이라는 모델을 통해 첫 VQA 모델을 보여주었습니다. 이후 DALL-E2를 기점으로 CLIP과 Diffusion 모델을 적절하게 섞어 뛰어난 성능을 보여주었습니다. DALL-E2 이후에는 Stable Diffusion이라는 오픈소스 모델이 등장하면서 멀티모달 Diffusion 모델이 가속화되었습니다. 이후 ControlNet을 통해 최대한 Output을 조절할 수 있게 만들려는 시도를 진행하고 있습니다.
2023년에는 GPT-4가 등장하면서 LLM의 성능을 극한으로 끌어올렸으며 Google에서는 쉽게 적용할 수 있게 만든 PaLM-2가 등장했습니다. 메타에서는 LLaMA뿐만 아니라 첫번째 거대 이미지 모델인 Segment Anything Model을 공개했습니다. 정현준 연사님께서 소속되어 있는 Adobe는 FireFly 모델을 베타로 공개해서 Generative AI 모음을 공개했습니다.
Generative AI 시대의 우리가 고민해야 되는 지점
정현준 연사님께서 이러한 Generative AI 시대에서 논의해야 할 점이 크게 4가지가 있다고 하셨습니다. 현재 대부분의 딥러닝 모델들은 리서치에 국한되어 있는 경우가 많았습니다. 2022년 말에 ChatGPT가 등장하면서 본격적으로 딥러닝 모델들이 산업에서 많이 이용되고 있습니다. 그렇지만 정현준 디렉터님은 현재 딥러닝 연구하는 기업들은 기술적인 가치를 먼저 생각하고 고객의 가치를 뒤로 생각하는 경향이 있다고 이야기했습니다. 그러나 이러한 방식으로 생각할 경우 기술적인 한계에 부딪혀 결국 구현하지 못한다고 합니다. 그렇기에 AI 스타트업은 고객 가치를 먼저 생각하고 기술적인 가치를 생각하는 방식이 더 적합하다고 생각한다고 이야기했습니다.
두번째 논의할 내용은 빅데이터와 빅모델에 대한 이야기였습니다. 현재 딥러닝 모델 분야에서는 데이터를 더 많이 넣어서 모델 파라미터를 점점 키우는 방식으로 진화하고 있습니다. 그런데 모델 사이즈를 지속적으로 키우는 것이 정답은 아니라고 말씀하셨습니다. 실제 몇몇 모델들의 경우 모델 파라미터 사이즈는 그대로 두되 Training Token을 더 크게 가져가는 실험을 하고 있고 실제로 해당 방법론이 조금 더 좋다는 논문도 등장했습니다.
세번째 논의할 내용은 Foundation 모델의 등장으로 인해 모델에 편향과 안전성 이슈가 지속적으로 발경되고 있습니다. 실제 EU에서 만들고 있는 AI법이 공표되면 대부분의 모델들은 점수 미달로 EU에서 사용불가능합니다. 또한 ChatGPT를 비롯한 다른 모델들에서 Hallucination이 발생해 모델의 성능을 의심하게 만들고 있습니다. Foundation 모델의 경우 Training 비용보다 Inference 비용이 더 많이 나가는 상황이다보니 이 문제도 개선해야 합니다.
마지막으로 LLM이 등장하면서 새로운 유형의 어플리케이션들이 등장하고 있습니다. 현재 LLM을 평가하는 사이트부터 LLM을 이용해서 강화학습에 사용되기도 하며 LLM과 강화학습을 적절히 사용해서 Generative Agents라는 방식으로 게임을 만들기도 했습니다. 이러한 지점에서 LLM이 새로운 방식으로 개발을 진행시킬 수 있게 되었다는 점도 논의해야 될 대상으로 남겨두었습니다.
정현준 디렉터님께서 AI에 관련된 서비스를 기획한다면 꼭 읽어봐야 될 책으로 The Book of Why를 추천했습니다. 현재 AI는 많이 발전했다는 생각이 들지만 아직 많은 단계가 남았다고 하셨습니다. The Book of Why를 읽고 AI를 바라본다면 정말 좋은 인사이트를 얻을 수 있을거라고 이야기했습니다.
정리하며
오늘 강연은 생성 AI에 대해 과거, 현재 그리고 미래에 대해 알 수 있었습니다. 특히 논의할 사항에 대한 이야기는 많은 AI연구자들에게 영감을 주었다고 생각합니다. 또한 실리콘벨리 현직 AI/ML 디렉터님의 생각을 그대로 들을 수 있는 점도 좋았습니다. 현재 정현준님의 영상은 모두의연구소 유튜브 채널에 올라가 있으니 내용에 관심이 있는 분들은 유튜브 영상을 참고해주세요!
다른 모두팝 소식이 궁금하다면 모두의연구소 홈페이지에서 확인할 수 있습니다!
어도비 디렉터가 본 Generative AI의 과거, 현재 그리고 미래 – 장현준(Adobe) I #모두의연구소 K-디지털플랫폼 모두팝
No Description