Transformer를 들어보셨나요? 좀 더 자세히 들여다보고 싶다면?
#인공지능 

구글 리서치 연구동향 Intro

Google은 일을 보다 효율적으로 처리하는 모델 개발을 목표로 합니다. 현재 우리는 그 노력의 결과로 좀 더 나은 삶이 가능해졌습니다. 이러한 구글 리서치의 2022년 성과와 2023년부터의 비전, 그리고 최신 연구 동향을 다루는 시리즈를 연재합니다.

2023-03-10 | 정강민

Transformer를 들어보셨나요? Transformer 모델은 2017년에 구글 리서치 에서 발표한 논문 “Attention Is All You Need”에서 제안 했습니다. 이 모델은 기존의 RNN이나 CNN과 같은 시퀀스 모델링 방식에서 벗어나, Attention 메커니즘을 활용하여 입력 시퀀스 내의 모든 단어들 간의 상호작용을 고려하며 효율적으로 학습하는 방식입니다. Transformer 모델은 이후 자연어 처리 분야에서 매우 큰 성과를 이루어냈으며, GPT-1부터 GPT-3까지 다양한 대형 언어 모델에서도 기본 아키텍처로 사용되고 있습니다. 여러분들이 익히 알고있는 ChatGPT 또한 OpenAI에서 개발한 Transformer 모델을 근간으로하는 모델입니다.

이렇게 구글은 효율적인 모델을 개발하는 것을 목표로 합니다. 정보 검색, 창의적 작업, 문서 및 이메일 작성, 다국어 번역, 복잡한 질병 진단, 물리적 세계 이해 등의 복잡한 작업을 수행할 수 있는 모델을 개발합니다. 우리는 그 노력의 성과를 체감하고 있습니다. 이러한 구글 연구원의 2022년 성과와 2023년부터의 비전, 그리고 최신 연구 동향을 다루는 시리즈를 연재합니다.

컴퓨터 비전

출처 : https://ai.googleblog.com/2022/09/a-multi-axis-approach-for-vision.htmlcomputer vision

MaxViT 모델은 로컬 및 비로컬 정보를 모두 활용합니다. 이미지 분류 및 객체 검출 작업에서 다른 모델을 보다 우수한 성능을 보이면서 계산 비용이 낮아지는 효과가 있습니다. 최근엔 Pix2Seq 모델이 제안되어 객체 검출을 언어 모델링으로 접근하는 방법도 고안되었습니다. 이런 적용이 최신 객체 검출 알고리즘보다 우수한 성능을 보인다고 합니다. 또한, 현실 객체의 3D 구조를 더 잘 이해하기 위해 다양한 연구도 진행 중입니다. 이러한 연구를 통해 컴퓨터 비전 기술이 더욱 발전할 것으로 기대됩니다. 컴퓨터 비전은 이어지는 연재에 자세히 다루겠습니다.

 

멀티모달

구글의 멀티모달은 다양한 유형의 데이터를 활용하여 인공지능 시스템의 정확도와 성능을 높이는 기술입니다. 텍스트, 이미지, 비디오, 음성 등 다양한 데이터를 조합하여 보다 정확하고 풍부한 정보를 제공하며, 언어와 비언어적 데이터를 활용하여 자연스러운 상호작용을 가능하게 합니다. 이 분야가 최근에는 더욱 발전하여 인공지능 시스템의 발전에 큰 역할을 하고 있습니다.

multimodal

Given a text and video frames of a speaker, VDTTS generates speech with prosody that matches the video signal. 출처 : https://ai.googleblog.com/2022/04/vdtts-visually-driven-text-to-speech.html

구글의 멀티모달 기술은 다양한 데이터를 조합하여 정확도와 성능을 높이며, 언어-이미지 모델인 PaLI, 멀티태스크 비주얼 그라운딩 모델인 FindIt, 그리고 비디오에 맞는 음성 출력 모델인 VDTTS 등 다양한 모델들이 자율 주행 차량 및 로봇 응용 분야에서 활용됩니다.

 

언어모델

언어 모델은 많은 양의 텍스트 데이터를 학습하고, 이전에 나온 단어를 참고하여 다음 단어를 예측하는 기술입니다. 대규모 언어 모델은 일관된 말투와 자연스러운 대화를 생성할 수 있으며, 창의적인 문장 생성, 언어 번역, 코딩 지원, 질문에 대한 답변 등 다양한 작업에 활용됩니다. 최근에는 여러 단계의 추론과 복잡한 문제 해결을 위한 모델 개발에 더욱 집중하고 있습니다.

Minerva

A dataset for quantitative reasoning: Careful data processing preserves mathematical information, allowing the model to learn mathematics at a higher level. 출처 : https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html

예를 들어, Minerva 모델은 대규모 문서와 과학 연구 논문 코퍼스를 이용하여 수학 추론 및 과학 문제를 해결할 수 있도록 만들어졌습니다. 대규모 언어 모델은 새로운 정보와 작업에 대한 학습 및 적응 능력을 갖추고 있습니다.

 

생성모델

2022년은 생성 모델의 질과 능력이 크게 발전한 해였습니다. 생성 모델은 이미지를 만들어내거나 인식하는 일에 큰 역할을 합니다. 이를 위해 생성적 적대 신경망(GAN)이라는 방법이 사용되는데, 이 방법은 두 개의 모델이 경쟁하는 방식으로 작동합니다. 이전에는 이미지 생성에만 사용되었지만, 최근에는 텍스트도 사용됩니다. 이러한 발전은 CLIP와 같은 새로운 기술과 더 큰 교육 데이터 세트를 사용함으로써 가능해졌습니다.

Imagen

출처 :https://imagen.research.google/

ImagenParti는 이러한 발전 중 두 가지 예시입니다. Imagen은 T5라는 기술을 사용하여 이미지 합성을 위한 텍스트 인코딩에 효과적으로 활용하는 방식입니다. Parti는 Transformer 아키텍처와 벡터 양자화 GAN 모델을 사용하여 콘텐츠 풍부한 텍스트 대상 이미지 생성을 개선합니다. 이 두 모델은 classifier-free guidance라는 기술을 사용하여 생성된 이미지를 개선하는데, 이는 더 자연스러운 이미지를 만들어내는 데 도움이 됩니다.

 

유저컨트롤

DreamBooth

출처: https://dreambooth.github.io/

얼마전 텍스트를 가반으로 한 실제 이미지를 생성한는 새로운 방법이 개발되었습니다. 이 방법들은 사용자가 생성 과정을 제어할 수 있는 기능을 제공하여, 사용자가 세밀하게 조정하여 새로운 이미지를 생성할 수 있게합니다. 그 예로 DreamBooth, Prompt-to-Prompt Image Editing with Cross Attention Control, Image Editor는 사용자가 제어할 수 있는 기능을 제공하여, 세밀한 조정이 가능한 이미지 생성과 편집 기능을 제공합니다.

 

오디오 생성

최근 발전한 오디오 생성 기술인 AudioLM은 언어 모델링을 활용하여 어노테이션 데이터 없이 오디오를 생성할 수 있지만, 스피커의 신원과 강세가 다른 문제를 해결하기 위해 두 단계로 분리된 곡선형 토큰 시퀀스와 미세한 오디오 토큰을 생성하는 모델을 사용하여 일관성을 유지하면서도 원하는 결과를 얻을 수 있습니다.

AudioLM

오디오 생성 기술인 AudioLM은 언어 모델링을 활용하여 어노테이션 데이터 없이 오디오를 생성할 수 있지만, 스피커의 신원과 강세가 다른 문제를 해결하기 위해 두 단계로 분리된 곡선형 토큰 시퀀스와 미세한 오디오 토큰을 생성하는 모델을 사용하여 일관성을 유지하면서도 원하는 결과를 얻을 수 있습니다.

이렇게 구글은 컴퓨터 비전, 멀티모달, 이미지 생성, 유저컨트롤, 오디오 생성등 각 분야에서 발전하고 있습니다. 이러한 기술은 분명 우리 일상 생활을 개선시키고 세상을 더 편리하게 만들 것입니다. 또한 구글은 인공지능 사용에 대한 안전성을 고려하고 윤리적 책임을 다하려고 노력합니다. 이런 내용을 시리즈로 연재합니다. 많은 구독바랍니다!

 

참고자료