비즈니스 문제를 해결하고 예측하는 데이터 사이언티스트가 되고 싶다면?
#인공지능 

GPT-4 이해하기

3월 15일에 OpenAI에서 GPT-4를 발표했습니다. GPT-4는 ChatGPT로 대표되는 GPT-3.5보다 성능이 좋고 이번 발표는 MS, Nvidia와의 협력으로 만들어진 첫번쨰 프로세스라는 결과라는 점이 매우 중요하다 생각합니다.

2023-03-17 | 이영빈

 

2023년 3월 15일 오전 3시에 OpenAI는 “Introducing GPT-4 “를 발표해 공식적으로 GPT-4 런칭을 했습니다. 현재 GPT-4는 리서치 대상으로 API Key를 제공하고 있으며 ChatGPT Plus를 가입했으면 400개의 문장 생성이 가능합니다. 그런데 GPT-4는 단순히 ChatGPT만 업그레이드하지 않습니다. GPT-4는 코드와 텍스트를 넘어서서 사진이나 그림과 같은 이미지도 넣고 분석할 수 있습니다. 이번 블로그는 GPT의 변천과정, GPT-4의 성능을 볼 예정이며 마지막으로 OpenAI가 GPT-4를 어떻게 이용할 수 있는지 알아볼 예정입니다.

GPT 시리즈의 변천과정

GPT-series and parameter size

GPT라는 개념이 처음 나온 연도는 2018년입니다. 2017년에 구글은 Attention Is All You Need라는 논문으로 Transformer라는 개념을 선보였습니다. Transformer는 문장의 컨텍스트를 이해하는 인코더와 컨텍스트 바탕으로 문장을 생성해 번역하는 디코더로 이루어져 있습니다. 그중에서 OpenAI는 Transformer의 문장을 생성하는 디코더에 주목해 Improving Language Understanding by Generative Pre-training이라는 논문이 나왔고 해당 모델을 GPT라고 불렀습니다. GPT는 처음으로 모델을 만들 때 쓰는 데이터의 특성을 나타내는 라벨이 없는 데이터를 먼저 학습시키고 추후에 라벨이 붙은 데이터를 학습을 시킴으로써 라벨이 필요없는 데이터를 학습시키는 방식도 유효하다는 것을 입증했습니다. 물론 GPT의 세상이 그리 오래가지 못했습니다. 왜냐면 GPT 이후에 구글에서 BERT라는 모델을 발표했고 성능에서 압도해버렸기 때문입니다.

2019년에 OpenAI는 “Language Models are Unsupervised Multitask Learners”라는 논문을 통해 GPT-2를 발표했습니다. GPT-2는 수백만개의 웹사이트를 기반으로 만든 OpenAI 자체 데이터셋인 WebText로 학습을 진행했고 task에 맞춰 미세조정을 했던 방식이 아닌 조정없이 task를 수행하는 모델입니다. 이때 OpenAI는 품질이 괜찮은 대용량 데이터를 학습을 잘 시키기만 하면 어떤 task에 상관없이 수행가능하다는걸 알았다고 생각합니다. GPT-2는 사람들에게 많이 회자되긴 했으나 기업이나 대학은 BERT에 대한 연구를 많이 진행하고 있던 터라 이후 말씀드릴 GPT-3나 GPT-4에 비하면 파급력이 약했다고 생각합니다.

2020년 5월에 OpenAI는 “Language Models are Few-Shot Learners”라는 논문을 발표하고 GPT-3를 발표했습니다. GPT-3는 출시되자마자 사회적으로 그리고 업계에서 많은 충격을 주었습니다. GPT-3는 기존에 진행했던 사전학습-미세조정이라는 공식을 깨부수고 in-context learning이라는 메타 러닝을 사용해 프롬프트만으로 task를 수행하는걸 보여주었습니다. 특히 이전에는 미지의 영역이라 불렸던 문장을 생성하는 측면에서 GPT-3는 기존에 있던 모델들과 비교를 할 수 없을 정도로 압도적인 수준을 보여주었습니다. 모델의 측면에서 GPT-3와 GPT-2의 차이점은 학습시키는 데이터 크기와 모델의 크기가 전부 커졌으며 데이터의 정제에 많은 힘을 쏟았습니다.

사실 GPT-3는 학습 방식에 혁명을 불러일으켰지만 다른 부분에서는 충격을 주었습니다. 기존 AI 산업계는 논문과 코드를 오픈하는 것을 원칙으로 했지만 GPT-3는 논문을 공개했지만 코드와 모델을 공개하지 않았습니다. 어찌보면 GPT-3의 논문은 대략적인 학습방법론과 결과를 작성했지만 이를 뒷받침할만한 근거는 내부에 존재하지만 외부에서는 확인할 수 없게 되었습니다. 이때부터 OpenAI는 점점 모델을 공개하지 않는 방식으로 진화하게 되었으며 이에 대항하기 위해 개발자들은 OpenAI에 대항하는 커뮤니티로 EleutherAI를 만들었습니다.

GPT-4는 어떤 모델인가?

Illustrating Reinforcement Learning from Human Feedback (RLHF)

GPT3.5와 GPT-4에서 사용하는 RLHF기법

 

GPT-4를 알기 위해서는 ChatGPT에 들어간 GPT-3.5를 알고 가야 합니다. GPT-3.5는 GPT-3의 학습방식을 그대로 차용했으나 RLHF라는 기법을 추가로 도입했습니다. RLHF는 Reinforcement Learning from Human Feedback이라는 기법으로 사람이 직접 피드백을 주는 방식으로 언어모델을 최적화하는 기법입니다. 모델 기법에 대해서도해당 기법이 도입되면서 모델의 성능이 올라갔고 이를 ChatGPT라는 형식으로 OpenAI가 선보였습니다.

GPT-3.5는 모델 기법만큼 혁명적으로 바뀐 계기는 마이크로소프트(MS)와의 협업이었습니다. OpenAI는 이미 MS와의 협업을 2년전부터 진행했으며 MS는 OpenAI에게 Azure로 GPU를 공급했습니다. OpenAI와 MS의 협업 프로세스가 만들어졌고 이 협업 프로세스가 잘 돌아갔는지에 대한 실험으로 GPT-3.5가 나왔습니다. 실험이 끝나고 OpenAI는 본격적으로 GPT-4를 훈련시키기 시작했고 안정적으로 실험이 되었으며 훈련 성능을 미리 예측할 수 있었다고 합니다. 거대 규모의 언어모델을 학습할때 훈련 성능을 예측가능한 건 이번 GPT-4가 최초입니다.

GPT-4의 경우 GPT-3.5와 다른 점은 멀티모달이 지원된다는 점과 많은 글자수 추론입니다. 기존 GPT-X들의 경우 언어(자연어와 프로그래밍 언어)밖에 처리하지 못했습니다. 이번 GPT-4는 언어뿐만 아니라 그림을 분석하는 것까지 확장되었습니다. 또한 GPT-4는 표를 만들어서 출력하는 방식까지 제공하고 있습니다. 또한 GPT-4는 32,768개의 토큰을 받을 수 있으며 50페이지가 넘는 텍스트를 읽고 추론이 가능합니다. 현재 몇몇 기능들은 ChatGPT에서는 사용하지 못하고 추후 GPT-4 API를 사용할 수 있습니다.

성능지표 살펴보기

OpenAI는 GPT-4를 공개하면서 성능지표를 논문으로 공개했습니다. 해당 논문의 제목은 GPT-4 Technical Report로 순수하게 GPT-4에 대한 성능에만 국한되어 있으며 부록으로 GPT-4 System Card로 간략하게 GPT-4에 대한 안전장치에 대해 작성되어 있습니다. 그렇다면 성능을 한번 보도록 하겠습니다.

GPT-4 bnechmark datasest result

해당 지표는 학계에서 주로 사용하고 있는 벤치마크 기준으로 만들어져 있습니다. 좌측 순서대로 GPT-4, GPT-3.5, LM SOTA(기존에 가장 성능이 좋은 모델), SOTA(벤치마크에 특화해서 만든 모델)입니다. 해당 비교표를 보았을때 읽기 추론적인 쪽을 제외하고는 다른 것과 비교할 수 없을 정도로 좋다는걸 확인할 수 있습니다. 심지어 해당 벤치마크에 특화된 모델조차도 GPT-4를 이기기에는 역부족이었다는 사실을 알 수 있습니다.

GPT-4 multilingual performance result

이 지표는 위에 있는 MMLU 지표를 세분화해서 분석한 지표입니다. MMLU는 Multi-task Language Understaing이라는 벤치마크 데이터셋으로 다양한 언어와 다양한 task를 동시에 보는 벤치마크입니다. 해당 지표를 확인해보면 GPT-4를 3개의 예시를 들어 설명하고 정확도를 측정하고 한국어로 문제 낸 정확도가 미세조정까지 한 구글에서 만든 PaLM의 영어 평가보다 높은걸 확인할 수 있습니다.

GPT-4_exam

마지막으로 실험결과를 확인하면 GPT-4는 GPT-3.5와 비교했을때 압도적인 성적을 내는걸 확인할 수 있으며 AP나 SAT, GRE에서도 성능이 매우 좋다는걸 확인할 수 있습니다. 또한 수학에서도 두각을 보이는것까지 확인 가능합니다.

이번 발표로 확인할 수 있는 OpenAI의 예상되는 행보

OpenAI Microsoft and Nvidia aliance

OpenAI가 성능으로 GPT-4로 보여준 부분도 있지만 저는 MS와의 협력을 보여준 첫번째 사례라는 점이 제일 크다고 생각합니다. 현재 MS는 엔비디아(NVIDIA)와의 협력관계를 맺고 있으며 최신 딥러닝 전용 GPU인 H100을 제공받아 데이터센터를 짓고 있습니다. 불과 몇일 전에 Azure는 H100 VM을 공개했습니다. 이에 비해 딥러닝으로 특화되어 있다고 평가받는 Google Cloud는 감감무소식입니다. 즉 현재 OpenAI-MS-NVIDIA가 협력체제를 구축해 Google을 압박하고 있는 모양새입니다.

OpenAI는 협력체제를 이용해 지속적으로 거대 모델들을 매우 효율적으로 나올 가능성이 높아졌습니다. 다만 OpenAI는 새로운 모델들에 대한 정보가 갈수록 줄어들고 있습니다. GPT-3 때 코드가 공개되지 않자 많은 비판이 있었는데 이제는 코드가 아니라 모델 자체 정보를 얻는 것이 추론을 통해서만 얻을 수 있습니다. 개인적인 생각으로 인공지능이 빠르게 발전한 이유는 오픈소스 생태계라고 생각합니다. OpenAI가 인공지능 생태계에 주도권을 잡고 움직인다면 다른 빅테크 기업 뿐만 아니라 스타트업들도 오픈소스 생태계 대신에 정보를 숨기는 방향으로 갈 것입니다. 그렇게 된다면 OpenAI가 지금은 앞서나갈 수 있지만 점점 인공지능 발전 속도가 늦어질 거라 생각합니다.

OpenAI뿐만 아니라 다른 회사들이 챗봇에 대해 어떻게 반응하고 있는지 궁금하다면 여기를 눌러주세요.

레퍼런스

  1. https://openai.com/product/gpt-4
  2. https://openai.com/research/gpt-4
  3. GPT-1 논문
  4. GPT-2 논문
  5. GPT-3 논문
  6. GPT-4 Technical Report
  7. https://huggingface.co/blog/rlhf