지금은 챗봇 전성시대!
현재 챗봇 전성시대라 부를 수 있을만큼 챗봇의 열풍이 거세다. 이번에 알아볼 내용은 Google, OpenAI, DeepMind같은 글로벌 회사들이 챗봇에 대해 어떻게 대응하고 있는지 알아보고 향후 어떤 과제가 남았는지 알아볼 에정이다.
현재 대한민국은 ChatGPT를 대표로 하는 챗봇 열풍입니다.. 한국언론진흥재단에서 운영하고 있는 뉴스빅데이터 분석 서비스인 빅카인즈에 따르면 현재까지 ChatGPT관련 기사는 총 3,859건이 있었습니다. 2016년 딥마인드에서 발표하는 알파고는 2016년 한해동안 12,681건이 있었습니다. 현재 1분기가 지나가지 않은 상태를 감안한다면 알파고보다도 ChatGPT가 더 많은 사회적 영향력을 끼치고 있음을 방증합니다.
ChatGPT를 만든 OpenAI는 사람들에게 ‘챗봇’이라는 서비스를 각인시켰다고 하면 다른 기업들은 어떻게 준비하고 있을까요? 이번 블로그에서 ChatGPT에 대한 설명뿐만 아니라 Google Research에서 발표했던 Bard, DeepMind에서 만든 Sparrow, Facebook으로 알려진 Meta에서 나온 LLama를 알아보고 한국어 전용 모델을 개발했었던 하이퍼클로바까지 비교하고자 합니다.
ChatGPT(OpenAI에서 만든 챗봇)
ChatGPT는 OpenAI에서 만든 GPT-3.5를 기반으로 만들어진 챗봇입니다. GPT-3.5는 2021년 4분기까지 있는 텍스트와 코드를 학습한 모델입니다. GPT-3.5는 크게 3가지 davinci 모델이 존재합니다. code-davinci-002는 기본 모델이며 텍스트보다 코드에 특화되어 있는 모델입니다. text-davinci-002는 code-davinci-002를 기반으로 하는 InstructGPT모델입니다. 마지막으로 text-davinci-003은 text-davinci-002모델의 성능을 향상시킨 모델입니다. 현재 ChatGPT는 text-davinci-003모델을 기반으로 하고 있다고 추정하고 있습니다.
그렇다면 InstructGPT모델은 어떤 것일까요? InstructGPT의 기본 컨셉은 기존에 있던 거대모델 GPT-3에서 reinforcement learning from human feedback(RLHF)를 도입한 모델입니다. GPT-3는 2020년에 만들어진 초거대모델로써 번역, 요약과 같은 특정 기능에서만 작동하는 모델에서 범용적으로 작동하는 최초의 Generalist 모델입니다. RLHF는 알파고와 같은 강화학습인데 어떤 결과가 나오게 된다면 그것을 사람의 피드백을 받아서 좋아지는 학습방식입니다.
지금까지 했던 내용을 정리하면 ChatGPT는 2021년 4분기까지 있는 텍스트와 코드를 학습했으며 사람의 피드백을 받아서 학습되는 방식의 모델임을 알 수 있습니다.
Bard (Google AI에서 만든 챗봇)
Bard는 구글에서 만들고 간단한 데모영상까지만 나왔던 챗봇모델입니다. Bard는 Language Model for Dialogue Applications(LaMDA)를 기반으로 만든 모델입니다. LaMDA의 존재는 2022년 1월에 논문과 구글 리서치 블로그를 통해 발표되었습니다. LaMDA는 다른 모델들과 달리 먼저 품질, 안전성, 사실에 기반하는 내용이라는 3가지 목표를 설정하고 프로젝트에 도입합니다.
품질의 기준은 모델이 대화 맥락에 맞으며 일반적인 대답이 아닌 특정한 응답으로 진행해야 하며 재치 있는 응답을 생성하는 가입니다. 안전성은 사용자에게 해를 끼칠 위험을 초래하는 의도치 않은 결과를 피하고 편견이 강화되지 않도록 대답하는가를 봅니다. 마지막으로 근거성은 권위 있는 외부 출처로 뒷받침될 수 있는 주장이 포함된 응답 비율입니다. 이 3가지 기준을 달성하기 위해 구글은 지표를 설정하고 모델을 만듭니다.
LaMDA는 ChatGPT처럼 사람의 피드백을 사용하는 것 대신 병렬처리와 모델에서의 피드백에 더 힘을 쏟았습니다. LaMDA의 병렬 처리는 모델 프로그래밍과 분리해서 개발자는 코드 중복을 최소화할 수 있습니다. 또한 동일한 모델 구현방식으로 다른 모델과 사이즈에 적합한 병렬 전략을 세울 수 있는 장점을 지니고 있습니다. 또한 LaMDA는 응답을 생성한 다음 응답이 안전하고 고품질인지 분류하는 작업을 수행해서 응답의 품질 등급을 매길 수 있습니다.
사회적으로 보았을 때 ChatGPT와 달리 Bard와 LaMDA는 현재 우여곡절을 겪고 있습니다. LaMDA는 작년 Google Responsible AI팀 엔지니어가 자아가 있다고 발표해 파장이 있었습니다. 또한 Bard는 공개했을 때 데모에서 사실과 다른 대답을 해 문제가 되었습니다. 또한 구글 내부 직원 소스로 Bard는 검색을 위한 모델이 흘러나왔습니다. 현재 Google이 수세에 몰린 것 같지만 AI에서 구글이 끼쳤던 영향력을 생각하면 곧 명예회복이 될거라고 생각합니다.
LLaMA (Meta AI에서 오픈소스로 나온 모델)
Meta AI의 수장인 얀 르쿤은 1월에 ChatGPT는 그다지 특별하지 않고 혁신적인 것이 없다고 이야기했습니다. 몇몇 사람들은 얀 르쿤의 이야기에 동의를 했지만 얀 르쿤의 의견을 반대하는 사람들도 상당히 있었습니다. 그리고 Meta는 2월 24일에 LLaMA(Large Language Model Meta AI) 모델을 오픈소스로 공개합니다. 앞서 설명했던 ChatGPT나 Bard와 달리 LLaMA는 연구자 대상으로 오픈되었으며 현재는 리서치용도로 API Key를 받아 접근가능합니다.
LLaMA는 파라미터에 따라서 7B, 13B, 33B, 65B 모델이 존재합니다. LLaMA는 다른 모델들과 달리 파라미터 수가 작으면서도 성능은 다른 모델들과 비교했을 때 떨어지지 않습니다. 현재 많은 사람들이 RTX 시리즈로도 LLaMA를 돌리고 있으며 실험을 진행하고 있습니다. 그렇기에 오픈소스화된 LLaMA가 OpenAI 독점인 ChatGPT보다 범용적으로 활용될 수 있다 생각합니다. 현재 스탠포드 대학교에서 LLaMA를 잘 파인튜닝한 알파카 모델이 나왔고 LLaMA에 대한 연구가 폭발적으로 이루어지고 있습니다.
다만 한가지 걱정이 되는 지점은 LLaMA도 위에 설명한 다른 모델들과 마찬가지로 편향성, 유해성에 대해서는 아직 많은 단계가 남은걸로 확인됩니다. 그렇기에 현재 LLaMA는 이런 부분에 취약점을 드러낼 가능성이 있어 비상업적 라이선스를 국한해서 모델을 공개하고 있습니다.
Sparrow (딥마인드에서 만든 챗봇모델)
ChatGPT에 대한 아이디어는 사실 새로운 내용은 아니었습니다. ChatGPT를 공개하기 앞서 비슷한 컨셉으로 이미 논문으로 발표한 그룹이 있습니다. 바로 구글 딥마인드입니다. 구글 딥마인드는 이전에 Chinchilla 모델을 발표했습니다. Chinchilla는 70B정도의 파라미터를 갖고 있으며 데이터 안에 들어간 토큰 수는 훨씬 많습니다. 이런 Chinchilla를 기반으로 만든 챗봇 모델이 Sparrow입니다.
Sparrow는 챗봇 모델을 만들 때 ChatGPT에서 사용했던 RLHF를 도입한 모델입니다. Sparrow도 Bard나 LaMDA처럼 윤리 규칙이 존재하지만 구글 리서치처럼 해당 윤리를 검증하는 팀이 엄격하게 관리하는 대신에 Sparrow가 규칙을 어기도록 요청한 다음 해당 행동이 규칙을 여기면 표시하는 규칙 모델을 만들어 관리합니다.
이러한 Sparrow에게 단점이 존재하는데 첫번째로 규칙 모델에서 자동 검증을 받아야 하기 때문에 다른 모델에 비해 속도가 느립니다. 또한 Sparrow 모델 기반이 되는 Chinchilla는 영어 텍스트로만 되어 있기 때문에 ChatGPT처럼 한국어 작성이 불가합니다.
앞으로의 챗봇은?
ChatGPT는 우리에게 사회적으로 끼치는 영향이 대단합니다. 그렇기에 챗봇 시스템이 잘 정착하려면 윤리적인 부분과 사실적 오류를 범하는 부분을 줄여나가야 합니다. 2020년 말에 출시했던 이루다 1.0은 혐오 메세지 전송과 상식적인 답변 오류를 범했습니다. 그런 이슈가 대두되자 이루다 1.0은 결국 서비스를 임시종료하고 2022년 말에 이루다 2.0으로 재출시했습니다. ChatGPT의 경우 혐오 메세지 이슈는 두드러지지 않지만 답변 오류 이슈에서는 자유롭지 못합니다. 구글은 이러한 문제를 사전에 방지하기 위해서 별도의 윤리 팀을 만들어서 진행하고 있지만 ChatGPT가 산업분야를 선점하다보니 딜레마에 빠진듯합니다. Meta는 모델을 오픈소스로 풀면서 OpenAI의 약점을 잘 꿰뚫었다고 생각합니다. 챗봇의 전성시대이지만 아직 승자가 결정되지 않았습니다. 어찌보면 새로운 강자가 나와 현재 챗봇시장을 점령할 수도 있습니다. 이제 우리가 고민해야 되는 지점은 새로운 분야에서 새로운 산업을 선도해가는지라고 생각합니다.
레퍼런스
-
https://blog.google/technology/ai/bard-google-ai-search-updates/
-
https://ai.googleblog.com/2022/01/lamda-towards-safe-grounded-and-high.html
-
https://ai.googleblog.com/2021/12/general-and-scalable-parallelization.html
-
https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
-
https://www.deepmind.com/blog/building-safer-dialogue-agents
-