#인공지능 

자연어처리 정의와 활용사례가 궁금하다면?

자연어처리에 대한 정의와 활용사례와 함께 향후 전망에 대한 에측해봅니다.

2022-11-04 | 원영선

자연어처리란 무엇인가요?

안녕하세요! 모두의연구소 블로그 객원 기자 링구입니다. 뜬금없이 지구어, 우주어도 아닌 <자연어처리(Natural Language Processing)>라니! 모국어인 한국어도 떠듬떠듬 구사하는 링구에게는 너무나 낯설고 거창하기까지 한 용어인데요, 인공지능 좀 안다는 사람들과 인공지능 좀 한다는 회사들, 특히 여기 모두의연구소에서는 너무나 쉽게 들을 수 있는 용어이기도 합니다. 설마 모두연에서 저만 모르고 있는 건가요..? 뭔가 쎄한 기분이 들어 제빨리 구글에게 물어보았어요. 구글느님 자연어 처리란 무엇인가요?

 

자연어처리 구글 검색

구글에서 자연어처리 검색하기

 

키독스에 따르면, 자연어(Natural Language)는 우리가 일상 생활에서 사용하는 언어이고, 자연어 처리(Natural Language Processing)는 이러한 자연어의 의미를 분석해서 컴퓨터가 처리할 수 있도록 만들어주는 일을 말한다고 해요. 컴퓨터에게 사람처럼 텍스트를 이해시키는 것이 아닌 글자 언어(written language)에 대한 통계적 구조를 만들어 처리하는 것이죠. 예를 들면 문장에서 다음에 나올 단어의 확률을 구하며, 단어, 문장, 문단에 적용한 패턴들을 인식하는 등의 과정인 것이죠. 그래서 컴퓨터 프로그래밍을 말하는 코딩과 자연어 처리는 동일한 개념이 아니랍니다.

 

자연어처리 기술 개발의 역사

자연어 처리 기술은 지금으로부터 무려 70여년 전인 1946년으로 거슬러 올라간다고 해요. 미국의 과학자 워런 웨이버(Warren Weaver)는 2차 세계대전 때 적군의 암호문을 번역해 정보를 알아내기 위한 용도로 기계번역(MT, Machine Translation)이라는 기술을 개발해냈지요. 그 후 MT는 암호문 분석뿐만 아니라 언어 번역에도 확장돼 연구되기 시작했고, 1970년부터는 자연어 생성에 관한 연구도 진행되었답니다. 

인터넷을 제약없이 사용할 수 있게 된 1990년대를 기점으로 자연어로 된 문서를 웹상에 등록하고 자유롭게 검색 및 저장 가능한 환경이 형성되어 방대한 데이터가 쌓이게 되었고, 주어진 데이터로 알고리즘을 만들어내는 기계학습(Machine Learning)기술이 등장함에 따라 자연스럽게 컴퓨터의 자연어 처리 학습을 도와주고 빠르게 기술 수준이 고도화되는 효과를 낳게 되었어요.

1990년대 이후에는 말뭉치 데이터를 활용하는 기계학습 기반 및 통계적 자연어 처리 기법이 주류를 이뤘는데, 2018년 구글이 교육 없이 양방향으로 사전학습 하는 인공지능(AI) 언어모델 ‘BERT’(이하 버트, Bidirectional Encoder Representations from Transformers)를 공개하여 시장에 큰 변화를 일으켰지요. 교육이 없다는 것은 특별한 프로그램에 따르지 않고 웹상에 있는 보통의 텍스트 데이터만 가지고도 훈련이 가능하다는 의미로, 어텐션 매커니즘(attention mechanism)만을 활용해 자연어를 처리하는 방식인 ‘셀프 어텐션(self-attention)’ 방식을 채택하고 있어요. 어텐션 매커니즘은 문장 전체의 중요성을 모두 분석하는 대신 중요한 부분만을 집중(attention)해 문장을 분석하는 방식으로, 더 적은 연산으로도 효율적으로 문장을 이해할 수 있다는 장점이 있고, 빠르고 쉽게 성능을 향상할 수 있다는 강점을 가지고 있다는 것이지요.

 

구글이 개발한 자연어처리 모델 BERT

구글이 개발한 자연어처리 모델 BERT (출처: https://paperswithcode.com/method/bert)

 

Open AI에서 2020년 공개한 GPT-3(Generative Pre-Training)은 양방향으로 자연어를 분석하는 버트와 달리 한 방향으로 분석하는 단방향 모델이에요. 테슬라 최고경영자(CEO)로 더 유명한 일론 머스크는 2015년 인류에게 이익을 주는 것을 목표로 인공지능 회사 Open AI를 설립하고 인공지능의 정보를 오픈소스화 하였어요. 이 회사가 개발한 GPT-3은 상대적으로 자연어를 이해하는 성능은 부족하지만 차례로 문장을 만들어나갈 수 있어 자연어 생성에 적합하며, 자연어 이해와 연관되면서도 보다 구현하기 어려운 상위 기술이라고 해요. 실제로 GPT-3 모델은 4,990억개 데이터셋 중에서 가중치 샘플링해서 3,000(300B)개로 구성된 데이터셋으로 사전 학습을 받았으며, 1,750억개(175Billion) 매개 변수로 딥러닝의 한계까지 추진돼 미세한 조정없이 여러 자연어 처리 벤치마크에서 최첨단 성능을 달성했답니다. 키워드만 넣으면 작문을 작성해준다니 놀랍지 않을 없네요!

 

 GPT-3 자유대화 예시

GPT-3 자유대화 예시 (출처: GPT-3 자유대화 예시-코로나19. /핑퐁 블로그)

 

자연어 처리 기술 분야와 시장성

자연어 처리는 컴퓨터와 사람의 언어 사이의 상호 작용에 대해 연구하는 AI의 주요 분야 중 하나로 손꼽히고 있어요. 머신러닝을 통해 인간의 언어를 공부한 AI가 사람의 말이나 문자를 이해하고 다양한 업무를 처리하는 거죠. 그래서 최근 인공지능(AI) 분야에서 자연어처리관련 시장이 급격히 커지고 있고, AI 스피커, 챗봇 서비스, 전화 상담 등 다양한 곳에서 자연어 처리 기술을 활용하고 있지요. 사람의 언어를 이해하는 기술인 자연어 이해 부분, 기계의 작문 기술로 표현할 수 있는 자연어 생성, 음성인식기술, 기계번역(MT, Machine Translation), 오타 검열 등이 자연어 처리 기술이 활발하게 쓰이고 있는 분야라고 해요.

오늘날 자연어 처리 기술의 시장성은 코로나 펜데믹 발생에 따라 빠르게 확산된 비대면 환경으로 더욱 더 빠르게 커지고 있어요.  마켓앤마켓(MarketsandMarkets)이 발간한 ‘2026년까지 전 세계 자연어 처리 시장 전망 (Natural Language Processing Market – Global Forecast to 2026)‘ 보고서에 따르면 전 세계 자연어 처리 시장 규모가 2020년 116억 달러(약 16조 5천억원)에서 2026년이 되면 351억 달러(약 49조 9천억원)로 연평균 20.3% 씩 성장할 거라고 전망했답니다. 우리가 잘 알고 있는 IBM, 마이크로소프트(Microsoft), 구글(Google), AWS(Amazon Web Service), 페이스북(Facebook), 애플(Apple), 3M, 인텔(Intel) 등이 자연어 처리 시장을 이끄는 주요 업체로 손꼽히고 있지요.

 

한국의 자연어처리 활용 서비스

여태껏 미국을 중심으로 한 자연어 처리 기술의 탄생과 발전, 주요 회사들을 살펴보았는데요 그럼 한국의 자연어 처리 기술과 서비스는 어디까지 왔을까요? 역대 최고의 자연어 처리 기반 AI로 평가받는 Open AI의 GPT-3 API(프로그램 언어 형식)를 분석해보면 97%가 영어이고 한국어는 0.01%에 불과하다고 해요. 애초에 글로벌 인터넷상 한국어 데이터가 0.6%밖에 되지 않기 때문이죠. 하지만 국내 대기업과 스타트업에서 앞다투어 자연어 처리 기술과 관련된 서비스 개발에 온힘을 기울이고 있답니다.

대표적으로 네이버가 2021년 처음 공개한 초거대 AI인 하이퍼클로바’는 AI 모델의 크기와 성능을 보여주는 매개 변수(파라미터)가 2040억 개로 오픈AI의 ‘GPT-3(1750억 개)’를 넘어선다고 해요.  하이퍼클로바는 GPT-3보다 한국어 데이터를 6500배 이상 학습했고, 학습 데이터 중 한국어 비중이 97%에 달해 세계에서 가장 큰 한국어 거대 언어모델을 구축했지요.

 

네이버가 개발한 초거대 AI 하이퍼클로바

네이버가 개발한 초거대 AI 하이퍼클로바 (출처: 네이버 TV 갈무리)

 

카카오는 ‘카카오디벨로퍼스’를 통해 자체 개발한 한국어 특화 초거대 AI 언어 모델 ‘KoGPT’를 오픈 API(응용프로그램 인터페이스)로 공개했는데, ‘KoGPT API’는 이용자가 입력한 한국어를 사전적, 문맥적으로 이해하고 이용자 의도에 적합한 문장을 생성하는 기능을 제공하는 도구에요. 맥락과 의도에 따라 문장을 생성해 상품 소개글 작성, 감정 분석, 기계 독해, 기계 번역 등 높은 수준의 언어 과제를 해결하고 다양한 분야에서 활용할 수 있다고 하네요.

 

카카오의 AI 전문 자회사 카카오브레인 출신의 NLP 엔지니어들이 주축으로 2021년 설립한 튜닙은 지난 8월에 내놓은 GPT-3’에 기반으로 영어 여행 챗봇 ‘블루니’를 개발해서 공개하였고, 지난 10월에는 반려견 캐릭터 챗봇 코코와 마스의 시험 버전을 출시했어요. 각각 다른 성격을 가진 강아지 캐릭터의 AI 챗봇으로 이용자와 정서적 교감이 가능한 것이 특징인데 간식 주기, 산책하기 등 실제 반려견 같은 활동과 N행시 등 여러 게임을 함께할 수 있지요.   

 

튜닙의 반려견 챗봇 코코 마스 대화 모습. 출처 튜닙

튜닙의 반려견 챗봇 코코 마스 대화 모습. 출처 튜닙

 

요새 장안의 화제인 서비스로는 지난 4월 설립된 에듀테크 스타트업 ‘뤼튼테크놀로지스가 개발한 AI 기반 문서작성 도구 ‘뤼튼(Wrtn)’을 빼먹을 수가 없는데요, ‘뤼튼’은 문서작성 전부터 작성하는 과정, 작성 후 피드백까지 모든 과정을 지원한다고 해요. 연구활동, 자기소개서, 에세이 등 작성하고자 하는 양식을 설정하면 뤼튼은 가장 적합한 템플릿과 프레임워크를 제공해 독창적인 생각을 짜임새 있는 글로 표현할 수 있도록 돕죠.

작성 중인 내용에 실시간으로 반응하면서 검증된 자료들을 추천하며, 글을 완성한 뒤에는 글의 취약점을 분석해주고 피드백을 해준다니 라떼 빨간펜 선생님을 뛰어넘는 Z세대 뤼튼 선생님이네요!

 

자연어처리 활용 기술의 미래

 

그렇다면 자연어 처리 활용 기술의 미래는 무엇일까요? 자연어처리 기술을 사용한 기계번역기술이 고도화된다면 지금보다 더 많은 세계인들이 자국 콘텐츠 처럼 한국 드라마와 K-pop, 영화, 서적등을 자연스럽게 보고 즐길 수 있겠죠! 음성인식기술 또한 고도화된다면 컴퓨터, 핸드폰, 키오스크, 자동차 등의 입력하거나 버튼을 눌러 작업을 명령하는 지금의 방식에서 벗어나 기계와 인간이 직접적 대화를 할 거에요. 기계가 인간이 원하는 작업을 수행하고, 자연스럽게 상호작용하면서 말에 담겨있는 인간의 의도까지 파악해 때로는 친구처럼, 때로는 가족처럼 인간과 함께 울고 웃을 수 있을 거에요. 

 

갈무리

이번 글을 통해 정의와 역사, 기술 및 서비스까지 자연어 처리의 다양한 부분을 살펴보았는데요, 함께 자연어처리에 대해 스터디를 하고 싶으신 분들은 모두의연구소 풀잎스쿨에서 모임을 만들어보는 건 어떨까요?

 

참고 

  • The Science Times, ‘자연어처리 기술, 사람 수준 뛰어넘었다’(2020.10.27)
  • 동아사이언스, ‘[프리미엄 리포트] 현존 최고의 자연어처리 인공지능 선발대회’(2021.01.09)
  • 인공지능신문, ‘[이슈] OpenAI, 혁신적인 AI 자연어처리(NLP) 모델 ‘GPT-3’ 공개’(2020.06.03) 
  • 한경 Geeks, ‘사람 같은 AI 만드는 자연어처리 기술…어떤 스타트업이 이끄나(2022.10.25) 
  • “Commercial Application of Natural Language Processing” by Kenneth W.Church, Lisa F.Rau(1995.11)
  • 비즈한국, ‘인공지능이 기사를 써봐야 얼마나 잘 쓴다고…’(2022.10.28)
  • The Science Times, ‘자연어처리, 미래 국가 경쟁력 좌우(2012.10.9)