AI 첫걸음부터 논문 작성까지, 아이펠은 내게 맞춰 선택할 수 있어요!
#인공지능 

한국어 언어모델의 효율적인 개발방법

한국어 언어모델의 개발 과정을 자세히 들려드립니다. 토크나이져, TPU 학습 환경 세팅, 배포와 라이선스 까지 전체 과정을 통해 LLM의 효율적인 개발 방법에 대한 인사이트를 얻으실 수 있습니다.

2024-02-28 | 허남철

이번 글에서는 모두의연구소 세미나 모두팝에서 소개 되었던 이준범 님의 강연을 요약해서 전달 드리겠습니다. 준범 님은 한국어 오픈 액세스 LLM에서 꾸준히 활동하시며, KcBert, Llama-2-Ko 시리즈, KoAlpaca 제작하셨습니다. 특히 이번 강연에서는 “어떻게 하면 좋은 한국어 언어모델을 만들 수 있을까?” 하는 고민과 그 해결 방법을 한국어 오픈 액세스 LLM 개발과정을 통해 자세히 들려주셨습니다. 세미나에서 정말 많은 내용을 다루었습니다. 본 글에서는 소개된 많은 내용 중 아래 3가지를 간단히 소개하겠습니다.

  • 한국어 효율이 높은 토크나이져
  • TPU에서 효율적인 언어모델 학습 세팅하기
  • 한국어 언어모델에 DUS 적용하기

한국어 효율이 높은 토크나이져

언어모델 개발에 있어서 학습과 생성에 드는 비용이 무엇보다 중요합니다. 성능을 유지하면서도 computing 비용을 줄이기 위해 Llama-2-Ko에서는 Llama-2 대비 압축률을 4배 개선한 토크나이저를 개발하고 적용하였습니다. 압출률은 학습과 생성에서 비용 모두 영향을 주기 때문이죠. 또한, CBPE(char level BPE) 사용하여 육안으로 보고 사용할 토큰과 그렇지 않을 토큰을 결정하였습니다. 한국어와 영어 모두 커버 하고자 한국어-영어 일대일 데이터셋을 사용하였습니다. 이렇게 만들어진 3만 2천 개의 토큰을 Llama-2 토큰에 추하였습니다. 이때 추가된 토큰의 Weight Init을 기존 단어들의 평균으로 초기화하는 방법(mean embedding)을 적용하였습니다. 그 결과 실제로 초기 학습 Loss를 크게 낮추어 일정한 수준의 까지 학습하기 위해 computing 비용을 낮출 수 있었습니다.

 

파란색 mean embedding 적용, 보라색 일반.

TPU 에서 효율적인 언어모델 학습 세팅하기

How the model weights are split over cores

최적의 언어모델 학습 세팅을 찾기 위해 여러 실험을 진행하였는데요. DP(Data Parallel), TP(Tensor Parallel), FSDP(Fully Sharded Data Parallel)를 모델에 따라 가장 좋은 조합을 찾아 적용하는 방향으로 진행하였습니다. Llama-2-Ko-7B는 모델의 크기가 작기 때문 DP를 늘려서 배치사이즈를 최대한 확보하였고, 모델이 큰 Llama-2-Ko-13B의 경우 GPU의 메모리에 해당하는 TPU의 hbm이 초과되기 때문에 TP를 조금 주고 진행하였습니다. 이때, TPU Topology를 적용하여 BatchSize와 DP, TP, FSDP 를 세팅하였습니다.

한국어 언어모델에 DUS 적용하기

Depth Up Scaling from Solar

업스테이지 Solar에 사용된 DUS(Depth Up Scaling)을 적용한 모델도 소개하였습니다. 기존 Solar는 미스트랄 기반의 한국어를 일부하는 언어모델임에도 성능 개선이 좋았다는 점에 착안하여 한국어를 잘하는 모델 중 작은 Yi-Ko-6B 모델에 적용해 보았는데요. 결과는 놀라웠습니다. 첫 스텝의 loss부터 매우 낮은 2 정도 (보통 8~10) 에서 시작하는 등 DUS 방법론의 탁월함을 한번 더 확인했습니다. 그리고 여러 실험 끝에 성능이 가장 좋았던 Yi-Ko-DUS-9B 모델을 공개하였습니다.

마무리

앞에서 소개한 3가지뿐만 아니라 한국어 베이스 모델을 만들게 된 과정, 학습 데이터 구축, 모델 성능 평가하기, 배포와 라이선스 등 한국어 오픈액세스 언어모델을 제작하는 모든 과정을 자세히 설명해 주셨습니다. 언어모델에 관심이 많고 직접 만들어 보고 싶은 독자분들이라면 꼭 모두팝 영상도 챙겨보시길 추천 드립니다.

모두팝 영상

No Title

본 영상은 모두의연구소만의 지식 공유 세미나 #모두팝 영상입니다. ・ 일시 : 2024년 01월 30일 (화) 19시 30분 ・ 장소 : 모두의연구소 강남캠퍼스 라운지 ・ 주소 : 서울특별시 강남구 강남대로 324 역삼디오슈페리움 2층 모두의연구소 [프로그램 세부] 0:00 1.

관련 블로그 : 쉽고 빠르게 익히는 실전 LLM 리뷰