비즈니스 문제를 해결하고 예측하는 데이터 사이언티스트가 되고 싶다면?
#인공지능 

Falcon Mamba 7B : 맘바 아키텍처를 응용한 새로운 언어 모델 [모두레터]

오픈소스 언어 모델 팰컨(Falcon)을 개발한 연구 기관 TII가 발표한 새로운 언어 모델 '팰컨 맘바 7B(Falcon Mamba 7B)'에 대해 알아봅시다.

2024-08-19 | 하자혜

📮모두의연구소 공식 뉴스레터 I 모두레터 I 2024년 8월 19일


  • Falcon Mamba 7B: 맘바 아키텍처를 응용한 새로운 언어 모델 등장
  • 일론 머스크의 xAI, 언어 모델 ‘그록-2’ 출시

 

Falcon Mamba 7B: 맘바 아키텍처를 응용한 새로운 언어 모델 등장

falcon mamba 7b thumnail

©Hugging Face

오픈소스 언어 모델 팰컨(Falcon)을 개발한 연구 기관 TII(Technology Innovation Institute)가 새로운 언어 모델 ‘팰컨 맘바 7B(Falcon Mamba 7B)’를 발표했습니다. 기존의 언어 모델에 널리 사용되었던 트랜스포머(Transformer) 아키텍처의 핵심인 어텐션(attention)으로는 컴퓨팅, 메모리 비용으로 인해 긴 시퀀스를 처리하는 데 한계가 있었는데요. 이 단점을 극복하기 위한 ‘상태 공간(state space) 모델’ 중 하나가 바로 맘바입니다.

이전에도 상태 공간 모델을 이용한 SSLM(State Space Language Model)이 연구되어 왔지만 성능은 좋지 않았는데요. 팰컨 맘바 7B는 비슷한 크기의 트랜스포머 기반 모델 라마 3(Llama 3), 젬마(Gemma) 등과 비슷한 수준의 벤치마크 점수를 기록했고요. 최적화 측면에서는 더 뛰어난 결과를 보였다고 합니다.

 

일론 머스크의 xAI, 언어 모델 ‘그록-2’ 출시

falcon mamba 7b thumnail

©xAI

일론 머스크의 인공지능 스타트업 xAI가 개발하고 있는 언어 모델 ‘그록(Grok)’의 신규 버전이 업데이트되었습니다. 이번에 공개된 모델은 ‘그록-2(Grok-2)’와 ‘그록-2 미니(Grok-2 mini)’의 베타 버전이고요. 기존의 그록-1.5 모델보다 대화, 코딩, 추론 능력이 크게 향상되었습니다. 그록-2 모델은 LMSYS 챗봇 아레나 리더보드에서 GPT-4와 클로드 3.5 소네트(Claude 3.5 Sonnet)보다 높은 종합 점수를 기록했다고 하네요.

벤치마크 테스트 결과, 시각적인 수리 추론 태스크(MathVista)와 문서 기반 질의응답 태스크(DocVQA)의 성능이 특히 좋았다고 합니다. 그록-2 모델은 X(트위터)의 프리미엄 유저들에게 AI 어시스턴트의 형태로 우선 서비스될 예정이고요. 이미지 생성 모델 ‘FLUX’를 개발한 Black Forest Labs와 협업하여 그록 모델의 기능을 확장하기 위한 연구도 진행하고 있다고 하네요!