미스트랄 AI, 첫 멀티모달 모델 공개 [모두레터]
믹스트랄(Mixtral)로 잘 알려져 있는 미스트랄 AI(Mistral AI)가 첫 멀티모달 모델 '픽스트랄 12B(Pixtral 12B)'를 공개했습니다.
📮모두의연구소 공식 뉴스레터 I 모두레터 I 2024년 9월 23일
- 미스트랄 AI, 첫 멀티모달 모델 공개
- 큐원 2.5 모델 시리즈 공개
미스트랄 AI, 첫 멀티모달 모델 공개
©Mistral AI
언어 모델 미스트랄(Mistral), MoE(Mixture of Experts) 기법을 사용한 믹스트랄(Mixtral)로 잘 알려져 있는 미스트랄 AI(Mistral AI)가 새로운 모델 픽스트랄 12B(Pixtral 12B)를 공개했습니다. 미스트랄 AI에서는 처음으로 개발된 멀티모달(multimodal) 모델인데요. 이미지와 텍스트가 결합된 데이터로 학습되어 멀티모달 태스크에서 뛰어난 성능을 보였다고 합니다. 멀티모달 태스크뿐만 아니라, 텍스트 벤치마크 테스트에서도 클로드 하이쿠(Claude Haiku), 제미나이 플래시(Gemini Flash) 등 최신 모델과 점수가 비슷하게 나왔다고 하네요.
픽스트랄 모델은 이미지를 토큰으로 변환하는 비전 인코더(vision encoder)와 다음 토큰을 예측하는 멀티모달 트랜스포머 디코더(transformer decoder)로 이루어져 있습니다. 허깅페이스, vLLM을 통해서도 사용해 볼 수 있으니 관심 있는 분들은 참고해 주세요!
큐원 2.5 모델 시리즈 공개
©Qwen
중국의 알리바바 클라우드 팀이 개발한 언어 모델 큐원(Qwen)의 2.5 버전이 공개되었습니다. 일반적인 LLM(Large Language Model)인 ‘큐원 2.5’와 함께, 수학 문제를 해결하는 ‘큐원2.5-매스(Qwen2.5-Math)’와 코딩에 특화된 ‘큐원2.5-코더(Qwen2.5-Coder)’ 시리즈가 발표되었습니다.
큐원원2.5에는 0.5B(파라미터 5억 개)부터 72B까지 다양한 크기의 모델이 있고요. 성능 측면에서는 기존의 큐원2 모델보다 크게 향상된 것은 물론, 72B 모델 기준 ‘라마 3 70B’, ‘믹스트랄 8x22B’보다 높은 벤치마크 점수를 기록했습니다. 큐원2.5-매스 모델은 영어와 중국어로 된 수학 문제만 처리할 수 있지만, 기존 모델의 CoT(Chain-of-Thought) 기법과 함께 Tool-integrated Reasoning 기법을 사용하여 현재 최고 수준의 성능을 기록했다고 합니다.