기업에서 원하는 백엔드 개발자의 시작은 오름캠프
#AI뉴스 

LLM 성능 향상 기술 논문들 – 모두연 AI 뉴스(241022)

LLM 성능 향상을 확인하기 위해서는 우선 LLM의 평가와 비용과 재현성 문제를 해결하는 모델이 필요합니다.뿐만 아니라 LLM 성능 향상을 위해서 필수적인 웹 에이전트를 효과적으로 배치하는 것 또한 중요해졌습니다.

2024-10-22 | 이영빈

오늘의 모두연 AI뉴스 내용은 LLM 성능 향상 기술 논문들입니다.
LLM 성능 향상을 확인하기 위해서는 우선 LLM의 평가와 비용과 재현성 문제를 해결하는 모델이 필요합니다.
뿐만 아니라 LLM 성능 향상을 위해서 필수적인 웹 에이전트를 효과적으로 배치하는 것 또한 중요해졌습니다.
오늘의 AI뉴스는 두가지에 해당하는 내용을 준비해봤습니다.

CompassJudger-1: LLM 성능 향 평가의 새로운 지평을 여는 올인원 심사 도구

ComapssJuddger

CompassJudger 아키텍처

논문링크
이 논문은 LLM 성능 향상 평가를 위한 포괄적인 판단 모델인 ‘CompassJudger-1’을 소개합니다.
LLM의 지속적인 발전을 위해서는 효율적이고 정확한 평가가 필수적인데, 특히 주관적 평가는 실제 사용 시나리오와 인간의 선호도를 잘 반영하지만 비용이 많이 들고 재현성이 떨어진다는 문제가 있습니다.
CompassJudger-1은 이러한 문제를 해결하기 위해 개발된 최초의 오픈소스 올인원 판단 모델로, 단일 점수 평가와 두 모델 간 비교, 지정된 형식에 따른 평가, 비평 생성, 다양한 일반 작업 수행 등 폭넓은 기능을 제공합니다.

연구진은 또한 다양한 주관적 평가 작업을 포함하는 새로운 벤치마크인 ‘JudgerBench’를 구축했습니다.
이는 아레나 부분(JDB-A)과 벤치마크 부분(JDB-B)으로 구성되어 있으며, 실제 인간의 평가와 LLM 평가를 모두 포함합니다.
실험 결과, CompassJudger-1은 오픈소스 모델 중 가장 우수한 성능을 보여주었으며, GPT-4의 판단 능력의 95% 이상을 달성했습니다.
이는 주관적 평가의 비용을 크게 줄이면서도 높은 품질의 평가를 가능하게 합니다.
연구진은 이러한 판단 모델이 단순한 평가를 넘어 모델의 반복적인 개선과 발전을 돕는 도구로 활용될 수 있다고 제안합니다.

LLM 에이전트, 웹 탐색의 한계를 넘다: 월드 모델의 힘!

WMA 에이전트 아키텍처

논문링크
이 논문은 웹 환경에서 작동하는 LLM 기반 에이전트의 성능을 개선하기 위해 월드 모델(World Model)을 도입한 ‘WMA(World Model Augmented) web agent’를 제안합니다.
현재 LLM 기반 웹 에이전트들은 장기적 작업에서 성능이 좋지 않은데, 이는 자신의 행동이 가져올 결과를 예측하지 못하기 때문입니다.
예를 들어, 환불이 불가능한 항공권을 반복해서 구매하는 등의 오류를 범할 수 있습니다.
연구진은 먼저 최신 LLM들(GPT-4, Claude-3.5 등)이 행동의 결과를 예측하는 능력이 부족하다는 것을 실험을 통해 확인했고,
이를 해결하기 위해 에이전트가 행동을 취하기 전에 그 결과를 시뮬레이션할 수 있는 월드 모델을 개발했습니다.

월드 모델 학습의 주요 과제는 웹페이지 관찰값에서 반복되는 요소가 많고 HTML 입력이 길다는 점이었습니다.
이를 해결하기 위해 연구진은 시간 단계 간의 중요한 상태 차이만을 자연어로 기술하는 ‘전이 중심 관찰 추상화(transition-focused observation abstraction)’ 방법을 제안했습니다.
WebArena와 Mind2Web 벤치마크에서의 실험 결과, WMA web agent는 최근의 트리 검색 기반 에이전트들과 비교하여 비용은 6.8배, 시간은 5.3배 더 효율적이면서도 동등한 성능을 보여주었습니다.
또한 파라미터 학습 없이도 에이전트의 정책 선택을 개선할 수 있다는 것을 입증했습니다.

마치며

이러한 다양한 연구들은 LLM 성능 향상 평가를 위한 여러가지 단초들이 될것이라고 생각합니다.
또한 다양한 연구자들에게 영감을 주어 더 좋은 논문이 나올 것이라 생각합니다.