LLM 성능 향상 기술 논문들 – 모두연 AI 뉴스(241022)
LLM 성능 향상을 확인하기 위해서는 우선 LLM의 평가와 비용과 재현성 문제를 해결하는 모델이 필요합니다.뿐만 아니라 LLM 성능 향상을 위해서 필수적인 웹 에이전트를 효과적으로 배치하는 것 또한 중요해졌습니다.
오늘의 모두연 AI뉴스 내용은 LLM 성능 향상 기술 논문들입니다.
LLM 성능 향상을 확인하기 위해서는 우선 LLM의 평가와 비용과 재현성 문제를 해결하는 모델이 필요합니다.
뿐만 아니라 LLM 성능 향상을 위해서 필수적인 웹 에이전트를 효과적으로 배치하는 것 또한 중요해졌습니다.
오늘의 AI뉴스는 두가지에 해당하는 내용을 준비해봤습니다.
CompassJudger-1: LLM 성능 향 평가의 새로운 지평을 여는 올인원 심사 도구
논문링크
이 논문은 LLM 성능 향상 평가를 위한 포괄적인 판단 모델인 ‘CompassJudger-1’을 소개합니다.
LLM의 지속적인 발전을 위해서는 효율적이고 정확한 평가가 필수적인데, 특히 주관적 평가는 실제 사용 시나리오와 인간의 선호도를 잘 반영하지만 비용이 많이 들고 재현성이 떨어진다는 문제가 있습니다.
CompassJudger-1은 이러한 문제를 해결하기 위해 개발된 최초의 오픈소스 올인원 판단 모델로, 단일 점수 평가와 두 모델 간 비교, 지정된 형식에 따른 평가, 비평 생성, 다양한 일반 작업 수행 등 폭넓은 기능을 제공합니다.
연구진은 또한 다양한 주관적 평가 작업을 포함하는 새로운 벤치마크인 ‘JudgerBench’를 구축했습니다.
이는 아레나 부분(JDB-A)과 벤치마크 부분(JDB-B)으로 구성되어 있으며, 실제 인간의 평가와 LLM 평가를 모두 포함합니다.
실험 결과, CompassJudger-1은 오픈소스 모델 중 가장 우수한 성능을 보여주었으며, GPT-4의 판단 능력의 95% 이상을 달성했습니다.
이는 주관적 평가의 비용을 크게 줄이면서도 높은 품질의 평가를 가능하게 합니다.
연구진은 이러한 판단 모델이 단순한 평가를 넘어 모델의 반복적인 개선과 발전을 돕는 도구로 활용될 수 있다고 제안합니다.
LLM 에이전트, 웹 탐색의 한계를 넘다: 월드 모델의 힘!
논문링크
이 논문은 웹 환경에서 작동하는 LLM 기반 에이전트의 성능을 개선하기 위해 월드 모델(World Model)을 도입한 ‘WMA(World Model Augmented) web agent’를 제안합니다.
현재 LLM 기반 웹 에이전트들은 장기적 작업에서 성능이 좋지 않은데, 이는 자신의 행동이 가져올 결과를 예측하지 못하기 때문입니다.
예를 들어, 환불이 불가능한 항공권을 반복해서 구매하는 등의 오류를 범할 수 있습니다.
연구진은 먼저 최신 LLM들(GPT-4, Claude-3.5 등)이 행동의 결과를 예측하는 능력이 부족하다는 것을 실험을 통해 확인했고,
이를 해결하기 위해 에이전트가 행동을 취하기 전에 그 결과를 시뮬레이션할 수 있는 월드 모델을 개발했습니다.
마치며
이러한 다양한 연구들은 LLM 성능 향상 평가를 위한 여러가지 단초들이 될것이라고 생각합니다.
또한 다양한 연구자들에게 영감을 주어 더 좋은 논문이 나올 것이라 생각합니다.