비즈니스 문제를 해결하고 예측하는 데이터 사이언티스트가 되고 싶다면?
#인공지능 

VERA – RAG 검증과 평가

VERA (Validation and Evaluation of Retrieval-Augmented Systems) 는 RAG 시스템에서 LLM의 출력의 투명성과 신뢰성을 향상시키기 위해 설계된 프레임워크입니다. VERA는 RAG 시스템 평가 방식을 두 가지 중요한 방식으로 개선합니다.

2024-09-19 | 김성진

(이 글은 ‘VERA: Validation and Evaluation of Retrieval-Augmented Systems‘ 논문을 번역하였습니다.)

VERA 소개

VERA (Validation and Evaluation of Retrieval-Augmented Systems) 는
RAG 시스템에서 LLM 출력의 투명성과 신뢰성을 향상시키기 위해 설계된 프레임워크입니다.

VERA는 RAG 시스템 평가 방식을 두 가지 중요한 방식으로 개선합니다.

  • 1.
    다차원 평가 지표 세트를 단일 종합 순위 점수로 통합하는 교차 인코더 기반 메커니즘을 도입합니다.
    다차원 평가 지표 세트는 개별 평가 지표의 우선순위를 설정하는 문제를 해결합니다.
  • 2.
    문서 저장소 전반에 걸쳐 LLM 기반 지표에 대한 부트스트랩 통계를 적용합니다.
    저장소의 주제 범위를 보장하고 검색 시스템의 전반적인 신뢰성을 향상시킵니다.

 

VERA 검증과 평가

전통적인 RAG 시스템 평가 방법은 광범위한 수작업 주석과 지속적인 인간 모니터링을 포함합니다.
이는 많은 자원을 소모하는 작업입니다.

VERA는 LLM 기반 평가 메커니즘통계 추정기를 활용하여, 생산 환경에 적합한 주석 및 평가 도구를 제공합니다.

VERA 는 정보 검색의 최적화를 보장하기 위해 검색의 정밀도재현율을 측정합니다.
생성된 답변의 충실성과 관련성을 평가함으로써 RAG 시스템의 검색 및 생성 단계를 효율적으로 평가합니다.

또한 이러한 검색 및 생성 지표를 통합합니다.
RAG 시스템을 서로 비교할 수 있는 단일 종합 점수를 생성하는 교차 인코더를 활용하여 평가를 강화합니다.

단일 점수를 통해 사용자는 RAG 시스템의 성능을 신속하게 파악합니다.
RAG 성능에 예기치 않은 변화가 발생했을 때 배포를 롤백할지 여부와 같은 엔지니어링 결정을 내릴 수 있습니다.

요즘같은 GPT 시대에는 합성 데이터가 급속히 확산됩니다.
VERA 는 문서 저장소 (vector database) 의 주제 적합성을 검증하고 평가하기 위한 혁신적인 방법을 도입합니다.

문서 저장소의 주제 적합성은 특정 주제와 관련하여 저장된 문서들이 해당 주제에 얼마나 관련성이 있으며,
불필요한 내용 없이 주제에 집중하는지를 의미합니다.

“클라우드 컴퓨팅 영업 및 마케팅” 라는 주제로 예를 들어봅시다.

저장소의 주제 적합성은 클라우드 컴퓨팅 서비스의 판매 및 마케팅에 구체적으로 관련된
전략, 트렌드 및 분석에 초점을 맞춘 문서의 비율을 측정합니다.

반면, 의료 관리, 전통적인 소매 마케팅 또는 일반적인 IT 인프라와 같은 관련 없는 주제는 배제합니다.

VERA 는 특정 주제에서 저장소 내 문서의 적절성을 평가합니다.
특정 주제나 쿼리에 대한 저장소 내 문서들이 얼마나 적절하게 관련되어 있는지를 평가합니다.

 

VERA 방법론

VERA 는 먼저 LLM 기반 지표를 사용하여 문서 저장소의 무결성을 체계적으로 평가합니다.
이 지표에는 검색 정밀도, 재현율, 충실도, 답변 관련성이 포함됩니다.

이후, VERA는 순위 기반 집계 및 부트스트래핑과 같은 고급 기법을 적용하여, 지표의 사용성, 신뢰성, 재현성을 향상시킵니다.

마지막으로, 대조 분석을 통해 문서 저장소의 주제 적합성을 평가합니다.

이러한 접근 방식은 문서 검색의 적절성과 정확성을 평가할 뿐만 아니라 검색된 정보의 무결성과 주제 일관성을 보장합니다.


VERA는 사용자 쿼리에서 시작하여, RAG 시스템에서 검색된 문서 및 LLM이 요약한 응답과 결합합니다.

이러한 요소들은 개별 질문-답변 쌍의 LLM 기반 RAG 평가의 기초를 형성하며,
문맥 관련성, 답변 충실성, 답변 관련성 지표가 꼼꼼하게 평가되도록 보장합니다.

그런 다음, 이 지표들은 교차 인코더를 사용하여 통합 점수로 집계되며,
사용자는 특정 지표에 우선순위를 부여해 개발에 대한 결과 지향적인 결정을 신속하게 내릴 수 있습니다.

마지막으로 부트스트랩 통계가 적용되어 LLM 기반 지표를 문서 저장소 전체에 걸쳐 적용하고
신뢰 구간을 설정하며, 검색 시스템의 전반적인 성능을 평가합니다.

이와 같은 견고한 평가 파이프라인은 문서 검색에서 높은 수준의 정확성과 신뢰성을 유지하는 데 필수적이며,
특히 정보의 정확성이 중요한 도메인에서 더욱 중요합니다.

VERA 방법론 – 1. LLM을 평가자로 사용

최근 LLM의 정보 검색 능력, 미묘한 차이의 이해, 추론 능력의 발전으로 인해
시스템 평가와 같은 중요한 작업에서 LLM의 응용이 현실적으로 가능해졌습니다.

VERA 는 Anthropic Claude V3 Haiku를 기본 LLM으로 사용하여 RAG 평가를 수행합니다.
Haiku는 비용 대비 효과가 뛰어나기 때문에 선택되었습니다.

주요 추론 데이터셋에서 경쟁력 있는 성능을 보여줍니다.

예를 들어, MMLU 에서 75.2%, ARC-Challenge 에서 89.2%, HellaSwag 에서 85.9%의 성능을 기록하였습니다.

모든 평가 벤치마크에서 GPT-3.5를 초과하는 성과를 거두었습니다.
특정 사용 사례나 비용을 고려해 다른 LLM을 선택할 수도 있습니다.

RAGAS나 ARES와 같은 기존의 LLM 기반 RAG 평가 시스템과 마찬가지로, VERA는 다음과 같은 LLM 기반 평가 지표를 측정합니다.

충실성(Faithfulness)

이 지표는 답변이 제공된 문맥에만 기반하여 생성되었는지, 즉 어떠한 허구적 요소가 없는지를 평가합니다.

언어 모델에게 각 질문(q), 답변(a), 문맥(c) 쌍에 대해 이진 “예” 또는 “아니오” 레이블을 생성하도록 지시하며,
충실성 지표는 이진 레이블의 평균값으로 계산됩니다.

검색 재현율(Retrieval Recall)

이 지표는 시스템이 주어진 문맥에서 쿼리와 관련된 모든 중요한 정보를 효과적으로 검색했는지를 평가합니다.
즉, 답변에 포함된 정보가 문맥에 의해 명시적으로 뒷받침되는지를 평가합니다.

계산 과정은 다음과 같습니다:

  • 답변에서 총 문장 수를 셉니다.
  • “문맥에 의해 뒷받침된” 문장 수를 셉니다.
  • “문맥에 의해 뒷받침된” 문장의 비율을 총 문장 수로 나누어 재현율을 계산합니다.

 

검색 정밀도(Retrieval Precision)

이 지표는 시스템이 쿼리에 대해 가장 관련성 높은 문맥만 검색하여 불필요한 내용의 포함을 최소화하는 능력을 평가합니다.

높은 정밀도는 모델이 질문과 직접 관련된 정보만을 고려하도록 보장합니다.
검색 정밀도는 문맥에서 추출된 문장이 질문에 대한 답변을 직접 지원하는지 여부에 따라 계산됩니다.

계산 과정은 다음과 같습니다:

  • 답변을 직접 지원하는 문장을 문맥에서 추출합니다.
  • 추출된 문장이 변형되지 않도록 합니다.
  • 질문에 답할 수 있는 관련 문장이 없거나 문맥에서 충분한 정보를 제공하지 않을 경우 “정보 부족”으로 반환합니다.
  • 추출된 문장과 문맥의 유사성을 임베딩 모델을 사용해 측정합니다.
  • 문맥에서 추출된 관련 문장의 비율을 총 문장 수로 나누어 정밀도를 계산합니다.

 

답변 관련성(Answer Relevance)

이 지표는 생성된 답변이 주어진 질문에 직접적으로 응답하는지를 평가하며, 쿼리와 검색된 문맥 모두와의 일치 여부를 보장합니다.

불완전하거나 중복되거나 불필요한 정보를 포함하는 응답에 대해서는 점수를 감점합니다.
답변 관련성 지표는 0에서 1 사이의 점수로 평가되며, 1은 가장 높은 수준의 관련성을 나타냅니다.

계산 과정은 다음과 같습니다:

  • 각 생성된 답변에 대해 여러 질문을 생성하여 답변이 쿼리와 얼마나 일치하는지 평가합니다.
  • 생성된 질문과 원래 질문 사이의 유사성을 임베딩을 사용해 측정합니다.
    이는 다음과 같은 단계를 포함합니다:

    • 1. 원래 질문과 생성된 질문을 임베딩 모델로 임베딩합니다.
    • 2. 원래 질문 임베딩과 각 생성된 질문 임베딩 간의 코사인 유사도를 계산합니다.
  • 최종 점수는 각 답변에 대한 모든 생성된 질문의 평균 코사인 유사도로 계산되며,
    이는 답변의 관련성을 반영합니다.

 

VERA 방법론 – 2. 다차원 평가 지표의 통합

다차원 평가 지표를 단일 종합 점수로 통합합니다.

각 지표의 유용성을 통합하여, 사용자들이 이러한 지표의 변동성을 고려하면서도 정보에 근거한 결정을 내릴 수 있도록 돕습니다.

적절한 통합으로 사용자가 여러 지표를 일일이 분석하고 그 결과를 바탕으로 결정을 내리는 부담을 덜어줍니다.
이는 개발 주기에서 반복 속도를 높이는 데 기여합니다.

또한 각 다차원 지표가 저마다의 특성을 가지고 있기 때문에, 어떤 지표에 우선순위를 둬야 하는지에 대한 문제를 알립니다.

충실성이 높은 시스템과 관련성이 낮은 시스템 중 어느 쪽이 더 우수한지를 예로 들 수 있습니다.
회귀 테스트 중에 사용자가 신속하게 조치를 취하고, 배포를 롤백할지 여부를 결정하는 데 도움을 줄 수 있습니다.

전통적인 기법인 단순 집계나 순위 융합은 상호 보상 효과가 발생하거나
개별 지표의 미세한 차이를 가리기 때문에 명확하지 않은 경우가 많습니다.

이러한 문제를 해결하기 위해, VERA 는 문서 관련성을 보다 정확하게 평가하기 위해
교차 주의 메커니즘을 활용하는 교차 인코더 모델을 사용합니다.

전통적인 교차 인코더 모델은 단어와 구 사이의 의미론적 관계를 포착하여,
대규모 텍스트에서 가장 관련성 높은 텍스트 부분을 강조하는 데 효과적입니다.

교차 인코더는 질문-답변 쌍마다 관련성 점수를 생성하여,
이 쌍들을 효과적으로 비교하고 순위를 매길 수 있게 해줍니다.

공식적으로, 사용자 입력 질문 q와 답변 a에 대한 로짓 점수 σ는 다음과 같이 결정됩니다:

    $$ σ(q, a) = CE([CLS] q [SEP] a [SEP]) \times W $$

여기서 CE는 교차 인코더, CLS와 SEP는 각각 분류기 토큰과 구분자 토큰을 나타내며, W는 쿼리와 답변 간의 관계를 나타내는 학습된 행렬입니다.

 

다차원 검색 모델의 두 단계

최근에는 다차원 검색 모델이 일반적으로 두 단계로 구현됩니다.

첫 번째 단계인 검색은 코퍼스에서 관련 문서의 하위 집합을 효율적으로 식별하는 방법입니다.
두 번째 단계인 재랭킹에서는 추가적인 관련성 차원이 고려됩니다.

첫 번째 단계 검색을 수행하는 예시로 BM-25 알고리즘을 사용할 수 있습니다.
BM-25는 문서의 쿼리에 대한 관련성을 판단하고 이를 점수로 매깁니다.

이후 두 번째 단계에서 재랭커는 기존의 교차 인코더 아키텍처를 수정하여,
첫 번째 단계에서 얻은 BM-25 점수를 교차 인코더의 입력 토큰으로 사용합니다.

수학적으로, 이는 다음과 같이 나타낼 수 있습니다:

    $$ σ(q, a) = CE([CLS] q [SEP] BM25 [SEP] a [SEP]) \times W $$

논문에서는 추가적인 관련성 차원을 교차 인코더에 통합하여 평가 기록을 서로 재랭킹하는 유사한 과정을 따릅니다.

그러나 교차 인코더의 입력 구조를 수정하는 대신, 각 질문-답변 쌍에 추가적인 “관련성 진술”을 통합하여 교차 인코더에 입력합니다.

이러한 관련성 진술은 각 다차원 평가 지표의 유용성과 실제 점수와 관련된 텍스트로 구성됩니다.

이 방법은 평균 정밀도, 정규화된 할인 누적 이득(NDCG), 평균 역순위(MRR) 지표에서
기본 교차 인코더 모델 대비 4-5%의 성능 향상을 보여줍니다.

 

관련성 진술의 주요 두 단계

첫 번째로, 위에서 언급한 추가적인 관련 정보를 입력 텍스트에 강화합니다.
두 번째로 쿼리와 “강화된” 답변을 사전 훈련된 교차 인코더에 입력하여 최종 종합 점수를 얻습니다.

이 점수는 기록을 서로 재랭킹하는 데 사용됩니다. 이러한 구조화된 접근 방식은 문서 관련성에 대한 철저하고 정교한 평가를 보장합니다.

 

텍스트 향상:
교차 인코더는 입력 및 출력 텍스트가 필요합니다.

VERA 내에서 입력 텍스트는 RAG 시스템에 입력된 사용자 쿼리입니다.
출력 텍스트는 RAG 시스템의 원래 응답과 더불어 각 평가 지표의 유용성과 점수에 대한 추가 정보를 포함하는 강화된 답변입니다.

예를 들어, 질문-답변 쌍 (q, a)가 0.7의 충실성 점수를 획득한 경우,
강화된 답변 ā는 RAG 시스템의 원래 응답에 다음과 같은 텍스트를 추가하여 생성됩니다:

“충실성은 생성된 답변이 주어진 문맥과 사실적으로 일관하는지 여부를 측정합니다.
답변 내의 모든 주장이 주어진 문맥에서 추론될 수 있는 경우 충실하다고 간주됩니다.
충실성은 0에서 1 사이로 측정되며, 문맥에 없는 주장을 포함하는 답변에는 낮은 점수가 부여되고,
문맥에서 정보를 사용한 답변에는 높은 점수가 부여됩니다.
주어진 질문, 문맥 및 답변의 경우, 충실성 점수는 0.7입니다.”

 

교차 인코더 순위 매기기:
텍스트 향상 단계가 완료되면, VERA는 질문과 강화된 답변을 ms-marco-MiniLM-L-12-v2 모델 (MTEB 리더보드의 상위 교차 인코더 모델) 에 입력합니다.

공식적으로, 사용자 입력 질문 q와 강화된 답변 ā에 대한 로짓 점수 σ는 다음과 같이 결정됩니다:

    $$ σ(q, ā) = CE([CLS] q [SEP] ā [SEP]) \times W $$

이 교차 인코더 모델은 로짓 값을 학습하도록 훈련되었으며, 이를 expit 함수를 사용하여 0과 1 사이의 값으로 정규화할 수 있습니다.

논문에서는 결과를 로짓 점수로 제시합니다.

 

VERA 방법론 – 3. 부트스트랩 기반 LLM RAG 평가 지표

RAG 시스템을 평가하려면 검색 정밀도, 재현율, 충실성, 관련성을 측정해야 합니다.
그러나 LLM의 확률적 특성, 추론 한계, 문서 저장소의 주제 적합성 때문에 이러한 지표는 변동할 수 있습니다.

이를 해결하기 위해, 사전 계산된 지표 값에 부트스트래핑을 적용했습니다.

이 방법은 지표의 변동성과 분포를 분석할 수 있는 견고한 통계적 프레임워크를 제공함으로써
결과의 신뢰성과 재현성을 높이고, 특정 콘텐츠 유형에 대한 문서 저장소의 주제 적합성 평가를 지원합니다.

LLM은 랜덤 시드 값과 같은 요소로 인해 다양한 출력을 생성할 수 있습니다. 이는 전통적인 평가 방식이 이러한 변동성의 일부만을 포착하여 성능에 대한 잘못된 결론을 유도할 수 있습니다.

부트스트랩을 지표 값에 직접 적용함으로써, 모델 평가를 여러 번 시뮬레이션하여 가능한 결과의 범위를 더 넓게 포착합니다.

그리고 시스템 성능에 대한 더 포괄적인 그림을 제공합니다.

부트스트래핑 지표

부트스트래핑 지표 값은 관찰된 지표 계산 세트에서 반복적으로 샘플링하여, 다수의 가상 평가 시나리오를 생성합니다.

부트스트래핑을 통해 계산된 지표 값은 모든 지표에 대해 동일한 방식으로 수행됩니다.

주어진 지표 M에 대해, 먼저 문서 저장소 데이터셋 D = {d₁, d₂, …, dₙ}에 대해 각 문서 dᵢ에 대한 값을 M(dᵢ)로 계산합니다.

그 결과 지표 값 세트 M = {m₁, m₂, …, mₙ}이 생성됩니다.

그런 다음, 각 지표 M에 대해 B 개의 부트스트랩 샘플을 생성합니다.

각 샘플 s는 M에서 지표 값을 대체하여 무작위로 선택해 생성됩니다.
지표 M에 대한 각 부트스트랩 샘플은 Mₛ = {m₁ₛ, m₂ₛ, …, mₙₛ}로 표현될 수 있습니다.
각 부트스트랩 샘플에 대해, 아래와 같이 샘플 평균과 분산을 계산합니다.

평균 및 변동성 추정:
LLM 출력의 내재된 무작위성을 반영하여 성능 지표의 평균과 분산을 추정하는 통계적으로 견고한 방법을 제공합니다.

부트스트랩 샘플의 평균 M̄은 다음과 같이 추정됩니다:

    $$ M̄ = \frac{1}{B} \sum_{s=1}^{B} m̄ₛ $$

그리고 분산 σ²(M) 는 다음과 같습니다:

    $$ σ²(M) = \frac{1}{B-1} \sum_{s=1}^{B} (m̄ₛ - M̄)² $$

신뢰 구간:
부트스트랩 분포의 퍼센타일에서 유도될 수 있으며, 일반적으로 95% 신뢰 구간을 위해 2.5번째와 97.5번째 퍼센타일을 사용합니다.

부트스트래핑 크기 B와 샘플 크기 n:
샘플 크기에 비해 최적의 부트스트래핑 크기에는 엄격한 보편적 규칙이 없습니다.

그러나 샘플 크기(n)가 최소 30, 이상적으로는 50 이상일 때 부트스트래핑이 잘 작동하며,
표준 오차 및 신뢰 구간 추정이 정확합니다.

부트스트래핑 크기는 1,000 에서 5,000 이상이 안정적인 수렴과 복잡한 통계에 대해 권장됩니다.
샘플 크기가 커질수록 더 작은 부트스트래핑 크기로도 유사한 정확도를 얻을 수 있습니다.

B가 증가함에 따라 표준 오차 또는 기타 통계의 수렴을 모니터링하여
각 사용 사례에 적합한 최적의 부트스트래핑 크기를 결정하는 것이 좋습니다.

편향되지 않은 추정기:
부트스트랩 추정기는 LLM 기반 지표에 대해 편향되지 않은 추정기로 작용하며,
원래 추정기와 부트스트랩 분포의 기대값을 효과적으로 추정합니다.

 

VERA 방법론 – 4. 대조적 쿼리 분석을 통한 문서 저장소 주제 적합성 평가

문서 저장소에는 다양한 콘텐츠가 포함되어 있어 도메인 특화 정보 검색 시 높은 엔트로피를 유발하며,
특히 산업 특화 도메인에서는 저장소의 주제 적합성을 파악하는 것이 어렵습니다.

이를 해결하기 위해, 주제와 완벽히 관련된 쿼리(긍정 사례)와 무관한 쿼리(부정 사례)에 대한 응답을 구분하는 대조 분석 프레임워크를 구현했습니다.

이 프레임워크는 문서 저장소의 주제적 일관성을 평가하기 위해 구조화된 통계 분석을 제공하는 부트스트랩 추정 방식을 제안합니다.

이 접근 방식은 대조 학습에서 영감을 받은 여러 주요 단계를 포함합니다:

  • 쿼리 생성:
    두 가지 구별된 쿼리 세트를 개발합니다.
    긍정 쿼리 세트는 특정 관심 도메인과 관련된 쿼리이며,
    부정 쿼리는 해당 도메인과 의도적으로 무관한 쿼리로 선택됩니다.
  • 검색 및 평가:
    대형 언어 모델(LLM) 또는 유사한 검색 시스템을 사용하여 각 쿼리에 대한 응답을 검색하고 평가합니다.
    검색 정밀도, 재현율, 충실성, 답변 관련성 등의 평가 지표를 계산하여 응답의 품질과 관련성을 평가합니다.
  • 부트스트랩 통계:
    각 평가 지표에 부트스트랩 샘플링 기법을 적용합니다.
    이를 통해 수집된 지표에서 여러 하위 샘플을 생성하고,
    이들 샘플에 대한 통계적 측정(예: 평균, 분산)을 계산하여 데이터를 견고하게 분석합니다.
  • 비교 분석:
    긍정 쿼리 세트와 부정 쿼리 세트 간의 부트스트랩 통계 분포를 비교합니다.
    이 단계는 저장소의 콘텐츠가 관심 도메인과 얼마나 잘 일치하는지,
    그리고 관련 쿼리와 무관한 쿼리 간 콘텐츠 처리에서의 유의미한 차이를 식별하는 데 중요한 역할을 합니다.

 

이 접근 방식은 문서 저장소의 주제 적합성을 정량적으로 평가하고,
특정 도메인과의 일관성을 분석하는 데 유용합니다.

 

VERA 실험 조건

VERA는 포괄적인 분석을 보장하기 위해 공공 및 독점 데이터셋을 모두 사용합니다.
일반적인 지식을 평가하기 위해, TREC 2023 딥러닝 트랙의 오픈소스 MS MARCO 데이터셋을 활용했습니다.
동시에, AWS 영업 및 마케팅 도메인에 맞춘 독점 데이터셋을 포함하여,
다양한 산업 분야의 고유한 과제와 요구 사항을 반영했습니다.

이러한 데이터셋의 조합은 RAG 시스템의 일반적 적용 가능성과, 특정 도메인에 대한 성능을 평가하는 데 도움을 줍니다.
실제 시나리오에서 최적화할 수 있는 영역을 이해하는 데 기여합니다.

 

VERA 실험 조건 – 1. 모델

도메인별 합성 데이터 생성을 위해, Anthropic V3 Haiku를 사용하여,
실험 요구 사항에 맞는 고품질 합성 쿼리와 응답을 생성했습니다.

이 모델의 뛰어난 생성 능력 덕분에 합성 데이터셋은 다양성과 작업별 요구 사항에 맞춰 잘 정렬되었습니다.
응답 평가를 위해 Anthropic V3 Sonnet을 LLM 심사자로 사용했습니다.

Anthropic Haiku와 Llama3 같은 LLM과 고급 검색 모델의 다양한 조합을 사용하여,
여러 RAG 시스템의 성능을 비교했습니다.

검색 모델은 e5-mistral-7b-instruct, titan-embedding-text-G1, bge-large-en-v1.5로,
모두 MTEB 리더보드 상위 모델로 인정받아 복잡한 검색 작업을 처리하는 데 있어 뛰어난 성능을 보입니다.

이러한 최첨단 LLM과 검색 모델의 다양한 조합은 서로 다른 RAG 구성의 강점과 한계를 철저하게 평가하고,
관련성 있고 정확한 응답을 생성하는 데 도움을 줍니다.

 

VERA 실험 조건 – 2. 데이터셋

TREC 2023 딥러닝 트랙은 대규모 데이터셋을 활용한 정보 검색 향상에 중점을 둡니다.
주로 패시지 및 문서 순위 매기기 작업을 다룹니다.

MS MARCO 데이터셋을 사용하여, 실세계 시나리오에서 효과적인 검색 및 재랭킹 시스템을 분석하고 개발합니다.

연구에서는 실험 목적을 위해 TREC 2023 딥러닝 트랙의 소규모 패시지 순위 데이터에 집중했습니다.
실험을 위해 887개의 고유하고 완벽하게 관련된 쿼리-패시지 쌍(점수=3)과,
500개의 무작위로 선택된 무관한 쿼리-패시지 쌍(점수=0)을 사용했습니다.

추가로, 클라우드 컴퓨팅 영업 및 마케팅 주제와 관련된 400개의 패시지와, 농구 주제와 관련된 100개의 패시지를 생성했습니다.

그런 다음, 클라우드 컴퓨팅 영업 및 마케팅에 관한 200개의 쿼리,
농구에 관한 200개의 쿼리, 이 두 주제와 관련이 없는 무작위 쿼리 200개를 생성했습니다.

 

VERA 실험 결과 및 분석

VERA 실험 결과 및 분석 – 1. VERA LLM 기반 RAG 평가 지표

RAG 시스템 여러 개의 성능을 평가하여, 완벽하게 관련된 쿼리-패시지 쌍(“PR”)과 무관한 쿼리-패시지 쌍(“IR”)을 비교합니다.

충실성, 답변 관련성, 검색 재현율, 검색 정밀도, 그리고 통합 단계에서 교차 인코더가 반환한 로짓 값(표의 “Agg” 열)을 분석했습니다.

결과는 표 1부록 표 3에 제시되어 있으며, 두 표에 나오는 모든 지표 값은 평균값으로 보고됩니다.

특정 쿼리에 대해 검색된 상위 5개 패시지를 LLM에 입력하여 최종 요약 응답을 생성했습니다.

실험에서 데이터셋의 레이블 “PR”과 “IR”은 각각 “Perfectly Relevant”와 “Irrelevant”을 나타냅니다.
LLM의 고유한 무작위성에 의해 결과가 덜 변동하고 더욱 결정론적이도록 하기 위해 다음 설정을 적용했습니다:

temperature = 0,
top p = 0.01.

두 표에 있는 지표 값은 모든 쿼리 결과의 평균값입니다.

이러한 설정은 LLM의 무작위성 요소를 줄여, 보다 안정적이고 신뢰성 있는 결과를 도출하기 위해 사용되었습니다.

Llama3 vs. Anthropic Claude V3 Haiku

실험 결과에 따르면, 오픈소스 LLM인 Llama3가 Anthropic의 Claude V3 Haiku와 같은 기존 모델에 비견될 만한 성능을 보여줍니다. 표 1에서 이 모델들은 사실 확인과 의미론적 관계 포착을 효과적으로 수행합니다.

높은 충실성 및 관련성 점수로 이를 확인할 수 있습니다.
또한, 검색 재현율과 정밀도가 상당히 높아, 모델들이 관련 정보를 정확하게 검색함을 시사합니다.

반면, 부록 표 3에서의 낮은 정밀도 점수는 쿼리가 지식 베이스에서 다루는 주제 범위를 벗어났습니다.
지식 베이스 내의 주제가 쿼리에 비해 너무 다양할 수 있음을 암시할 수 있습니다.
다른 모델 구성 간의 비교에서 Agg-Logit 점수는 다양한 지표에서 성능 차이를 미세하게 보여줍니다.

이러한 강력한 LLM과 임베딩 모델의 성능은 “기준선”으로 T-5 FLAN Base라는 약한 LLM 및 all-MiniLM-L6-v2 임베딩 모델과 비교되었습니다. 표 1표 2에서 볼 수 있듯이, 개별 평가 지표와 Agg-Logit 점수는 약한 LLM + 임베딩 모델을 사용할 때 항상 더 낮게 나타났으며, 이는 완벽하게 관련된 데이터셋이나 무관한 데이터셋을 평가할 때에도 일관되었습니다.

이 비교는 강력한 LLM 및 임베딩 모델이 더 우수한 평가 성능을 보임을 강조합니다.
특히 사실 확인과 의미론적 관계 포착에서 두드러진 차이를 나타냅니다.

 

VERA 실험 결과 및 분석 – 2. 문서 저장소 주제 적합성 분석을 위한 부트스트랩 지표

합성 데이터셋을 분석하기 위해 부트스트랩 통계를 사용했습니다.
합성 쿼리 세트와 전체 패시지 세트에 대해 대체를 허용하는 부트스트랩 샘플링을 사용했습니다.

합성 쿼리 세트에는 각 세트에 200개의 합성 쿼리가 있습니다.
주제에 따라 “Sales”, “Basketball”, “Random”으로 표 3에 레이블을 지정했습니다.
이 접근 방식은 평균 및 분산과 같은 중요한 통계적 측정값을 계산할 수 있게 해줍니다.
데이터 저장소의 주제 적합성을 평가하는 견고한 기반을 제공합니다.

샘플 크기 50과 부트스트랩 크기 500을 사용했습니다.
이는 각 메트릭과 각 쿼리 세트에 대해 통계의 안정적인 수렴을 보장합니다.
이러한 비교 분석은 문서 저장소의 콘텐츠 주제 적합성을 정량화합니다.
지정된 도메인과 관련된 콘텐츠를 구별하고 정확하게 처리하는 데 도움을 줍니다.

이 연구에서는 부트스트랩 통계를 사용합니다.
동일한 문서 저장소에서 세 가지 다른 합성 쿼리 세트에 대해, 각 성능 지표의 평균 및 신뢰 구간을 계산할 수 있었습니다.
이를 통해 각 주제에 대한 쿼리 세트 간 검색 관련 지표에서 눈에 띄는 차이를 확인할 수 있었습니다.

“Sales” 쿼리 세트는 검색 재현율, 정밀도, 관련성에서 더 높은 값을 보였습니다.
이는 합성 패시지 세트의 대다수(80%)가 클라우드 컴퓨팅 영업 및 마케팅 데이터와 관련이 있기 때문입니다.
비교하자면, “Basketball” 쿼리 세트는 “Random” 쿼리 세트보다 훨씬 높은 결과를 보였습니다.
그리고 “Sales” 쿼리 세트보다는 상대적으로 낮은 결과를 나타냈습니다.

이는 예상 범위 내의 결과로, 문서 저장소 주제 적합성을 평가하는 데 있어 부트스트랩 접근 방식의 유효성을 입증했습니다.

참고