Python&Django로 ‘비전공자’도 개발자로 초고속 성장!
#인공지능 

BLEU : 기계번역에서 많이 사용하는 지표

기계번역에서 많이 사용하고 있는 지표중 하나인 BLEU 스코어는 간단한 수학적인 연산만으로도 기계번역 품질을 평가할 수 있습니다. 물론 몇가지 한계점은 존재하긴 하지만 간편하게 사용할 수 있다는 점에서 아직까지도 많은 사랑을 받고 있습니다.

2024-05-22 | 이영빈

인공지능 기술의 발전과 함께 기계 번역 분야에서도 눈부신 성장이 이루어지고 있습니다.
과거에는 상상하기 어려웠던 수준의 번역 품질을 보여주는 기계 번역 시스템들이 등장하면서,
이제는 기계 번역이 일상생활과 업무에서 널리 활용되고 있습니다.
하지만 기계 번역의 품질을 객관적으로 평가하는 것은 여전히 중요한 과제로 남아있습니다.
다양한 평가 지표 중에서도 가장 널리 사용되는 것이 바로 BLEU(Bilingual Evaluation Understudy) 스코어입니다.
BLEU 스코어는 기계 번역 결과와 사람이 번역한 참조 번역 간의 유사도를 측정하는 자동 평가 지표로, 2002년 IBM의 Kishore Papineni 등에 의해 제안되었습니다.
이 글에서는 BLEU 스코어의 개념과 계산 방법, 장단점, 그리고 활용 사례에 대해 자세히 알아보고, 나아가 한계와 대안, 그리고 기계 번역 평가의 미래에 대해 논의해보고자 합니다.

BLEU 개념

BLEU 수식

BLEU 스코어의 기본 개념은 간단합니다.
기계 번역 결과와 사람이 번역한 참조 번역 간의 n-gram 일치도를 기반으로 유사도를 계산하는 것입니다.
N-gram은 연속된 n개의 단어 또는 문자를 의미하며, 일반적으로 BLEU 스코어에서는 1-gram부터 4-gram까지 고려합니다.
예를 들어, “I love machine translation”이라는 문장에서 2-gram은 “I love”, “love machine”, “machine translation”이 됩니다.
BLEU 스코어는 이러한 n-gram의 일치도를 바탕으로 0부터 1 사이의 값을 계산하며,
1에 가까울수록 기계 번역 결과가 참조 번역과 유사하다는 것을 의미합니다.

BLEU 스코어를 계산하기 위해서는 먼저 각 n-gram에 대한 precision을 구해야 합니다.
Precision은 기계 번역 결과에서 참조 번역과 일치하는 n-gram의 개수를 해당 n-gram의 총 개수로 나눈 값입니다.
예를 들어, 기계 번역 결과가 “I love machine translation”이고, 참조 번역이 “I adore machine translation”인 경우, 2-gram precision은 2/3이 됩니다.
왜냐하면 “I love”와 “machine translation”은 일치하지만, “love machine”은 일치하지 않기 때문입니다.
이렇게 계산된 각 n-gram precision의 기하평균을 구하면 기본 값이 됩니다.

하지만 여기서 주의해야 할 점이 있습니다.
만약 기계 번역 결과가 참조 번역보다 지나치게 짧다면, precision이 높게 나오더라도 실제 번역 품질은 좋지 않을 수 있습니다.
이를 보정하기 위해 BLEU 스코어에서는 brevity penalty를 도입했습니다.
Brevity penalty는 기계 번역 결과의 길이를 참조 번역의 길이로 나눈 값의 지수 함수로 계산되며,기계 번역 결과가 참조 번역보다 짧을수록 패널티가 커집니다.
최종 BLEU 스코어는 각 n-gram precision의 기하평균에 brevity penalty를 곱하여 계산됩니다.

BLEU의 다양한 사례와 한계점

 

BLEU 스코어는 간단하고 직관적인 계산 방법 덕분에 기계 번역 연구 분야에서 널리 사용되고 있습니다.
다양한 언어 쌍과 도메인에 적용 가능하며, 사람의 평가와도 어느 정도 상관관계를 보입니다.
또한 기계 번역 시스템 간 성능 비교에 유용하게 활용될 수 있습니다.
실제로 WMT(Workshop on Machine Translation)와 같은 국제 기계 번역 콘테스트에서도 BLEU 스코어가 주요 평가 지표로 사용되고 있으며, 이를 통해 최신 기계 번역 기술의 발전 동향을 파악하고 연구자들 간의 교류를 촉진하고 있습니다.

하지만 BLEU 스코어에는 몇 가지 한계점도 존재합니다.
가장 큰 문제는 BLEU 스코어가 단순히 n-gram 일치도만 고려하기 때문에, 문장의 의미나 문법적 구조를 제대로 반영하지 못한다는 점입니다.
예를 들어, “The cat sat on the mat”과 “On the mat sat the cat”은 의미상 동일하지만, BLEU 스코어에서는 큰 차이를 보일 수 있습니다.
또한 BLEU 스코어는 참조 번역의 품질과 다양성에 크게 의존합니다.
참조 번역이 부족하거나 품질이 좋지 않으면, BLEU 스코어의 신뢰성이 떨어질 수 있습니다.
마지막으로 언어의 특성과 도메인에 따라 BLEU 스코어의 상관관계가 다를 수 있다는 점도 주의해야 합니다.

 

BLEU Score의 대안 지표들

출처 : A Survey on Evaluation Metrics for Machine Translation (https://www.mdpi.com/2227-7390/11/4/1006)

이러한 BLEU 스코어의 한계를 극복하기 위해 다양한 대안적 평가 지표들이 제안되었습니다.
METEOR, TER, NIST 등은 BLEU스코어의 단점을 보완하고, 문장의 의미나 문법적 구조를 고려하여 보다 정교한 평가를 수행합니다.
최근에는 BERT와 같은 사전 학습된 언어 모델을 활용한 평가 지표도 등장하고 있습니다.
이러한 새로운 평가 지표들은 기계 번역의 품질을 다양한 각도에서 분석할 수 있는 가능성을 제시하고 있습니다.
하지만 동시에 이러한 지표들의 복잡성과 계산 비용도 높아지고 있어, 실용적인 활용을 위해서는 추가적인 연구가 필요할 것으로 보입니다.

결론

지금까지 기계 번역 품질 평가의 대표적인 지표인 BLEU 스코어에 대해 알아보았습니다.
BLEU코어는 간단하고 직관적인 계산 방법, 다양한 언어 쌍과 도메인에 대한 적용 가능성, 그리고 사람의 평가와의 상관관계 등의 장점으로 인해 기계 번역 분야에서 널리 사용되고 있습니다.
하지만 동시에 n-gram 일치도에 기반한 단순한 계산 방식, 참조 번역의 품질과 다양성에 대한 의존성, 그리고 언어와 도메인에 따른 상관관계의 차이 등의 한계점도 가지고 있습니다.

이러한 한계를 극복하고 기계 번역의 품질을 보다 정확하게 평가하기 위해서는 BLEU스코어와 함께 다양한 대안적 평가 지표를 활용하는 것이 중요합니다.
각 평가 지표의 장단점을 이해하고, 상호 보완적으로 사용함으로써 기계 번역 시스템의 성능을 종합적으로 분석할 수 있을 것입니다.
나아가 기계 번역 평가 지표의 발전을 위해서는 지속적인 연구와 혁신이 필요합니다.
단순한 n-gram 일치도를 넘어, 문장의 의미와 문법, 그리고 문맥까지 고려할 수 있는 평가 방법을 개발하는 것이 중요한 과제가 될 것입니다.

기계 번역 기술은 빠르게 발전하고 있으며, 이에 따라 평가 지표도 진화해야 합니다.
BLEU스코어의 한계를 인식하고, 새로운 평가 방법을 모색하는 것은 기계 번역 연구 분야의 중요한 화두가 될 것입니다.
이를 통해 우리는 기계 번역 시스템의 성능을 보다 정확하게 평가하고, 나아가 인간의 언어 능력에 근접하는 고품질의 기계 번역을 실현할 수 있을 것입니다.
기계 번역 평가 지표의 발전은 단순히 기술적인 문제를 넘어, 언어와 문화의 장벽을 허무는 데 기여할 수 있는 중요한 과제입니다.
앞으로도 기계 번역 연구자들의 끊임없는 노력과 혁신을 통해, 보다 정교하고 신뢰할 수 있는 평가 방법이 개발되기를 기대해 봅니다.

 

자연어처리에 대해 더 알고 싶다면 이 링크를 참고해주세요!