#인공지능

이미지 분류 평가 지표: Top-1 Error와 Top-5 Error 이해

이번 블로그에서는 ImageNet과 같은 데이터셋을 측정하는 지표인 Top-1 Error 그리고 Top-5 Error에 대해 알아보았습니다. 두 지표 모두 장단점이 있고 상호보완적입니다. 다만 현재는 모델은 개선이 많이 되어 있어 다른 지표도 사용됩니다.

2024-03-26 | 이영빈

이미지 분류의 중요성과 ImageNet 데이터셋

이미지 분류는 컴퓨터 비전 분야에서 가장 기본적이면서도 중요한 태스크 중 하나입니다. 이
는 주어진 이미지가 어떤 범주 또는 클래스에 속하는지를 판단하는 문제로, 인간이 시각적 정보를 인식하고 이해하는 과정을 컴퓨터로 구현하고자 하는 시도라고 할 수 있습니다.
이미지 분류는 단순히 이론적인 관심사에 그치지 않고, 실생활의 다양한 영역에서 널리 활용되고 있습니다. 예를 들어, 의료 영상 진단, 자율 주행 자동차, 얼굴 인식 등 우리 삶의 곳곳에 이미지 분류 기술이 적용되어 있습니다.
이미지 분류 문제를 해결하기 위해서는 먼저 충분한 양의 데이터가 필요합니다.
이는 모델이 다양한 이미지의 특징을 학습하고, 일반화 능력을 갖출 수 있도록 하기 위함입니다.이런 맥락에서 등장한 것이 바로 ImageNet 데이터셋입니다.
ImageNet은 1,000개가 넘는 클래스와 100만 장 이상의 이미지로 구성된 대규모 데이터셋으로, 딥러닝 모델의 성능을 비교하고 발전시키는 데 결정적인 역할을 해왔습니다.
특히 2012년 AlexNet이 ImageNet 대회에서 압도적인 성능을 보인 이후, 딥러닝 기반의 이미지 분류 기법이 크게 발전하였고, 이는 컴퓨터 비전 분야 전반에 큰 영향을 미쳤습니다.
ImageNet 데이터셋을 이용한 이미지 분류 태스크에서 모델의 성능을 평가하기 위해서는 적절한 평가 지표가 필요합니다. 그 중에서도 가장 대표적인 것이 바로 Top-1 Error와 Top-5 Error입니다.

Top-1 Error: 이미지 분류 모델의 직관적인 평가 지표

Top 1 Error

Top-1 Error는 모델이 예측한 확률이 가장 높은 클래스와 실제 정답 클래스가 일치하지 않는 비율을 의미합니다.
쉽게 말해, 모델이 입력 이미지에 대해 가장 높은 확률로 예측한 클래스가 실제 정답과 다르면 오분류로 간주하는 것입니다.
예를 들어, 모델이 어떤 이미지에 대해 “개”라는 클래스에 가장 높은 확률을 부여했지만, 실제 정답이 “고양이”였다면 이는 Top-1 Error에 해당합니다.

Top-1 Error는 모델의 정확도를 가장 직관적으로 나타내는 지표로, 일반적으로 모델의 성능을 평가할 때 가장 먼저 참고하는 값입니다.
Top-1 Error가 낮을수록 모델이 입력 이미지를 정확하게 분류하고 있다는 것을 의미하므로, 연구자들은 이 값을 낮추기 위해 다양한 노력을 기울이게 됩니다.

하지만 ImageNet과 같이 클래스 수가 많고 서로 유사한 클래스가 존재하는 데이터셋에서는 Top-1 Error만으로 모델의 성능을 온전히 평가하기 어려울 수 있습니다.
왜냐하면 모델이 비록 정답은 아니지만 정답과 매우 유사한 클래스를 예측했다 하더라도, Top-1 Error에서는 이를 단순히 오분류로 처리하기 때문입니다.
이런 문제를 보완하기 위해 도입된 것이 바로 Top-5 Error입니다.

Top-5 Error: 유연한 평가 기준의 도입

Top-5 Error

Top-5 Error는 모델이 예측한 상위 5개의 클래스 중에 실제 정답 클래스가 포함되어 있지 않은 비율을 의미합니다.
앞서 언급한 예에서 모델이 “개”, “늑대”, “여우”, “고양이”, “호랑이” 순으로 높은 확률을 부여했다면,
비록 “고양이”가 가장 높은 확률로 예측되지는 않았지만 상위 5개 클래스 중에는 포함되어 있으므로 Top-5 Error에서는 정분류로 간주됩니다.
이처럼 Top-5 Error는 Top-1 Error보다 좀 더 유연한 평가 기준을 제공합니다. 모델이 정답과 완전히 일치하는 예측을 하지 못하더라도, 상위 몇 개의 예측 안에 정답이 포함되어 있다면 이를 어느 정도 인정해주는 것입니다. 이는 ImageNet과 같이 유사한 클래스가 많은 데이터셋에서 특히 유용한데, 모델이 세부적인 클래스 구분에는 실패하더라도 대략적인 분류는 성공하고 있음을 보여줄 수 있기 때문입니다.
그렇다고 해서 Top-5 Error가 Top-1 Error를 완전히 대체할 수 있는 것은 아닙니다.
Top-5 Error는 어디까지나 보조적인 지표로, 모델의 실제 정확도를 직접적으로 나타내지는 않습니다. 따라서 대부분의 경우 연구자들은 Top-1 Error와 Top-5 Error를 함께 제시하여 모델의 성능을 다각도로 분석하게 됩니다.
또한, 이 두 지표는 모델의 성능 향상을 추적하는 데에도 중요한 역할을 합니다.
새로운 모델 아키텍처를 제안하거나 학습 기법을 개선할 때마다 연구자들은 Top-1 Error와 Top-5 Error의 변화 추이를 면밀히 관찰하게 됩니다. 이를 통해 어떤 방법이 모델의 성능 개선에 실질적으로 기여했는지를 객관적으로 판단할 수 있게 됩니다.

새로운 이미지 평가 지표의 발전

최근에는 이미지 분류 모델의 성능이 크게 향상되면서, Top-1 Error와 Top-5 Error 모두 매우 낮은 수준까지 떨어졌습니다.
하지만 이는 곧 새로운 도전 과제를 의미하기도 합니다. 단순히 이미지를 분류하는 것을 넘어, 이미지의 세부 내용을 이해하고 복잡한 추론을 수행하는 등 더욱 어려운 태스크에 도전해야 할 때가 된 것입니다.
이를 위해서는 기존의 평가 지표를 넘어서는 새로운 기준이 필요할 것입니다.
객체 검출, 의미론적 분할, 이미지 캡셔닝 등 다양한 태스크에 적합한 평가 지표들이 제안되고 있는 것도 이런 맥락에서 이해할 수 있습니다.
하지만 그럼에도 불구하고 Top-1 Error 그리고 Top-5 Error는 여전히 이미지 분류 모델의 성능을 평가하는 기본적인 기준으로 널리 사용되고 있습니다.

결론

지금까지 ImageNet 데이터셋을 이용한 이미지 분류 태스크에서 Top-1 Error와 Top-5 Error의 개념과 차이점, 그리고 그 의미에 대해 알아보았습니다.
컴퓨터 비전 분야에서 모델의 성능을 평가하고 발전시켜 나가기 위해서는 이러한 평가 지표에 대한 깊이 있는 이해가 필수적입니다.
앞으로도 새로운 도전 과제와 함께 더욱 발전된 평가 기준이 등장하겠지만, Top-1 Error와 Top-5 Error가 가진 기본적인 개념과 통찰은 계속해서 중요한 역할을 할 것으로 기대됩니다.

머신러닝에 관심이 있다면 이 블로그도 참고해보세요 : 머신러닝(Machine Learning) 이란

이영빈 모두의연구소

🖥️ 모두의연구소 아이펠 퍼실리테이터
🏛️ JAX-KR 오거나이저
😎 GDG SongDo 오거나이저

목록으로 돌아가기