비즈니스 문제를 해결하고 예측하는 데이터 사이언티스트가 되고 싶다면?
#인공지능 

이미지 간 유사성 측정하는 방법

이미지 유사성 측정 방법으로 MSE, PSNR, SSIM을 소개합니다. MSE는 픽셀 색상의 정확도에 초점을 맞추고, PSNR은 최대 신호 대 잡음비로 이미지 품질을 평가합니다.

2024-03-06 | 김태헌

이미지 생성 모델의 유사성 측정

모델을 평가한다는 것은 결국 정답과 모델의 예측치 사이의 거리를 측정하는 방식입니다.

그런데 이미지 생성 모델에서 원본 이미지와 새로운 이미지 사이의 거리를 어떻게 측정할 수 있을까요?

이미지 간의 유사도(유사성)를 측정하는 방법에는 여러 가지가 있는데, 그 중 기본적인 3가지를 살펴 보겠습니다. 

  • 평균 제곱 오차(MSE, Mean Squared Error)
  • 최대 신호 대 잡음비(PSNR, Peak Signal-to-noise ratio)
  • 구조적 유사도(SSIM, Structural Similarity Index)

MSE (평균 제곱 오차)

MSE는 예측된 값(모델이 생성한 이미지)과 실제 값(원본 이미지) 사이의 평균 제곱 차이를 측정합니다.

즉, 픽셀 단위로 차이를 제곱한 뒤 이를 모두 더하고 평균을 낸 값입니다. MSE는 픽셀 색상의 정확성에 초점을 맞추어 이미지가 서로 얼마나 ‘정확히’ 일치하는지를 평가합니다.

하지만, 이미지의 구조나 질감 같은 시각적 요소는 잘 평가하지 못하는 단점이 있습니다. 수식으로는 다음과 같이 표현됩니다:

여기서 mn은 이미지의 가로와 세로 픽셀 수, I는 원본 이미지, K는 비교 대상 이미지이며, I(i,j)와 K(i,j)는 각각의 이미지에서 (i,j) 위치의 픽셀 값입니다.

간단한 예를 들어 설명해보겠습니다. 원본 이미지가 2×2 픽셀 크기의 흑백 이미지로, 모든 픽셀 값이 255(백색)이라고 가정해보겠습니다. 비교 대상 이미지도 2×2 픽셀이지고, 픽셀 값(235)이 모두 235라고 하겠습니다

이 때 MSE를 계산하면 다음과 같습니다.

 

PSNR (최대 신호 대 잡음비)

PSNR (Peak Signal to Noise Ratio)은 주로 신호가 가질 수 있는 최대 가능한 전력과 신호를 손상시키는 잡음의 전력을 비교하는 데 사용됩니다.

이미지에서 신호는 원본 이미지의 픽셀 값이며, 잡음은 오류 이미지(예를 들어, 압축으로 인한 손실이 있는 이미지)의 픽셀 값과 원본 이미지의 차이로 생각할 수 있습니다.

PSNR은 특히 이미지 처리에서 이미지 품질이나 손실을 평가하는 데 사용되며, 값이 높을수록 원본 이미지에 대한 복원 또는 근사가 더 정확하다는 것을 의미합니다.

PSNR은 MSE의 변형이며 여전히 픽셀별 비교에 중점을 둡니다.

SSIM (구조적 유사도)

SSIM은 이미지의 구조, 밝기, 대비 등 세 가지 요소를 고려하여 두 이미지 간의 유사성을 평가합니다.

이 방법은 인간의 시각 시스템이 이미지를 인식하는 방식을 모방하여, 단순히 픽셀 값의 차이가 아닌 이미지의 구조적 특성을 비교함으로써 더 인간적인 시각에서 이미지의 유사성을 평가합니다.

SSIM은 MSE나 PSNR과 다르게 이미지의 질감, 구조, 밝기 등이 유사한지를 평가하여, 단순한 색상의 정확도보다는 이미지가 얼마나 ‘비슷하게 보이는지’에 더 중점을 둡니다.

MSE와 PSNR 대비 SSIM이 가지는 가장 큰 차이점

SSIM이 이미지의 픽셀 값의 정확한 일치 여부가 아니라, 이미지의 구조적인 측면과 인간의 시각적 인식에 더 초점을 맞춘다는 점입니다. 이는 SSIM이 MSE나 PSNR보다 이미지의 질적인 측면을 더 잘 평가할 수 있게 해줍니다.

예를 들어, 두 이미지가 색상은 약간 다르지만 구조적으로 매우 유사하다면, SSIM은 높은 점수를 줄 수 있지만, MSE나 PSNR은 낮은 점수를 줄 수 있습니다. 이는 SSIM이 이미지의 질감, 구조 등 보다 복잡한 요소들을 고려하여 더 풍부한 시각적 정보를 평가한다는 것을 의미합니다.