이미지 간 유사성 측정하는 방법
이미지 유사성 측정 방법으로 MSE, PSNR, SSIM을 소개합니다. MSE는 픽셀 색상의 정확도에 초점을 맞추고, PSNR은 최대 신호 대 잡음비로 이미지 품질을 평가합니다.
이미지 생성 모델의 유사성 측정
모델을 평가한다는 것은 결국 정답과 모델의 예측치 사이의 거리를 측정하는 방식입니다.
그런데 이미지 생성 모델에서 원본 이미지와 새로운 이미지 사이의 거리를 어떻게 측정할 수 있을까요?
이미지 간의 유사도(유사성)를 측정하는 방법에는 여러 가지가 있는데, 그 중 기본적인 3가지를 살펴 보겠습니다.
- 평균 제곱 오차(MSE, Mean Squared Error)
- 최대 신호 대 잡음비(PSNR, Peak Signal-to-noise ratio)
- 구조적 유사도(SSIM, Structural Similarity Index)
MSE (평균 제곱 오차)
MSE는 예측된 값(모델이 생성한 이미지)과 실제 값(원본 이미지) 사이의 평균 제곱 차이를 측정합니다.
즉, 픽셀 단위로 차이를 제곱한 뒤 이를 모두 더하고 평균을 낸 값입니다. MSE는 픽셀 색상의 정확성에 초점을 맞추어 이미지가 서로 얼마나 ‘정확히’ 일치하는지를 평가합니다.
하지만, 이미지의 구조나 질감 같은 시각적 요소는 잘 평가하지 못하는 단점이 있습니다. 수식으로는 다음과 같이 표현됩니다:
여기서 m과 n은 이미지의 가로와 세로 픽셀 수, I는 원본 이미지, K는 비교 대상 이미지이며, I(i,j)와 K(i,j)는 각각의 이미지에서 (i,j) 위치의 픽셀 값입니다.
간단한 예를 들어 설명해보겠습니다. 원본 이미지가 2×2 픽셀 크기의 흑백 이미지로, 모든 픽셀 값이 255(백색)이라고 가정해보겠습니다. 비교 대상 이미지도 2×2 픽셀이지고, 픽셀 값(235)이 모두 235라고 하겠습니다
이 때 MSE를 계산하면 다음과 같습니다.
PSNR (최대 신호 대 잡음비)
PSNR (Peak Signal to Noise Ratio)은 주로 신호가 가질 수 있는 최대 가능한 전력과 신호를 손상시키는 잡음의 전력을 비교하는 데 사용됩니다.
이미지에서 신호는 원본 이미지의 픽셀 값이며, 잡음은 오류 이미지(예를 들어, 압축으로 인한 손실이 있는 이미지)의 픽셀 값과 원본 이미지의 차이로 생각할 수 있습니다.
PSNR은 특히 이미지 처리에서 이미지 품질이나 손실을 평가하는 데 사용되며, 값이 높을수록 원본 이미지에 대한 복원 또는 근사가 더 정확하다는 것을 의미합니다.
PSNR은 MSE의 변형이며 여전히 픽셀별 비교에 중점을 둡니다.
SSIM (구조적 유사도)
SSIM은 이미지의 구조, 밝기, 대비 등 세 가지 요소를 고려하여 두 이미지 간의 유사성을 평가합니다.
이 방법은 인간의 시각 시스템이 이미지를 인식하는 방식을 모방하여, 단순히 픽셀 값의 차이가 아닌 이미지의 구조적 특성을 비교함으로써 더 인간적인 시각에서 이미지의 유사성을 평가합니다.
SSIM은 MSE나 PSNR과 다르게 이미지의 질감, 구조, 밝기 등이 유사한지를 평가하여, 단순한 색상의 정확도보다는 이미지가 얼마나 ‘비슷하게 보이는지’에 더 중점을 둡니다.
MSE와 PSNR 대비 SSIM이 가지는 가장 큰 차이점
SSIM이 이미지의 픽셀 값의 정확한 일치 여부가 아니라, 이미지의 구조적인 측면과 인간의 시각적 인식에 더 초점을 맞춘다는 점입니다. 이는 SSIM이 MSE나 PSNR보다 이미지의 질적인 측면을 더 잘 평가할 수 있게 해줍니다.
예를 들어, 두 이미지가 색상은 약간 다르지만 구조적으로 매우 유사하다면, SSIM은 높은 점수를 줄 수 있지만, MSE나 PSNR은 낮은 점수를 줄 수 있습니다. 이는 SSIM이 이미지의 질감, 구조 등 보다 복잡한 요소들을 고려하여 더 풍부한 시각적 정보를 평가한다는 것을 의미합니다.