비즈니스 문제를 해결하고 예측하는 데이터 사이언티스트가 되고 싶다면?
#인공지능 

결정계수 R-Squared

결정계수 R-squared에 대한 설명입니다.결정력 이라고도 불리는 결정계수는  회귀분석의 성능 평가 척도 중 하나로 다음과 같은 특징을 갖고 있으며 머신러닝에서 대양한 환경에서 사용이 되고 있습니다.

2024-06-28 | 신유진

결정계수 (R -Squared, R2) 란?

결정력 이라고도 불리는 결정계수는  회귀분석의 성능 평가 척도 중 하나로 다음과 같은 특징을 가집니다.

  • 독립변수가 종속변수를 얼마나 잘 설명하는 지를 나타냅니다.
  • 상관계수를 제곱한 값으로 보면 됩니다.
  • 0과 1 사이 값을 가지고 상관계수가 높을 수록 1에 가까워지고 이는 모델의 설명력이 높다고 볼 수 있습니다
    ex) R2 값이 0.3이라면, 모델이 약 30%의 설명력을 가진다고 해석할 수 있습니다.
  • 결정계수는 독립변수가 많을수록 값이 커지기 때문에, 독립변수가 2개 이상일 경우 조정된 결정계수를 사용해야 합니다.

쓰이는 상황

  • 회귀 모델의 적합도를 평가할 때 사용됩니다.
  • 사로 다른 회귀모델간의 성능을 비교할때 활용됩니다.
  • 독립변수가 종속변수를 얼마나 잘 예측하는지 판단하는데 도움을 줍니다.

 

다음의 결정계수의 수식과 해석 그리고 각 수식에 해당되는 개념을 살펴 본 후 조정된 결정계수 수식까지 보도록 하겠습니다.

수식으로 나타내면

 

1에서 SSR을 SST로 나눈 값을 뺀 것과 같습니다. 이는 회귀모델에 설명되지 않는 변동(SSR)을 총 변동(SST)으로 나눈 값을 1에서 빼는 것을 의미합니다. 따라서 결정계수는 회귀모델이 데이터를 얼마나 잘 설명하는지를 나타내는 척도라고 할 수 있습니다.
또 다른 특징으로는 SSR>SST보다 클 경우 음수가 나올 수 있음. 이는 모델의 예측값이 평균값으로 예측하는 것보다 정확하지 않을 때 발생합니다.

결정계수의 해석:

  • R² = 0: 회귀모델이 종속변수의 변동을 전혀 설명하지 못함을 의미합니다.
  •  R² = 1: 회귀모델이 종속변수의 변동을 완벽하게 설명함을 의미합니다.
  •  0 < R² < 1: 회귀모델이 종속변수의 변동을 부분적으로 설명함을 의미합니다.

결정계수는 회귀모델의 설명력을 나타내는 유용한 지표이지만, 모델의 복잡성이 증가할수록 결정계수 값이 증가하는 경향이 있습니다. 따라서 모델 선택 시 결정계수와 함께 다른 평가 지표(예: 수정된 결정계수, AIC, BIC 등)도 함께 고려하는 것이 좋습니다.

 

SST (= Total Sum of Squares): 총 제곱합

종속변수의 총 변동을 나타냅니다. 각 관측치와 종속변수의 평균간의 차이를 제곱하여 합한 값입니다.


SSE (= Explained Sum of Squares): 회귀제곱합


SSR (= Residual Sum of Squares): 잔차제곱합

회귀모델에 의해 설명되지 않는 변동을 나타냅니다. 실제 값과 예측값의 차이를 제곱하여 합한 값입니다.

셋의 관계를 나타내면 다음과 같습니다.

 

조정된 결정계수 (Adjusted R-Square) 수식

여기서

  • R²: 결정계수
  • n: 표본 크기 (관측치 수)
  • p: 독립변수의 수

수식을 해석해보면,

  • 1-R²: 회귀모델에 의해 설명되지 않는 변동의 비율입니다
  • (n-1)/(n-p-1): 수정 항으로, 표본 크기와 독립변수의 수를 고려하여 결정 계수를 조정합니다.

수정된 결정계수는 독립변수의 수가 증가할 때 결정계수의 과대평가를 방지합니다. 독립변수의 수(k)가 증가하면, 수정 항인 (n – 1) / (n – p – 1)의 값이 커지게 되고, 이에 따라 수정된 결정계수는 결정계수보다 작아지게 됩니다. 이는 독립변수의 수가 많아질수록 모델의 복잡성에 대한 패널티를 부과하는 것으로 이해할 수 있습니다.

수정된 결정계수의 해석:

  • Adjusted R² ≤ R²: 수정된 결정계수는 항상 결정계수보다 작거나 같습니다.
  • Adjusted R²는 음수 값을 가질 수 있습니다. 이는 모델의 설명력이 매우 낮음을 의미합니다.

수정된 결정계수는 서로 다른 독립변수의 수를 가진 모델들을 비교할 때 유용합니다. 일반적으로 수정된 결정계수가 높은 모델이 더 나은 성능을 가진다고 판단할 수 있습니다. 그러나 수정된 결정계수도 모델 선택의 절대적인 기준은 아니며, 다른 평가 지표와 함께 종합적으로 고려되어야 합니다.

 

Reference

[1] https://ltlkodae.tistory.com/19
[2] https://datalabbit.tistory.com/54
[3] https://velog.io/@parkchansaem/R2-score%EA%B2%B0%EC%A0%95%EA%B3%84%EC%88%98