부트캠프와 다른 AI학교,
AI는 아이펠에서 배우세요
#인공지능 

정칙화 : 머신러닝 모델의 과적합을 방지하는 핵심 기술

이번 블로그에서는 모델이 훈련할 때 오버피팅이 일어나는지 알기 위해 에러 분석을 진행하고 여기에서 발생하는 bias를 줄이기 위해 정칙화가 어떤 효과가 있으며 정칙화의 종류가 어떤 것이 있으며 각 정칙화간의 차이점을 분석할 예정입니다.

2024-03-07 | 이영빈

스탠포드 대학교의 cs231n과 같은 딥러닝 강의나 핸즈온 머신러닝과 같은 머신러닝 관련 교재들로 처음 공부했을때 어려움을 느끼는 분야는 다름아닌 정칙화 파트라고 생각합니다. 정칙화가 나오는 부분의 경우 모델이 학습을 진행하는 과정에서 훈련 데이터에 과적합되는 현상을 지적하며 이를 줄여줄 수 있는 수단으로 언급하고 있습니다. 이번 블로그에서는 모델이 훈련할 때 오버피팅이 일어나는지 알기 위해 에러 분석을 진행하고 여기에서 발생하는 bias를 줄이기 위해 정칙화가 어떤 효과가 있으며 정칙화의 종류가 어떤 것이 있으며 각 정칙화간의 차이점을 분석할 예정입니다.

Error Analysis

Variance와 Bias를 시각화해서 보여주는 글 출처 : cs182 Lecture Note

머신러닝 모델의 성능을 향상시키기 위해서는 모델이 어떤 유형의 오류를 범하는지 이해하는 것이 중요합니다. Error Analysis는 모델의 예측 결과와 실제 값 사이의 차이를 분석하여 모델의 문제점을 파악하고 개선 방향을 설정하는 과정입니다.

Error Analysis에서는 주로 모델의 Bias와 Variance에 초점을 맞춥니다. Bias는 모델의 예측값과 실제값 사이의 차이를 의미하며, 모델이 데이터의 특성을 제대로 포착하지 못할 때 발생합니다. 반면 Variance는 모델이 훈련 데이터에 과도하게 적합되어 새로운 데이터에 대한 일반화 능력이 떨어지는 경우를 나타냅니다.

데이터셋에서 기대 error는 다음과 같이 정의됩니다.

     $$ E_{\mathcal{D}\sim p(\mathcal{D})}[\Vert f_\mathcal{D}(x)-f(x)\Vert^2]=\sum_\mathcal{D}p(\mathcal{D})\Vert f_\mathcal{D}(x)-f(x)\Vert^2 $$

이때 첫번째  $f_D(x)$는 실제 값이며 식을 통해 우리는 Bias와 Variance의 상관관계를 알 수 있습니다. 이를 위해 $\bar{f}(x)=E_{\mathcal{D}\sim p(\mathcal{D})}[f_\mathcal{D}(x)]$라고 가정하면, 기대 error는 다음과 같이 Bias와 Variance로 분해될 수 있습니다.

    $$E_{\mathcal{D}\sim p(\mathcal{D})}[\Vert f_\mathcal{D}(x)-f(x)\Vert^2]=E_{\mathcal{D}\sim p(\mathcal{D})}[\Vert f_\mathcal{D}(x)-\bar{f}(x)\Vert^2]+E_{\mathcal{D}\sim p(\mathcal{D})}[\Vert\bar{f}(x)-f(x)\Vert^2]$$

여기서 첫 번째 항은 실제값에서 평균값을 뺀 값이기 때문에 Variance라고 볼 수 있습니다. 두 번째 항은 평균값에서 실제값을 뺀 값이기 때문에 Bias의 제곱이라 볼 수 있습니다. 이때 중요한 것은 왼쪽 항은 결과값이기 때문에 고정되어 있습니다. 만약 Variance가 Biad와 비교했을때 상대적으로 높다면 모델이 훈련 데이터에 과적합되었을 가능성이 높고, 이와 반대로 Bias가 크다면 모델이 데이터의 특성을 제대로 포착하지 못하는 Underfitting 상태일 수 있습니다.

Error Analysis를 통해 모델의 Bias와 Variance를 파악함으로써, 우리는 모델의 성능 향상을 위한 전략을 수립할 수 있습니다. 예를 들어, Bias가 높은 경우에는 모델의 복잡도를 높이거나 더 많은 특성을 사용하는 방법을 고려할 수 있고, Variance가 높은 경우에는 정칙화 기법을 적용하거나 더 많은 훈련 데이터를 사용하는 방법을 고려할 수 있습니다.

L1 정칙화(Lasso)와 L2 정칙화(Ridge)의 차이점과 L1 정칙화의 특성 선택 효과

머신러닝 모델을 구축할 때, 과적합(Overfitting)을 방지하고 모델의 일반화 능력을 향상시키기 위해 정칙화(Regularization) 기법을 사용합니다. 대표적인 정칙화 기법으로는 L1 정칙화(Lasso)와 L2 정칙화(Ridge)가 있는데, 이 둘은 가중치(Weight)에 대해 서로 다른 접근 방식을 취합니다. 이번 포스팅에서는 L1 정칙화와 L2 정칙화의 차이점을 알아보고, 특히 L1 정칙화가 어떻게 특성 선택(Feature Selection) 효과를 가지는지 자세히 살펴보겠습니다.

L1 정칙화(Lasso)와 L2 정칙화(Ridge)의 비교

L1 정칙화와 L2 정칙화는 모두 손실 함수(Loss Function)에 정칙화 항을 추가하여 가중치의 크기를 제한함으로써 모델의 복잡도를 낮추는 방식으로 작동합니다. 하지만 정칙화 항의 형태에 따라 두 기법은 서로 다른 특징을 가집니다.

  • L1 정칙화(Lasso): 손실 함수에 가중치의 절대값 합을 추가합니다. $J(w) = L(w) + λ\sum_{i=1}^n |w_i|$

  • L2 정칙화(Ridge): 손실 함수에 가중치의 제곱 합을 추가합니다. $J(w) = L(w) + λ\sum_{i=1}^n w_i^2$

여기서 $L(w)$는 손실 함수, $w$는 가중치 벡터, $λ$는 정칙화의 강도를 조절하는 하이퍼파라미터입니다.

L1 정칙화(Lasso)의 특성 선택 효과

L1 정칙화는 최적화 과정에서 일부 가중치를 정확히 0으로 만드는 경향이 있습니다. 이는 L1 정칙화가 특성 선택의 효과를 가짐을 의미합니다. 즉, L1 정칙화를 사용하면 중요도가 낮은 특성의 가중치가 0이 되어 해당 특성이 모델에서 완전히 제외됩니다.

이런 현상이 발생하는 이유는 L1 정칙화의 기하학적 속성 때문입니다. L1 정칙화는 가중치 공간에서 마름모 모양의 등고선을 가지며, 이 등고선과 손실 함수의 등고선이 만나는 지점이 종종 축(가중치가 0인 지점)에 위치하기 때문입니다. 이로 인해 L1 정칙화는 해의 sparsity를 유도하고, 불필요한 특성을 자동으로 제거하는 효과를 가집니다.

반면, L2 정칙화는 가중치를 0에 가깝게 만들지만 정확히 0으로 만들지는 않습니다. 따라서 L2 정칙화는 모든 특성이 모델에 어느 정도 기여하도록 하며, 특성 선택의 효과는 가지지 않습니다.

수학적 증명

L1 정칙화가 일부 가중치를 0으로 만드는 이유를 수학적으로 증명하기 위해, 최적화 문제를 설정하고 최적 조건을 살펴보겠습니다.

선형 회귀 모델의 목적 함수를 다음과 같이 정의합니다.

    $$J(w) = \frac{1}{2N}\sum_{i=1}^N (y_i - w^Tx_i)^2 + λ\sum_{j=1}^m |w_j|$$

여기서 $N$은 샘플 수, $m$은 특성 수, $&y_i$는 실제 값, $x_i$는 특성 벡터, $w$는 가중치 벡터를 나타냅니다.

L1 정칙화 항 때문에 목적 함수는 미분 불가능한 지점이 생기지만, subgradient를 사용하여 최적 조건을 유도할 수 있습니다.

    $$\partial J(w_j) = -\sum_{i=1}^N (y_i - w^Tx_i)x_{ij} + λ \cdot sign(w_j)$$

이 식을 통해, 손실 함수로부터의 기여와 정칙화 항의 기여가 상쇄되는 지점에서 $w_j = 0$이 됨을 알 수 있습니다.

결론

L1 정칙화(Lasso)와 L2 정칙화(Ridge)는 모두 과적합을 방지하고 모델을 일반화하는 데 사용되지만, 서로 다른 특징을 가집니다. 특히 L1 정칙화는 일부 가중치를 정확히 0으로 만들어 특성 선택의 효과를 가지며, 이는 L1 정칙화의 기하학적 속성과 sparsity 유도 능력 때문입니다. 이런 특징 때문에 L1 정칙화는 해석 가능한 모델을 만드는 데 유용하게 사용될 수 있습니다.

정칙화 기법은 모델의 복잡도를 제어하고 일반화 성능을 향상시키는 데 중요한 역할을 합니다. Error Analysis를 통해 모델의 Bias와 Variance를 파악하고, 이를 바탕으로 적절한 기법을 선택하는 것이 머신러닝 모델의 성능 향상에 큰 도움이 될 것입니다.

레퍼런스