비즈니스 문제를 해결하고 예측하는 데이터 사이언티스트가 되고 싶다면?
#인공지능 

확률 vs 가능도

확률은 특정 결과가 발생할 가능성이나 기회를 나타냅니다. 모델 매개변수에 따라 예측한 특정 결과의 발생 가능성을 의미합니다. 반면 가능도는 모델이나 가설이 관찰된 데이터에 얼마나 잘 맞는지를 나타내는 정량적 추정 또는 측정으로 정의하는 것입니다.

2024-08-28 | 김성진

확률 vs 가능도

확률 (Probability)

확률은 특정 결과가 발생할 가능성이나 기회를 나타냅니다. 모델 매개변수에 따라 예측한 특정 결과의 발생 가능성을 의미합니다. 확률 측정은 불확실한 사건의 가능성을 예측하고 이해하기 위한 틀을 제공합니다. 다양한 결과의 가능성을 비교하여 확률 이론의 불확실성을 정량화하는 데 도움을 줍니다. 예측 모델링에서는 확률 이론을 사용하여 신뢰 구간을 구성하고, 확률적 예측을 수행하며, 가설 검정을 합니다.

또한, 확률 이론은 무작위 현상을 분석하고 모델링하기 위한 요구로 인해 확률과 확률 과정에 의존합니다. 여기서 확률은 복잡한 시스템의 시뮬레이션과 이해를 위해 사용됩니다. 또한, 불확실성 분석과 논리적 일관성을 위한 공리, 규칙, 정리를 제공합니다.

가능도 (Likelihood)

가능도는 모델이나 가설이 관찰된 데이터에 얼마나 잘 맞는지를 나타내는 정량적 추정 또는 측정으로 정의하는 것입니다. 또한, 특정 매개변수 집합에서 원하는 결과나 데이터 수집을 찾을 확률로 해석될 수도 있습니다. 통계적 추론에서 중요한 역할을 하는 가능도의 궁극적인 목적은 데이터의 특성에 대해 결론을 내리는 것입니다. 동일한 목표를 달성하는 데 있어 매개변수 추정, 특히 매개변수 추정을 찾기 위해 최대 가능도 추정(Maximum Likelihood Estimation, MLE)을 활용하는 데 중요한 역할을 합니다.

가설 검정에서는 가능도 비율을 사용하여 귀무가설 (null hypothesis)을 평가합니다. 마찬가지로, 가능도는 모델 선택과 검토에서도 모델을 비교하는 데 쓰입니다. 연구자들은 일반적으로 모델 선택의 척도로 베이지안 정보 기준(BIC, Bayesian Information Criterion)과 아카이케 정보 기준(AIC, Akaike Information Criterion)을 사용합니다. 가능도 기반 (Likelihood-based) 방법은 매개변수를 추정하기 위해 신뢰 구간을 구성하는 데 중요한 역할을 합니다.

확률 vs 가능도 – 계산

가능도 함수 사용하여 가능도 계산

가능도 함수는 데이터 분포를 식별하는 데 도움을 주는 수학적 표현입니다. 이 함수는 $L(\theta | x)$로 표시되며, 여기서 $\theta$는 원하는 모델의 매개변수를, $x$는 관찰된 데이터를 나타냅니다.

    $$ L(\theta | x) = \mathcal{P}(x \mid \theta) = p_{\theta}(x) = P_{\theta}(X = x) $$

  • $\mathcal{L}( θ \mid x )$는 관측값이 주어질 때, 변화되는 확률 분포에서 주어진 관측값이 나올 확률 – 가능도 (Likelihood)
  • $\mathcal{P}( x \mid θ )$는 확률 분포가 주어질 때, 변화되는 관측값이 나올 확률 – 확률 (Probability)

예제를 통해 이해해 봅시다. 예를 들어, 당신에게 색깔이 있는 구슬이 든 가방이 있다고 가정합니다. 빨간 구슬을 뽑을 확률을 예측하고자 할 때, 무작위로 뽑기를 시작하여 색상을 기록하고, 주어진 공식을 사용하여 가능도를 계산합니다. 빨간 구슬을 뽑을 확률을 나타내는 매개변수를 계산하거나 추정할 것입니다. 이전에 언급한 대로 가능도 함수는 특정 값에 대한 주어진 데이터 $x$를 관찰할 확률을 나타냅니다.

독립적이고 동일한 분포를 가정할 때, 가능도 함수는 다음과 같이 됩니다:

    $$ \displaystyle {\mathcal{L}(\theta \mid x) = \binom{n}{k} \theta^k (1 - \theta)^{(n - k)}} $$

여기서 $n$은 뽑기의 횟수이고, $k$는 관찰된 데이터에서 빨간 구슬의 수입니다.

우리가 빨간 구슬을 다음과 같은 순서로 다섯 번 뽑았다고 가정해봅시다: 빨강, 빨강, 파랑, 빨강, 파랑.

    $$ \begin{align*} & L(0.5|x) = \binom{5}{3} 0.5^3 (1-0.5)^{(5-3)} \\ & L(0.5|x) = \binom{5}{3} 0.5^3 0.5^2 \\ & L(0.5|x) = 0.3125 \\ \end{align*} $$

따라서, $\theta = 0.5$일 때, 주어진 순서의 구슬 뽑기를 관찰할 가능도는 0.3125입니다.

확률 질량 함수(PMF) 또는 확률 밀도 함수(PDF)를 사용한 확률 계산

PMF는 유한 집합 변수에서 원하는 값을 찾을 확률을 계산합니다. 이는 다음과 같이 표현됩니다:

    $$P(X=x)$$

여기서 $x$는 무작위 변수의 특정 값입니다.

PMF에서는 x의 값이 음수가 아니며, x의 가능한 값에 따른 확률의 합은 1입니다.

PDF는 넓은 스펙트럼을 다루며 특정 값 또는 값의 범위에 속하는 확률을 나타냅니다. 이는 $f(x)$ 로 표현됩니다. 또한, 확률 밀도 함수는 음수가 아니며, 곡선 아래의 면적은 1입니다.

위의 공식에서 값을 유지하면 상황에 따라 값의 범위가 달라집니다. 그러나 높은 가능도 값은 관찰된 값과 계산된 값 간의 긍정적인 결과와 높은 관련성을 나타냅니다.

확률 vs 가능도 – 예시

확률 (Probability) 예시

사과의 무게가 정규 분포를 따르며 표준 편차가 3이고 평균이 14인 사과가 가득 든 버킷이 있다고 가정해 보겠습니다. 이 정규 분포는 확률 밀도 곡선을 나타냅니다.

사과의 무게가 15g에서 16g 사이일 확률은 얼마일까요?

이는 아래 그래프에서 음영 처리된 영역입니다.

이것이 바로 확률입니다. 분포의 매개변수(평균과 표준 편차)를 알고 있으면, 사건이 발생할 가능성을 계산할 수 있습니다.

  • 확률 = $\mathcal{P}$(사건|분포)

확률에서는 분포를 알고 있으면, 알려진 분포를 기반으로 사건이 발생할 가능성을 예측할 수 있습니다.

다른 말로 하면,

  • P(15 ≤ 무게 ≤ 16 | μ = 15, σ = 3) = 음영 처리된 영역 = 0.13

확률은 항상 확률 밀도 함수의 곡선 아래의 어떤 영역입니다.

가능도 (Likelihood) 예시

사과의 무게가 16.5g인 관찰 결과가 있다고 가정합시다. 이 사과가 평균 μ = 15, 표준 편차 σ = 3인 위의 분포에서 추출되었을 가능성은 얼마일까요?

아래 그림과 같이, 이 데이터에 대해 해당 분포를 가질 가능도는 0.094입니다.

가능도는 주어진 x 값(무게)에 해당하는 확률 밀도 곡선의 y 값입니다.

이제 μ = 15, σ = 3인 분포를 확인한다고 가정해 보겠습니다. 가능도가 0.117로 증가하는 것을 볼 수 있습니다.

이것은 평균이 15이고 표준 편차가 3인 두 번째 분포가, 평균이 14이고 표준 편차가 3인 첫 번째 분포보다 더 가능성이 높다는 것을 보여줍니다.

그렇다면 가장 가능성이 높은 분포는 무엇일까요? 이는 최대 가능도 추정 (Maximum Likelihood Estimation)의 개념입니다.

평균이 16.5인 분포입니다!

따라서,

  • 가능도 = $\mathcal{L}$(분포|데이터)

주어진 데이터(사과의 무게)에 대해 특정 매개변수를 가진 분포에서 이 데이터가 샘플링될 가능성을 측정합니다.

다른 말로 하면,

  • 분포의 가능도 = $\mathcal{L}$(μ = 15, σ = 3 | 무게 = 16.5) = 0.117

가능도의 다른 예시

악명 높은(?) 동전 던지기 예를 들어보겠습니다.

  • $\mathcal{P}$(앞면) = $\mathcal{P}$(뒷면) = 0.5
  • $\mathcal{P}$(앞면) + $\mathcal{P}$(뒷면) = 1

위 사건은 베르누이 시행(Bernoulli trial)이라고 하며, 두 가지 가능한 결과가 있습니다: 성공(예: 앞면이 나옴)과 실패(예: 뒷면이 나옴).

  • $\mathcal{P}$(성공) + $\mathcal{P}$(실패) = 1

만약 공정한 동전이 아니라면, 다른 확률 P(앞면)을 관찰하게 될 것입니다. 예를 들어 0.7이라고 가정해 봅시다. 이 경우, 다음과 같습니다.

  • $\mathcal{P}$(성공) = $\mathcal{P}$(앞면) = 0.7
  • $\mathcal{P}$(실패) = $\mathcal{P}$(뒷면) = 1 – $\mathcal{P}$(성공) = 0.3

이제 동전을 10번 던지고 앞면이 나온 횟수를 세어봅시다. 앞면이 나온 횟수는 0에서 10까지 나올 수 있습니다. 이 실험은 10번의 시행과 $\mathcal{P}(\text{성공}) = 0.5$ 을 가지는 이항 분포(Binomial distribution)라고 합니다.

다음 다이어그램은 다양한 앞면의 개수를 얻을 확률을 보여줍니다.

따라서,

  • $\mathcal{P}$(X = 2 앞면 | 이항분포 n = 10, p = 0.5) = 0.04

이제, 10번의 시행에서 6번의 앞면을 관찰했을 때 위의 동일한 이항 분포(n = 10, p = 0.5)의 가능도를 살펴봅시다.

따라서,

  • $\mathcal{L}$(이항분포 n = 10, p = 0.5 | 10번의 시행에서 6번의 앞면 관찰) = 0.2

n = 10 인 이항 분포에서 p = 0.6일 때, 가장 높은 가능도를 얻습니다. 이것이 바로 최대 가능도 추정(Maximum Likelihood Estimation)이 하는 일입니다.

참고