1) MLE: 최대가능도추정법 (Maximum Likelihood Estimation)
직관적 이해
가장 간단한 비유를 들어보죠. 여러분 앞에 동전이 하나 있고, 이 동전을 10번 던졌더니 앞면이 7번, 뒷면이 3번 나왔습니다. 이때 "이 동전은 앞면이 나올 확률($\theta$)이 얼마일까?"라고 묻는다면, 뭐라고 답하시겠어요? 아마 대부분 직관적으로 "0.7일 것 같다"고 답할 겁니다. 바로 그게 MLE의 핵심 아이디어입니다. 우리가 가진 데이터($x_{1:n}$)를 가장 잘 설명하는(가장 그럴듯하게 만드는) 모델의 파라미터($\theta$)를 찾는 방법입니다. 즉, "어떤 $\theta$를 설정해야 우리가 관측한 이 데이터가 나올 확률이 가장 높아질까?"에 대한 답을 찾는 과정이죠.
수학적 전개
주어진 데이터 $x_{1:n} = (x_1, \dots, x_n)$가 서로 독립이고 동일한 확률분포(i.i.d.) $P_\theta$를 따른다고 가정합시다. 이때 가능도(Likelihood) 함수 $L(\theta \mid x_{1:n})$는 파라미터 $\theta$가 주어졌을 때 이 데이터가 관측될 확률입니다. 데이터가 i.i.d.이므로, 전체 데이터의 확률은 각 데이터 포인트의 확률의 곱으로 나타낼 수 있습니다.
$$ L(\theta \mid x_{1:n}) = P_\theta(x_{1:n}) = \prod_{i=1}^n p_\theta(x_i) $$
0과 1 사이의 작은 값들을 계속 곱하면 컴퓨터에서는 언더플로우(0에 너무 가까워져서 표현 불가능)가 발생하기 쉽고, 곱셈 형태는 미분하기 까다롭습니다. 그래서 보통 로그(log)를 취한 로그 가능도(Log-likelihood)를 사용합니다. 로그는 단조증가함수이므로 원래 함수의 최댓값의 위치를 바꾸지 않으면서, 곱셈을 덧셈으로 바꿔주는 아주 유용한 성질이 있습니다.
$$ \log L(\theta \mid x_{1:n}) = \log \left(\prod_{i=1}^n p_\theta(x_i)\right) = \sum_{i=1}^n \log p_\theta(x_i) $$
데이터의 수 $n$에 무관하게 만들기 위해 평균 로그 가능도 $\ell_n(\theta)$를 정의합니다.
$$ \ell_n(\theta) = \frac{1}{n} \sum_{i=1}^n \log p_\theta(x_i) $$
최대가능도추정량(MLE) $\hat\theta_{\text{MLE}}$는 바로 이 로그 가능도를 최대로 만드는 파라미터 $\theta$입니다.
$$ \hat\theta_{\text{MLE}} \in \arg\max_{\theta\in\Theta}\ \ell_n(\theta) $$
증명: MLE와 Forward KL Divergence 최소화의 동치성
이 부분이 MLE가 단순한 직관을 넘어 확률분포 간의 '거리'를 줄이는 문제와 어떻게 연결되는지를 보여주는 핵심입니다.
- 경험적 분포($\hat P_n$) 정의: 우리가 가진 유한한 데이터를 바탕으로 만든 '임시' 확률분포입니다. 각 데이터 포인트 $x_i$에 $1/n$의 확률 질량을 할당한 분포로, 우리가 가진 데이터 그 자체를 가장 충실하게 대표합니다. $$ \hat P_n := \frac{1}{n}\sum_{i=1}^n\delta_{x_i} $$
- 쿨백-라이블러 발산 (KL Divergence) 정의: 두 확률분포 $P$와 $Q$가 얼마나 다른지를 측정하는 척도입니다. $P$를 기준으로 $Q$가 얼마나 다른지를 나타내며, 정보 이론에서는 $P$ 대신 $Q$를 사용했을 때 발생하는 정보 손실량으로 해석됩니다. $$ \mathrm{KL}(P\|Q) = \mathbb{E}_{X \sim P}\left[\log \frac{p(X)}{q(X)}\right] $$
- 연결고리 찾기: '데이터의 분포'인 $\hat P_n$와 우리의 '모델 분포' $P_\theta$ 사이의 KL Divergence를 계산합니다.
$$ \mathrm{KL}(\hat P_n\|P_\theta) = \mathbb{E}_{X \sim \hat{P}_n}\left[\log\frac{\hat p_n(X)}{p_\theta(X)}\right] = \mathbb{E}_{\hat{P}_n}[\log \hat p_n(X)] - \mathbb{E}_{\hat{P}_n}[\log p_\theta(X)] $$
첫 번째 항, $\mathbb{E}_{\hat{P}_n}[\log \hat p_n(X)]$는 경험적 분포 $\hat P_n$의 엔트로피($-H(\hat P_n)$)로, 오직 데이터에만 의존합니다. 즉, 우리가 최적화하려는 파라미터 $\theta$와는 아무 상관이 없는 상수입니다.
$$ \mathbb{E}_{\hat{P}_n}[\log p_\theta(X)] = \frac{1}{n}\sum_{i=1}^n \log p_\theta(x_i) = \ell_n(\theta) $$
두 번째 항은 경험적 분포 $\hat P_n$에 대한 기댓값이므로 데이터 포인트들의 산술 평균과 같습니다.이는 위에서 정의한 평균 로그 가능도와 정확히 일치합니다!
- 결론: 따라서 KL Divergence는 다음과 같이 정리됩니다. $$ \mathrm{KL}(\hat P_n\|P_\theta) = \text{상수} - \ell_n(\theta) $$$\mathrm{KL}(\hat P_n\|P_\theta)$의 값을 최소화하려면, 상수항은 무시할 수 있으므로 결국 $-\ell_n(\theta)$를 최소화하는 것, 즉 $\ell_n(\theta)$를 최대화하는 것과 같습니다.$$ \boxed{ \hat\theta_{\text{MLE}}=\arg\max_\theta \ell_n(\theta) \ =\ \arg\min_\theta \mathrm{KL}(\hat P_n\|P_\theta) } $$
결론적으로, MLE는 주어진 데이터(경험적 분포)와 모델 분포 사이의 Forward KL Divergence를 최소화하는 파라미터를 찾는 과정과 수학적으로 완벽하게 동일합니다.
5) 지수족 분포 (Exponential Family)와 모멘트 매칭
정의와 중요성
많은 친숙한 분포들(정규, 베르누이, 포아송, 감마 등)을 포괄하는 일반적인 형태의 분포족입니다. 이 형태 덕분에 수많은 통계적, 계산적 이점을 가지며, 특히 MLE 계산이 '모멘트 매칭'이라는 매우 직관적인 형태로 귀결됩니다.
지수족 분포의 확률밀도(또는 질량)함수는 다음과 같은 형태를 가집니다.
$$ p_\theta(x) = h(x) \exp\left\{ \eta(\theta)^\top T(x) - A(\theta) \right\} $$
- $T(x)$: 충분 통계량(Sufficient Statistic). 데이터 $x$가 파라미터 $\theta$에 대해 가지는 모든 정보를 요약하는 함수(들)의 벡터입니다. $T(x)$만 있으면 원본 데이터 $x$ 없이도 $\theta$를 추정할 수 있습니다.
- $\eta(\theta)$: 자연 파라미터(Natural Parameter). 파라미터 $\theta$를 계산적으로 다루기 쉬운 공간으로 변환한 형태입니다.
- $A(\theta)$: 로그 정규화 함수(Log-partition function). 분포의 총합(또는 적분)이 1이 되도록 만드는 정규화 상수 $Z(\theta)$에 로그를 씌운 값입니다. ($A(\theta) = \log Z(\theta)$)
모멘트 매칭(Moment Matching)이란 무엇인가?
'모멘트(moment)'는 분포의 형태를 설명하는 숫자들입니다. 가장 대표적인 예시는 다음과 같습니다.
- 1차 모멘트: 분포의 평균(기댓값). 분포가 어디에 중심을 두고 있는지를 나타냅니다. $\mathbb{E}[X]$
- 2차 중심 모멘트: 분포의 분산. 분포가 얼마나 넓게 퍼져있는지를 나타냅니다. $\mathbb{E}[(X - \mathbb{E}[X])^2]$
모멘트 매칭은 말 그대로, "모델 분포의 모멘트를 데이터의 모멘트와 일치시키는" 과정입니다. 예를 들어, 데이터의 표본 평균이 10이라면, 모델의 평균도 10이 되도록 파라미터를 조정하는 것입니다. 이는 마치 데이터의 '무게중심'에 모델의 '무게중심'을 맞추는 것과 같습니다. 지수족 분포에서는 이 '모멘트'의 역할을 충분 통계량 $T(X)$가 담당합니다.
증명: MLE가 모멘트 매칭과 동일한 이유
지수족 분포에서 MLE를 구하는 과정이 왜 모멘트 매칭과 동일한지 유도해봅시다. 자연 파라미터 $\eta$ 자체를 파라미터로 사용하는 정준형(canonical form) $p_\eta(x) = h(x)\exp\{\eta^\top T(x) - A(\eta)\}$을 생각합시다.
평균 로그 가능도를 최대로 만들기 위해 $\eta$에 대해 미분하여 0으로 둡시다. (1차 최적 조건)
$$ \nabla_\eta \ell_n(\eta) = \nabla_\eta \left( \eta^\top \bar{T}_n - A(\eta) \right) = \bar{T}_n - \nabla_\eta A(\eta) = 0 $$
여기서 $\bar{T}_n := \frac{1}{n}\sum_i T(x_i)$은 데이터로부터 계산된 충분 통계량의 경험적 평균(empirical mean)입니다.
이제 $\nabla_\eta A(\eta)$가 무엇인지 알아야 합니다. 로그 정규화 함수의 매우 중요한 성질은, 자연 파라미터 $\eta$에 대해 미분하면 충분 통계량 $T(X)$의 기댓값이 된다는 것입니다.
$$ \nabla_\eta A(\eta) = \mathbb{E}_{X \sim p_\eta}[T(X)] $$
$A(\eta) = \log \int h(x)\exp(\eta^\top T(x)) dx$ 이고, $\int p_\eta(x)dx=1$ 이라는 사실로부터 시작합니다.
$$ \int h(x)\exp(\eta^\top T(x) - A(\eta)) dx = 1 $$양변을 $\eta$에 대해 미분합니다. (라이프니츠 법칙)
$$ \nabla_\eta \int h(x)\exp(\eta^\top T(x) - A(\eta)) dx = 0 $$ $$ \int \nabla_\eta \left( h(x)\exp(\eta^\top T(x) - A(\eta)) \right) dx = 0 $$ $$ \int h(x)\exp(\eta^\top T(x) - A(\eta)) \cdot (T(x) - \nabla_\eta A(\eta)) dx = 0 $$$p_\eta(x) = h(x)\exp(\eta^\top T(x) - A(\eta))$ 이므로,
$$ \int p_\eta(x) (T(x) - \nabla_\eta A(\eta)) dx = 0 $$ $$ \int p_\eta(x)T(x) dx - \int p_\eta(x)\nabla_\eta A(\eta) dx = 0 $$ $$ \mathbb{E}_\eta[T(X)] - \nabla_\eta A(\eta) \int p_\eta(x) dx = 0 $$ $$ \mathbb{E}_\eta[T(X)] - \nabla_\eta A(\eta) = 0 \quad \Rightarrow \quad \boxed{\nabla_\eta A(\eta) = \mathbb{E}_\eta[T(X)]} $$따라서, MLE를 구하기 위한 최적 조건 $\bar{T}_n - \nabla_\eta A(\eta) = 0$은 다음과 같이 다시 쓸 수 있습니다.
$$ \boxed{ \mathbb{E}_{\hat\eta}[T(X)] = \frac{1}{n}\sum_{i=1}^n T(x_i) } $$
이 수식의 의미는 "모델의 충분 통계량의 기댓값(좌변)을 데이터의 충분 통계량의 경험적 평균(우변)과 일치시켜라"는 것입니다. 이것이 바로 모멘트 매칭입니다. $A(\eta)$는 항상 볼록 함수(log-sum-exp 형태)이므로, 로그 가능도 함수는 오목(concave)하며, 따라서 이 조건은 유일한 전역 최댓값을 보장합니다.
'ML' 카테고리의 다른 글
| ML 주니어 엔지니어를 위한 기술면접 질문 모음 (0) | 2025.08.20 |
|---|---|
| Autoencoder (0) | 2025.08.18 |
| Batch Normalization, Layer Normalization (0) | 2025.08.17 |
| Transformer와 Attention (0) | 2025.08.17 |
| K-means clustering, K-NN (0) | 2025.08.17 |