확률론 및 조건부 기댓값 상세 정리

제1장: 확률 공간 (Probability Space)

확률론은 불확실한 현상을 수학적으로 모델링하는 학문입니다. 이 모델의 핵심은 확률 공간(Probability Space)이라 불리는 $(\Omega, \mathcal{F}, P)$ 삼중체(triple)입니다.

  • $\Omega$ (표본 공간, Sample Space): 무작위 실험에서 발생할 수 있는 모든 가능한 결과의 집합입니다.
  • $\mathcal{F}$ ($\sigma$-대수, $\sigma$-algebra): 확률을 측정할 수 있는 '사건(event)'들의 모음입니다.
  • $P$ (확률 측도, Probability Measure): 각 사건에 0과 1 사이의 확률 값을 부여하는 함수입니다.

정의: $\sigma$-대수 ($\sigma$-algebra)

공집합이 아닌 집합 $\Omega$에 대해, $\Omega$의 부분집합들의 모임(family) $\mathcal{F}$가 다음 세 가지 조건을 만족하면 $\sigma$-대수라고 합니다.

  • (i) $\phi \in \mathcal{F}$
  • (ii) 만약 $A \in \mathcal{F}$이면, 그것의 여집합 $\Omega \setminus A$ (또는 $A^c$)도 $\mathcal{F}$에 속한다 ($A \in \mathcal{F} \Rightarrow A^c \in \mathcal{F}$).
  • (iii) $A_1, A_2, \dots$ 가 $\mathcal{F}$에 속하는 집합들의 수열(sequence)이면, 그것들의 합집합도 $\mathcal{F}$에 속한다 ($\forall n, A_n \in \mathcal{F} \Rightarrow \cup_{n=1}^\infty A_n \in \mathcal{F}$).

정의: 확률 측도 (Probability Measure)

$\Omega$ 상의 $\sigma$-대수 $\mathcal{F}$가 있을 때, 확률 측도 $P$는 다음을 만족하는 함수 $P: \mathcal{F} \to [0,1]$ 입니다.

  • (i) $P(\Omega) = 1$
  • (ii) 만약 $A_1, A_2, \dots$ 가 $\mathcal{F}$에 속하는 서로소(pairwise disjoint)인 집합들이면, $P(\cup_{n=1}^\infty A_n) = \sum_{n=1}^\infty P(A_n)$ 입니다 (가산가법성).

제2장: 확률 변수와 분포

정의: 확률 변수 (Random Variable)

확률 공간 $(\Omega, \mathcal{F}, P)$에서 정의된 실함수 $\xi: \Omega \to \mathbb{R}$가, 모든 보렐 집합 $B \in \mathcal{B}(\mathbb{R})$에 대해 그 역상(pre-image) $\{\omega \in \Omega | \xi(\omega) \in B\}$가 $\mathcal{F}$에 속하면($\{\xi \in B\} \in \mathcal{F}$), $\xi$를 확률 변수라고 합니다. 이는 $\xi$가 $\mathcal{F}$-측정가능($\mathcal{F}$-measurable)하다는 의미입니다.

정의: 분포 함수 (Distribution Function)

확률 변수 $\xi$의 분포 함수 $F_\xi(x)$는 다음과 같이 정의됩니다. $$ F_\xi(x) = P(\xi \le x) $$ 분포 함수는 단조 비감소(non-decreasing)이고 우측 연속(right-continuous)이며, $\lim_{x \to -\infty} F_\xi(x) = 0$, $\lim_{x \to \infty} F_\xi(x) = 1$ 입니다.

제3장: 기댓값, 독립성 및 수렴 정리

정의: 기댓값 (Expectation)

확률 변수 $\xi$의 기댓값은 르베그 적분(Lebesgue integral)으로 정의됩니다. $$ \mathbb{E}[\xi] = \int_\Omega \xi(\omega) dP(\omega) $$ $\mathbb{E}[|\xi|] < \infty$일 때, $\xi$는 적분가능(integrable)하다고 합니다. 만약 $\xi$가 밀도함수 $f_\xi$를 가진다면 기댓값은 다음과 같이 계산할 수 있습니다. $$ \mathbb{E}[\xi] = \int_{-\infty}^\infty x f_\xi(x) dx $$

정의: 독립성 (Independence)

두 확률 변수 $\xi$와 $\eta$가 독립이라는 것은, 임의의 보렐 집합 $A, B \in \mathcal{B}(\mathbb{R})$에 대해 두 사건 $\{\xi \in A\}$와 $\{\eta \in B\}$가 독립인 것, 즉 다음을 만족하는 것입니다. $$ P(\{\xi \in A\} \cap \{\eta \in B\}) = P(\{\xi \in A\}) P(\{\eta \in B\}) $$

제4장: 조건부 기댓값 (Conditional Expectation)

정의: 일반적인 조건부 기댓값 $E(\xi|\mathcal{G})$

적분가능한 확률 변수 $\xi$와 $\sigma$-대수 $\mathcal{G} \subseteq \mathcal{F}$에 대해, 조건부 기댓값 $E(\xi|\mathcal{G})$는 다음 두 조건을 만족하는 거의 확실하게(a.s.) 유일한 확률 변수입니다.

  1. $\mathcal{G}$-측정가능성: $E(\xi|\mathcal{G})$의 값은 오직 $\mathcal{G}$에 포함된 정보만으로 알 수 있어야 합니다.
  2. 부분 평균 성질(Partial Averaging Property): $\mathcal{G}$에 속하는 임의의 사건 $A$에 대해, $A$ 위에서 $E(\xi|\mathcal{G})$를 평균한 값은 $A$ 위에서 $\xi$를 평균한 값과 같습니다. $$ \int_A E(\xi|\mathcal{G}) dP = \int_A \xi dP \quad \forall A \in \mathcal{G} $$

조건부 기댓값의 존재와 유일성 (라돈-니코딤 정리 기반)

정리 (Radon-Nikodym): $(\Omega, \mathcal{F}, P)$가 측도 공간이고 $\mathcal{G} \subseteq \mathcal{F}$가 $\sigma$-field일 때, 임의의 적분가능한 확률변수 $\xi$에 대해, 모든 $A \in \mathcal{G}$에 대하여 $\int_A \xi dP = \int_A \xi_{\mathcal{G}} dP$를 만족하는 $\mathcal{G}$-측정가능한 확률 변수 $\xi_{\mathcal{G}}$가 (a.s. 의미에서 유일하게) 존재합니다. 이 $\xi_{\mathcal{G}}$가 바로 $E(\xi|\mathcal{G})$입니다.

명제: $E(\xi|\mathcal{G})$는 존재하며 유일하다.

증명:
  • 존재성(Existence): 라돈-니코딤 정리에 의해 위 조건을 만족하는 $\xi_{\mathcal{G}}$가 존재하며, 이를 $E(\xi|\mathcal{G})$로 정의합니다.
  • 유일성(Uniqueness): 만약 $Y$와 $Y'$가 모두 위 두 조건을 만족한다고 가정합시다. $Y-Y'$ 역시 $\mathcal{G}$-측정가능하므로, $A = \{Y-Y' > 0\}$는 $\mathcal{G}$에 속합니다. 부분 평균 성질에 의해, $$ \int_A Y dP = \int_A \xi dP \quad \text{and} \quad \int_A Y' dP = \int_A \xi dP $$ 따라서 $\int_A (Y - Y') dP = 0$ 입니다. 그런데 $A$ 위에서는 피적분 함수가 항상 양수이므로, 이 적분값이 0이 되기 위해서는 $P(A)=0$ 이어야 합니다. 즉, $Y \le Y'$ a.s. 입니다. 같은 방식으로 $Y' \le Y$ a.s. 도 보일 수 있어, 결국 $Y = Y'$ a.s. 입니다.

주요 성질

  • 전체 기댓값의 법칙(Law of Total Expectation): $\mathbb{E}[E(\xi|\mathcal{G})] = \mathbb{E}[\xi]$
    증명: 부분 평균 성질에서 $A=\Omega \in \mathcal{G}$를 대입하면 됩니다. $$ \mathbb{E}[E(\xi|\mathcal{G})] = \int_\Omega E(\xi|\mathcal{G}) dP = \int_\Omega \xi dP = \mathbb{E}[\xi] $$
  • 꺼내기(Taking out what is known): 만약 $Y$가 $\mathcal{G}$-측정가능하다면, $\mathbb{E}[Y\xi|\mathcal{G}] = Y \mathbb{E}[\xi|\mathcal{G}]$ 입니다.
  • 타워 성질(Tower Property / Iterated Expectation): 더 적은 정보를 담고 있는 $\sigma$-대수 $\mathcal{B} \subset \mathcal{G}$에 대해, $\mathbb{E}[\mathbb{E}(\xi|\mathcal{G})|\mathcal{B}] = \mathbb{E}(\xi|\mathcal{B})$입니다.
    예시: $E[E(\xi|\mathcal{G})|B] = E(\xi|B)$
    증명: $$ \int_B E(\xi|\mathcal{G}) dP = \int_B \xi dP \quad (\text{by partial averaging}) $$ $$ E[E(\xi|\mathcal{G})|B] = \frac{1}{P(B)} \int_B E(\xi|\mathcal{G}) dP = \frac{1}{P(B)} \int_B \xi dP = E[\xi|B] $$
  • $\mathcal{G}$-가측성: 만약 $\xi$가 $\mathcal{G}$-측정가능하다면, $\mathbb{E}[\xi|\mathcal{G}] = \xi$ a.s. 입니다.

이산 확률 변수에 대한 조건부 기댓값

명제: $\xi$가 적분 가능한 확률 변수이고 $\eta$가 이산 확률 변수일 때,

  1. $E(\xi|\eta)$는 $\sigma(\eta)$-측정가능하다.
  2. 모든 $A \in \sigma(\eta)$에 대하여, $\int_A E(\xi|\eta) dP = \int_A \xi dP$
증명: $\eta$가 서로 다른 값 $y_1, y_2, \dots$를 갖는다고 가정합니다. 그러면 사건들 $A_k = \{\eta=y_k\}$는 서로소(pairwise disjoint)이며 이들의 합집합은 $\Omega$입니다. $\sigma(\eta)$는 이 사건들로 생성됩니다.
  1. $E(\xi|\eta)(\omega) = E(\xi|\eta=y_k)$ (상수) for $\omega \in A_k$. 각 $A_k$ 위에서 상수이므로, $E(\xi|\eta)$는 $\sigma(\eta)$-측정가능합니다.
  2. 임의의 $A_k = \{\eta=y_k\} \in \sigma(\eta)$에 대하여, $$ \int_{A_k} E(\xi|\eta) dP = \int_{\{\eta=y_k\}} E(\xi|\{\eta=y_k\}) dP $$ $E(\xi|\{\eta=y_k\})$는 이 집합 위에서 상수이므로, $$ = E(\xi|\{\eta=y_k\}) \int_{\{\eta=y_k\}} dP = E(\xi|\{\eta=y_k\}) \cdot P(\{\eta=y_k\}) $$ $$ = \left(\frac{1}{P(\{\eta=y_k\})} \int_{\{\eta=y_k\}} \xi dP\right) \cdot P(\{\eta=y_k\}) = \int_{\{\eta=y_k\}} \xi dP = \int_{A_k} \xi dP $$ 모든 $A \in \sigma(\eta)$는 이러한 $A_k$들의 가산 합집합이므로, 성질은 모든 $A \in \sigma(\eta)$에 대해 성립합니다.

전체 기댓값의 법칙 상세 증명: $E[E(\xi|\eta)] = E[\xi]$

$$ \mathbb{E}[E(\xi|\eta)] = \int_\Omega E(\xi|\eta) dP $$

$\Omega$는 서로소인 사건들 $\{\eta=y_k\}$의 합집합이므로, 적분을 분해할 수 있습니다.

$$ = \sum_k \int_{\{\eta=y_k\}} E(\xi|\eta) dP $$

각각의 집합 $\{\eta=y_k\}$ 위에서 $E(\xi|\eta)$는 상수값 $E(\xi|\eta=y_k)$를 가집니다.

$$ = \sum_k E(\xi|\eta=y_k) \cdot P(\{\eta=y_k\}) $$

$E(\xi|\eta=y_k)$의 정의를 대입합니다.

$$ = \sum_k \left( \frac{1}{P(\{\eta=y_k\})} \int_{\{\eta=y_k\}} \xi dP \right) \cdot P(\{\eta=y_k\}) = \sum_k \int_{\{\eta=y_k\}} \xi dP $$

다시 서로소인 집합 위의 적분을 합치면 전체 공간 위의 적분이 됩니다.

$$ = \int_\Omega \xi dP = \mathbb{E}[\xi] $$

예제 1: 이산 분할

$\Omega=[0,1]$이고 $P$는 르베그 측도, $\xi(x)=2x^2$일 때, $\eta(x)$를 다음과 같이 정의합니다. $$ \eta(x) = \begin{cases} 1 & \text{if } x \in [0, 1/3) \\ 2 & \text{if } x \in [1/3, 2/3) \\ 0 & \text{if } x \in [2/3, 1] \end{cases} $$ 계산:

  • $x \in [0, 1/3)$일 때 $\eta(x)=1$이므로, $$ E(\xi|\eta)(x) = E(\xi|\eta=1) = \frac{1}{P([0, 1/3))}\int_0^{1/3} 2x^2 dx = \frac{1}{1/3} \left[ \frac{2x^3}{3} \right]_0^{1/3} = 3 \cdot \frac{2}{81} = \frac{2}{27} $$
  • $x \in [1/3, 2/3)$일 때 $\eta(x)=2$이므로, $$ E(\xi|\eta)(x) = E(\xi|\eta=2) = \frac{1}{1/3}\int_{1/3}^{2/3} 2x^2 dx = 3 \left[ \frac{2x^3}{3} \right]_{1/3}^{2/3} = 2\left(\frac{8}{27} - \frac{1}{27}\right) = \frac{14}{27} $$
  • $x \in [2/3, 1]$일 때 $\eta(x)=0$이므로, $$ E(\xi|\eta)(x) = E(\xi|\eta=0) = \frac{1}{1/3}\int_{2/3}^{1} 2x^2 dx = 3 \left[ \frac{2x^3}{3} \right]_{2/3}^{1} = 2\left(1 - \frac{8}{27}\right) = \frac{38}{27} $$

전체 기댓값 법칙 확인: $$ \mathbb{E}[\xi] = \int_0^1 2x^2 dx = \left[ \frac{2x^3}{3} \right]_0^1 = \frac{2}{3} $$ $$ \mathbb{E}[E(\xi|\eta)] = \frac{2}{27}\cdot P(\eta=1) + \frac{14}{27}\cdot P(\eta=2) + \frac{38}{27}\cdot P(\eta=0) $$ $$ = \frac{2}{27}\cdot\frac{1}{3} + \frac{14}{27}\cdot\frac{1}{3} + \frac{38}{27}\cdot\frac{1}{3} = \frac{2+14+38}{81} = \frac{54}{81} = \frac{2}{3} $$ 따라서 $\mathbb{E}[E(\xi|\eta)] = \mathbb{E}[\xi]$가 성립함을 확인했습니다.

예제 2: 연속형 변수

$\Omega=[0,1]^2$이고 $P$는 르베그 측도, $\xi(x,y)=x, \eta(x,y)=y$이며, 결합밀도함수가 $f(x,y)=x+y$일 때, $E[\xi|\eta]$를 구해봅시다. $$ E[\xi|\eta=y] = \int_{-\infty}^\infty x \cdot f_{\xi|\eta}(x|y) dx = \int_0^1 x \frac{f(x,y)}{f_\eta(y)} dx $$ 1. 주변 밀도 함수 $f_\eta(y)$ 계산: $$ f_\eta(y) = \int_0^1 f(x,y) dx = \int_0^1 (x+y) dx = \left[ \frac{x^2}{2} + xy \right]_0^1 = \frac{1}{2} + y $$ 2. 조건부 기댓값 계산: $$ E[\xi|\eta=y] = \frac{1}{1/2+y} \int_0^1 x(x+y) dx = \frac{1}{1/2+y} \left[ \frac{x^3}{3} + \frac{x^2y}{2} \right]_0^1 = \frac{1/3+y/2}{1/2+y} $$ $$ = \frac{(2+3y)/6}{(1+2y)/2} = \frac{2+3y}{3(1+2y)} = \frac{2+3y}{3+6y} $$ 따라서 확률 변수로서 $E[\xi|\eta] = \frac{2+3\eta}{3+6\eta}$ 입니다.