본문 바로가기

취준/FRM part1

FRM part1. Reading 14: Common Univariate Random Variable

 

FRM Part I – Reading 14
Common Univariate Random Variables
(주요 단변량 확률변수)

EXAM FOCUS

핵심 학습 목표

이 Reading은 리스크 관리에서 빈번히 등장하는 11개의 단변량 확률분포(균등, 베르누이, 이항, 포아송, 정규, 로그정규, 카이제곱, Student's t, F, 지수, 베타)와 혼합분포(Mixture Distribution)를 다룹니다. 시험에서 가장 집중해야 할 분포는 이항(Binomial), 정규(Normal), Student's t 분포입니다. 또한 정규분포의 표준화(z-값 계산), z-테이블 사용법, 신뢰구간(Confidence Interval) 구성을 반드시 숙달해야 합니다.

분포를 공부할 때의 사고 프레임워크

각 분포를 만났을 때 다음 5가지를 즉시 떠올리면, 분포 간 비교와 시험 문제 풀이가 체계적이 됩니다:

  • 1단계 - 이산(Discrete) vs 연속(Continuous): 값을 "셈"할 수 있으면 이산(PMF 사용), 구간에서 연속이면 연속(PDF 사용, 확률 = 면적).
  • 2단계 - 정의역(Support): 가능한 값의 범위가 어디인가? {0,1}인가, [0, 1]인가, [0, +무한)인가, (-무한, +무한)인가?
  • 3단계 - 모수(Parameters): 분포의 형태를 완전히 결정하는 숫자는 몇 개이고 무엇인가?
  • 4단계 - 평균(Mean)과 분산(Variance): 각 분포의 평균/분산 공식을 모수로 표현.
  • 5단계 - 용도(Application): 이 분포는 금융/리스크 관리에서 "무엇을 모델링"할 때 쓰이는가?

기초 개념: 이산형 vs 연속형 확률변수

확률분포를 공부하기 전에, 이산형(Discrete)연속형(Continuous) 확률변수의 근본적 차이를 명확히 이해해야 합니다. 이 구분이 흐려지면 확률 계산에서 체계적 실수를 범하게 됩니다.

구분 이산형 (Discrete) 연속형 (Continuous)
가능한 값 "셈" 가능한 개별 값 (0, 1, 2, ...) 구간 내 모든 실수값
확률 함수 PMF: \(p(x) = P(X = x)\). 특정 값에 확률 부여 가능. PDF: \(f(x)\). \(P(X = x) = 0\). 확률은 반드시 구간 적분으로 계산.
확률 계산 \(P(X = x)\)를 직접 계산 \(P(a \leq X \leq b) = \int_a^b f(x)\,dx\) (면적)
CDF \(F(x) = P(X \leq x)\): 계단 형태 \(F(x) = P(X \leq x)\): 매끄러운 곡선
이 Reading의 예 베르누이, 이항, 포아송 균등, 정규, 로그정규, t, 카이제곱, F, 지수, 베타

핵심 함정: 연속형에서 \(P(X = x) = 0\)

연속형 확률변수에서 특정 한 점의 확률은 반드시 0입니다. 확률은 "면적"이고, 점은 "폭이 0인 선분"이므로 면적이 0입니다. 따라서 연속형에서 \(P(X \leq 5) = P(X < 5)\)가 성립합니다. 이산형에서는 이것이 성립하지 않습니다(\(P(X \leq 5) = P(X < 5) + P(X = 5)\)). 시험에서 "미만(<)"과 "이하(≤)"의 구분이 연속형에서는 무의미하지만, 이산형에서는 결정적이라는 점을 활용하는 문제가 나올 수 있습니다.


큰 그림: 11개 분포 마스터 비교표

아래 테이블은 이 Reading에서 다루는 모든 분포의 핵심 속성을 한눈에 비교합니다. 개별 분포를 상세히 학습하기 전에 이 전체 지도를 머릿속에 잡아두면, 각 분포의 위치와 상호 관계를 즉시 파악할 수 있습니다.

분포 유형 정의역 모수 평균 분산 핵심 용도
균등 연속 \([a, b]\) \(a, b\) \(\frac{a+b}{2}\) \(\frac{(b-a)^2}{12}\) 모든 값이 동일 확률
베르누이 이산 \(\{0, 1\}\) \(p\) \(p\) \(p(1-p)\) 성공/실패 이진 결과
이항 이산 \(\{0,1,...,n\}\) \(n, p\) \(np\) \(np(1-p)\) n회 시행 중 성공 횟수
포아송 이산 \(\{0,1,2,...\}\) \(\lambda\) \(\lambda\) \(\lambda\) 단위당 사건 발생 횟수
정규 연속 \((-\infty, +\infty)\) \(\mu, \sigma^2\) \(\mu\) \(\sigma^2\) 수익률, 포트폴리오 이론
로그정규 연속 \((0, +\infty)\) \(\mu, \sigma^2\) (of \(\ln Y\)) - - 자산 가격 (음수 불가)
Student's t 연속 \((-\infty, +\infty)\) \(df\) \(0\) \(\frac{df}{df-2}\) 소표본 평균 검정
카이제곱 연속 \([0, +\infty)\) \(df\) \(df\) \(2 \cdot df\) 모분산 검정
F 연속 \([0, +\infty)\) \(df_1, df_2\) - - 두 모분산 비교
지수 연속 \([0, +\infty)\) \(\lambda\) (rate) \(\frac{1}{\lambda}\) \(\frac{1}{\lambda^2}\) 대기 시간, 부도까지 시간
베타 연속 \([0, 1]\) \(\alpha, \beta\) \(\frac{\alpha}{\alpha+\beta}\) \(\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}\) 부도확률, 회수율

MODULE 14.1: 균등, 베르누이, 이항, 포아송 분포

LO 14.a: 주요 분포의 핵심 성질과 응용

1. 균등분포 (Uniform Distribution): \(X \sim U(a, b)\)

연속 균등분포(Continuous Uniform Distribution)는 하한 \(a\)와 상한 \(b\) 사이의 범위에서 정의되며, \(a\)와 \(b\)가 이 분포의 모수(Parameters) 역할을 합니다. 결과값은 \(a\)와 \(b\) 사이에서만 발생할 수 있으며, 연속 분포이므로 \(a < x < b\)이더라도 \(P(X = x) = 0\)입니다.

균등분포의 핵심적 직관은 매우 단순합니다: 특정 범위에 속할 확률은 그 범위의 "길이 비율"과 같습니다. 전체 가능 범위의 절반에 해당하는 범위에 속할 확률은 50%이고, 4분의 1에 해당하면 25%입니다. 수학적 표기에 압도되지 않으면 되는, 본질적으로 가장 단순한 분포입니다.

균등분포의 핵심 공식:

$$P(x_1 \leq X \leq x_2) = \frac{x_2 - x_1}{b - a} \quad (a \leq x_1 < x_2 \leq b)$$

$$f(x) = \frac{1}{b - a} \quad (a \leq x \leq b), \quad 0 \quad (\text{otherwise})$$

$$E[X] = \frac{a + b}{2}, \qquad Var(X) = \frac{(b - a)^2}{12}$$

예시: 균등분포 확률 계산

\(X\)가 2와 12 사이에서 균등분포를 따른다고 합시다. \(X\)가 4와 8 사이에 있을 확률은?

$$P(4 \leq X \leq 8) = \frac{8 - 4}{12 - 2} = \frac{4}{10} = 0.40 \;\; (40\%)$$

4에서 8까지의 구간 길이(4)가 전체 범위 길이(10)의 40%이므로, 확률도 40%입니다. CDF는 범위 내에서 선형(직선) 형태를 띱니다.

균등분포의 평균은 구간의 정중앙(\(\frac{a+b}{2}\))이고, 분산 공식 \(\frac{(b-a)^2}{12}\)에서 12라는 숫자가 등장하는 이유는 적분을 통해 유도되는 수학적 결과입니다. 시험에서는 이 공식 자체를 암기하고 적용하는 것이 중요합니다.

2. 베르누이분포 (Bernoulli Distribution): \(X \sim Bernoulli(p)\)

베르누이 확률변수오직 두 가지 결과(Two Possible Outcomes)만 가지는 이산 확률변수입니다. 결과는 성공(Success) 또는 실패(Failure)로 정의됩니다. 성공 확률 \(p\)는 값 1로, 실패 확률 \(1 - p\)는 값 0으로 표기됩니다. 베르누이 분포는 이진 결과(Binary Outcomes)의 확률을 평가하는 데 일반적으로 사용됩니다. 예를 들어, 기업이 특정 기간 동안 채무불이행(Default)할 확률을 평가하는 것이 전형적인 베르누이 상황입니다.

베르누이분포의 PMF, 평균, 분산:

$$f(x) = p^x(1-p)^{1-x}, \quad x \in \{0, 1\}$$

$$E[X] = p, \qquad Var(X) = p(1-p)$$

분산이 최대가 되는 조건: \(p = 0.5\)

분산 \(p(1-p)\)는 아래로 볼록한 포물선 형태이며, \(p = 0.5\)일 때 최대값 0.25에 도달합니다. 직관적으로, 성공과 실패가 정확히 반반(\(p = 0.5\))일 때 결과의 불확실성이 가장 크고, \(p\)가 0이나 1에 가까울수록(결과가 거의 확정적일수록) 분산은 0에 가까워집니다. 이 직관은 시험에서 자주 활용됩니다.

또한, PMF는 \(X = 0\) 또는 1에서만 정의되지만, 대응하는 CDF는 모든 실수(All Real Numbers)에 대해 정의된다는 점을 기억하세요: \(x < 0\)이면 \(F(x) = 0\), \(0 \leq x < 1\)이면 \(F(x) = 1 - p\), \(x \geq 1\)이면 \(F(x) = 1\).

3. 이항분포 (Binomial Distribution): \(X \sim Binomial(n, p)\)

이항 확률변수는 주어진 횟수의 베르누이 시행(Bernoulli Trials)에서 성공의 횟수(Number of Successes)로 정의됩니다. 결과는 성공 또는 실패이며, 성공 확률 \(p\)는 매 시행마다 일정(Constant)하고, 각 시행은 독립(Independent)입니다. 이 조건들 하에서, 이항확률함수는 \(n\)번 시행에서 정확히 \(x\)번 성공할 확률을 정의합니다.

이항분포를 베르누이의 확장으로 이해하면 매우 직관적입니다. 이항 확률변수 \(X\)는 \(n\)개의 독립적인 베르누이 확률변수의 합입니다: \(X = \sum_{i=1}^{n} I_i\), 여기서 각 \(I_i \sim Bernoulli(p)\). 이로부터 평균과 분산이 자연스럽게 도출됩니다: \(E[X] = \sum E[I_i] = np\), \(Var(X) = \sum Var(I_i) = np(1-p)\) (독립이므로 공분산 항이 0).

이항분포의 PMF:

$$P(X = x) = \binom{n}{x} p^x (1-p)^{n-x}, \quad x = 0, 1, \ldots, n$$

여기서 \(\binom{n}{x} = \frac{n!}{x!(n-x)!}\) 는 \(n\)개에서 \(x\)개를 선택하는 조합의 수

 

평균과 분산:

$$E[X] = np, \qquad Var(X) = np(1-p)$$

예시: 이항확률 계산 (검은콩 문제)

검은콩과 흰콩이 든 그릇에서 콩을 뽑을 때, 한 번의 시도에서 검은콩을 뽑을 확률이 0.6입니다. 5번 뽑아서 정확히 3개가 검은콩일 확률은?

$$P(X = 3) = \binom{5}{3}(0.6)^3(0.4)^2 = 10 \times 0.216 \times 0.16 = 0.3456$$

직관적 이해: 검은콩 3개, 흰콩 2개가 나오는 하나의 특정 순서(예: BBBWW)의 확률은 \(0.6^3 \times 0.4^2 = 0.03456\) (약 3.456%)입니다. 그런데 3개의 검은콩이 나오는 순서는 BBBWW만 있는 것이 아니라 BBWWB, BWWBB 등 여러 가지가 있습니다. 조합 공식 \(\binom{5}{3} = 10\)에 의해 총 10가지 순서가 가능하므로, 최종 확률은 \(10 \times 0.03456 = 0.3456\)이 됩니다.

예시: DJIA 상승일 수

다우존스 산업평균이 특정 날 상승할 확률이 0.67이고, 일별 움직임이 독립이라 가정합니다. 5일 동안 상승하는 일수의 기대값과 분산은?

"성공"을 UP으로 정의하면 \(p = 0.67\)입니다.

$$E[X | n=5, p=0.67] = 5 \times 0.67 = 3.35$$

$$Var(X) = 5 \times 0.67 \times 0.33 = 1.106$$

이항분포는 이산분포이므로 \(X = 3.35\)라는 결과는 실제로 불가능합니다. 그러나 많은 5일 기간의 결과를 기록하면, 상승일 수의 평균은 3.35에 수렴할 것입니다.

시험 함정: "성공"의 정의를 먼저 고정하라!

이항분포 문제에서 가장 흔한 실수는 "성공(Success)"이 무엇인지를 명확히 정의하지 않는 것입니다. "상승(UP)을 성공으로 둘지 하락(DOWN)을 성공으로 둘지"에 따라 \(p\)의 값이 달라지고, 전체 계산이 바뀝니다. 문제를 읽자마자 "성공 = ?"을 먼저 설정하는 습관이 필요합니다.

이항분포는 투자 세계에서 광범위하게 사용됩니다. 증권 가격이 상승하면 성공, 하락하면 실패로 보는 프레임워크에서, 이항분포는 자산 가치평가 모델(Asset Valuation Models)을 구축하는 데 활용됩니다. 이후 Book 4에서 다루는 이항 트리(Binomial Tree)를 이용한 주식 옵션 가치평가가 그 대표적 응용입니다.

4. 포아송분포 (Poisson Distribution): \(X \sim Poisson(\lambda)\)

포아송분포는 다양한 실제 응용을 가진 이산 확률분포입니다. 예를 들어, 생산 공정에서의 배치당 결함 수나 시간당 응급 전화 건수는 포아송분포를 따르는 이산 확률변수입니다. 포아송 확률변수 \(X\)는 단위당 성공 횟수(Number of Successes per Unit)를 나타내며, 모수 \(\lambda\)(람다)는 단위당 평균(기대) 성공 횟수를 나타냅니다.

포아송분포의 PMF:

$$P(X = x) = \frac{e^{-\lambda} \lambda^x}{x!}, \quad x = 0, 1, 2, \ldots$$

 

핵심 특성: 평균 = 분산 = \(\lambda\)

$$E[X] = \lambda, \qquad Var(X) = \lambda$$

포아송분포의 가장 독특한 특징은 평균과 분산이 모두 동일하게 \(\lambda\)라는 점입니다. 이 성질은 시험에서 직접적으로 물어보거나, 다른 분포와의 구별점으로 활용됩니다.

예시 1: 콜센터 전화 (단위 변환 주의)

응급 서비스가 평균적으로 초당 0.1건의 전화를 받습니다. 1분 동안 정확히 5건의 전화가 올 확률은?

먼저 단위 변환이 필요합니다: \(\lambda = 0.1 \times 60 = 6.0\) (분당 기대 건수)

$$P(X = 5) = \frac{e^{-6} \times 6^5}{5!} = \frac{0.002479 \times 7776}{120} \approx 0.1606 \;\; (16.06\%)$$

예시 2: 약물 부작용 (이항의 포아송 근사)

심장질환 치료약의 심각한 체중감소 부작용 확률이 0.01입니다. 200명의 환자 중 정확히 5명에게 부작용이 발생할 확률은?

\(\lambda = np = 200 \times 0.01 = 2\)

$$P(X = 5) = \frac{e^{-2} \times 2^5}{5!} = \frac{0.1353 \times 32}{120} \approx 0.036 \;\; (3.6\%)$$

이 예시는 \(n\)이 크고 \(p\)가 작을 때 이항분포를 포아송으로 근사할 수 있음을 보여줍니다.

MODULE QUIZ 14.1

문제 1. 조립라인에서 나오는 자동차의 5%에 결함이 있다. 무작위로 선택한 3대 중 정확히 1대가 결함이 있을 확률은? (포아송분포 가정)

A. 0.129    B. 0.135    C. 0.151    D. 0.174

문제 2. 전체 기업의 60%가 웹페이지를 가지고 있다. 이항분포를 가정할 때, 무작위 6개 기업 중 정확히 4개가 웹페이지를 가질 확률은?

A. 0.138    B. 0.276    C. 0.311    D. 0.324

문제 3. 12에서 28 범위의 연속 균등분포를 따르는 확률변수의 결과가 15와 25 사이에 있을 확률은?

A. 0.509    B. 0.625    C. 1.000    D. 1.600


MODULE 14.2: 정규분포와 로그정규분포

5. 정규분포 (Normal Distribution): \(X \sim N(\mu, \sigma^2)\)

정규분포는 여러 이유에서 중요합니다. 금융 및 기타 전문 분야에서 관련되는 많은 확률변수가 정규분포를 따르며, 투자 및 포트폴리오 관리 영역에서 정규분포는 포트폴리오 이론의 핵심(Central Role)을 차지합니다.

정규분포의 PDF:

$$f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)$$

정규분포의 핵심 성질들은 다음과 같습니다:

성질 내용 시험 포인트
완전 기술 평균 \(\mu\)와 분산 \(\sigma^2\) 두 모수만으로 분포가 완전히 결정됨 \(X \sim N(\mu, \sigma^2)\)라고 표기
대칭성 왜도(Skewness) = 0. 평균을 중심으로 좌우 대칭. 평균 = 중앙값 = 최빈값
첨도 첨도(Kurtosis) = 3. 초과 첨도(Excess Kurtosis) = 0. 다른 분포의 첨도를 비교할 때 기준선이 3
선형 결합 독립인 정규변수들의 선형 결합도 정규분포를 따름 포트폴리오 수익률이 정규 → 개별 자산도 정규
꼬리 꼬리가 매우 얇아지지만 절대 0이 되지 않음(무한히 연장) 극단적 값도 이론적으로 가능 (양/음 무한대)

6. 신뢰구간 (Confidence Interval)

신뢰구간(Confidence Interval)은 기대 결과 주변에서, 실제 결과가 특정 비율의 시간 동안 들어올 것으로 예상하는 값의 범위입니다. 95% 신뢰구간이란, 확률변수가 그 범위 안에 있을 것으로 기대하는 확률이 95%인 구간입니다. 정규분포에서 이 구간은 기대값(평균)과 변동성(표준편차)에 기반합니다.

시험 필수 암기: 세 가지 핵심 신뢰구간

신뢰수준 구간 임계값(z) 의미
90% \(\bar{X} \pm 1.65 \cdot s\) 1.65 100번 중 90번은 이 범위 안에
95% \(\bar{X} \pm 1.96 \cdot s\) 1.96 100번 중 95번은 이 범위 안에
99% \(\bar{X} \pm 2.58 \cdot s\) 2.58 100번 중 99번은 이 범위 안에

또한 기억할 근사값: 결과의 약 68%가 평균으로부터 1 표준편차 이내, 약 95%2 표준편차 이내에 있습니다.

예시: 뮤추얼펀드 수익률 신뢰구간

뮤추얼펀드의 연간 평균 수익률이 10.5%, 연간 수익률의 표준편차가 18%입니다. 수익률이 대략 정규분포를 따른다면, 내년 수익률의 95% 신뢰구간은?

$$10.5\% \pm 1.96 \times 18\% = 10.5\% \pm 35.28\%$$

$$\Rightarrow [-24.78\%, \;\; 45.78\%]$$

해석: 연간 수익률이 -24.78%에서 45.78% 사이에 있을 것으로 기대되는 확률이 95%입니다. 즉, 100년 중 95년은 이 범위 안에 들 것입니다.

7. 표준정규분포와 z-값 (Standard Normal Distribution)

표준정규분포(Standard Normal Distribution)는 평균이 0이고 표준편차가 1인 정규분포로 표준화(Standardized)된 것입니다: \(Z \sim N(0, 1)\). 주어진 정규분포에서 관측치를 표준화하려면, 해당 관측치의 z-값(z-value)을 계산해야 합니다. z-값은 주어진 관측치가 모집단 평균으로부터 몇 표준편차(Standard Deviations) 떨어져 있는지를 나타냅니다.

표준화 공식:

$$z = \frac{x - \mu}{\sigma}$$

이 변환을 통해 어떤 정규분포든 하나의 표준정규분포 테이블(z-테이블)로 확률을 계산할 수 있습니다.

8. z-테이블을 이용한 확률 계산 절차

z-테이블은 표준정규분포의 CDF, 즉 \(F(z) = P(Z \leq z)\)의 값을 담고 있습니다. 테이블의 값은 주어진 z-값 이하(Less Than)의 값을 관측할 확률입니다. 양수 z-값만 제공되는 경우가 많지만, 표준정규분포의 대칭성을 이용하면 문제없습니다: \(F(-z) = 1 - F(z)\).

z-테이블 사용의 3단계 절차는 다음과 같습니다:

단계 작업 설명
1단계 표준화 \(z = \frac{x - \mu}{\sigma}\)로 원하는 값을 z-값으로 변환
2단계 테이블 조회 z-테이블에서 \(P(Z \leq z)\)를 찾음
3단계 보완/대칭 활용 필요시 \(P(Z > z) = 1 - P(Z \leq z)\), 또는 \(F(-z) = 1 - F(z)\) 적용

예시 1: EPS가 $9.70 이상일 확률

EPS가 \(\mu = 6\), \(\sigma = 2\)인 정규분포를 따릅니다. \(P(EPS > 9.70)\)은?

1단계 (표준화): \(z = \frac{9.70 - 6}{2} = 1.85\). 즉, $9.70은 평균 EPS $6보다 1.85 표준편차 위에 있습니다.

2단계 (테이블 조회): z-테이블에서 \(F(1.85) = 0.9678\). 이것은 \(P(EPS \leq 9.70)\)입니다.

3단계 (보완확률): \(P(EPS > 9.70) = 1 - 0.9678 = 0.0322\) (3.22%)

예시 2: EPS가 $4.10 미만일 확률

같은 분포에서 \(P(EPS < 4.10)\)은?

1단계: \(z = \frac{4.10 - 6}{2} = -0.95\). $4.10은 평균보다 0.95 표준편차 아래에 있습니다.

2단계: 대칭성 활용: \(F(-0.95) = 1 - F(0.95) = 1 - 0.8289 = 0.1711\)

즉, 관측된 EPS가 $4.10 미만일 확률은 약 17.11%입니다.

시험 함정: z-테이블의 형식을 반드시 확인!

z-테이블이 \(P(Z \leq z)\) (CDF 형태)를 주는지, \(P(0 \leq Z \leq z)\) (0에서 z까지의 면적)를 주는지 형식이 다를 수 있습니다. 이 Reading과 대부분의 FRM 시험은 CDF 형태(\(P(Z \leq z)\))를 사용합니다. 테이블 형식을 확인하지 않고 문제를 풀면 체계적 오류가 발생합니다.

9. 로그정규분포 (Lognormal Distribution)

로그정규분포는 함수 \(Y = e^X\)에 의해 생성됩니다. 여기서 \(X\)는 정규분포를 따릅니다. \(e^X\)의 자연로그(\(\ln\))가 \(X\)이므로, 로그정규분포를 따르는 확률변수의 로그값은 정규분포를 따릅니다. 이것이 이름의 유래입니다.

로그정규분포의 핵심 특성은 두 가지입니다:

특성 내용 금융적 의미
오른쪽 비대칭 양의 왜도(Right-Skewed). 정규분포의 완벽한 대칭과 대비. 자산 가격은 큰 양의 수익률보다 제한된 음의 수익률을 가짐
하한이 0 절대 음수를 취하지 않음. 최소값이 0. 자산 가격은 0 아래로 내려갈 수 없음을 자연스럽게 반영

왜 자산 가격 모델링에 로그정규분포를 쓰는가?

만약 수익률을 정규분포로 모델링하면, -100% 미만의 수익률도 이론적으로 가능하므로 자산 가격이 음수가 될 수 있습니다. 이는 현실과 맞지 않습니다. 대신 가격 상대비(Price Relative) = \(S_1/S_0 = 1 + \text{보유기간 수익률}\)이 로그정규분포를 따른다고 가정하면, 가격 상대비는 최소값이 0이므로 기말 자산 가격은 절대 0 아래로 내려가지 않습니다. 가격 상대비가 0이라는 것은 보유기간 수익률이 -100%(자산 가치가 0으로 소멸)에 해당합니다.

시험 함정: 로그정규 vs 수익률

로그정규분포로 적절히 모델링하기 어려운(Least Likely) 것은 금융 증권의 수익률(Return)입니다. 수익률은 음수가 될 수 있지만, 로그정규분포는 0 미만의 값을 취할 수 없기 때문입니다. 로그정규로 모델링하는 것은 "가격" 또는 "가격비율"이지, "수익률 자체"가 아닙니다. 이 구분은 시험에서 직접 출제됩니다.

MODULE QUIZ 14.2

문제 1. 정규 확률변수가 평균보다 2 표준편차 이상 위에 있을 확률은?

A. 0.0217    B. 0.0228    C. 0.4772    D. 0.9772

문제 2. 다음 중 로그정규분포로 적절히 모델링하기 가장 어려운 확률변수는?

A. 사진 용액 내 은 입자의 크기
B. 파리의 생존 시간
C. 금융 증권의 수익률
D. 대기권에 진입하는 유성의 무게


MODULE 14.3: 추가 분포들

10. Student's t-분포

Student's t-분포는 정규분포와 유사하지만 꼬리가 더 두꺼운(Fatter Tails) 분포입니다. 즉, 분포의 꼬리 영역에 더 큰 비율의 결과가 위치합니다. t-분포는 모분산이 알려져 있지 않고(Unknown Variance), 소표본(n < 30)에서 추출된 데이터로 신뢰구간을 구성할 때 적절한 분포입니다. 모집단은 정규 또는 근사적으로 정규(Normal or Approximately Normal)인 분포여야 합니다.

t-분포의 핵심 성질들은 다음과 같습니다:

성질 내용
대칭(Symmetrical) 정규분포처럼 평균을 중심으로 좌우 대칭
단일 모수: 자유도(df) \(df = n - 1\) (표본 평균 기준). 자유도 하나로 분포 형태가 결정됨
두꺼운 꼬리 정규분포보다 꼬리 영역의 확률이 더 크다
정규 수렴 자유도가 증가하면 → 표준정규분포에 점점 가까워짐

t-분포의 실전적 의미: 더 넓은 신뢰구간

t-분포가 정규분포보다 꼬리가 두껍다는 것은, 같은 신뢰수준에서 신뢰구간이 더 넓어야 한다는 것을 의미합니다. 예를 들어, 95% 신뢰구간을 구성할 때 정규분포에서는 \(\pm 1.96\)을 사용하지만, 자유도가 10인 t-분포에서는 \(\pm 2.228\)을 사용해야 합니다. 더 넓은 구간은 "모분산을 모르기 때문에 발생하는 추가적 불확실성"을 반영하는 것입니다.

모분산 미지 + 소표본일 때의 평균 신뢰구간:

$$\bar{X} \pm t_{\alpha/2, \; n-1} \cdot \frac{s}{\sqrt{n}}$$

시험 함정: 표본이 작은데 z-임계값(1.96)을 사용하는 실수

모분산을 모르는 상태에서 소표본(\(n < 30\))으로 평균의 신뢰구간을 구성할 때, 정규분포의 z-임계값(1.96 등)을 사용하면 구간이 너무 좁아져서 실제 신뢰수준이 명목 수준보다 낮아집니다. 이때는 반드시 t-임계값을 사용해야 합니다. t-임계값은 z-임계값보다 항상 크므로, 구간이 더 넓어집니다.

11. 카이제곱분포 (Chi-Squared Distribution): \(\chi^2\)

모집단 모수에 관한 가설 검정과 항상 양수인 확률변수의 모델링은 종종 카이제곱분포에 기반합니다. 카이제곱분포는 비대칭(Asymmetrical)이고, 아래쪽이 0으로 한정(Bounded Below by Zero)되며, 자유도가 증가하면 정규분포의 형태에 접근합니다.

카이제곱 검정은 정규분포 모집단의 분산(Variance)에 관한 가설 검정에 사용됩니다. 자유도 \(n-1\)의 검정 통계량은 다음과 같이 계산됩니다:

카이제곱 검정 통계량:

$$\chi^2 = \frac{(n-1)s^2}{\sigma_0^2} \sim \chi^2_{n-1}$$

여기서 \(s^2\) = 표본분산, \(\sigma_0^2\) = 귀무가설 하의 모분산

12. F-분포 (F-Distribution)

두 모집단의 분산이 같은지에 관한 가설은 F-분포 검정 통계량으로 검정됩니다. F-분포 검정 통계량은 모집단이 정규분포를 따르고 표본이 독립일 때 사용됩니다. F-통계량은 두 표본분산의 비율(Ratio)입니다.

F-검정 통계량:

$$F = \frac{s_1^2}{s_2^2} \sim F(n_1 - 1, \; n_2 - 1)$$

\(df_1 = n_1 - 1\) (분자 자유도), \(df_2 = n_2 - 1\) (분모 자유도)

F-분포는 오른쪽 비대칭(Right-Skewed)이고 왼쪽이 0에서 잘려 있습니다. 분포의 형태는 두 개의 자유도(분자, 분모)에 의해 결정됩니다. F-분포의 추가 성질로는: 관측 수가 증가하면 정규분포에 접근하며, t-값의 제곱(\(t^2\))은 자유도 (1, n-1)인 F-분포를 따릅니다.

카이제곱 / F / t 분포의 연결 고리

이 세 분포는 서로 밀접하게 연결되어 있으며, "쌍"으로 기억하면 효과적입니다:

분포 검정 대상 관계
t 모집단 평균 (분산 미지) \(t^2 \sim F(1, n-1)\)
카이제곱 단일 모집단 분산 관측 수 증가 → 정규 수렴
F 두 모집단 분산의 비 분모 관측 수 → \(\infty\)이면 카이제곱/df에 수렴

13. 지수분포 (Exponential Distribution): \(T \sim Exp(\lambda)\)

지수분포대기 시간(Waiting Times)을 모델링하는 데 자주 사용됩니다. 직원이 고객을 서비스하는 데 걸리는 시간이나, 기업이 부도에 이르는 데 걸리는 시간 등이 대표적입니다.

지수분포의 PDF, 평균, 분산:

$$f(t) = \lambda e^{-\lambda t}, \quad t \geq 0$$

$$E[T] = \frac{1}{\lambda} = \beta, \qquad Var(T) = \frac{1}{\lambda^2} = \beta^2$$

여기서 스케일 모수 \(\beta > 0\)이고, 비율 모수(Rate Parameter) \(\lambda = \frac{1}{\beta}\).

비율 모수 \(\lambda\)는 사건이 발생하는 속도(Rate)를 측정합니다. 기업 부도를 기다리는 맥락에서, 비율 모수는 위험률(Hazard Rate)로 알려져 있으며 부도가 도착하는 속도를 나타냅니다. \(\lambda\)가 크면 사건이 빈번하게 발생(평균 대기시간 짧음)하고, \(\lambda\)가 작으면 드물게 발생(평균 대기시간 긺)합니다.

핵심 연결: 지수분포와 포아송분포의 관계

지수분포는 사건 간 대기 시간을 모델링하고, 포아송분포는 특정 기간 동안의 사건 발생 횟수를 모델링합니다. 이 둘은 동전의 양면입니다:

사건 간 대기 시간이 \(Exp(\lambda)\)을 따르면, 기간 \(t\)까지의 사건 수 \(N_t\)는 \(Poisson(\lambda t)\)를 따릅니다.

포아송의 평균/분산 = \(\lambda\), 지수의 평균 = \(1/\lambda\), 지수의 분산 = \(1/\lambda^2\). 즉, 포아송의 모수와 지수의 모수는 역수 관계입니다.

14. 베타분포 (Beta Distribution): \(X \sim Beta(\alpha, \beta)\)

베타분포부도 확률(Default Probabilities)회수율(Recovery Rates)을 모델링하는 데 사용될 수 있습니다. 이 결과, CreditMetrics 등의 일부 신용 리스크 모델에서 활용됩니다. 베타분포의 질량은 0과 1 사이의 구간 \([0, 1]\)에 집중됩니다. 이 분포는 형상 모수 \(\alpha\)와 \(\beta\)의 값에 따라 대칭이 될 수도 있고 비대칭이 될 수도 있습니다.

베타분포의 평균과 분산:

$$E[X] = \frac{\alpha}{\alpha + \beta}, \qquad Var(X) = \frac{\alpha\beta}{(\alpha + \beta)^2(\alpha + \beta + 1)}$$

베타분포의 정의역이 \([0, 1]\)이라는 특성이 핵심입니다. 확률이나 비율처럼 0에서 1 사이의 값을 취하는 변수를 모델링할 때 자연스러운 선택이 됩니다. 예를 들어, 부도가 발생했을 때 채권자가 회수할 수 있는 비율(회수율)은 0%(전액 손실)에서 100%(전액 회수) 사이이므로 베타분포로 모델링하기 적합합니다.


LO 14.b: 혼합분포 (Mixture Distributions)

15. 혼합분포의 구성과 특성

이 Reading에서 논의된 분포들과 기타 분포들을 결합하여 고유한 PDF(Unique PDFs)를 생성할 수 있습니다. 작업 중인 기초 데이터가 기존의 미리 정해진 분포에 맞지 않을 때, 새로 만든 분포가 관련 데이터를 설명하는 데 도움이 될 수 있습니다.

혼합분포의 정의:

$$f_{mix}(x) = \sum_{i=1}^{k} w_i f_i(x), \quad w_i \geq 0, \quad \sum_{i=1}^{k} w_i = 1$$

여기서 \(f_i(x)\)는 각 성분분포(Component Distribution), \(w_i\)는 각 성분의 가중치(Weight)

예시: 변동성 레짐 혼합

주식의 수익률이 시간의 75%는 낮은 변동성의 정규분포, 25%는 높은 변동성의 정규분포를 따른다고 가정합시다. 두 분포의 평균은 같지만 위험 수준(분산)이 다릅니다.

$$R | S=0 \sim N(\mu, \sigma_L^2) \quad (\text{확률 } 0.75)$$

$$R | S=1 \sim N(\mu, \sigma_H^2) \quad (\text{확률 } 0.25)$$

혼합 평균: \(E[R] = 0.75\mu + 0.25\mu = \mu\) (조건부 평균이 동일하므로)

혼합 분산 (전분산법칙):

$$Var(R) = E[Var(R|S)] + Var(E[R|S]) = 0.75\sigma_L^2 + 0.25\sigma_H^2 + 0$$

두 번째 항이 0인 이유는 조건부 평균이 둘 다 \(\mu\)로 동일하기 때문입니다. 이 결과는 변동성 레짐을 혼합하면 전체 분산이 커지고, 꼬리가 두꺼워져 첨도가 증가할 수 있다는 직관과 연결됩니다.

혼합분포는 모수적(Parametric)비모수적(Nonparametric) 분포의 요소를 모두 포함합니다. 입력으로 사용되는 성분분포들은 모수적이고, 혼합 내에서 각 분포의 가중치(Weights)는 비모수적(역사적 데이터에 기반)입니다. 더 많은 성분분포를 사용할수록 혼합분포는 실제 데이터를 더 정밀하게 따르지만, 결론을 도출하기가 어려워집니다.

혼합분포로 변경 가능한 분포 특성:

변경 대상 방법 리스크 관리 의미
왜도(Skewness) 서로 다른 평균을 가진 분포를 결합 비대칭 손실 분포 포착
첨도(Kurtosis) 서로 다른 분산을 가진 분포를 결합 두꺼운 꼬리 = 극단 사건(Fat Tail)
다봉성(Multimodality) 유의하게 다른 평균을 가진 분포를 결합 이중 레짐(호황/불황) 모델링

보다 견고한 분포를 생성하는 것은 리스크 관리자에게 명확한 이점입니다. 혼합분포를 통해 이전에 식별하기 어려웠던 저빈도-고심각도 사건(Low-Frequency, High-Severity Events)의 잠재성을 리스크 모델에 통합할 수 있습니다.

MODULE QUIZ 14.3

문제 1. t-분포는 다음의 경우에 신뢰구간을 구성하기 위해 사용하는 적절한 분포이다:

A. 비정규 모집단에서 추출한 대표본, 분산 알려짐
B. 근사 정규 모집단에서 추출한 대표본, 분산 알려짐
C. 근사 정규 모집단에서 추출한 소표본, 분산 알려짐
D. 근사 정규 모집단에서 추출한 소표본, 분산 미지

문제 2. F-분포와 카이제곱분포에 대한 다음 설명 중 가장 부정확한 것은? 두 분포 모두:

A. 비대칭이다.
B. 왼쪽이 0으로 한정된다.
C. 자유도에 의해 정의된다.
D. 평균이 표준편차보다 작다.


정답 및 상세 해설

Module Quiz 14.1

문제 정답 상세 해설
1 A 결함 확률 \(p = 0.05\)이므로, 포아송 가정 하에 \(\lambda = np = 3 \times 0.05 = 0.15\). \(P(X=1) = \frac{e^{-0.15} \times 0.15^1}{1!} = e^{-0.15} \times 0.15 \approx 0.8607 \times 0.15 = 0.129\). (LO 14.a)
2 C 성공 = 웹페이지 보유. \(P(X=4) = \binom{6}{4}(0.6)^4(0.4)^2 = 15 \times 0.1296 \times 0.16 = 0.311\). 조합 수 \(\binom{6}{4} = 15\), 성공 확률의 4승, 실패 확률의 2승을 곱합니다. (LO 14.a)
3 B \(a = 12\), \(b = 28\)이므로 \(P(15 \leq X \leq 25) = \frac{25-15}{28-12} = \frac{10}{16} = 0.625\). 구간 길이의 비율이 곧 확률입니다. (LO 14.a)

Module Quiz 14.2

문제 정답 상세 해설
1 B \(P(Z > 2) = 1 - F(2) = 1 - 0.9772 = 0.0228\). 평균보다 정확히 2 표준편차 위에 있을 확률입니다. A(0.0217)은 비슷하지만 정확한 z-테이블 값은 0.9772이므로 B가 정답. (LO 14.a)
2 C 로그정규분포는 0 미만의 값을 취할 수 없습니다. 금융 증권의 수익률(Return)은 음수가 될 수 있으므로, 로그정규로 모델링하기에 부적합합니다. 나머지 선택지(은 입자 크기, 파리 수명, 유성 무게)는 모두 0 미만이 될 수 없는 변수입니다. (LO 14.a)

Module Quiz 14.3

문제 정답 상세 해설
1 D t-분포의 적용 조건은: (1) 소표본(n < 30), (2) 모집단 분산 미지(Unknown Variance), (3) 모집단이 정규 또는 근사 정규. D만이 세 조건을 모두 충족합니다. A와 B는 분산이 알려져 있어 z-분포를 사용해야 하고, C도 분산이 알려져 있습니다. (LO 14.a)
2 D 카이제곱과 F 분포의 평균과 표준편차 사이에는 일관된 관계가 없습니다. A(비대칭), B(0으로 한정), C(자유도로 정의)는 모두 두 분포의 공통된 정확한 설명입니다. D의 "평균이 항상 표준편차보다 작다"는 주장은 자유도에 따라 달라지므로 부정확합니다. (LO 14.a)

KEY CONCEPTS (핵심 개념 정리)

LO 14.a -- 11개 분포의 핵심

균등분포: 가능한 범위에서 확률이 구간 길이의 비율과 같습니다. \(P(x_1 \leq X \leq x_2) = \frac{x_2 - x_1}{b - a}\).

베르누이분포: 성공/실패 이진 결과. \(E[X] = p\), \(Var(X) = p(1-p)\). 분산은 \(p = 0.5\)에서 최대.

이항분포: \(n\)번 독립 베르누이 시행에서 성공 횟수. \(P(X=x) = \binom{n}{x}p^x(1-p)^{n-x}\). \(E[X] = np\), \(Var(X) = np(1-p)\).

포아송분포: 단위당 성공 횟수. \(P(X=x) = \frac{e^{-\lambda}\lambda^x}{x!}\). 평균 = 분산 = \(\lambda\).

정규분포: 대칭 종모양. 평균 = 중앙값 = 최빈값. 왜도 = 0, 첨도 = 3. 평균과 표준편차로 완전히 기술됨. 표준화: \(z = \frac{x - \mu}{\sigma}\).

표준정규분포: \(N(0, 1)\). 정규변수를 z-변환하여 z-테이블로 확률 계산. 대칭성: \(F(-z) = 1 - F(z)\).

로그정규분포: \(Y = e^X\)이고 \(X\)가 정규이면 \(Y\)는 로그정규. 0 미만 불가. 자산 가격 모델링에 적합.

t-분포: 정규와 유사하나 꼬리가 더 두꺼움. 자유도(\(df = n-1\))로 정의. 소표본 + 분산 미지 시 평균 신뢰구간에 사용. df 증가 시 정규에 수렴.

카이제곱분포: 비대칭, 0 이상. 자유도 증가 시 정규에 접근. 정규 모집단의 분산 검정에 사용.

F-분포: 오른쪽 비대칭, 0에서 잘림. 두 개의 자유도(\(df_1, df_2\))로 형태 결정. 두 모분산 비교에 사용.

지수분포: 대기 시간 모델. \(f(t) = \lambda e^{-\lambda t}\). \(E[T] = 1/\lambda\), \(Var(T) = 1/\lambda^2\). 부도까지 시간에서 \(\lambda\) = 위험률(Hazard Rate). 포아송과 역수 관계.

베타분포: \([0, 1]\) 구간. 부도확률, 회수율 모델링. 형상 모수 \(\alpha, \beta\)에 따라 대칭 또는 비대칭.

LO 14.b -- 혼합분포

혼합분포는 모수적/비모수적 개념을 결합합니다. 성분분포(입력)는 모수적, 혼합 내 각 분포의 가중치는 역사적 데이터에 기반한 비모수적 요소입니다. 평균이 다른 분포를 혼합하면 왜도 변경, 분산이 다른 분포를 혼합하면 첨도 변경, 평균이 크게 다른 분포를 혼합하면 다봉성 분포 생성이 가능합니다.


시험 대비 한 줄 암기 체크리스트

주제 암기 포인트
이산 vs 연속 이산: PMF, \(P(X=x) \neq 0\). 연속: PDF, \(P(X=x)=0\), 확률 = 면적(적분).
균등분포 \(P = \frac{\text{구간 길이}}{\text{전체 범위}}\). 평균 = \(\frac{a+b}{2}\), 분산 = \(\frac{(b-a)^2}{12}\).
베르누이 \(\{0,1\}\). \(E=p\), \(Var=p(1-p)\). \(p=0.5\)에서 분산 최대(0.25).
이항 전제조건 (1) 독립 시행, (2) 확률 \(p\) 일정, (3) 성공/실패 이진 결과. "성공" 정의를 먼저!
이항 공식 \(\binom{n}{x}p^x(1-p)^{n-x}\). \(E=np\), \(Var=np(1-p)\).
포아송 \(\frac{e^{-\lambda}\lambda^x}{x!}\). 평균 = 분산 = \(\lambda\). 단위 변환 주의.
정규 성질 대칭, 평균=중앙=최빈, 왜도=0, 첨도=3. \(\mu, \sigma^2\)로 완전 기술.
신뢰구간 90%: \(\pm 1.65\), 95%: \(\pm 1.96\), 99%: \(\pm 2.58\). 68-95-99 규칙.
표준화 \(z = \frac{x - \mu}{\sigma}\). z-테이블은 \(P(Z \leq z)\). 대칭: \(F(-z) = 1 - F(z)\).
로그정규 \(Y = e^X\), \(X\) 정규 → \(Y\) 로그정규. 0 미만 불가. 자산 "가격"에 적합, "수익률"에는 부적합.
t-분포 적용 소표본 + 분산 미지 + 근사 정규. df = n-1. 꼬리 두꺼움 → 신뢰구간 더 넓음.
t vs z 실수 분산 미지 + 소표본에서 z(1.96) 쓰면 안 됨 → t-임계값(더 큰 값) 사용해야.
카이제곱 비대칭, 0 이상. 단일 모분산 검정. \(\chi^2 = \frac{(n-1)s^2}{\sigma_0^2}\).
F 분포 오른쪽 비대칭, df 두 개. 두 모분산 비교. \(F = s_1^2 / s_2^2\).
검정 분포 쌍 평균 → t (분산 미지), 단일 분산 → \(\chi^2\), 분산 비교 → F. \(t^2 \sim F(1, n-1)\).
지수분포 대기 시간. \(\lambda\) = rate(hazard rate). \(E = 1/\lambda\), \(Var = 1/\lambda^2\).
지수-포아송 지수 = "사건 간 시간", 포아송 = "기간 내 횟수". 모수가 역수 관계.
베타분포 \([0,1]\) 구간. 부도확률/회수율 모델링. \(\alpha, \beta\)에 따라 형태 변화.
혼합분포 구조 \(f_{mix} = \sum w_i f_i\). 성분 = 모수적, 가중치 = 비모수적.
혼합 효과 다른 평균 혼합 → 왜도. 다른 분산 혼합 → 첨도(두꺼운 꼬리). 크게 다른 평균 → 다봉성.
혼합 분산 공식 전분산법칙: \(Var(X) = E[Var(X|S)] + Var(E[X|S])\). 조건부 평균 같으면 두 번째 항 = 0.