FRM Part I – Reading 13
확률변수 (Random Variables)
EXAM FOCUS
핵심 학습 목표
이 Reading은 기댓값(expected value), 분산(variance), 왜도(skewness), 첨도(kurtosis)의 개념을 다룹니다. 이 측정치들의 특성과 계산 방법이 논의됩니다. 시험에서는 다음을 반드시 할 수 있어야 합니다:
- PMF(확률질량함수), CDF(누적분포함수), PDF(확률밀도함수)를 구별
- 기댓값을 계산하는 능력
- 통계 분포의 4가지 일반적인 모집단 모멘트를 식별
- 분위수(quantile), 중앙값(median), 사분위 범위(IQR)의 개념과 해석
- 선형변환 Y = a + bX가 각 통계량에 미치는 영향
MODULE 13.1: PMF, CDF, 기댓값
LO 13.a: PMF와 CDF의 정의, 구별, 그리고 두 함수 간의 관계
1. 확률변수의 두 가지 유형: 이산형 vs 연속형
확률변수(random variable)란 어떤 실험이나 관측의 결과를 수치로 대응시킨 것입니다. 확률변수의 유형을 이해하는 것은 이후 PMF, CDF, PDF를 구분하는 데 있어 가장 기본적인 출발점입니다.
이산 확률변수(discrete random variable)는 가능한 결과가 셀 수 있는(countable) 개수인 확률변수입니다. 여기서 "셀 수 있다"는 것은 가능한 값들을 하나하나 나열할 수 있다는 뜻입니다. 예를 들어, 베르누이(Bernoulli) 확률변수는 0과 1이라는 두 가지 값만 가질 수 있습니다. 동전을 던져 앞면이 나오면 1, 뒷면이 나오면 0으로 모형화할 수 있습니다. 또 다른 예로, 6월 중 기온이 70도를 초과하는 일수는 0부터 30까지의 정수 값을 가지는 이산 확률변수입니다.
연속 확률변수(continuous random variable)는 가능한 결과가 셀 수 없이 많은(uncountable) 확률변수입니다. 6월 강수량이 그 예입니다. 6.94인치와 6.95인치 사이에도 6.945인치, 6.9423인치 등 무한히 많은 값이 존재합니다. 가능한 결과가 무한히 많기 때문에, 어떤 특정 단일 값의 확률은 0입니다. 연속 확률변수에서는 양의 구간(interval)에 대한 확률만 의미가 있습니다. 예를 들어 "6월 강수량이 6.94인치에서 6.95인치 사이일 확률"처럼 구간으로 물어야 합니다.
| 특성 | 이산 확률변수 (Discrete) | 연속 확률변수 (Continuous) |
|---|---|---|
| 가능한 값 | 셀 수 있는 개수 (countable) | 셀 수 없이 많음 (uncountable) |
| 확률 함수 | PMF: \(f(x) = P(X = x)\) | PDF: \(f(x)\) (밀도, 확률 아님) |
| 특정 값의 확률 | \(P(X = x) \geq 0\) (양수 가능) | \(P(X = x) = 0\) (항상 0) |
| 확률 계산 방식 | 해당 값의 PMF 값을 직접 읽음 | 구간의 PDF 아래 면적(적분)을 계산 |
| CDF | 계단함수 (step function) | 연속적으로 증가하는 매끄러운 곡선 |
| 예시 | 동전 앞/뒤, 주사위 눈, 디폴트 여부(0/1) | 강수량, 수익률, 주가, 금리 |
2. 확률질량함수 (Probability Mass Function, PMF)
PMF는 이산 확률변수 \(X\)의 결과가 특정 값 \(x\)와 정확히 같을 확률을 제공합니다. 수학적으로 \(f(x) = P(X = x)\)로 표기합니다. PMF가 유효한 확률함수가 되려면 반드시 두 가지 조건을 충족해야 합니다: 첫째, 모든 \(x\)에 대해 \(f(x) \geq 0\)이어야 하고, 둘째, 모든 가능한 결과의 확률 합이 100%여야 합니다.
PMF의 기본 성질
$$f(x) = P(X = x), \quad f(x) \geq 0, \quad \sum_{\text{all } x} f(x) = 1$$PMF의 예시를 세 가지 살펴보겠습니다.
예시 1 - 베르누이 확률변수: \(P(X = 1) = p\)인 베르누이 확률변수의 PMF는 \(f(x) = p^x(1-p)^{1-x}\)입니다. 이 공식에 \(x = 1\)을 대입하면 \(f(1) = p\)이고, \(x = 0\)을 대입하면 \(f(0) = 1 - p\)가 됩니다. 두 확률의 합은 \(p + (1-p) = 1\)로 PMF 조건을 만족합니다. 금융에서 베르누이 확률변수는 기업의 부도(default) 여부를 모형화하는 데 흔히 사용됩니다. 부도가 발생하면 1, 아니면 0입니다.
예시 2 - 공정한 주사위: \(f(x) = 1/6\)으로, 1부터 6까지의 각 결과가 동일한 확률(16.67%)을 가집니다. 확률의 합은 \(6 \times (1/6) = 1\)입니다.
예시 3 - 비균등 확률: \(f(x) = x/10\)으로, 1, 2, 3, 4의 값을 가질 수 있는 확률변수입니다. \(P(X = 3) = 3/10 = 30\%\)이고, 확률의 합은 \(1/10 + 2/10 + 3/10 + 4/10 = 10/10 = 1\)입니다.
3. 누적분포함수 (Cumulative Distribution Function, CDF)
CDF는 확률변수가 \(x\) 이하의 값을 가질 확률을 제공합니다. 수학적으로 \(F(x) = P(X \leq x)\)로 표기합니다. CDF는 이산형과 연속형 모두에서 정의되며, 이것이 PMF와의 중요한 차이점입니다. PMF는 이산형에서만 사용하지만, CDF는 보편적으로 사용됩니다.
CDF 정의
$$F(x) = P(X \leq x)$$이산형에서 PMF와 CDF의 관계
$$F(x) = \sum_{t \leq x} f(t) = \sum_{t \leq x} P(X = t)$$이산형에서 CDF와 PMF의 관계는 매우 중요합니다. \(x\) 이하일 확률은 \(x\) 이하인 모든 가능한 결과의 확률을 단순히 합산한 것입니다. 직관적으로, PMF는 "각 점의 막대 높이"이고, CDF는 "왼쪽부터 막대를 차곡차곡 누적해 올라가는 계단 그래프"입니다. CDF에서 특정 값에서의 점프(증가) 크기가 곧 해당 값의 PMF입니다.
예시: 주사위의 PMF와 CDF
공정한 6면 주사위에서 PMF: \(f(x) = 1/6\) (모든 \(x = 1, 2, ..., 6\)에 대해)
CDF: \(F(x) = x/6\) (정수값 \(x = 1, 2, ..., 6\)에서)
| \(x\) | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| PMF \(f(x)\) | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 |
| CDF \(F(x)\) | 1/6 | 2/6 | 3/6 | 4/6 | 5/6 | 6/6 |
\(F(3) = f(1) + f(2) + f(3) = 1/6 + 1/6 + 1/6 = 3/6 = 50\%\)
이는 "3 이하가 나올 확률이 50%"라는 의미입니다.
베르누이 확률변수의 CDF는 특별한 주의가 필요합니다. PMF는 \(X = 0\) 또는 \(X = 1\)에서만 정의되지만, CDF는 모든 실수에 대해 정의됩니다. 예를 들어 \(P(X \leq 0.1456) = F(0.1456) = 1 - p\)입니다. 이는 \(X\)가 0 이하인 값들의 확률만 누적되기 때문입니다(0과 0.1456 사이에 다른 가능한 값이 없으므로).
LO 13.b: 확률변수의 수학적 기댓값 개념
1. 기댓값(Expected Value)의 정의
기댓값은 확률변수의 가능한 결과들의 확률가중평균(probability-weighted average)으로, 각 결과에 그 결과가 발생할 확률을 가중치로 곱하여 합산한 것입니다. 수학적으로 \(E\)는 기대 연산자(expectations operator)라고 하며, 확률가중평균을 계산한다는 것을 나타냅니다.
기댓값 (이산형)
$$E(X) = \sum_{i} x_i \cdot P(X = x_i)$$결과가 모두 동일한 확률일 때 (등확률)
$$E(X) = \frac{1}{n}\sum_{i=1}^{n} x_i = \bar{x} \quad \text{(단순평균)}$$2. 기댓값의 직관적 이해
기댓값을 이해할 때 가장 중요한 것은, 기댓값이 "한 번에 실제로 나오는 값"이 아니라 "무한히 반복했을 때의 장기 평균"이라는 점입니다. 통계적으로 말하면, 기댓값은 확률변수 결과에 대한 "최선의 추측(best guess)"입니다. 실제로 그 값이 나오지 않더라도, 추측과 실제 결과의 평균적 차이가 최소화되는 것이 기댓값입니다.
예시 1: 공정한 동전
앞면(heads) = 1, 뒷면(tails) = 0으로 설정합니다.
\(P(\text{heads}) = P(X = 1) = 0.5\), \(P(\text{tails}) = P(X = 0) = 0.5\)
\(E(X) = P(X=0) \times 0 + P(X=1) \times 1 = (0.5)(0) + (0.5)(1) = 0.5\)
개별 동전 던지기에서 \(X\)가 0.5가 될 수는 없습니다. 그러나 장기적으로 모든 결과의 평균은 0.5에 수렴합니다.
예시 2: 공정한 주사위
\(E(X) = (1/6)(1) + (1/6)(2) + (1/6)(3) + (1/6)(4) + (1/6)(5) + (1/6)(6) = 3.5\)
주사위를 던져서 3.5가 나올 수는 절대 없지만, 장기적으로 3.5가 모든 결과의 평균이 됩니다.
예시 3: 비균등 확률 - Ron's Stores EPS
Ron's Stores의 주당순이익(EPS) 확률분포:
| EPS | £1.80 | £1.60 | £1.20 | £1.00 |
|---|---|---|---|---|
| 확률 | 0.10 | 0.20 | 0.40 | 0.30 |
\(E(\text{EPS}) = 0.10(1.80) + 0.20(1.60) + 0.40(1.20) + 0.30(1.00)\)
\(= 0.18 + 0.32 + 0.48 + 0.30 = \textbf{£1.28}\)
결과가 동일한 확률이 아닌 경우, 기댓값은 결과의 가중합(weighted sum)으로 계산하며, 가중치는 각 결과의 확률입니다.
3. 기댓값의 유용한 성질 (선형성)
기댓값 연산자에는 시험에서 매우 자주 사용되는 두 가지 핵심 성질이 있습니다. 이 두 성질을 합쳐서 기댓값의 선형성(linearity of expectation)이라고 부릅니다.
성질 1: 상수 배율
$$E(cX) = c \cdot E(X) \quad \text{(c는 임의의 상수)}$$성질 2: 합의 기댓값
$$E(X + Y) = E(X) + E(Y) \quad \text{(X, Y는 임의의 확률변수)}$$성질 1은 "확률변수에 상수를 곱하면 기댓값에도 같은 상수가 곱해진다"는 것이고, 성질 2는 "두 확률변수의 합의 기댓값은 각각의 기댓값의 합과 같다"는 것입니다. 특히 성질 2는 \(X\)와 \(Y\)가 독립이든 아니든 항상 성립한다는 점이 중요합니다.
Module Quiz 13.1
문제 1. 이산 확률변수가 1, 2, 3, 4, 5의 값을 가질 수 있고, PMF가 \(P(X = x) = x/15\)일 때, CDF의 값 \(F(4)\)는?
A. 26.7%
B. 40.0%
C. 66.7%
D. 75.0%
문제 2. 애널리스트가 내년 GDP 성장률에 대해 다음 확률을 추정했습니다:
\(P(4\%) = 10\%\), \(P(3\%) = 30\%\), \(P(2\%) = 40\%\), \(P(1\%) = 20\%\)
이 추정에 기반한 내년 GDP 성장률의 기댓값은?
A. 2.0%
B. 2.3%
C. 2.5%
D. 2.8%
MODULE 13.2: 평균, 분산, 왜도, 첨도
LO 13.c: 4가지 일반적인 모집단 모멘트(Population Moments)
1. 모집단 모멘트 개관: "분포의 형상을 결정하는 4가지 숫자"
확률분포의 형상을 기술하는 데 가장 흔히 사용되는 모집단 모멘트(population moment)는 평균(mean), 분산(variance), 왜도(skewness), 첨도(kurtosis)의 네 가지입니다. 이 네 숫자를 알면 분포가 "어디에 위치하는지", "얼마나 퍼져 있는지", "좌우 대칭인지", "꼬리가 두꺼운지"를 파악할 수 있습니다.
첫 번째 모멘트인 평균은 이미 앞에서 논의했습니다. 나머지 세 모멘트는 중심모멘트(central moment)라고 불리는데, 함수에 확률변수에서 평균을 뺀 \(X - \mu\)가 포함되기 때문입니다. 평균을 빼는 것은 평균의 위치(location)에 영향을 받지 않는 함수를 만들어냅니다. 이 모멘트들은 평균 주위에서 확률분포의 형상에 대한 정보를 제공합니다.
2. 제1모멘트: 평균 (Mean) - "분포의 위치"
평균은 확률변수의 기댓값 \(E(X)\)이며, 그리스 문자 \(\mu\)(뮤)로 표기합니다. 평균은 분포가 수직선 위에서 어디에 중심을 잡고 있는지를 알려줍니다. 이것은 분포의 "무게중심"이라고 생각할 수 있습니다.
제1모멘트: 평균
$$\mu = E(X) = \sum_{i} x_i \cdot P(X = x_i)$$3. 제2중심모멘트: 분산 (Variance) - "분포의 퍼짐"
분산은 확률변수의 제2중심모멘트로, \(\sigma^2\)으로 표기합니다. 분산은 확률변수의 값들이 평균 주위에 얼마나 넓게 분산되어 있는지에 대한 정보를 제공합니다. 편차(deviation)를 제곱하는 이유는 양수와 음수 편차가 상쇄되는 것을 방지하고, 분산이 항상 양수가 되도록 보장하기 위함입니다.
제2중심모멘트: 분산
$$\sigma^2 = E\left[(X - \mu)^2\right] = E\left\{[X - E(X)]^2\right\}$$표준편차
$$\sigma = \sqrt{\sigma^2}$$분산의 제곱근인 표준편차(standard deviation) \(\sigma\)는 원래 확률변수와 같은 단위를 가지기 때문에 해석이 더 용이합니다. 예를 들어 분포가 수익률(%)에 대한 것이라면, 표준편차도 %로 측정됩니다. 분산은 %의 제곱이라는 비직관적인 단위를 가집니다.
4. 제3중심모멘트의 표준화: 왜도 (Skewness) - "분포의 비대칭성"
왜도는 분포의 대칭성(symmetry)을 측정합니다. 제3중심모멘트 \(E[(X - \mu)^3]\)를 표준편차의 세제곱으로 나누어 표준화(standardize)합니다. 평균을 빼고 표준편차의 세제곱으로 나누기 때문에, 왜도는 확률변수의 평균이나 분산의 차이에 영향을 받지 않습니다. 이것은 서로 다른 두 분포의 왜도를 직접 비교할 수 있게 해줍니다.
왜도 (표준화된 제3중심모멘트)
$$\text{Skewness} = \frac{E\left[(X - \mu)^3\right]}{\sigma^3}$$| 왜도 값 | 분포 형태 | 평균과 중앙값의 관계 | 직관적 의미 |
|---|---|---|---|
| Skew = 0 | 완전히 대칭 (Symmetric) | 평균 = 중앙값 | 좌우 꼬리가 동일 |
| Skew > 0 (양의 왜도) | 오른쪽으로 치우침 (Right-skewed) | 중앙값 < 평균 | 오른쪽 꼬리가 더 길어서 평균이 오른쪽으로 끌림 |
| Skew < 0 (음의 왜도) | 왼쪽으로 치우침 (Left-skewed) | 중앙값 > 평균 | 왼쪽 꼬리가 더 길어서 평균이 왼쪽으로 끌림 |
왜도가 양수라는 것은 분포의 오른쪽 꼬리가 더 길다는 뜻입니다. 극단적으로 큰 양의 값이 가끔 나타날 수 있다는 의미입니다. 반대로 왜도가 음수이면 왼쪽 꼬리가 더 길어서 극단적인 음의 값이 나타날 수 있습니다. 제곱이 아닌 세제곱을 사용하기 때문에 부호가 보존되어, 어느 쪽 꼬리가 더 무거운지를 나타낼 수 있습니다.
5. 제4중심모멘트의 표준화: 첨도 (Kurtosis) - "꼬리의 두께"
첨도는 분포의 형상을 측정하는데, 특히 분포의 나머지 부분에 비해 꼬리(tail)에 있는 총 확률을 나타냅니다. 첨도가 높을수록 분포의 꼬리에 있는 확률이 더 크며, 이러한 분포를 두꺼운 꼬리 분포(fat-tailed distribution)라고 합니다.
첨도 (표준화된 제4중심모멘트)
$$\text{Kurtosis} = \frac{E\left[(X - \mu)^4\right]}{\sigma^4}$$첨도를 이해할 때 핵심은 "봉우리(peak)의 높이"가 아니라 "꼬리(극단값)의 확률량"이라는 것입니다. 첨도가 높은 분포는 극단적으로 크거나 작은 값이 나타날 확률이 상대적으로 높습니다. 이는 리스크 관리에서 매우 중요한데, 높은 첨도는 극단적 손실이 발생할 가능성이 더 크다는 것을 의미하기 때문입니다.
6. 4가지 모멘트 종합 비교
| 모멘트 | 이름 | 기호 | 수식 | 측정 대상 | 직관적 의미 |
|---|---|---|---|---|---|
| 1차 | 평균 (Mean) | \(\mu\) | \(E(X)\) | 위치 (Location) | "분포의 중심이 어디인가?" |
| 2차 중심 | 분산 (Variance) | \(\sigma^2\) | \(E[(X-\mu)^2]\) | 분산 (Dispersion) | "평균 주위에 얼마나 퍼져 있는가?" |
| 3차 중심 표준화 | 왜도 (Skewness) | - | \(\frac{E[(X-\mu)^3]}{\sigma^3}\) | 대칭성 (Symmetry) | "꼬리가 어느 쪽으로 더 긴가?" |
| 4차 중심 표준화 | 첨도 (Kurtosis) | - | \(\frac{E[(X-\mu)^4]}{\sigma^4}\) | 꼬리 두께 (Tail weight) | "극단값이 얼마나 자주 나타나는가?" |
Module Quiz 13.2
문제 1. 수익률 분포가 첨도만 다른 두 금융 증권이 있을 때, 첨도가 더 높은 증권은:
A. 평균 주위에 수익률이 더 넓게 분산되어 있다.
B. 극단적인 양의 수익률과 음의 수익률이 나타날 확률이 더 크다.
C. 덜 뾰족한(less peaked) 수익률 분포를 가진다.
D. 더 균일한(more uniform) 분포를 가진다.
MODULE 13.3: PDF, 분위수, 선형변환
LO 13.d: PMF와 PDF의 차이점
1. 확률밀도함수 (Probability Density Function, PDF)
이산 확률변수의 확률을 기술하는 데 PMF를 사용했던 것을 떠올리십시오. 예를 들어 \(P(X = x) = f(x) = x/10\)으로, 1, 2, 3, 4의 값에 대한 각각의 확률을 직접 알려주었습니다. \(P(X = 4) = 4/10 = 40\%\)처럼 말입니다.
연속 확률변수는 무한히 많은 가능한 결과를 가질 수 있으므로 어떤 단일 결과의 확률도 0입니다. 따라서 PMF 대신 확률밀도함수(PDF)를 사용하여 연속 분포를 기술합니다. PDF는 두 값 사이(구간)에서의 결과의 확률을 계산할 수 있게 해줍니다. 이 확률은 해당 구간 위의 PDF 아래 면적입니다. 수학적으로는 구간에 대해 PDF의 적분(integral)을 취합니다.
연속형에서의 구간 확률
$$P(a \leq X \leq b) = \int_{a}^{b} f(x)\,dx \quad \text{(PDF 아래 면적 = 확률)}$$특정 값의 확률
$$P(X = x) = 0 \quad \text{(연속형에서는 항상 0)}$$PDF의 직관적 이해가 매우 중요합니다. PDF 값 \(f(x)\) 자체는 "확률"이 아니라 "밀도(density)"입니다. 아주 짧은 구간 \([x, x + \Delta]\)에서 \(P(x \leq X \leq x + \Delta) \approx f(x) \cdot \Delta\)입니다. 즉, "밀도 x 구간 길이 = 면적 = 확률"이라는 관계입니다. 연속형에서는 구간의 폭이 0으로 줄어들면 확률도 0이 되기 때문에 한 점의 확률이 0인 것입니다.
| 특성 | PMF (이산형) | PDF (연속형) |
|---|---|---|
| 적용 대상 | 이산 확률변수 | 연속 확률변수 |
| 함수값의 의미 | \(f(x) = P(X = x)\) (확률 자체) | \(f(x)\) = 밀도 (확률 아님) |
| 확률 계산 | 함수값을 직접 읽거나 합산 | 구간에 대해 적분 (면적 계산) |
| \(f(x)\)의 범위 | \(0 \leq f(x) \leq 1\) | \(f(x) \geq 0\) (1보다 클 수도 있음) |
| 전체 합/면적 | \(\sum f(x) = 1\) | \(\int_{-\infty}^{\infty} f(x)\,dx = 1\) |
| CDF와의 관계 | \(F(x) = \sum_{t \leq x} f(t)\) | \(F(x) = \int_{-\infty}^{x} f(t)\,dt\) |
(1) "PDF는 각 가능한 결과의 확률을 제공한다" - 틀림. PMF가 하는 것이며, PDF에서 특정 값의 확률은 0입니다.
(2) "PDF는 모든(any) 확률변수에 대한 확률을 기술한다" - 틀림. PDF는 연속 확률변수에만 적용됩니다.
(3) "PDF는 이산 확률분포에만 적용된다" - 틀림. 정반대입니다.
LO 13.e: 분위수 함수와 분위수 기반 추정량
1. 분위수 함수 (Quantile Function): "CDF의 역함수"
분위수 함수 \(Q(\alpha)\)는 CDF의 역함수(inverse)입니다. CDF가 "이 값 이하일 확률은 몇 %인가?"를 답해준다면, 분위수 함수는 그 반대 방향으로 "결과의 \(\alpha\%\)가 이 값 이하인데, 그 값은 얼마인가?"를 답해줍니다.
CDF와 분위수 함수의 관계
$$\text{CDF: } F(x) = P(X \leq x) \quad \longleftrightarrow \quad \text{분위수: } Q(\alpha) = F^{-1}(\alpha)$$\(F[Q(\alpha)] = \alpha\) 이고, \(Q[F(x)] = x\)
구체적인 예를 들어보겠습니다. 연속 확률변수의 CDF가 2보다 작은 값을 가질 확률이 30%라고 합시다. 즉, \(P(X < 2) = F(2) = 30\%\)입니다. 이때 분위수 함수 \(Q(30\%)\)는 값 2를 돌려줍니다. 결과의 30%가 2 미만일 것으로 기대됩니다.
분위수의 흔한 활용 사례는 표준화된 시험 결과 보고입니다. 한 학생이 시험에서 122점을 받았고, 분위수 점수가 74%라면, 이는 122점이 시험 응시자의 74%보다 높은 점수라는 것을 의미합니다. 분위수 함수 \(Q(74\%)\)는 학생의 점수 122를 돌려줍니다.
2. 중앙값 (Median): "딱 절반을 나누는 값"
중앙값은 분위수 함수에서 50%에 해당하는 값, 즉 \(Q(50\%)\)입니다. 평균적으로 결과의 50%가 중앙값 아래에, 50%가 중앙값 위에 놓입니다.
| 왜도와 평균-중앙값 관계 | 조건 | 관계 |
|---|---|---|
| 대칭 분포 | Skew = 0 | 평균 = 중앙값 |
| 양의(오른쪽) 왜도 | Skew > 0 | 중앙값 < 평균 (평균이 오른쪽으로 끌림) |
| 음의(왼쪽) 왜도 | Skew < 0 | 중앙값 > 평균 (평균이 왼쪽으로 끌림) |
3. 사분위 범위 (Interquartile Range, IQR): "가운데 50%의 폭"
사분위 범위(IQR)는 확률변수의 결과 중 확률분포의 가운데 50%를 포함하는 상한값과 하한값의 범위입니다. 하한값은 \(Q(25\%)\)이고 상한값은 \(Q(75\%)\)입니다. \(Q(25\%)\)는 결과의 25%가 그 이하일 것으로 기대되는 값이고, \(Q(75\%)\)는 결과의 75%가 그 이하일 것으로 기대되는 값입니다.
IQR 정의
$$\text{IQR} = Q(75\%) - Q(25\%)$$표준편차처럼, IQR도 확률변수의 변동성(variability)을 측정합니다. 주어진 분포와 비교하여, IQR이 더 낮은 분포의 결과는 평균 주위에 더 집중되어 있습니다. 이는 표준편차가 더 낮은 분포와 마찬가지입니다. IQR은 극단값(이상치)에 덜 민감하다는 장점이 있어, 왜곡된 분포에서 특히 유용합니다.
(1) "\(Q(23\%)\)는 가장 큰 23%의 결과를 식별한다" - 틀림. \(Q(23\%)\)는 모든 결과의 23%보다 큰 값을 돌려줍니다. 즉, 하위 23%의 상한값입니다.
(2) "\(Q(50\%)\)는 사분위 범위이다" - 틀림. \(Q(50\%)\)는 중앙값입니다. IQR은 \(Q(75\%) - Q(25\%)\)입니다.
(3) "\(x\)는 정수값만 가질 수 있다" - 틀림. \(x\)는 0%에서 100% 사이의 어떤 값이든 가질 수 있습니다.
LO 13.f: 선형변환이 통계량에 미치는 영향
1. 선형변환 \(Y = a + bX\)의 구조
확률변수 \(X\)의 선형변환(linear transformation)은 \(Y = a + bX\)의 형태를 취합니다. 여기서 \(a\)와 \(b\)는 상수입니다. 상수 \(a\)는 확률변수 \(X\)의 위치를 이동(shift)시키고, \(b\)는 \(X\)의 값을 재조정(rescale)합니다. 예를 들어, 섭씨를 화씨로 변환하는 공식 \(F = 32 + 1.8C\)가 대표적인 선형변환입니다. 여기서 \(a = 32\)(이동), \(b = 1.8\)(스케일링)입니다.
선형변환이 분포의 각 모멘트와 분위수에 미치는 영향을 체계적으로 이해하는 것이 이 LO의 핵심입니다.
2. 각 통계량에 대한 영향
선형변환 \(Y = a + bX\)의 영향
평균:
$$E(Y) = a + b \cdot E(X)$$분산:
$$\text{Var}(Y) = b^2 \cdot \text{Var}(X)$$표준편차:
$$\text{SD}(Y) = |b| \cdot \text{SD}(X)$$왜도:
$$\text{Skew}(Y) = \begin{cases} \text{Skew}(X) & \text{if } b > 0 \\ -\text{Skew}(X) & \text{if } b < 0 \end{cases}$$첨도:
$$\text{Kurtosis}(Y) = \text{Kurtosis}(X) \quad \text{(항상 불변)}$$| 통계량 | \(a\)의 영향 (이동) | \(b\)의 영향 (스케일링) | 변환 공식 | 직관적 이유 |
|---|---|---|---|---|
| 평균 | 영향 O (\(a\)만큼 이동) | 영향 O (\(b\)배) | \(a + bE(X)\) | 위치와 스케일 모두 변화 |
| 분산 | 영향 X | 영향 O (\(b^2\)배) | \(b^2 \text{Var}(X)\) | \(a\)는 위치만 이동, 퍼짐은 불변. 분산은 편차의 제곱이므로 \(b^2\) |
| 표준편차 | 영향 X | 영향 O (\(|b|\)배) | \(|b| \text{SD}(X)\) | 분산의 제곱근이므로 \(|b|\) |
| 왜도 | 영향 X | \(b > 0\): 불변 \(b < 0\): 부호 반전 |
위 공식 참조 | \(b < 0\)이면 좌우가 뒤집혀 왜도 부호가 바뀜 |
| 첨도 | 영향 X | 영향 X | Kurtosis(X) | 꼬리의 상대적 두께는 이동/스케일에 불변 |
| 중앙값 | 영향 O | 영향 O | \(a + b \cdot \text{median}(X)\) | 평균과 같은 방식으로 변환 |
| IQR | 영향 X | 영향 O (\(|b|\)배) | \(|b| \cdot \text{IQR}(X)\) | 폭(범위)이므로 이동 불변, 스케일만 영향 |
3. 각 영향의 상세 설명
평균에 대한 영향: \(E(Y) = a + bE(X)\)에서 위치(\(a\))와 스케일(\(b\)) 모두 영향을 미칩니다. 분포의 중심이 \(a\)만큼 이동하고, \(b\)배로 조정됩니다.
분산에 대한 영향: \(\text{Var}(Y) = b^2 \text{Var}(X)\)에서 \(a\)는 분포의 위치를 이동시키지만 평균 주위의 분산(퍼짐)에는 영향을 미치지 않습니다. 분산이 \(b\)배가 아니라 \(b^2\)배가 되는 이유는, 분산이 편차를 제곱하여 계산하기 때문입니다. \(Y - E(Y) = b(X - E(X))\)이므로 제곱하면 \(b^2(X - E(X))^2\)이 됩니다.
왜도에 대한 영향: \(b > 0\)(증가 변환)이면 분포의 좌우 방향이 유지되므로 왜도가 불변입니다. \(b < 0\)(감소 변환)이면 분포가 좌우로 뒤집히므로 왜도의 크기(절대값)는 같지만 부호가 반전됩니다. 예를 들어 원래 분포의 왜도가 +0.5(양의 왜도)였는데 \(b < 0\)으로 변환하면 왜도가 -0.5(음의 왜도)가 됩니다.
첨도에 대한 영향: 선형변환은 첨도에 전혀 영향을 미치지 않습니다. 첨도는 표준화된 4차 중심모멘트이므로 이미 스케일의 영향이 제거되어 있기 때문입니다. 이동이나 스케일링으로 꼬리의 상대적 두께가 변하지 않습니다.
예시: 선형변환의 적용
\(X\)의 평균이 10, 분산이 4, 표준편차가 2, 왜도가 +0.8, 첨도가 3.5일 때, \(Y = 5 - 3X\)에 대해:
\(a = 5\), \(b = -3\)
평균: \(E(Y) = 5 + (-3)(10) = 5 - 30 = -25\)
분산: \(\text{Var}(Y) = (-3)^2 \times 4 = 9 \times 4 = 36\)
표준편차: \(\text{SD}(Y) = |-3| \times 2 = 6\)
왜도: \(b = -3 < 0\)이므로 부호 반전 = \(-0.8\)
첨도: 불변 = \(3.5\)
(1) 분산이 \(b\)배라고 착각 - 틀림. 분산은 \(b^2\)배입니다. 이것이 가장 흔한 오류입니다.
(2) \(b < 0\)일 때 왜도가 불변이라고 생각 - 틀림. \(b < 0\)이면 왜도의 부호가 반전됩니다.
(3) 분산에 \(a\)가 영향을 미친다고 생각 - 틀림. \(a\)는 위치만 이동시키고 퍼짐(분산)에는 영향 없습니다.
(4) \(Y = a + bX\)의 분산으로 \(a^2 + b^2\sigma_X^2\)를 선택 - 틀림. \(a\) 항은 분산에 포함되지 않습니다.
Module Quiz 13.3
문제 1. 확률밀도함수(PDF)에 대한 다음 설명 중 올바른 것은?
A. 확률변수의 각 가능한 결과의 확률을 제공한다.
B. 누적분포함수(CDF)와 동일한 정보를 제공할 수 있다.
C. 모든 확률변수에 대한 확률을 기술한다.
D. 이산 확률분포에만 적용된다.
문제 2. 분위수 함수 \(Q(x)\)에 대해:
A. CDF 함수 \(F[Q(23\%)] = 23\%\)이다.
B. \(Q(23\%)\)는 가능한 모든 결과의 가장 큰 23%를 식별한다.
C. \(Q(50\%)\)는 사분위 범위이다.
D. \(x\)는 정수값만 가질 수 있다.
문제 3. 확률변수 \(X\)에 대해 \(Y = a + bX\)의 분산은?
A. \(a^2 \sigma_X^2\)
B. \(a^2 + b^2 \sigma_X^2\)
C. \(b^2 \sigma_X^2\)
D. \(a + b^2 \sigma_X^2\)
정답 및 상세 해설
| 문제 | 정답 | 상세 해설 |
|---|---|---|
| Quiz 13.1-1 | C | \(F(4)\)는 확률변수가 4 이하의 값을 가질 확률입니다. \(P(X \leq 4) = 1/15 + 2/15 + 3/15 + 4/15 = 10/15 = 66.7\%\). 또는 \(100\% - P(X = 5) = 100\% - 5/15 = 100\% - 33.3\% = 66.7\%\)로도 계산 가능합니다. (LO 13.a) |
| Quiz 13.1-2 | B | 기댓값은 확률가중평균: \((4)(0.10) + (3)(0.30) + (2)(0.40) + (1)(0.20) = 0.4 + 0.9 + 0.8 + 0.2 = 2.3\%\). (LO 13.b) |
| Quiz 13.2-1 | B | 높은 첨도는 분포의 꼬리(극단적 결과)에 있는 확률이 더 크다는 것을 나타냅니다(즉, 분포가 더 두꺼운 꼬리를 가짐). A(더 넓은 분산)는 분산/표준편차가 측정하는 것이며 첨도와 다릅니다. C(덜 뾰족한)와 D(더 균일한)도 첨도의 올바른 해석이 아닙니다. (LO 13.c) |
| Quiz 13.3-1 | B | PDF를 \(-\infty\)에서 특정 값까지 적분하면 그 값 이하일 확률을 제공하며, 이는 CDF가 제공하는 것과 동일한 정보입니다. A는 PMF의 역할(PDF 아님). C는 틀림(연속형에만 적용). D는 정반대(이산형이 아닌 연속형에 적용). (LO 13.d) |
| Quiz 13.3-2 | A | \(Q(23\%)\)는 모든 결과의 23%보다 큰 값을 돌려주며, 그 값에 대한 CDF는 그 값보다 작은 결과의 확률, 즉 23%입니다. 따라서 \(F[Q(23\%)] = 23\%\)가 성립합니다. B는 틀림(최대 23%가 아니라 하위 23%의 상한). C는 틀림(\(Q(50\%)\)는 중앙값). D는 틀림(어떤 값이든 가능). (LO 13.e) |
| Quiz 13.3-3 | C | \(Y = a + bX\)의 분산은 \(b^2\sigma_X^2\)입니다. \(a\)는 위치를 이동시키지만 분산에는 영향을 미치지 않으며, 분산은 \(b\)의 제곱에 비례합니다. A(\(a^2\sigma_X^2\))와 B(\(a^2 + b^2\sigma_X^2\))와 D(\(a + b^2\sigma_X^2\))는 모두 틀립니다. (LO 13.f) |
KEY CONCEPTS (핵심 개념 정리)
LO 13.a 핵심
PMF \(f(x)\)는 이산 확률변수가 값 \(x\)를 취할 확률을 제공합니다. CDF \(F(x)\)는 확률변수 \(X\)가 \(x\) 이하의 값을 취할 확률을 제공합니다. 이산형에서 CDF는 PMF의 누적합이며, CDF의 점프 크기가 해당 값의 PMF입니다.
LO 13.b 핵심
이산 확률변수의 기댓값은 가능한 결과의 확률가중평균(즉, 분포의 평균)입니다. 기댓값은 "한 번의 실현값"이 아니라 "장기 평균"이며, 실제로 나타나지 않는 값일 수도 있습니다. 기댓값의 선형성: \(E(cX) = cE(X)\), \(E(X+Y) = E(X) + E(Y)\).
LO 13.c 핵심
확률변수의 4가지 일반적 모멘트: 평균(기댓값, 위치), 분산/표준편차(분산의 정도), 왜도(대칭성 측정), 첨도(꼬리에 있는 결과의 비율 측정). 왜도 = 0이면 완전 대칭. 양의 왜도이면 중앙값 < 평균. 첨도가 높으면 극단값 확률 증가(fat-tailed).
LO 13.d 핵심
PMF는 이산 확률변수가 주어진 값을 취할 확률 자체를 제공합니다. PDF는 연속 확률변수의 결과가 주어진 구간 내에 있을 확률을 제공합니다(면적 = 확률). PDF 값은 밀도이지 확률이 아닙니다. PDF를 적분하면 CDF를 얻을 수 있으므로 동일한 정보를 제공합니다.
LO 13.e 핵심
분위수는 주어진 결과보다 작은 결과의 백분율입니다. 분위수 함수 \(Q(x\%)\)는 모든 가능한 결과의 \(x\%\)보다 큰 결과의 값을 제공합니다. \(Q(50\%)\)는 분포의 중앙값. IQR = \(Q(75\%) - Q(25\%)\)로 가운데 50%를 포함하는 구간입니다.
LO 13.f 핵심
\(Y = a + bX\)에서: 평균 = \(a + bE(X)\). 분산 = \(b^2\sigma_X^2\). 표준편차 = \(|b|\sigma_X\). 왜도: \(b > 0\)이면 불변, \(b < 0\)이면 부호 반전. 첨도: 항상 불변.
시험 대비 한 줄 암기 체크리스트
| 주제 | 암기 포인트 |
|---|---|
| 이산 vs 연속 | 이산 = 셀 수 있음 (countable). 연속 = 셀 수 없음 (uncountable), 한 점 확률 = 0 |
| PMF 정의 | \(f(x) = P(X = x)\), 이산형에서만 사용. 모든 확률의 합 = 1 |
| CDF 정의 | \(F(x) = P(X \leq x)\), 이산/연속 모두에서 사용. 이산형에서는 계단함수 |
| PMF-CDF 관계 | CDF = PMF의 누적합. CDF의 점프 크기 = PMF |
| 기댓값 | \(E(X) = \sum x_i P(x_i)\) = 확률가중평균 = 장기 평균 (실현값이 아님) |
| 기댓값 선형성 | \(E(cX) = cE(X)\), \(E(X+Y) = E(X) + E(Y)\) (독립 여부 무관) |
| 기댓값 vs 최빈값 | 기댓값 = 확률가중평균 (mode와 다름). 실제 나오지 않는 값일 수 있음 (예: 3.5) |
| 평균 (1차 모멘트) | \(\mu = E(X)\). 분포의 위치(location)를 결정 |
| 분산 (2차 중심) | \(\sigma^2 = E[(X-\mu)^2]\). 퍼짐(dispersion)을 측정. 편차 제곱 → 항상 양수 |
| 표준편차 | \(\sigma = \sqrt{\sigma^2}\). 원래 변수와 같은 단위라서 해석 용이 |
| 왜도 (3차 표준화) | \(\frac{E[(X-\mu)^3]}{\sigma^3}\). 대칭성 측정. 0 = 대칭, + = 오른쪽 꼬리, - = 왼쪽 꼬리 |
| 첨도 (4차 표준화) | \(\frac{E[(X-\mu)^4]}{\sigma^4}\). 꼬리의 두께 측정. 높으면 fat-tailed |
| 첨도 함정 | 첨도가 높다 = "넓은 분산"이 아님. 극단적 양/음 수익률의 확률이 큼 |
| PDF 정의 | 연속형에서만 사용. 값 자체는 확률 아님(밀도). 구간 면적 = 확률 |
| PDF vs CDF | PDF를 \(-\infty\)에서 \(x\)까지 적분 = CDF. 동일한 정보 제공 가능 |
| 분위수 함수 | \(Q(\alpha) = F^{-1}(\alpha)\). CDF의 역함수. \(F[Q(\alpha)] = \alpha\) |
| 중앙값 | \(Q(50\%)\). 대칭이면 평균 = 중앙값. 양의 왜도면 중앙값 < 평균 |
| IQR | \(Q(75\%) - Q(25\%)\) = 가운데 50%의 폭. 변동성 측정 |
| Y = a + bX: 평균 | \(E(Y) = a + bE(X)\). \(a\)와 \(b\) 모두 영향 |
| Y = a + bX: 분산 | \(\text{Var}(Y) = b^2\text{Var}(X)\). \(a\)는 영향 없음! \(b\)는 제곱으로 영향 |
| 분산 함정 | 분산은 \(b\)배가 아니라 \(b^2\)배! 가장 흔한 오류 |
| Y = a + bX: 왜도 | \(b > 0\): 불변. \(b < 0\): 부호 반전 (크기 동일) |
| Y = a + bX: 첨도 | 항상 불변. 선형변환은 첨도에 영향 없음 |
| Y = a + bX: 중앙값 | \(a + b \cdot \text{median}(X)\). 평균과 같은 변환 규칙 |
| Y = a + bX: IQR | \(|b| \cdot \text{IQR}(X)\). 폭이므로 \(a\) 무관, \(|b|\)배 스케일링 |
'취준 > FRM part1' 카테고리의 다른 글
| FRM part1. Reading 15: Multivariate Random Variables (0) | 2026.02.10 |
|---|---|
| FRM part1. Reading 14: Common Univariate Random Variable (0) | 2026.02.10 |
| FRM part1. Reading 12: Fundamentals of Probability (0) | 2026.02.10 |
| FRM part1. Reading 11: GARP Code of Conduct (0) | 2026.02.10 |
| FRM part1. Reading 10: Anatomy of the Great Financial Crisis of 2007-2009 (0) | 2026.02.10 |