FRM Part I – Reading 16
표본 모멘트 (Sample Moments)
EXAM FOCUS
핵심 학습 목표
이 리딩은 독립 동일 분포(i.i.d.) 확률변수로부터 생성된 데이터에 대해 표본 모멘트(평균, 분산, 왜도, 첨도)가 어떻게 진짜 모집단 모멘트를 추정하는 데 사용되는지를 설명합니다. 시험에서는 이러한 표본 모멘트를 추정하고 모집단 모멘트와의 차이를 설명할 수 있어야 합니다. 또한 추정량이 편향(Biased), 불편(Unbiased), 일치적(Consistent)인 이유를 논의할 준비를 해야 합니다. 아울러 대수의 법칙(LLN)과 중심극한정리(CLT)를 논의하고, 분위수(Quantile) 추정의 장점을 전통적 산포 측정과 대비할 수 있어야 합니다.
시험에서 반드시 할 수 있어야 하는 것
- 표본 데이터를 이용한 평균, 분산, 표준편차 추정 (LO 16.a)
- 모집단 모멘트와 표본 모멘트의 차이 설명 (LO 16.b)
- 추정량(Estimator)과 추정값(Estimate)의 구분 (LO 16.c)
- 추정량의 편향(Bias) 설명과 그 의미 (LO 16.d)
- 표본평균이 BLUE라는 것의 의미 (LO 16.e)
- 추정량의 일치성(Consistency) 설명 (LO 16.f)
- LLN과 CLT가 표본평균에 어떻게 적용되는지 설명 (LO 16.g)
- 왜도(Skewness)와 첨도(Kurtosis) 추정 및 해석 (LO 16.h)
- 중앙값 포함 분위수(Quantile) 추정 (LO 16.i)
- 두 확률변수의 평균 추정과 CLT 적용 (LO 16.j)
- 두 확률변수 간 공분산(Covariance)과 상관계수(Correlation) 추정 (LO 16.k)
- 코스큐니스(Coskewness)와 코커토시스(Cokurtosis)의 관계 설명 (LO 16.l)
들어가며: 왜 표본 모멘트를 공부하는가?
금융 리스크 관리에서 우리가 궁극적으로 알고 싶은 것은 모집단(Population)의 진짜 특성입니다. 예를 들어, "이 주식의 진짜 기대 수익률은 얼마인가?", "수익률의 진짜 변동성은 얼마인가?"라는 질문에 답하고 싶습니다. 그러나 모집단의 모든 데이터를 관찰하는 것은 현실적으로 불가능합니다. 주식의 "모든 가능한 수익률"을 볼 수 없기 때문입니다.
따라서 우리는 관찰 가능한 표본(Sample) 데이터를 수집하고, 이 표본으로부터 모집단의 특성을 추정(Estimate)합니다. 이 추정에 사용되는 통계량들이 바로 표본 모멘트(Sample Moments)입니다. 표본평균은 모집단 평균을, 표본분산은 모집단 분산을 추정합니다.
그런데 추정에는 필연적으로 오차가 따릅니다. 표본이 작으면 추정이 부정확할 수 있고, 추정 방법 자체에 체계적 편향(Bias)이 존재할 수도 있습니다. 이 리딩의 핵심은 바로 "어떤 추정량이 좋은 추정량인가?", "표본 크기가 커지면 어떤 일이 일어나는가?", "평균과 분산만으로 충분한가, 아니면 왜도와 첨도도 봐야 하는가?"라는 질문에 답하는 것입니다.
이 리딩 전체에서 표본 \(X_1, X_2, \ldots, X_n\)은 독립(Independent)이고 동일 분포(Identically Distributed)를 따른다고 가정합니다. 이는 각 관측치가 서로 영향을 미치지 않으며, 모두 같은 확률 분포에서 추출되었음을 의미합니다. i.i.d. 가정은 표본 모멘트의 통계적 성질(불편성, 일치성, CLT 적용 등)을 보장하는 기본 전제입니다.
MODULE 16.1: 평균, 분산, 표준편차 추정
LO 16.a: 표본 데이터를 사용한 평균, 분산, 표준편차 추정
1. 표본평균 (Sample Mean)
표본평균(Sample Mean) \(\bar{X}\)는 표본에 있는 모든 관측값의 합계를 관측치 수 \(n\)으로 나누어 추정합니다. 이는 모집단 평균에 대한 추론을 하는 데 사용됩니다. 표본평균은 데이터의 "무게중심(Center of Gravity)"이라고 직관적으로 이해할 수 있습니다.
표본평균 공식
$$\bar{X} = \hat{\mu} = \frac{1}{n}\sum_{i=1}^{n} X_i$$
산술평균은 평균으로부터의 편차 합이 항상 0인 유일한 중심경향 측정치입니다. 이 성질은 평균이 데이터의 "중심"임을 수학적으로 보여줍니다.
$$\sum_{i=1}^{n}(X_i - \bar{X}) = 0$$
예를 들어, 수익률이 10%, 20%, 30%이면 평균은 20%이고, 편차는 -10%, 0%, +10%입니다. 이 편차의 합은 -10 + 0 + 10 = 0입니다. 이 성질은 나중에 "왜 분산에서 n-1로 나누는가?"를 이해하는 핵심 열쇠입니다.
2. 표본분산과 표본표준편차 (Sample Variance & Standard Deviation)
편차를 제곱하면 표본의 분산(Variance)을 추정할 수 있습니다. 분산과 표준편차는 확률변수의 값이 평균 주위에 얼마나 퍼져 있는지(산포도, Dispersion)를 측정합니다.
편향 표본분산 (Biased, 분모 n)
$$\hat{\sigma}^2_{biased} = \frac{1}{n}\sum_{i=1}^{n}(X_i - \bar{X})^2$$
불편 표본분산 (Unbiased, 분모 n-1) -- 시험 기본
$$s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2$$
표본표준편차
$$s = \sqrt{s^2}$$
시험에서 특별히 "편향 분산(biased variance)을 계산하라"고 명시적으로 지시하지 않는 한, 항상 \(n-1\)로 나누는 불편 분산(unbiased variance)을 계산해야 합니다. 이것이 시험의 기본값(default)입니다.
예시: Alpha Corporation 주식 수익률의 평균, 분산, 표준편차 계산
데이터: 24%, 34%, 18%, 54%, 10% (반드시 소수로 변환: 0.24, 0.34, 0.18, 0.54, 0.10)
Step 1. 표본평균 계산:
$$\bar{r} = \frac{0.24 + 0.34 + 0.18 + 0.54 + 0.10}{5} = \frac{1.40}{5} = 0.28 \;\;(28\%)$$
Step 2. 편차 및 제곱편차 계산:
| \(X_i\) | \(X_i - \bar{X}\) | \((X_i - \bar{X})^2\) |
|---|---|---|
| 0.24 | -0.04 | 0.0016 |
| 0.34 | +0.06 | 0.0036 |
| 0.18 | -0.10 | 0.0100 |
| 0.54 | +0.26 | 0.0676 |
| 0.10 | -0.18 | 0.0324 |
| 합계 | 0 | 0.1152 |
편차 합이 0임을 확인하세요. 이것이 표본평균의 핵심 성질입니다.
Step 3. 편향 분산 (분모 n): \(0.1152 / 5 = 0.02304\), 편향 표준편차: \(\sqrt{0.02304} \approx 0.1518\)
Step 4. 불편 분산 (분모 n-1): \(0.1152 / 4 = 0.0288\), 불편 표준편차: \(\sqrt{0.0288} \approx 0.1697\) (16.97%)
LO 16.b: 모집단 모멘트와 표본 모멘트의 차이
3. 모집단 평균 vs 표본 평균
중심경향 측정치(Measures of Central Tendency)는 데이터 집합의 중심, 즉 평균을 식별합니다. 데이터 분포의 1차 모멘트(First Moment)가 바로 평균입니다.
| 구분 | 모집단 평균 (Population Mean) | 표본 평균 (Sample Mean) |
|---|---|---|
| 기호 | \(\mu\) | \(\bar{X}\) 또는 \(\hat{\mu}\) |
| 공식 | \(\mu = \frac{1}{N}\sum_{i=1}^{N} X_i\) | \(\bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i\) |
| 관측치 수 | \(N\) (모집단 크기, 보통 미지) | \(n\) (표본 크기, 알려짐) |
| 관찰 가능성 | 관찰 불가능 (모든 가능한 값을 볼 수 없음) | 관찰 가능 (모든 데이터 포인트가 알려짐) |
| 핵심 | 진짜 값(True Value), 유일(Unique) | 진짜 값에 대한 추정치(Estimate) |
| 연산자 | 기대값 연산자 \(E[\cdot]\) | 평균 연산자(합/표본수) |
핵심 직관: 모집단 평균은 알 수 없으므로 표본을 만들어 추정합니다. \(\hat{\mu}\)의 "모자(hat)" 표기법은 표본평균이 진짜 평균의 추정값임을 나타냅니다. 표본 크기가 클수록 추정값이 관찰 불가능한 진짜 모집단 평균에 더 가까워집니다.
- 모든 등간척도(Interval)와 비율척도(Ratio) 데이터 집합은 산술평균을 가집니다
- 모든 데이터 값이 산술평균 계산에 고려되고 포함됩니다
- 데이터 집합은 하나의 산술평균만 가집니다 (유일성, Unique)
- 주의: 비정상적으로 크거나 작은 값(이상치)이 산술평균에 불균형적 영향을 미칠 수 있습니다. 예를 들어 1, 2, 3, 50의 평균은 14이며 이는 개별 데이터 값을 잘 대표하지 못합니다
4. 표본평균의 분산: \(\text{Var}(\bar{X}) = \sigma^2 / n\)
분포의 평균과 분산은 각각 분포의 1차 및 2차 모멘트로 정의됩니다. 추정량(표본평균)의 분산은 분산과 공분산의 합으로 계산할 수 있습니다.
$$\text{Var}(\bar{X}) = \text{Var}\left(\frac{1}{n}\sum_{i=1}^{n}X_i\right) = \frac{1}{n^2}\left(\sum_{i=1}^{n}\text{Var}(X_i) + 2\sum_{i < j}\text{Cov}(X_i, X_j)\right)$$
i.i.d.이면 \(\text{Cov}(X_i, X_j) = 0\)이고 \(\text{Var}(X_i) = \sigma^2\)이므로:
$$\text{Var}(\bar{X}) = \frac{1}{n^2} \cdot n\sigma^2 = \frac{\sigma^2}{n}$$
- 표본평균의 분산은 표본 데이터의 분산과 관측치 수에 의존합니다
- 데이터의 변동성이 크면(\(\sigma^2\)가 크면) 진짜 분산을 추정하기가 더 어렵습니다
- 표본 크기 \(n\)이 증가하면 평균 추정량의 분산은 감소합니다
- 따라서 더 큰 표본 크기는 추정된 분산과 모집단의 진짜 분산 사이의 차이를 줄이는 데 도움이 됩니다
- \(\sqrt{\sigma^2/n} = \sigma/\sqrt{n}\)을 표준오차(Standard Error)라고 부릅니다
LO 16.c: 추정량(Estimator)과 추정값(Estimate)의 구분
5. 점추정(Point Estimate)과 추정량(Estimator)
표본 모수는 미지인 진짜 모집단 모수에 대한 결론을 도출하는 데 사용될 수 있습니다. 점추정(Point Estimate)은 모집단 모수를 추정하는 데 사용되는 단일(표본) 값이고, 점추정을 계산하는 데 사용되는 공식이 추정량(Estimator)입니다.
| 구분 | 추정량 (Estimator) | 추정값 (Estimate) |
|---|---|---|
| 정의 | 데이터를 진짜 모집단 모수의 추정치로 변환하는 공식/절차 | 특정 표본 데이터를 공식에 대입하여 얻은 구체적인 숫자 하나 |
| 예시 | \(\hat{\mu} = \frac{1}{n}\sum X_i\) (공식 자체) | 표본 {0.24, 0.34, 0.18, 0.54, 0.10}을 넣어 계산한 0.28 (하나의 숫자) |
| 비유 | 레시피(Recipe) | 레시피에 따라 만든 요리(결과물) |
LO 16.d: 추정량의 편향(Bias)
6. 편향의 정의와 측정
추정량의 편향(Bias)은 추정량의 기대값 \(E[\hat{\theta}]\)과 진짜 모집단 값 \(\theta\) 사이의 차이를 측정합니다. 편향은 추정량이 체계적으로 참값을 과대추정하는지 과소추정하는지를 알려줍니다.
편향 공식
$$\text{Bias}(\hat{\theta}) = E[\hat{\theta}] - \theta$$
편향이 0이면 불편 추정량(Unbiased Estimator), 0이 아니면 편향 추정량(Biased Estimator)
| 추정량 | 편향 여부 | 설명 |
|---|---|---|
| 표본평균 \(\bar{X}\) | 불편 (Unbiased) | \(E[\bar{X}] = \mu\). i.i.d. 확률변수에서 표본평균의 기대값은 진짜 모집단 평균과 정확히 같습니다. 편향 = 0 |
| 표본분산 (분모 n) | 편향 (Biased) - 과소추정 | \(E\left[\frac{1}{n}\sum(X_i-\bar{X})^2\right] = \frac{n-1}{n}\sigma^2\). 분모에 \(n\)을 사용하면 체계적으로 모집단 분산 \(\sigma^2\)를 과소추정합니다. 특히 작은 표본에서 편향이 큽니다 |
| 표본분산 (분모 n-1) | 불편 (Unbiased) | 편향이 알려져 있으므로 \(n-1\)로 나누어 보정하면 \(E[s^2] = \sigma^2\). 이것이 불편 추정량입니다 |
편차 \(X_i - \bar{X}\)는 서로 독립이 아닙니다. 왜냐하면 \(\bar{X}\) 자체가 \(X_i\)들로 만들어져서 \(\sum(X_i - \bar{X}) = 0\)이라는 제약 조건이 생기기 때문입니다. n개의 편차가 있지만 이 제약 때문에 "완전히 자유로운" 편차는 \(n-1\)개뿐입니다. 이것이 자유도(Degrees of Freedom)의 개념입니다. 제곱편차의 평균을 그냥 \(n\)으로 나누면 체계적으로 작게 추정(과소추정)되는 편향이 생기고, \(n-1\)로 나누면 이 편향이 보정됩니다.
단, 표본 크기 \(n\)이 클 때는 \(n\)과 \(n-1\)의 차이가 거의 없으므로 편향이 작아집니다.
LO 16.e: 표본평균이 BLUE라는 것의 의미
7. BLUE (Best Linear Unbiased Estimator)
최선선형불편추정량(BLUE)은 모든 선형 불편 추정량 중에서 최소 분산을 가지는 최적의 추정량입니다. 데이터가 i.i.d.일 때, 표본평균은 BLUE로 간주됩니다.
| 조건 | 의미 | 표본평균이 충족하는 이유 |
|---|---|---|
| Best (최선) | 모든 선형 불편 추정량 중 분산이 가장 작음 | 동일 가중치 \(w_i = 1/n\)이 분산을 최소화 |
| Linear (선형) | \(\hat{\mu} = \sum w_i X_i\) 형태의 가중합 | 관측값의 선형 결합 (\(w_i = 1/n\)으로 동일 가중) |
| Unbiased (불편) | \(E[\hat{\mu}] = \mu\), 기대값이 참값과 동일 | \(E[\bar{X}] = \mu\)임이 증명됨 |
주의: 비선형 추정량(예: 최대가능도추정량, MLE)이 분포의 진짜 모수를 더 정확하게 추정할 수도 있습니다. 그러나 이러한 추정량은 비선형이며 유한 표본에서 종종 편향됩니다. BLUE는 "선형 추정량"이라는 제한 내에서의 최선입니다.
Module Quiz 16.1
문제 1. 리스크 관리자가 자산의 연간 수익률을 분석하기 위해 다음 표본 데이터를 수집했습니다: 12%, 25%, -1%. 그는 진짜 모집단 평균과 표준편차의 최선 불편 추정량을 계산하고 싶습니다. 이 자산의 표준편차 추정값에 가장 가까운 것은?
A. 0.0111
B. 0.0133
C. 0.1054
D. 0.1300
문제 2. 표본평균이 모집단 평균의 불편 추정량인 이유는?
A. 표본평균의 표집분포가 정규분포이기 때문
B. 표본평균의 기대값이 모집단 평균과 같기 때문
C. 표본 크기가 증가하면 표본평균이 더 정확한 추정을 제공하기 때문
D. 표본평균의 표집분포가 다른 불편 추정량 중 가장 작은 분산을 가지기 때문
MODULE 16.2: 분포의 모멘트 추정
LO 16.f: 추정량의 일치성 (Consistency)
8. 일치적 추정량이란?
일치적 추정량(Consistent Estimator)은 표본 크기가 증가함에 따라 추정량이 진짜 모집단 값에 수렴하는 추정량입니다. 대수의 법칙(LLN)이 추정량에 적용되면, 그 추정량은 일치적입니다.
| 조건 | 수학적 표현 | 직관 |
|---|---|---|
| 조건 1: 편향 소멸 | 표본 크기 증가 시 유한 표본 편향이 0으로 감소 | 큰 표본에서는 추정량이 체계적으로 한쪽으로 치우치지 않음 |
| 조건 2: 분산 소멸 | 표본 크기 증가 시 추정량의 분산이 0에 접근 | 큰 표본에서는 추정값이 참값 주위에 밀집 |
일치성의 중요성: 큰 표본에서의 추정값이 진짜 모집단 평균으로부터 작은 편차를 가짐을 보장합니다. 따라서 표본 크기를 늘리면 진짜 모집단 분포에 대한 더 나은 추정을 얻습니다.
LO 16.g: 대수의 법칙(LLN)과 중심극한정리(CLT)
9. 대수의 법칙 (Law of Large Numbers)
대수의 법칙(LLN)은 추정량이 진짜 모집단 값으로 수렴하는 것을 보장합니다. 즉, 많은 표본의 평균이 기대 추정량으로 수렴합니다.
LLN: \(\bar{X} \xrightarrow{n \to \infty} \mu\)
필요 조건: 평균이 유한 (\(E|X| < \infty\))이면 충분
10. 중심극한정리 (Central Limit Theorem)
중심극한정리(CLT)는 평균 \(\mu\)와 유한 분산 \(\sigma^2\)을 가진 모집단으로부터 크기 \(n\)의 단순 무작위 표본에 대해, 표본평균의 표집분포가 표본 크기가 커짐에 따라 평균 \(\mu\), 분산 \(\sigma^2/n\)인 정규 확률분포에 근사한다는 것을 말합니다.
CLT: \(\bar{X} \approx N\left(\mu, \;\frac{\sigma^2}{n}\right)\) (n이 충분히 클 때)
필요 조건: 평균과 분산 모두 유한 (\(E[X] = \mu\), \(\text{Var}(X) = \sigma^2 < \infty\))
| 비교 항목 | LLN (대수의 법칙) | CLT (중심극한정리) |
|---|---|---|
| 알려주는 것 | \(\bar{X}\)가 \(\mu\)로 수렴 | \(\bar{X}\)의 분포 형태가 정규에 근사 |
| 필요 조건 | 평균이 유한 | 평균과 분산 모두 유한 (LLN + 분산 유한) |
| 모집단 분포 가정 | 불필요 | 불필요 (핵심!) |
| 실용적 기준 | - | 일반적으로 \(n \geq 30\)이면 충분 |
"CLT가 적용되려면 원래 데이터(모집단)가 정규분포여야 한다" → 틀림! CLT의 핵심 강점은 모집단 분포에 대한 가정이 필요 없다는 것입니다. 모집단이 어떤 분포이든, 표본 크기가 충분히 크면 표본평균의 분포는 정규에 가까워집니다. 이것이 CLT가 극도로 유용한 이유입니다.
- 표본 크기 \(n\)이 충분히 크면, 표본평균들의 표집분포가 대략 정규분포를 따릅니다. 크기 \(n\)의 무작위 표본이 반복적으로 추출되고, 각 표본의 평균이 그 자체로 확률변수이며, 이 표본평균들의 집합이 대략 정규분포를 가집니다
- 모집단 평균 \(\mu\)와 모든 가능한 표본평균의 분포의 평균은 동일합니다
- 표본평균 분포의 분산은 \(\sigma^2/n\)이므로 표본 크기가 증가하면 0에 접근합니다
CLT 적용 예시
\(\mu = 0\), \(\sigma = 2\), \(n = 64\)일 때, \(P(\bar{X} > 0.5)\)를 근사하라.
Step 1. CLT 적용: \(\bar{X} \approx N\left(0, \;\frac{2^2}{64}\right) = N(0, \;0.0625)\), \(\text{SD}(\bar{X}) = 0.25\)
Step 2. 표준화: \(P(\bar{X} > 0.5) = P\left(Z > \frac{0.5 - 0}{0.25}\right) = P(Z > 2) \approx 0.0228\)
LO 16.h: 왜도(Skewness)와 첨도(Kurtosis) 추정 및 해석
11. 왜도 (Skewness) - 분포의 3차 중심 모멘트
왜도 통계량(Skewness Statistic)은 분포의 표준화된 3차 중심 모멘트입니다. 왜도는 데이터의 분포가 평균을 중심으로 대칭이 아닌 정도를 나타냅니다.
왜도 공식
$$\text{Skewness} = \frac{E[(X - \mu)^3]}{\sigma^3}$$
표본 추정량: \(\hat{S} = \frac{1}{n}\sum_{i=1}^{n}\left(\frac{X_i - \bar{X}}{s}\right)^3\)
비대칭 분포는 데이터 집합에서 이상치(Outlier)의 발생으로 인해 나타납니다. 이상치란 양 또는 음으로 비정상적으로 큰 값을 가진 관측치입니다.
| 왜도 유형 | 특성 | 평균/중앙값/최빈값 관계 | 예시 |
|---|---|---|---|
| 대칭 분포 | 왜도 = 0 | 평균 = 중앙값 = 최빈값 | 정규분포 |
| 양의 왜도 (Right-skewed) | 상위 영역(오른쪽 꼬리)에 많은 이상치. 오른쪽 꼬리가 상대적으로 김 | 최빈값 < 중앙값 < 평균 큰 양의 이상치가 평균을 위로(오른쪽으로) 끌어당김 |
주택 가격: 100채 중 99채는 1억인데 1채가 10억이면, 중앙값/최빈값=1억, 평균=1.09억 |
| 음의 왜도 (Left-skewed) | 하위 영역(왼쪽 꼬리)에 불균형적으로 많은 이상치. 왼쪽 꼬리가 상대적으로 김 | 평균 < 중앙값 < 최빈값 큰 음의 이상치가 평균을 아래로(왼쪽으로) 끌어당김 |
투자 수익률 (대부분 약간의 양수이나 가끔 큰 폭락) |
12. 첨도 (Kurtosis) - 분포의 4차 중심 모멘트
첨도 통계량(Kurtosis Statistic)은 분포의 표준화된 4차 중심 모멘트입니다. 첨도는 데이터 분포에서 꼬리가 얼마나 두꺼운지(Fat) 또는 얇은지(Thin)를 나타냅니다.
첨도 공식
$$\text{Kurtosis} = \frac{E[(X - \mu)^4]}{\sigma^4}$$
표본 추정량: \(\hat{K} = \frac{1}{n}\sum_{i=1}^{n}\left(\frac{X_i - \bar{X}}{s}\right)^4\)
| 첨도 유형 | 첨도 값 | 초과첨도 (Excess Kurtosis) | 꼬리 특성 |
|---|---|---|---|
| 정규분포 (Mesokurtic) | = 3 | = 0 (기준점) | 기준 꼬리 두께 |
| 두꺼운 꼬리 (Leptokurtic) | > 3 | > 0 (양의 초과첨도) | Fat tails: 평균으로부터 극단적으로 큰 편차가 정규분포보다 높은 확률로 발생. 극단값이 자주 나타남 |
| 얇은 꼬리 (Platykurtic) | < 3 | < 0 (음의 초과첨도) | Thin tails: 극단 편차가 정규분포보다 덜 발생 |
대부분의 증권 수익률 분포 연구는 수익률이 정규분포를 따르지 않음을 보여주었습니다. 실제 증권 수익률은 왜도와 첨도를 모두 나타내는 경향이 있습니다. 증권 수익률을 정규분포로 가정하여 모델링하면, 모델의 예측은 극도로 큰 음의 결과(대폭 손실)의 가능성을 고려하지 못합니다.
사실 대부분의 리스크 관리자는 분포의 평균과 표준편차에 거의 중점을 두지 않고, 분포의 꼬리(Tails) 부분에 있는 수익률 분포에 더 집중합니다. 위험은 바로 거기에 있기 때문입니다.
시험 핵심 결론: 일반적으로, 수익률 분포에서 양의 첨도가 클수록 그리고 음의 왜도가 클수록 위험이 증가함을 나타냅니다.
LO 16.i: 분위수(Quantile)와 중앙값(Median) 추정
13. 중앙값 (Median)
중앙값(Median)은 데이터를 오름차순 또는 내림차순으로 정렬했을 때의 50번째 백분위수 또는 중간점입니다. 평균과 마찬가지로 중심경향을 측정하지만, 산술평균이 극단적으로 크거나 작은 값(이상치)의 영향을 받을 수 있는 반면, 중앙값은 이상치에 영향을 받지 않습니다.
중앙값 공식
홀수 표본: \(\text{median}(x) = x_{(n+1)/2}\)
짝수 표본: \(\text{median}(x) = \frac{1}{2}\left(x_{n/2} + x_{n/2+1}\right)\)
예시 1: 홀수 관측치 (n=5)
데이터: 30%, 15%, 25%, 21%, 23%
Step 1. 내림차순 정렬: 30%, 25%, 23%, 21%, 15%
Step 2. 중간 관측치(3번째) 선택: 중앙값 = 23%
예시 2: 짝수 관측치 (n=6)
데이터: 30%, 28%, 25%, 23%, 21%, 15% (6번째 관리자 28% 추가)
Step 1. 내림차순 정렬: 30%, 28%, 25%, 23%, 21%, 15%
Step 2. 두 중간 관측치의 평균: (25% + 23%) / 2 = 24%
14. 사분위수(Quartile)와 사분위 범위(IQR)
중앙값 외에 가장 많이 보고되는 분위수는 25번째와 75번째 분위수입니다. 데이터를 먼저 정렬하고, \(\alpha\)-분위수를 \(\alpha \times n\) 위치의 데이터 포인트로 추정합니다. 이 값이 정수가 아니면 바로 위와 아래의 점을 평균합니다.
사분위 범위(IQR: Interquartile Range)는 중앙값으로부터의 산포 측정치로, 표준편차가 평균으로부터의 산포를 측정하는 것과 유사합니다. 일반적인 IQR은 25번째에서 75번째 사분위까지의 범위입니다.
| 장점 | 설명 | 대비되는 전통적 측정치 |
|---|---|---|
| 해석 용이성 | 분위수는 표본 데이터와 동일한 단위를 가짐. 사분위에 있는 관측값을 얻을 확률이 25%라고 직관적으로 해석 가능 | 분산은 제곱 단위이므로 직관적 해석이 어려움 |
| 강건성 (Robustness) | 중앙값과 IQR은 이상치(Outlier)에 영향을 받지 않음 | 평균과 표준편차는 이상치에 민감하게 영향 받음. "한두 개의 극단값이 평균/표준편차를 망치는 상황"에서 분위수가 유리 |
LO 16.j: 두 확률변수의 평균 추정과 CLT 적용
15. 이변량 평균 추정
두 확률변수의 평균은 개별 변수의 평균과 동일한 방법으로 추정합니다. 표본의 산술평균은 모든 값을 더하고 관측치 수 \(n\)으로 나눕니다.
$$\hat{\mu}_X = \frac{1}{n}\sum_{i=1}^{n} X_i, \quad \hat{\mu}_Y = \frac{1}{n}\sum_{i=1}^{n} Y_i$$
데이터가 i.i.d.이면, CLT가 두 추정량 모두에 적용됩니다. 두 평균 추정량을 이변량 평균 추정량 \(\hat{\mu}\)로 간주하면, CLT를 적용하여 두 평균 추정량을 벡터로 쌓아(Stacking) 결합 행동을 검토할 수 있습니다. 다변량 확률변수 \(Z = [X, Y]\)가 i.i.d.이면, 이 2x1 벡터는 점근적으로 정규분포를 따릅니다(표본 크기가 증가하면 추정량이 정규분포에 수렴).
LO 16.k: 공분산(Covariance)과 상관계수(Correlation) 추정
16. 공분산 (Covariance)
두 확률변수 간의 공분산(Covariance)은 두 변수가 함께 움직이는 정도의 통계적 측정치입니다. 공분산은 한 변수와 다른 변수 사이의 선형 관계를 포착합니다. 양의 공분산은 변수들이 같은 방향으로 움직이는 경향이 있음을, 음의 공분산은 반대 방향으로 움직이는 경향이 있음을 나타냅니다.
공분산 공식
$$\text{Cov}(X, Y) = E\{[X - E(X)][Y - E(Y)]\}$$
이를 전개하면: \(\text{Cov}(X, Y) = E(XY) - E(X) \times E(Y)\)
예시: 경제 상태별 주식 A, B의 공분산 계산
경제 상태: 호황(P=0.30), 보통(P=0.50), 저성장(P=0.20)
| 경제 상태 | 확률 | \(R_A\) | \(R_B\) |
|---|---|---|---|
| 호황(Boom) | 0.30 | 0.20 | 0.30 |
| 보통(Normal) | 0.50 | 0.12 | 0.10 |
| 저성장(Slow) | 0.20 | 0.05 | 0.00 |
Step 1. 기대수익률 계산:
\(E(R_A) = (0.3)(0.20) + (0.5)(0.12) + (0.2)(0.05) = 0.06 + 0.06 + 0.01 = 0.13\)
\(E(R_B) = (0.3)(0.30) + (0.5)(0.10) + (0.2)(0.00) = 0.09 + 0.05 + 0.00 = 0.14\)
Step 2. 공분산 계산:
\(\text{Cov}(R_A, R_B) = 0.3(0.20-0.13)(0.30-0.14) + 0.5(0.12-0.13)(0.10-0.14) + 0.2(0.05-0.13)(0.00-0.14)\)
\(= 0.3(0.07)(0.16) + 0.5(-0.01)(-0.04) + 0.2(-0.08)(-0.14)\)
\(= 0.00336 + 0.0002 + 0.00224 = 0.0058\)
해석: 공분산의 실제 값 자체는 큰 의미가 없습니다. 두 변수의 스케일에 극도로 민감하고, 음의 무한대에서 양의 무한대까지 범위가 있으며, 제곱 단위(예: 퍼센트 제곱)로 표시되기 때문입니다. 이러한 이유로 공분산을 더 해석하기 쉬운 측정치로 변환하는 추가 단계, 즉 상관계수 계산이 필요합니다.
17. 상관계수 (Correlation)
상관계수 공식
$$\rho_{XY} = \frac{\text{Cov}(X, Y)}{\sigma_X \cdot \sigma_Y} \in [-1, +1]$$
예시: 주식 A, B의 상관계수 계산
\(\sigma^2(R_A) = 0.0028\), \(\sigma^2(R_B) = 0.0124\), \(\text{Cov}(R_A, R_B) = 0.0058\)
Step 1. 분산을 표준편차로 변환: \(\sigma(R_A) = \sqrt{0.0028} = 0.0529\), \(\sigma(R_B) = \sqrt{0.0124} = 0.1114\)
Step 2. 상관계수: \(\rho = \frac{0.0058}{0.0529 \times 0.1114} = \frac{0.0058}{0.00589} \approx 0.9847\)
해석: 상관계수 약 0.98로, 두 주식은 매우 강한 양의 상관관계를 보입니다. 한 주식이 오르면 다른 주식도 거의 같은 방향으로 움직입니다.
상관계수가 0이면 두 변수 사이에 선형 관계가 없다는 뜻이지, 독립이라는 뜻이 아닙니다. 비선형 관계가 존재할 수 있습니다. 상관 = 0이 독립을 의미하는 것은 정규분포 등 특정 경우에만 해당합니다.
LO 16.l: 코스큐니스(Coskewness)와 코커토시스(Cokurtosis)
18. 교차 모멘트 (Cross Moments) 개요
앞서 1차와 2차 모멘트(평균과 분산)를 확률변수 쌍에 적용했습니다. 이제 개별 변수의 왜도와 첨도 측정과 유사한 3차 및 4차 모멘트를 확률변수 쌍에도 적용할 수 있습니다. 3차 교차 중심 모멘트를 코스큐니스(Coskewness), 4차 교차 중심 모멘트를 코커토시스(Cokurtosis)라고 합니다.
| 모멘트 차수 (p) | 필요한 측정 수 (p-1) | 예시 |
|---|---|---|
| 2차 (공분산) | 1개 | Cov(X,Y) |
| 3차 (코스큐니스) | 2개 | s(X,X,Y), s(X,Y,Y) |
| 4차 (코커토시스) | 3개 | k(X,X,X,Y), k(X,X,Y,Y), k(X,Y,Y,Y) |
19. 코스큐니스 (Coskewness)
코스큐니스는 한 변수에서 큰 움직임이 발생할 때 다른 변수에서도 큰 방향성 움직임이 함께 발생할 가능성을 측정합니다. 한 변수의 큰 움직임과 다른 변수의 부호 사이에 관계가 없으면 코스큐니스는 0입니다.
20. 코커토시스 (Cokurtosis)
코커토시스는 거듭제곱의 합이 4가 되는 조합을 사용하여 계산됩니다. 3가지 측정이 있으며, 대칭적 경우와 비대칭적 경우로 나뉩니다.
| 코커토시스 유형 | 거듭제곱 조합 | 측정하는 것 |
|---|---|---|
| 대칭적: k(X,X,Y,Y) | (2, 2) | 한 시리즈의 크기(magnitude)에 대한 다른 시리즈의 크기의 민감도. 두 시리즈가 동시에 크기가 크면 코커토시스가 큼 |
| 비대칭적: k(X,X,X,Y) | (3, 1) | 3제곱 수익률이 크기가 클 때 수익률 부호의 일치 |
| 비대칭적: k(X,Y,Y,Y) | (1, 3) | 3제곱 수익률이 크기가 클 때 수익률 부호의 일치 |
대칭적 경우 k(X,X,Y,Y):
- 상관관계는 -1에서 +1 범위, 코커토시스는 +1에서 +3 범위
- 상관관계가 0일 때 최솟값 1 (수익률이 비상관이므로)
- 상관관계가 0에서 멀어질수록(양 또는 음 방향) 코커토시스가 대칭적으로 증가
- 그래프 형태: 대칭적 U자형 곡선 (상관 0에서 최소, 양쪽 끝에서 최대)
비대칭적 경우 k(X,X,X,Y) 및 k(X,Y,Y,Y):
- 코커토시스 범위: -3에서 +3
- 상관관계가 -1에서 +1로 증가함에 따라 우상향하는 선형 관계
Module Quiz 16.2
문제 1. 주니어 애널리스트가 투자의 1차 및 2차 모멘트를 추정하는 업무를 맡았습니다. 진짜 모집단의 무작위 데이터를 대표하는 표본 데이터가 수집되었습니다. 이 데이터 집합의 모멘트를 추정하는 데 중심극한정리(CLT)를 적용하기 위해 필요한 가정을 가장 잘 설명하는 것은?
A. 분산만 유한
B. 평균과 분산 모두 유한
C. 확률변수가 정규분포
D. 평균이 유한하고 확률변수가 정규분포
문제 2. 평균으로부터 극단적으로 큰 편차의 비율이 더 높은 수익률 분포는:
A. 양의 왜도 분포
B. 대칭 분포
C. 양의 초과첨도를 가짐
D. 음의 초과첨도를 가짐
문제 3. 주식 A와 B의 수익률 상관계수는 0.50. 두 증권 간 공분산은 0.0043이고, 주식 B의 수익률 표준편차는 26%. 주식 A의 수익률 분산은?
A. 0.0331
B. 0.0011
C. 0.2656
D. 0.0112
문제 4. 다음 확률 행렬을 고려하세요:
| 확률 | \(R_A\) | \(R_B\) |
|---|---|---|
| 40% | -10% | 50% |
| 30% | 10% | 20% |
| 30% | 30% | -30% |
주식 A와 B의 공분산에 가장 가까운 것은?
A. -0.160
B. -0.055
C. 0.004
D. 0.020
문제 5. 애널리스트가 정규분포를 따르는 이변량 확률변수 쌍의 코커토시스와 상관관계를 그래프로 그리고 있습니다. 세 가지 코커토시스 측정 중 대칭적 경우 k(X,X,Y,Y)에서, 코커토시스를 y축에, 상관관계를 x축에 -1에서 +1 사이로 그립니다. 이 그래프의 형태를 가장 잘 설명하는 것은?
A. 코커토시스 값이 -3에서 +3 범위인 우상향 선형 그래프
B. 코커토시스 값이 -1에서 +1 범위인 우하향 선형 그래프
C. 상관관계가 0일 때 코커토시스 최댓값 3인 대칭 곡선 그래프
D. 상관관계가 0일 때 코커토시스 최솟값 1인 대칭 곡선 그래프
정답 및 해설
| 문제 | 정답 | 해설 |
|---|---|---|
| Quiz 16.1-1 | D | 데이터: 0.12, 0.25, -0.01 (반드시 소수 변환!). 평균 = 0.36/3 = 0.12. 편차: 0, 0.13, -0.13. 제곱편차합 = 0 + 0.0169 + 0.0169 = 0.0338. 불편분산(n-1) = 0.0338/2 = 0.0169. 표준편차 = \(\sqrt{0.0169}\) = 0.13. 선택지 A(0.0111)와 B(0.0133)는 편향 계산이나 단위 오류, C(0.1054)는 n으로 나눈 결과. |
| Quiz 16.1-2 | B | 표본평균이 불편 추정량인 이유는 표본평균의 기대값이 모집단 평균과 같기 때문입니다. A(표집분포가 정규)는 CLT의 결과이지 불편성의 이유가 아닙니다. C(표본 크기 증가 시 정확)는 일치성의 설명입니다. D(최소 분산)는 BLUE의 설명입니다. |
| Quiz 16.2-1 | B | CLT는 평균과 분산 모두 유한할 것을 요구합니다. CLT는 모집단의 확률변수 분포에 대한 가정을 요구하지 않습니다. "정규분포여야 한다"는 CLT의 가장 흔한 오해입니다. |
| Quiz 16.2-2 | C | 평균으로부터 극단적으로 큰 편차의 비율이 더 높은 분포는 첨도과잉(Leptokurtic)이며 양의 초과첨도(Positive Excess Kurtosis)를 나타냅니다. 정규분포보다 더 두꺼운 꼬리(Fat Tails)를 가집니다. |
| Quiz 16.2-3 | B | \(\rho = \frac{\text{Cov}(A,B)}{\sigma_A \cdot \sigma_B}\) → \(\sigma_A = \frac{\text{Cov}(A,B)}{\rho \cdot \sigma_B} = \frac{0.0043}{0.50 \times 0.26} = \frac{0.0043}{0.13} = 0.0331\). 분산 = \(\sigma_A^2 = 0.0331^2\) = 0.0011. |
| Quiz 16.2-4 | B | \(E(R_A) = 0.4(-0.10) + 0.3(0.10) + 0.3(0.30) = 0.08\). \(E(R_B) = 0.4(0.50) + 0.3(0.20) + 0.3(-0.30) = 0.17\). Cov = \(0.4(-0.10-0.08)(0.50-0.17) + 0.3(0.10-0.08)(0.20-0.17) + 0.3(0.30-0.08)(-0.30-0.17)\) = \(0.4(-0.18)(0.33) + 0.3(0.02)(0.03) + 0.3(0.22)(-0.47)\) = \(-0.02376 + 0.00018 + (-0.03102)\) = -0.0546 (가장 가까운 것은 B: -0.055). |
| Quiz 16.2-5 | D | 대칭적 경우 k(X,X,Y,Y)의 그래프는 상관관계가 0일 때 코커토시스 최솟값 1인 대칭 곡선(U자형)입니다. 상관이 0에서 멀어질수록 코커토시스는 1에서 3까지 증가합니다. 비대칭적 경우(A)만 우상향 선형 관계이고 범위가 -3~+3입니다. |
KEY CONCEPTS (핵심 개념 정리)
LO 16.a 핵심
i.i.d. 확률변수 \(X_i\)의 표본 n개에 대한 표본평균: \(\bar{X} = \frac{1}{n}\sum X_i\). 불편 표본분산: \(s^2 = \frac{1}{n-1}\sum(X_i - \bar{X})^2\). 편차 합 = 항상 0. 특별히 지시 없으면 n-1 사용.
LO 16.b 핵심
표본평균은 관찰 가능한 데이터에 기반한 추정량. 진짜 모집단 평균의 추정치일 뿐. 모집단 모멘트는 \(E[\cdot]\) 연산자, 표본 모멘트는 합/n 연산자.
LO 16.c 핵심
점추정(Estimate)은 모집단 모수를 추정하는 단일 값. 추정량(Estimator)은 점추정을 계산하는 공식.
LO 16.d 핵심
편향 = \(E[\hat{\theta}] - \theta\). 표본평균은 불편. 분모 n인 분산은 편향(과소추정) → n-1로 보정하면 불편.
LO 16.e 핵심
BLUE = 모든 선형 불편 추정량 중 최소 분산. i.i.d.일 때 표본평균이 BLUE. 비선형(MLE 등)이 더 정확할 수 있지만 유한 표본에서 편향 가능.
LO 16.f 핵심
일치적 추정량: n 증가 시 (1) 편향→0, (2) 분산→0. 큰 표본에서 참값에 가까워짐.
LO 16.g 핵심
LLN: 추정량이 진짜 모집단 값으로 수렴 (평균 유한 필요). CLT: n 클 때 i.i.d. 합이 정규분포에 근사 (평균+분산 유한 필요, 모집단 분포 가정 불필요).
LO 16.h 핵심
왜도 = 표준화 3차 중심모멘트. 대칭 위반 정도. 양(우편향)/음(좌편향). 첨도 = 표준화 4차 중심모멘트. 꼬리 두께. 정규=3, 초과첨도=첨도-3. 양의 첨도+음의 왜도 → 위험 증가.
LO 16.i 핵심
홀수: \(x_{(n+1)/2}\). 짝수: \(\frac{1}{2}(x_{n/2} + x_{n/2+1})\). 분위수 장점: 동일 단위 + 이상치에 강건(Robust).
LO 16.j 핵심
두 변수 평균: 각각 \(\hat{\mu}_X = \frac{1}{n}\sum X_i\), \(\hat{\mu}_Y = \frac{1}{n}\sum Y_i\). i.i.d.이면 CLT 적용, 벡터로 쌓아 결합 행동 검토 → 점근적 정규.
LO 16.k 핵심
\(\text{Cov}(X,Y) = E\{[X-E(X)][Y-E(Y)]\}\). 양이면 같은 방향, 음이면 반대 방향. 상관계수 \(\rho = \text{Cov}/(\sigma_X \sigma_Y)\), 범위 [-1, +1].
LO 16.l 핵심
코스큐니스: 한 변수 큰 움직임 시 다른 변수의 방향성 동조. 이변량 정규에서 항상 0. 코커토시스 대칭 k(X,X,Y,Y): 범위 +1~+3, 상관=0일 때 최소(1), |상관| 증가 시 증가 (U자형 곡선). 비대칭: 범위 -3~+3, 상관에 대해 우상향 선형.
시험 대비 한 줄 암기 체크리스트
| 주제 | 암기 포인트 |
|---|---|
| 표본평균 | \(\bar{X} = \frac{1}{n}\sum X_i\). 편차 합 = 항상 0. 불편 추정량. BLUE |
| 불편 분산 | 분모 n-1 (기본값). n으로 나누면 체계적 과소추정(편향) |
| n-1 이유 | \(\sum(X_i-\bar{X})=0\) 제약 → 자유도 n-1개 → n으로 나누면 편향 |
| Var(\(\bar{X}\)) | \(\sigma^2/n\). 표본 크기 증가 → 평균 추정 불확실성 감소 |
| 편향 공식 | Bias = \(E[\hat{\theta}] - \theta\). 0이면 불편 |
| BLUE | Best Linear Unbiased Estimator. i.i.d. → 표본평균이 BLUE |
| 일치성 | n→∞에서 편향→0 그리고 분산→0 |
| LLN vs CLT | LLN: \(\bar{X}\)→\(\mu\) (수렴). CLT: \(\bar{X}\)의 분포→정규 (분포 형태) |
| CLT 조건 | 평균+분산 유한. 모집단 정규 가정 불필요! 보통 n≥30 |
| 양의 왜도 | 오른쪽 꼬리 김. 최빈값 < 중앙값 < 평균 |
| 음의 왜도 | 왼쪽 꼬리 김. 평균 < 중앙값 < 최빈값 |
| 첨도 기준 | 정규 = 3. 초과첨도 = 첨도 - 3. Leptokurtic > 3 (Fat Tails) |
| 위험 지표 | 양의 첨도 클수록 + 음의 왜도 클수록 = 위험 증가 |
| 중앙값 장점 | 이상치에 강건(Robust). 원래 단위와 동일 |
| 공분산 | \(\text{Cov}(X,Y) = E[(X-\mu_X)(Y-\mu_Y)]\). 스케일 민감, 제곱 단위 |
| 상관계수 | \(\rho = \text{Cov}/(\sigma_X\sigma_Y)\). 범위 [-1, +1]. 0 ≠ 독립 (일반적으로) |
| 코스큐니스 | 이변량 정규에서 항상 0 (대칭) |
| 코커토시스 (대칭) | k(X,X,Y,Y): 범위 1~3. 상관=0 → 최소(1). U자형 곡선 |
| 코커토시스 (비대칭) | 범위 -3~+3. 상관에 대해 우상향 선형 |
| 계산 체크 | (i) 소수 변환 (ii) 평균→편차→제곱→합 (iii) n-1 확인 (iv) 루트 |
흔한 함정/오해 (시험에서 자주 틀리는 포인트)
| 함정 | 올바른 이해 |
|---|---|
| 퍼센트를 그대로 넣음 (12%를 12로) | 반드시 소수로 변환 (12% → 0.12) |
| 분산과 표준편차 혼동 | 공분산/분산은 제곱 단위, 표준편차는 원래 단위 |
| "표본분산"에 n 사용 | 문제에서 biased 명시 시만 n. 기본값은 항상 n-1 |
| CLT에 정규분포 가정 필요 | 모집단 분포 가정 불필요. 평균+분산 유한이면 충분 |
| 첨도 = 꼭대기 뾰족함 | 리스크관리 관점 핵심은 "꼬리 두께(극단 빈도)" |
| 상관 0이면 "독립" | 일반적으로 틀림. 정규 등 특정 경우에만 성립. 비선형 관계 존재 가능 |
'취준 > FRM part1' 카테고리의 다른 글
| FRM part1. Reading 18: Linear Regression (0) | 2026.02.10 |
|---|---|
| FRM part1. Reading 17: Hypothesis Testing (0) | 2026.02.10 |
| FRM part1. Reading 15: Multivariate Random Variables (0) | 2026.02.10 |
| FRM part1. Reading 14: Common Univariate Random Variable (0) | 2026.02.10 |
| FRM part1. Reading 13: Random Variables (0) | 2026.02.10 |