FRM Part I – Reading 17
가설검정 (Hypothesis Testing)

EXAM FOCUS

이 Reading의 본질적 질문

가설검정(Hypothesis Testing)은 "모집단(Population)의 실제 모수(Parameter)가 특정 값인가?"라는 질문에 대해, 표본(Sample) 데이터로부터 계산된 통계량을 사용하여 통계적으로 판단하는 절차입니다. 리스크 관리자가 투자 수익률이나 경제/금융 변수에 대한 포트폴리오 의사결정을 통계적 분석에 기반하여 내리는 방법론의 핵심이 바로 가설검정입니다.

이 Reading에서는 모집단 평균(Population Mean)과 모집단 분산(Population Variance)에 관한 가설검정 절차를 다루며, 구체적으로 z-검정(z-test)과 t-검정(t-test)을 학습합니다.

시험에서 반드시 할 수 있어야 하는 것

귀무가설(H0)과 대립가설(HA)을 올바르게 설정하고 구분
단측검정(One-Tailed)과 양측검정(Two-Tailed)의 차이와 적용 시점
제1종 오류/제2종 오류와 검정력(Power)의 관계
신뢰구간(Confidence Interval)을 구성하고 해석하며, 가설검정과의 연결 이해
p-value의 정확한 의미와 유의수준과의 비교를 통한 기각 판단
z-검정과 t-검정의 사용 조건(모분산 기지/미지, 표본크기)
두 모집단 평균 차이 검정의 절차
다중검정(Multiple Testing) 문제와 편향된 결과의 위험

MODULE 17.1: 가설검정의 기초

LO 17.a: 귀무가설과 대립가설의 구성 및 구분

1. 가설검정이란 무엇인가?

가설검정(Hypothesis Testing)은 모집단에 관한 진술(Statement) 또는 아이디어의 타당성을 통계적으로 평가하는 절차입니다. 예를 들어, "미국 주식시장의 평균 수익률은 0보다 크다"라는 진술이 있다고 합시다. 이 진술이 타당한지를 판단하기 위해, 관련 수익률 데이터를 수집하고 가설검정 절차를 적용하여 주어진 유의수준(Significance Level)에서 이 진술의 유효성을 검증합니다.

여기서 가설(Hypothesis)이란, 이론이나 신념을 검증하기 위해 개발된 모집단 모수(Population Parameter)의 값에 대한 진술입니다. 가설은 모집단 평균 $\mu$와 같은 모집단 모수로 표현됩니다. 예를 들어, 연구자가 주식 옵션 포트폴리오의 일평균 수익률에 관심이 있다면, "주식 옵션 포트폴리오의 일평균 수익률은 양(+)이다"라는 가설을 세울 수 있습니다.

2. 가설검정의 6가지 구성요소

모든 가설검정은 다음 6가지 구성요소로 이루어져 있습니다. 이 구조를 정확히 이해하는 것이 가설검정의 첫걸음입니다.

구성요소	영어	설명
1. 귀무가설	Null Hypothesis, $H_0$	참이라고 가정하는 모집단 모수의 값을 지정. 검정의 기준이 되며, 연구자가 기각하고 싶은 가설
2. 대립가설	Alternative Hypothesis, $H_A$	귀무가설을 기각해야 할 때 채택되는 검정통계량의 값 범위를 지정. 연구자가 실제로 증명하고 싶은 가설
3. 검정통계량	Test Statistic	표본 데이터로부터 계산되는 통계량. 귀무가설의 타당성 판단에 사용
4. 유의수준	Significance Level (= Test Size), $\alpha$	귀무가설이 참인데 기각할 확률. 즉, 제1종 오류의 허용 확률
5. 임계값	Critical Value	검정통계량과 비교하여 기각 여부를 판단하는 경계값
6. 의사결정규칙	Decision Rule	검정통계량과 임계값의 비교를 기반으로 귀무가설의 기각/비기각을 결정하는 규칙

시험 참고:

교재에서는 "test size"와 "significance level"을 동의어로 사용합니다. 시험에서 "test size"가 나오면 이것은 곧 유의수준($\alpha$)을 의미합니다.

3. 귀무가설(H0)과 대립가설(HA)

귀무가설(H0)은 연구자가 기각(Reject)하고자 하는 가설입니다. 실제로 검정되는 것이 바로 이 귀무가설이며, 검정통계량의 선택 기준이 됩니다. 귀무가설은 일반적으로 모집단 모수에 대한 단순한 진술입니다.

모집단 평균 $\mu$에 대한 귀무가설의 전형적인 형태는 다음 세 가지입니다:

$H_0: \mu = \mu_0$ (등호)
$H_0: \mu \le \mu_0$ (이하)
$H_0: \mu \ge \mu_0$ (이상)

시험 필수 암기: "귀무가설에는 반드시 등호(=)가 포함된다"

귀무가설은 항상 등호 조건($=, \le, \ge$)을 포함합니다. 이것은 가설검정의 핵심 규칙이며, 시험에서 귀무가설과 대립가설의 설정 문제에서 가장 먼저 확인해야 할 사항입니다. 대립가설에는 등호가 포함되지 않습니다($\neq, >, <$).

대립가설(HA)은 귀무가설을 기각할 충분한 증거가 있을 때 채택되는 결론입니다. 통상적으로 대립가설이 연구자가 실제로 평가하고 싶은 가설입니다. 왜 대립가설이 연구자의 진짜 관심사인가? 그 이유는 통계학에서는 어떤 것도 "증명(Prove)"할 수 없기 때문입니다. 귀무가설이 불신된(Discredited) 경우, 그 함의(Implication)로서 대립가설이 유효하다고 결론짓는 것입니다.

4. 귀무가설과 대립가설 설정의 원칙

가장 흔한 귀무가설은 등호(=) 가설입니다. 대립가설은 종종 연구자가 희망하는(Hoped-for) 가설입니다. 예를 들어, 귀무가설이 "회귀 계수가 0과 같다"일 때, 연구자는 이것을 기각하여 해당 관계의 유의성을 보이고 싶어 합니다.

귀무가설이 "이하($\le$)"일 때, 상호배타적인 대립가설은 "초과($>$)"로 구성됩니다. 만약 수익률이 무위험이자율보다 크다는 것을 보이려 한다면, 이것이 올바른 구성입니다. 귀무가설의 기각이 대립가설의 채택으로 이어지도록 설정하는 것이 검정을 수행하는 목표입니다.

5. 검정통계량(Test Statistic)의 구조

검정통계량은 표본 추정치(Point Estimate)와 귀무가설이 지정한 모수 값의 차이를 표준오차(Standard Error)로 나눈 것입니다. 직관적으로 말하면, "관측된 표본 평균이, 귀무가설이 참일 때 보통 나올 만한 범위 내에 있는가?"를 판단하는 척도입니다.

검정통계량의 일반 공식 $$\text{Test Statistic} = \frac{\text{표본추정치(Sample Statistic)} - \text{귀무가설 값(Hypothesized Value)}}{\text{표준오차(Standard Error)}}$$

모집단 평균 검정의 경우:

$$\text{Test Statistic} = \frac{\bar{x} - \mu_0}{SE(\bar{x})}$$

이 공식이 의미하는 바는 명확합니다. 표본 평균 $\bar{x}$가 귀무가설이 제시한 값 $\mu_0$에서 "표준오차(SE) 몇 배"만큼 떨어져 있는가를 측정합니다. 이 "몇 배"가 임계값(예: 1.96)을 넘으면, "귀무가설이 참이라면 이렇게 극단적인 표본이 나올 확률이 매우 낮다"고 판단하여 귀무가설을 기각합니다.

6. 표준오차(Standard Error, SE)

표준오차는 표본통계량의 표본분포(Sampling Distribution)에서의 표준편차입니다. 표본통계량이 표본 평균 $\bar{x}$일 때, 표준오차는 다음과 같이 계산됩니다:

표준오차(SE) 계산

모집단 표준편차 $\sigma$를 알 때:

$$SE(\bar{x}) = \frac{\sigma}{\sqrt{n}}$$

모집단 표준편차를 모를 때 (대부분의 현실 상황):

$$SE(\bar{x}) = \frac{s}{\sqrt{n}}$$

여기서 $s$는 표본 표준편차(Sample Standard Deviation)로, 미지의 $\sigma$를 대체합니다.

LO 17.b: 단측검정과 양측검정의 구분 및 적용

1. 양측검정(Two-Tailed Test)

대립가설이 양측(Two-Sided)인 경우, 양측검정이라 합니다. 연구 질문이 "모수가 특정 값과 다른가(Different from)?"일 때 양측검정을 사용합니다. 실무에서 대부분의 가설검정은 양측검정으로 구성됩니다.

양측검정의 가설 구조 $$H_0: \mu = \mu_0 \quad \text{vs} \quad H_A: \mu \neq \mu_0$$

대립가설이 가설값의 위와 아래 모두에서의 이탈을 허용하므로, 두 개의 임계값(기각점)을 사용합니다.

$\alpha = 0.05$(유의수준 5%)에서의 양측 z-검정을 구체적으로 살펴봅시다. 검정통계량을 임계 z-값 $\pm 1.96$과 비교합니다. $\pm 1.96$은 표준정규분포에서 확률의 95%가 포함되는 z-값의 범위입니다. 이 값은 표준정규분포의 누적확률표(z-표)에서 얻습니다.

의사결정규칙:

검정통계량이 $\pm 1.96$ 범위 밖에 있으면(즉, 검정통계량 > 1.96 또는 검정통계량 < -1.96) → 귀무가설 기각
검정통계량이 $\pm 1.96$ 범위 안에 있으면 → 귀무가설 기각 실패(Fail to Reject)

유의수준 0.05는 분포의 각 꼬리(Tail)에 0.05/2 = 0.025의 확률(면적)이 $\pm 1.96$ 너머에 있음을 의미합니다.

예시 1: 양측 z-검정 (옵션 포트폴리오 일평균 수익률)

상황: 연구자가 최근 250일 동안 콜옵션 포트폴리오의 일별 수익률 데이터를 수집했습니다. 표본 일평균 수익률은 0.1%, 표본 표준편차는 0.25%입니다. 연구자는 일평균 포트폴리오 수익률이 0이 아니라고 믿습니다.

조건:

표본크기: $n = 250$
표본평균: $\bar{x} = 0.1\% = 0.001$
표본 표준편차: $s = 0.25\% = 0.0025$
유의수준: $\alpha = 0.05$

Step 1: 가설 설정

연구자가 기각하고 싶은 것은 "수익률이 0이다"이므로:

$$H_0: \mu = 0 \quad \text{vs} \quad H_A: \mu \neq 0$$

등호(=) 조건이 귀무가설에 있으므로, 이것은 양측검정입니다.

Step 2: 임계값 및 의사결정규칙

$\alpha = 0.05$ 양측검정의 임계 z-값: $\pm 1.96$

의사결정규칙: 검정통계량 < -1.96 또는 검정통계량 > +1.96이면 $H_0$ 기각

Step 3: 표준오차 계산

$$SE = \frac{s}{\sqrt{n}} = \frac{0.0025}{\sqrt{250}} = \frac{0.0025}{15.811} \approx 0.000158$$

Step 4: 검정통계량 계산

$$z = \frac{\bar{x} - \mu_0}{SE} = \frac{0.001 - 0}{0.000158} \approx \textbf{6.33}$$

Step 5: 의사결정

$6.33 > 1.96$이므로 검정통계량이 기각역(Rejection Region) 안에 들어갑니다. 따라서 $H_0$을 기각합니다. 즉, 일평균 옵션 수익률은 0과 통계적으로 유의하게 다릅니다.

해석: 귀무가설을 기각한다는 것은 표본 값이 가설 값과 충분히 다르다고 결론짓는 것입니다. 표본의 변동성(표준편차)과 표본크기를 고려했을 때, 일평균 수익률 0.001은 0과 통계적으로 다르다는 의미입니다.

2. 단측검정(One-Tailed Test)

대립가설이 단측(One-Sided)인 경우, 단측검정이라 합니다. 연구 질문이 "모수가 특정 값보다 크거나(Greater Than)" 또는 "작은가(Less Than)?"일 때 단측검정을 사용합니다.

단측검정의 가설 구조

상측(Upper Tail) 검정: 모수가 가설값보다 큰지 검정

$$H_0: \mu \le \mu_0 \quad \text{vs} \quad H_A: \mu > \mu_0$$

$\alpha = 0.05$일 때 임계값: +1.645 (우측 꼬리에 5% 면적)

하측(Lower Tail) 검정: 모수가 가설값보다 작은지 검정

$$H_0: \mu \ge \mu_0 \quad \text{vs} \quad H_A: \mu < \mu_0$$

$\alpha = 0.05$일 때 임계값: -1.645 (좌측 꼬리에 5% 면적)

양측검정에서 $\alpha = 0.05$의 면적이 양쪽 꼬리에 나뉘어(각 0.025) 임계값이 $\pm 1.96$이 되는 반면, 단측검정에서는 $\alpha = 0.05$의 면적이 한쪽 꼬리에만 집중되므로 임계값이 $\pm 1.645$가 됩니다. 이 차이가 시험에서 매우 중요합니다.

예시 2: 상측 단측 z-검정 (옵션 수익률이 양수인가?)

상황: 예시 1과 동일한 데이터를 사용하여, 옵션 수익률이 양수(+)인지 검정합니다.

가설 설정:

$$H_0: \mu \le 0 \quad \text{vs} \quad H_A: \mu > 0$$

의사결정규칙: $\alpha = 0.05$ 상측 단측검정 → 검정통계량 > 1.645이면 $H_0$ 기각

판단: 예시 1에서 검정통계량 = 6.33. $6.33 > 1.645$이므로 $H_0$을 기각합니다. 평균 수익률은 5% 유의수준에서 통계적으로 0보다 큽니다.

시험 함정 주의: 임계값 혼동

양측검정($\alpha = 0.05$)에서는 임계값이 $\pm 1.96$ (각 꼬리 2.5%)

단측검정($\alpha = 0.05$)에서는 임계값이 $\pm 1.645$ (한쪽 꼬리 5%)

단측인데 $\pm 1.96$을 쓰거나, 양측인데 1.645를 쓰면 오답입니다. 반드시 "양측/단측"을 먼저 판별한 뒤 올바른 임계값을 적용하세요.

LO 17.c: 제1종 오류와 제2종 오류, 검정력(Power)

1. 가설검정에서의 두 가지 오류

가설검정은 모집단 전체가 아닌 표본(Sample)에서 계산된 통계량으로 모집단에 대한 추론을 합니다. 따라서 표본이 모집단을 어떤 방식으로든 대표하지 못할 확률이 존재하며, 표본 기반의 결론이 오류를 범할 수 있습니다. 가설검정에서 발생 가능한 오류는 두 가지입니다.

오류 유형	정의	확률 표기	비유
제1종 오류 (Type I Error)	귀무가설이 참인데 기각하는 오류	$\alpha$ (유의수준)	"무고한 사람을 유죄로 판결"
제2종 오류 (Type II Error)	귀무가설이 거짓인데 기각하지 못하는 오류	$\beta$	"유죄인 사람을 무죄로 판결"

유의수준(Significance Level)은 제1종 오류를 범할 확률이며, 그리스 문자 $\alpha$로 표시합니다. 예를 들어, $\alpha = 0.05$는 참인 귀무가설을 기각할 확률이 5%라는 의미입니다. 가설검정을 수행할 때, 검정통계량의 평가에 필요한 임계값을 결정하기 위해 반드시 유의수준을 사전에 지정해야 합니다.

시험 함정 주의: "귀무가설을 채택(Accept)한다"는 틀린 표현

가설검정의 결론은 "귀무가설을 기각(Reject)한다" 또는 "귀무가설을 기각하지 못한다(Fail to Reject)"입니다. "귀무가설을 채택(Accept)한다"고 말하는 것은 통계적으로 부정확합니다. 귀무가설은 지지(Support)되거나 기각될 수 있을 뿐, 채택(수락)될 수 없습니다.

2. 검정력(Power of a Test)

검정의 검정력(Power)이란, 귀무가설이 거짓일 때 이를 올바르게 기각할 확률입니다. 수식으로 표현하면:

검정력(Power) $$\text{Power} = 1 - P(\text{Type II Error}) = 1 - \beta$$

즉, "거짓인 귀무가설을 기각할 확률" = 1 - "거짓인 귀무가설을 기각하지 못할 확률(Type II)"

여러 검정통계량을 사용할 수 있을 때, 경쟁하는 검정통계량들 간의 검정력을 비교하여 어떤 것을 사용할지 결정할 수 있습니다. 통상적으로 가능한 모든 검정 중에서 가장 강력한(Most Powerful) 검정을 사용하고 싶어 합니다.

3. 오류 간의 트레이드오프(Trade-off)

제1종 오류와 제2종 오류, 그리고 검정력 사이에는 중요한 상충관계가 존재합니다:

조치	제1종 오류($\alpha$)	제2종 오류($\beta$)	검정력(Power)
$\alpha$를 5% → 1%로 낮추기 (기각 기준 엄격화)	감소	증가	감소
주어진 표본크기에서 $\alpha$를 높이기 (기각 기준 완화)	증가	감소	증가
주어진 $\alpha$에서 표본크기($n$) 증가	불변	감소	증가

핵심 결론:

주어진 유의수준에서 제2종 오류를 줄이고 검정력을 높이는 유일한 방법은 표본크기($n$)를 키우는 것입니다. 이것은 시험에서 자주 출제되는 핵심 관계입니다.

LO 17.d: 가설검정과 신뢰구간의 관계

1. 신뢰구간(Confidence Interval)이란?

신뢰구간은 연구자가 진정한 모집단 모수가 포함되어 있다고 믿는 값의 범위입니다. 신뢰구간은 다음과 같이 구성됩니다:

양측 신뢰구간 $$\bar{x} - (\text{Critical Value}) \times SE \;\le\; \mu \;\le\; \bar{x} + (\text{Critical Value}) \times SE$$

95% 신뢰구간의 해석: 진정한 모집단 모수가 이 구간에 포함될 확률이 95%

2. 신뢰구간과 가설검정의 연결

신뢰구간과 가설검정은 임계값(Critical Value)으로 연결됩니다. 예를 들어, 95% 신뢰구간은 5% 유의수준에서의 주어진 분포의 임계값을 사용합니다. 마찬가지로, 가설검정도 5% 유의수준에서의 임계값에 검정통계량을 비교합니다.

신뢰구간의 표현식을 변형하면:

신뢰구간 ↔ 가설검정의 동치 $$-\text{Critical Value} \;\le\; \text{Test Statistic} \;\le\; +\text{Critical Value}$$

이것은 주어진 유의수준에서 양측검정의 귀무가설을 "기각하지 못하는" 범위와 정확히 동일합니다.

따라서: 가설값($\mu_0$)이 신뢰구간 안에 있으면 → $H_0$ 기각 실패

가설값($\mu_0$)이 신뢰구간 밖에 있으면 → $H_0$ 기각

예시 3: 95% 신뢰구간을 이용한 가설검정

조건: 예시 1과 동일한 옵션 포트폴리오 데이터 (n=250, $\bar{x}=0.1\%$, $s=0.25\%$, z-분포 사용)

Step 1: 표준오차

$$SE = \frac{0.25\%}{\sqrt{250}} = \frac{0.0025}{15.811} \approx 0.0158\%$$

Step 2: 95% 신뢰구간 구성

$\alpha = 0.05$에서 임계 z-값은 $\pm 1.96$이므로:

$$0.1\% - 1.96 \times 0.0158\% \;\le\; \mu \;\le\; 0.1\% + 1.96 \times 0.0158\%$$ $$0.1\% - 0.031\% \;\le\; \mu \;\le\; 0.1\% + 0.031\%$$ $$\textbf{0.069\%} \;\le\; \mu \;\le\; \textbf{0.131\%}$$

Step 3: 판단

가설값 $\mu_0 = 0$이 신뢰구간 [0.069%, 0.131%] 안에 포함되지 않으므로, $H_0: \mu = 0$을 기각합니다.

연결 확인: 예시 1에서 검정통계량 6.33 > 1.96으로 기각한 것과, 이 신뢰구간 방법으로 기각한 것은 정확히 동일한 결론을 도출합니다. 표본 평균 0.1%가 0에서 1.96 표준오차 이상 떨어져 있기 때문에 기각되고, 동시에 0은 표본 평균 0.1%로부터 1.96 표준오차 이상 떨어져 있으므로 신뢰구간 밖에 있습니다.

3. 통계적 유의성 vs 실무적 유의성

통계적 유의성(Statistical Significance)은 반드시 실무적 유의성(Practical Significance)을 의미하지 않습니다. 이것은 시험에서 매우 중요한 개념입니다.

예를 들어, 특정 기준을 충족하는 종목을 매수하고 그렇지 않은 종목을 매도하는 전략의 20년간 수익률을 검정했다고 합시다. 귀무가설(수익률 ≤ 0)을 기각하고 수익률이 양수라는 대립가설을 채택했습니다. 그러나 이것이 실제 투자에서 경제적으로 의미 있는 양의 수익을 보장하지는 않습니다. 다음 요인들을 고려해야 합니다:

요인	문제
거래비용(Transaction Costs)	매매 비용을 고려하면 양의 평균 수익이 실질적으로 양의 수익을 생성하기에 충분하지 않을 수 있음
세금(Taxes)	세금이 겉보기에 매력적인 전략을 실무에서는 형편없는 전략으로 만들 수 있음
위험(Risk)	공매도로 인한 추가 위험(조기 청산 가능성), 연간 수익률의 큰 변동성 등 검정에서 고려하지 못한 위험이 존재
큰 표본크기 효과	매우 큰 표본에서는 절대적으로 아주 작은 차이도 통계적으로 유의하게 나올 수 있음. 통계적 유의성 ≠ 경제적 유의성

Module Quiz 17.1

문제 1. Austin Roberts는 해당 지역의 평균 주택 가격이 $145,000보다 크다고 믿고 있다. 36채의 무작위 표본에서 평균 가격은 $149,750이다. 모집단 표준편차는 $24,000이며, 1% 유의수준에서 가설검정을 하려 한다. 적절한 대립가설은?

A. $H_A: \mu < \$145{,}000$
B. $H_A: \mu \pm \$145{,}000$
C. $H_A: \mu \ge \$145{,}000$
D. $H_A: \mu > \$145{,}000$

문제 2. 가설검정에 관한 다음 설명 중 가장 정확한 것은?

A. 검정력은 1에서 제1종 오류 확률을 뺀 것이다
B. 제1종 오류의 확률은 검정의 유의수준과 같다
C. X가 0보다 크다는 주장을 검정하려면 귀무가설은 $H_0: X > 0$이다
D. 귀무가설을 반증(Disprove)할 수 있다면 대립가설을 증명(Prove)한 것이다

MODULE 17.2: 가설검정의 결과 해석

LO 17.e: p-value의 의미

1. p-value란 무엇인가?

p-value는 귀무가설이 참이라고 가정했을 때, 귀무가설의 기각으로 이어질 검정통계량을 얻을 확률입니다. 다른 말로 하면, p-value는 귀무가설을 기각할 수 있는 가장 작은(최소) 유의수준입니다.

p-value의 계산 방법은 검정 유형에 따라 다릅니다:

단측검정(상측): 계산된 검정통계량 위에 있는 확률
단측검정(하측): 계산된 검정통계량 아래에 있는 확률
양측검정: 검정통계량의 양수 값 위에 있는 확률 + 음수 값 아래에 있는 확률 (= 한쪽 꼬리 확률 x 2)

시험 함정 주의: p-value에 대한 흔한 오해

p-value는 "귀무가설이 참일 확률"이 아닙니다! p-value는 "귀무가설이 참이라고 가정했을 때, 현재 관측된 것만큼(또는 더 극단적인) 검정통계량이 나올 확률"입니다. 이 구분은 시험에서 자주 함정으로 출제됩니다.

p-value를 이용한 기각 판단 규칙:

p-value < $\alpha$ → 귀무가설 기각

p-value ≥ $\alpha$ → 귀무가설 기각 실패

많은 연구자들은 유의수준을 미리 정하지 않고 p-value를 보고하여, 독자가 기각의 증거가 얼마나 강한지 스스로 판단하게 합니다.

예시 4: p-value 계산과 해석

상황: 양측검정에서 검정통계량 = 2.3 (상측 임계값 1.96 초과)

Step 1: 한쪽 꼬리 확률

z-표에서 z = 2.3 이상의 확률: $P(Z > 2.3) = 1 - 0.9893 = 0.0107 = 1.07\%$

Step 2: 양측 p-value

$$p\text{-value} = 2 \times 1.07\% = \textbf{2.14\%}$$

Step 3: 유의수준별 기각 판단

유의수준 ($\alpha$)	p-value (2.14%) vs $\alpha$	결론
5%	2.14% < 5%	기각
3%	2.14% < 3%	기각
2%	2.14% > 2%	기각 실패
1%	2.14% > 1%	기각 실패

해석: 이 결과는 p-value가 "기각 가능한 최소 유의수준"이라는 정의와 일치합니다. 유의수준이 2.14%보다 큰 경우에만 기각할 수 있습니다.

LO 17.f: 신뢰구간의 구성과 적용, z-검정과 t-검정

1. 양측 및 단측 신뢰구간

신뢰구간은 양측검정뿐만 아니라 단측검정에 대해서도 구성할 수 있습니다:

신뢰구간의 세 가지 형태

양측:

$$\bar{x} - z_{\alpha/2} \times SE \;\le\; \mu \;\le\; \bar{x} + z_{\alpha/2} \times SE$$

상측(Upper Tail):

$$\bar{x} - z_{\alpha} \times SE \;\le\; \mu$$

하측(Lower Tail):

$$\mu \;\le\; \bar{x} + z_{\alpha} \times SE$$

2. t-검정(t-test): 모분산을 모를 때의 검정

t-검정은 t-분포에 따르는 검정통계량을 사용하는 널리 쓰이는 가설검정입니다. 현실에서 모집단의 분산을 아는 경우는 극히 드물기 때문에, t-검정은 광범위하게 적용됩니다.

t-검정 사용 조건: 모집단 분산을 모르고($\sigma$ 미지), 다음 중 하나에 해당할 때:

표본이 크거나 ($n \ge 30$)
표본이 작지만 ($n < 30$), 모집단의 분포가 정규 또는 근사정규인 경우

주의: 표본이 작고 비정규이면?

표본이 작고(n < 30) 모집단 분포가 비정규(Nonnormal)인 경우, 신뢰할 수 있는 통계적 검정이 존재하지 않습니다. 이것은 시험에서 "어떤 검정을 쓸 것인가?" 문제에서 출제되는 함정입니다.

t-통계량 (자유도: n - 1) $$t_{n-1} = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}$$

공식 자체는 z-검정과 동일합니다. 차이점은 분모에서 모집단 표준편차 $\sigma$ 대신 표본 표준편차 $s$를 사용하고, 분포가 z-분포가 아닌 t-분포(자유도 n-1)를 따른다는 점입니다.

3. z-검정(z-test): 모분산을 알 때의 검정

z-검정은 모집단이 정규분포이고 분산이 알려진(Known) 경우에 적절한 가설검정입니다.

z-통계량

모분산 기지($\sigma$ known):

$$z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}$$

대표본에서 모분산 미지($\sigma$ unknown, n ≥ 30):

$$z = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}$$

모분산이 미지인 대표본에서 표본 표준편차 $s$로 대체하는 것은 허용되지만, t-통계량이 더 보수적(Conservative)인 측정치입니다.

4. 시험 필수 암기: 임계 z-값

유의수준 ($\alpha$)	양측검정 임계값 ($z_{\alpha/2}$)	단측검정 임계값 ($z_{\alpha}$)
10%	$\pm 1.645$	$\pm 1.28$
5%	$\pm 1.96$	$\pm 1.645$
1%	$\pm 2.576$	$\pm 2.33$

5. z-검정 vs t-검정: 언제 어떤 것을 쓰는가?

조건	$\sigma$ 기지 (Known)	$\sigma$ 미지 (Unknown)
대표본 (n ≥ 30)	z-검정	t-검정 (z-검정도 허용, 거의 동일한 결과)
소표본 (n < 30), 정규/근사정규	z-검정	t-검정
소표본 (n < 30), 비정규	z-검정 (주의 필요)	신뢰할 검정 없음

예시 5: z-검정 전체 절차 (기계 품질관리)

상황: 회사의 기즈모(Gizmo) 제조 기계가 정상 작동할 때 기즈모의 평균 길이는 2.5인치입니다. 기계가 때때로 정렬이 어긋나면 너무 길거나 짧은 기즈모가 생산됩니다. 이때 생산을 멈추고 기계를 조정합니다. 오늘 49개의 무작위 표본에서 평균 길이 2.49인치가 관측되었습니다. 모집단 표준편차는 0.021인치로 알려져 있습니다. 5% 유의수준에서 기계를 멈추고 조정해야 하는지 결정하세요.

Step 1: 가설 설정

$$H_0: \mu = 2.5 \;\text{(기계가 조정 불필요)}$$ $$H_A: \mu \neq 2.5 \;\text{(기계가 조정 필요)}$$

대립가설에 $\neq$ 부호가 있으므로 양측검정입니다.

Step 2: 적절한 검정통계량 선택

모분산이 기지이고 표본크기 > 30이므로, z-통계량이 적절합니다.

Step 3: 유의수준 명시

$\alpha = 0.05$. 참인 귀무가설을 기각할 확률 5%를 수용합니다.

Step 4: 의사결정규칙

양측검정이므로 기각역이 양쪽 꼬리에 존재. 각 꼬리의 면적 = 0.025. 임계값 $\pm 1.96$

의사결정규칙: z < -1.96 또는 z > +1.96이면 $H_0$ 기각

Step 5: 검정통계량 계산

$$z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} = \frac{2.49 - 2.5}{0.021 / \sqrt{49}} = \frac{-0.01}{0.021 / 7} = \frac{-0.01}{0.003} = \textbf{-3.33}$$

Step 6: 가설에 대한 결정

z = -3.33은 임계값 -1.96보다 작으므로(-3.33 < -1.96), z-분포의 좌측 꼬리 기각역에 해당합니다. $H_0$을 기각할 충분한 증거가 있습니다.

Step 7: 검정 결과에 기반한 결정

표본 정보와 검정 결과에 근거하여, 기계가 정렬이 어긋났으며 생산을 멈추고 수리해야 한다고 결론짓습니다.

LO 17.g: 두 모집단 평균 차이의 검정

1. 두 모집단 평균이 같은가?

금융에서는 두 모집단의 평균이 서로 같은지 검정하는 경우가 빈번합니다. 이것은 두 평균의 차이가 0인지 검정하는 것과 동일합니다. 예를 들어, 두 펀드 매니저의 평균 수익률이 같은지, 또는 두 시장의 평균 변동성이 같은지를 비교할 때 사용합니다.

두 시계열 X와 Y가 각각 독립이고 동일하게 분포(i.i.d.)되어 있고, 공분산 $\text{Cov}(X, Y)$가 있을 때, 적절한 검정통계량은:

두 모집단 평균 차이 검정통계량 $$z = \frac{\bar{X} - \bar{Y}}{\sqrt{\text{Var}(\bar{X}) + \text{Var}(\bar{Y}) - 2\text{Cov}(\bar{X}, \bar{Y})}}$$

귀무가설이 참일 때(즉, 두 평균이 같을 때) 이 검정통계량은 표준정규분포를 따릅니다.

검정 절차는 표준적인 가설검정 절차를 따릅니다. 귀무가설은 두 평균의 차이가 0이라는 것이고, 대립가설은 0이 아니라는 것입니다. 주어진 유의수준과 적절한 임계값을 사용하여, 검정통계량을 임계값과 비교하여 기각 또는 기각 실패를 결정합니다.

LO 17.h: 다중검정(Multiple Testing)과 편향된 결과

1. 다중검정의 문제

다중검정(Multiple Testing)이란, 동일한 데이터셋에 대해 여러 개의 서로 다른 가설을 검정하는 것을 말합니다. 예를 들어, 10개의 능동적 트레이딩 전략을 동일한 바이앤홀드(Buy-and-Hold) 전략 대비로 각각 검정하는 경우를 생각해 봅시다.

문제는 다음과 같습니다: 동일한 귀무가설에 대해 서로 다른 전략들을 계속 검정하면, 결국 하나는 기각(유의)하게 될 가능성이 매우 높습니다. 핵심은 $\alpha$(참인 귀무가설을 잘못 기각할 확률)는 단 한 번의 검정에 대해서만 정확하다는 것입니다. 검정을 반복할수록 실제 전체 $\alpha$는 점점 커지고, $\alpha$가 커질수록 제1종 오류의 확률이 증가합니다.

예시 6: 다중검정의 가족오류율(FWER) 계산

상황: 유의수준 $\alpha = 0.05$로 서로 독립인 10개 전략을 각각 검정합니다.

계산:

각 검정에서 "거짓 양성(False Positive)"이 아닐 확률: $1 - 0.05 = 0.95$

10개 검정 모두 거짓 양성이 아닐 확률: $0.95^{10} \approx 0.5987$

따라서 최소 1개가 거짓 양성(우연히 유의하게 나올) 확률:

$$P(\text{최소 1개 거짓 양성}) = 1 - 0.95^{10} \approx 1 - 0.5987 = \textbf{0.4013} \approx \textbf{40\%}$$

해석: 개별 검정의 유의수준은 5%이지만, 10번 반복하면 최소 하나가 우연히 유의하게 나올 확률이 약 40%로 급증합니다. 이것이 데이터 스누핑 편향(Data Snooping Bias)을 만드는 메커니즘입니다. 연구자가 "유의한 결과"를 보고할 때, 그것이 진정한 효과인지 단순히 반복 검정으로 인한 우연인지 구분할 수 없게 됩니다.

핵심 정리:

다중검정에서는 $\alpha$가 단일 검정에 대해서만 유효하므로, 검정 횟수가 늘어나면 실제 전체 오류확률이 증가하고 제1종 오류가 커집니다. 이것은 백테스팅(Backtesting)과 전략 개발에서 특히 위험한 함정입니다.

Module Quiz 17.2

문제 1. 단일 데이터셋에 대해 여러 가설을 검정할 때 발생하는 가장 가능성 높은 편향은?

A. 제1종 오류의 값이 증가한다
B. 제2종 오류의 값이 증가한다
C. 임계값이 증가한다
D. 검정통계량이 증가한다

문제 2. Austin Roberts는 해당 지역의 평균 주택 가격이 $145,000보다 크다고 믿고 있다. 36채의 무작위 표본에서 평균 가격은 $149,750이다. 모집단 표준편차는 $24,000이며, 1% 유의수준에서 가설검정을 하려 한다. 계산된 검정통계량의 값에 가장 가까운 것은?

A. z = 0.67
B. z = 1.19
C. z = 4.00
D. z = 8.13

정답 및 해설

문제	정답	해설
17.1-1	D	"평균 가격이 $145,000보다 크다"를 입증하고 싶으므로 이것이 대립가설이 됩니다: $H_A: \mu > \$145{,}000$. 귀무가설은 $H_0: \mu \le \$145{,}000$이며, 이것은 상측 단측검정입니다.
17.1-2	B	제1종 오류의 확률 = 유의수준(B 정답). 검정력 = $1 - P(\text{Type II})$이지 $1 - P(\text{Type I})$이 아님(A 오답). 귀무가설은 등호 포함이므로 $H_0: X \le 0$이어야 함(C 오답). 가설검정은 가설을 증명하지 않으며, 기각하거나 기각 실패할 뿐(D 오답).
17.2-1	A	다중검정에서 $\alpha$는 단일 검정에 대해서만 정확. 검정 횟수가 늘어나면 실제 $\alpha$가 커지며, 따라서 제1종 오류의 확률이 증가합니다.
17.2-2	B	$$z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} = \frac{149{,}750 - 145{,}000}{24{,}000 / \sqrt{36}} = \frac{4{,}750}{24{,}000 / 6} = \frac{4{,}750}{4{,}000} = \textbf{1.19}$$ 상측 단측검정, $\alpha = 0.01$에서 임계값 약 2.33. $1.19 < 2.33$이므로 $H_0$ 기각 실패.

KEY CONCEPTS (핵심 개념 정리)

LO 17.a 핵심

가설검정은 6가지 구성요소: 귀무가설, 대립가설, 검정통계량, 유의수준, 임계값, 의사결정규칙
귀무가설($H_0$)에는 반드시 등호(=, ≤, ≥) 포함
대립가설($H_A$)은 연구자가 입증하고 싶은 가설. 귀무가설 기각 시 채택
검정통계량 = (표본추정치 - 귀무가설 값) / 표준오차

LO 17.b 핵심

양측검정: $H_A: \mu \neq \mu_0$ → 임계값 양쪽 (예: $\pm 1.96$)
단측검정: $H_A: \mu > \mu_0$ 또는 $H_A: \mu < \mu_0$ → 임계값 한쪽 (예: +1.645 또는 -1.645)
"다르다"를 검정하면 양측, "크다/작다"를 검정하면 단측

LO 17.c 핵심

제1종 오류: 참인 $H_0$을 기각. 확률 = $\alpha$(유의수준)
제2종 오류: 거짓인 $H_0$을 기각 못함. 확률 = $\beta$
검정력(Power) = $1 - \beta$. 거짓인 $H_0$을 올바르게 기각할 확률
$\alpha$ 감소 → $\beta$ 증가 → 검정력 감소. 주어진 $\alpha$에서 검정력 증가의 유일한 방법: n 증가

LO 17.d 핵심

가설검정과 신뢰구간은 임계값으로 연결됨
95% 신뢰구간 ↔ 5% 유의수준 양측검정 → 동일한 결론
가설값이 신뢰구간 밖이면 기각, 안이면 기각 실패
통계적 유의성 ≠ 실무적(경제적) 유의성

LO 17.e 핵심

p-value: $H_0$이 참이라 가정할 때, 관측된 만큼(또는 더 극단적인) 검정통계량이 나올 확률
p-value = $H_0$을 기각할 수 있는 최소 유의수준
p-value < $\alpha$ → 기각. p-value ≥ $\alpha$ → 기각 실패

LO 17.f 핵심

t-검정: $\sigma$ 미지 + (n ≥ 30 또는 정규모집단). 자유도 = n - 1
z-검정: $\sigma$ 기지이고 정규모집단. 대표본에서는 z와 t 거의 동일
소표본 + 비정규 + $\sigma$ 미지 → 신뢰할 검정 없음

LO 17.g 핵심

두 모집단 평균 차이 검정: $H_0: \mu_X - \mu_Y = 0$
검정통계량은 두 표본평균의 차이를 공분산을 고려한 표준오차로 나눈 것
귀무가설이 참일 때 표준정규분포를 따름

LO 17.h 핵심

다중검정: 동일 데이터에 여러 가설 검정. $\alpha$는 단일 검정에 대해서만 유효
검정 횟수 증가 → 실제 $\alpha$ 증가 → 제1종 오류 확률 증가
데이터 스누핑 편향의 원인: 반복 검정에서 우연히 유의한 결과가 나옴

시험 대비 한 줄 암기 체크리스트

주제	암기 포인트
귀무가설 규칙	$H_0$에는 반드시 등호(=, ≤, ≥) 포함
대립가설	연구자가 입증하고 싶은(Hoped-for) 가설. $H_0$ 기각 시 채택
검정통계량 공식	$\frac{\bar{x} - \mu_0}{SE}$. "귀무가설에서 표준오차 몇 배 떨어졌나?"
양측 임계값 (5%)	$\pm$ 1.96 (각 꼬리 2.5%)
단측 임계값 (5%)	1.645 (한쪽 꼬리 5%)
양측 임계값 (1%)	$\pm$ 2.576
단측 임계값 (1%)	2.33
제1종 오류	참인 $H_0$ 기각. 확률 = $\alpha$(유의수준)
제2종 오류	거짓인 $H_0$ 기각 실패. 확률 = $\beta$
검정력	Power = $1 - \beta$. 거짓인 $H_0$ 올바르게 기각할 확률
검정력 높이는 방법	주어진 $\alpha$에서 표본크기(n) 증가
신뢰구간 ↔ 가설검정	95% CI ↔ $\alpha = 0.05$ 양측검정. 가설값이 CI 밖이면 기각
p-value 정의	$H_0$ 기각 가능한 최소 유의수준. p < $\alpha$이면 기각
p-value 주의	"$H_0$이 참일 확률"이 아님
t-검정 조건	$\sigma$ 미지 + (n ≥ 30 또는 정규). 자유도 = n - 1
소표본 + 비정규 + $\sigma$ 미지	신뢰할 검정 없음
"Accept H0" 표현	틀린 표현. "Fail to Reject H0"이 정확
통계적 vs 실무적 유의성	큰 표본에서 미미한 차이도 통계적으로 유의 가능. 거래비용/세금/위험 고려 필요
다중검정	$\alpha$는 단일 검정에만 유효. 반복 시 제1종 오류 증가 → 데이터 스누핑 편향
FWER 근사 (독립, 10회)	$1 - 0.95^{10} \approx$ 40%

'취준 > FRM part1' 카테고리의 다른 글

FRM part1. Reading 19: Regression with Multiple Explanatory Variables (0)	2026.02.11
FRM part1. Reading 18: Linear Regression (0)	2026.02.10
FRM part1. Reading 16: Sample Moments (0)	2026.02.10
FRM part1. Reading 15: Multivariate Random Variables (0)	2026.02.10
FRM part1. Reading 14: Common Univariate Random Variable (0)	2026.02.10

유의수준 (\(\alpha\))	양측검정 임계값 (\(z_{\alpha/2}\))	단측검정 임계값 (\(z_{\alpha}\))
10%	\(\pm 1.645\)	\(\pm 1.28\)
5%	\(\pm 1.96\)	\(\pm 1.645\)
1%	\(\pm 2.576\)	\(\pm 2.33\)

구성요소	영어	설명
1. 귀무가설	Null Hypothesis, \(H_0\)	참이라고 가정하는 모집단 모수의 값을 지정. 검정의 기준이 되며, 연구자가 기각하고 싶은 가설
2. 대립가설	Alternative Hypothesis, \(H_A\)	귀무가설을 기각해야 할 때 채택되는 검정통계량의 값 범위를 지정. 연구자가 실제로 증명하고 싶은 가설
3. 검정통계량	Test Statistic	표본 데이터로부터 계산되는 통계량. 귀무가설의 타당성 판단에 사용
4. 유의수준	Significance Level (= Test Size), \(\alpha\)	귀무가설이 참인데 기각할 확률. 즉, 제1종 오류의 허용 확률
5. 임계값	Critical Value	검정통계량과 비교하여 기각 여부를 판단하는 경계값
6. 의사결정규칙	Decision Rule	검정통계량과 임계값의 비교를 기반으로 귀무가설의 기각/비기각을 결정하는 규칙

오류 유형	정의	확률 표기	비유
제1종 오류 (Type I Error)	귀무가설이 참인데 기각하는 오류	\(\alpha\) (유의수준)	"무고한 사람을 유죄로 판결"
제2종 오류 (Type II Error)	귀무가설이 거짓인데 기각하지 못하는 오류	\(\beta\)	"유죄인 사람을 무죄로 판결"

조치	제1종 오류(\(\alpha\))	제2종 오류(\(\beta\))	검정력(Power)
\(\alpha\)를 5% → 1%로 낮추기 (기각 기준 엄격화)	감소	증가	감소
주어진 표본크기에서 \(\alpha\)를 높이기 (기각 기준 완화)	증가	감소	증가
주어진 \(\alpha\)에서 표본크기(\(n\)) 증가	불변	감소	증가

주제	암기 포인트
귀무가설 규칙	\(H_0\)에는 반드시 등호(=, ≤, ≥) 포함
대립가설	연구자가 입증하고 싶은(Hoped-for) 가설. \(H_0\) 기각 시 채택
검정통계량 공식	\(\frac{\bar{x} - \mu_0}{SE}\). "귀무가설에서 표준오차 몇 배 떨어졌나?"
양측 임계값 (5%)	\(\pm\) 1.96 (각 꼬리 2.5%)
단측 임계값 (5%)	1.645 (한쪽 꼬리 5%)
양측 임계값 (1%)	\(\pm\) 2.576
단측 임계값 (1%)	2.33
제1종 오류	참인 \(H_0\) 기각. 확률 = \(\alpha\)(유의수준)
제2종 오류	거짓인 \(H_0\) 기각 실패. 확률 = \(\beta\)
검정력	Power = \(1 - \beta\). 거짓인 \(H_0\) 올바르게 기각할 확률
검정력 높이는 방법	주어진 \(\alpha\)에서 표본크기(n) 증가
신뢰구간 ↔ 가설검정	95% CI ↔ \(\alpha = 0.05\) 양측검정. 가설값이 CI 밖이면 기각
p-value 정의	\(H_0\) 기각 가능한 최소 유의수준. p < \(\alpha\)이면 기각
p-value 주의	"\(H_0\)이 참일 확률"이 아님
t-검정 조건	\(\sigma\) 미지 + (n ≥ 30 또는 정규). 자유도 = n - 1
소표본 + 비정규 + \(\sigma\) 미지	신뢰할 검정 없음
"Accept H0" 표현	틀린 표현. "Fail to Reject H0"이 정확
통계적 vs 실무적 유의성	큰 표본에서 미미한 차이도 통계적으로 유의 가능. 거래비용/세금/위험 고려 필요
다중검정	\(\alpha\)는 단일 검정에만 유효. 반복 시 제1종 오류 증가 → 데이터 스누핑 편향
FWER 근사 (독립, 10회)	\(1 - 0.95^{10} \approx\) 40%

FRM part1. Reading 17: Hypothesis Testing

FRM Part I – Reading 17가설검정 (Hypothesis Testing)