FRM Part I – Reading 20
회귀 진단 (Regression Diagnostics)
EXAM FOCUS
핵심 학습 목표
이 Reading은 모형 명세(Model Specification) 문제와 다중회귀의 기본 가정이 위반되었는지를 진단하는 방법을 다룹니다. 회귀분석에서 발생할 수 있는 이분산성(Heteroskedasticity)과 다중공선성(Multicollinearity)의 영향을 설명하고, 편향-분산 트레이드오프(Bias-Variance Tradeoff)와 관련 변수 누락 및 무관 변수 포함의 결과를 비교하는 것이 핵심입니다.
시험에서 반드시 할 수 있어야 하는 것
- 조건부 이분산성(Conditional Heteroskedasticity)의 탐지 및 교정 방법 설명
- 다중공선성(Multicollinearity)과 완전 공선성(Perfect Collinearity)의 차이 구분
- 분산팽창계수(VIF)를 이용한 다중공선성 진단
- 누락변수편향(Omitted Variable Bias)의 발생 조건과 편향 방향 판단
- 무관 변수 포함과 관련 변수 누락의 결과 비교
- 편향-분산 트레이드오프와 두 가지 모형 선택 절차 설명
- 잔차 플롯과 Cook's Distance를 이용한 이상치 탐지
- BLUE(최량선형불편추정량) 조건 설명
이 Reading은 정량적 계산과 정성적 개념이 균형 있게 출제됩니다. 특히 이분산성의 영향(계수 vs 표준오차), VIF 해석, 누락변수편향 방향 판단이 시험에 매우 자주 출제됩니다.
MODULE 20.1: 이분산성과 다중공선성
LO 20.a: 이분산성(Heteroskedasticity) 검정 방법
1. 동분산성과 이분산성의 정의
회귀분석의 핵심 가정 중 하나는 잔차(Residual)의 분산이 모든 관측치에 대해 일정하다는 것입니다. 이 조건이 충족되면 회귀는 동분산적(Homoskedastic)이라고 합니다. 수학적으로 표현하면:
반대로, 잔차의 분산이 관측치마다 다른 경우를 이분산성(Heteroskedasticity)이라고 합니다. 이는 표본 내에 다른 부분보다 더 넓게 퍼져 있는 하위 표본(Sub-sample)이 존재할 때 발생합니다. 이분산성은 크게 두 가지로 구분됩니다.
2. 비조건부 이분산성 vs 조건부 이분산성
| 구분 | 비조건부 이분산성 (Unconditional Heteroskedasticity) |
조건부 이분산성 (Conditional Heteroskedasticity) |
|---|---|---|
| 정의 | 이분산성이 독립변수의 수준과 체계적으로 연관되지 않은 경우 | 이분산성이 독립변수의 수준에 의존하는 경우 (예: X가 커질수록 잔차 분산 증가) |
| 패턴 | 독립변수가 변해도 분산 변화에 체계적 패턴 없음 | 독립변수 값이 커질수록 잔차가 넓게 퍼지는 "깔때기(Funnel)" 모양 |
| 심각도 | 등분산 가정 위반이지만 큰 문제를 일으키지 않음 | 통계적 추론에 심각한 문제를 야기 |
| 시험 중요도 | 낮음 | 매우 높음 |
비조건부 이분산성은 분산의 변화가 독립변수의 값과 체계적으로 연결되지 않기 때문에, 독립변수가 증가하거나 감소해도 분산이 특정 방향으로 변하지 않습니다. 이러한 유형은 등분산 가정을 위반하지만, 실무적으로 회귀 결과에 심각한 영향을 미치지 않습니다.
반면, 조건부 이분산성은 잔차의 분산이 독립변수의 수준에 조건부(Conditional)로 달라지는 것입니다. 예를 들어, 기업 규모(독립변수)가 커질수록 수익 변동성(잔차)이 커지는 현상이 전형적인 사례입니다. 이 경우 잔차 플롯에서 독립변수 X의 값이 작을 때는 잔차가 좁게 모여 있고, X가 커질수록 잔차가 넓게 퍼지는 깔때기(Funnel) 형태가 관찰됩니다.
3. 이분산성이 회귀분석에 미치는 영향
조건부 이분산성이 존재할 때 회귀분석 결과에 미치는 영향을 정확히 이해하는 것은 시험에서 매우 중요합니다. 핵심은 "계수는 괜찮지만, 표준오차가 문제"라는 것입니다.
| 항목 | 영향 | 설명 |
|---|---|---|
| 계수 추정치 \(\hat{\beta}\) | 여전히 불편(Unbiased)이고 일치(Consistent) | 이분산성은 추정치의 기댓값에 영향을 미치지 않음. 평균적으로 계수는 올바르게 추정됨 |
| 표준오차(Standard Error) | 신뢰할 수 없음(Unreliable) | OLS의 전통적 표준오차 공식이 등분산을 전제하므로, 이분산 하에서는 과소/과대 추정됨 |
| 가설검정(t-검정, F-검정) | 신뢰할 수 없음(Unreliable) | 표준오차가 잘못되었으므로, 이를 기반으로 한 모든 검정 결과가 왜곡됨 |
직관적으로 설명하면, 이분산성은 "측정 자(尺)가 흔들리는 문제"에 비유할 수 있습니다. 회귀 계수 \(\hat{\beta}\)는 "어디를 가리키는가(중심 위치)"에 해당하고, 표준오차는 "그 추정이 얼마나 정밀한가(눈금의 폭)"에 해당합니다. 이분산성이 있으면 가리키는 방향(계수)은 평균적으로 맞지만, 눈금의 폭(표준오차)이 틀어져서 "이 추정이 유의한가?"라는 판단이 잘못될 수 있습니다.
4. 이분산성 탐지 방법: 카이제곱 검정
이분산성을 공식적으로 탐지하기 위해 카이제곱(\(\chi^2\)) 검정을 사용합니다. 이 검정은 White 검정(White Test)의 한 형태로, 보조회귀(Auxiliary Regression)의 설명력을 이용합니다. 구체적인 절차는 다음과 같습니다.
| 단계 | 내용 | 상세 설명 |
|---|---|---|
| Step 1 | OLS 회귀 실행 후 잔차 제곱 계산 | 표준 OLS 절차로 회귀를 추정하고, 잔차 \(\hat{\varepsilon}_i\)를 구한 뒤 제곱하여 \(\hat{\varepsilon}_i^2\)를 준비 |
| Step 2 | 보조회귀(Auxiliary Regression) 실행 | Step 1의 \(\hat{\varepsilon}_i^2\)를 종속변수로, 원래 설명변수들을 독립변수로 하는 새로운 회귀를 실행 |
| Step 3 | 검정통계량 계산 | 보조회귀의 \(R^2\)를 이용하여 \(\chi^2 = nR^2\)를 계산. 자유도는 \(\frac{k(k+3)}{2}\) (k = 독립변수 수) |
| Step 4 | 귀무가설 검정 | 계산된 \(\chi^2\)가 임계값보다 크면 \(H_0\)(조건부 이분산성 없음)을 기각 |
여기서 \(n\) = 관측치 수, \(R^2\) = 보조회귀의 결정계수
자유도: \(\text{df} = \frac{k(k+3)}{2}\), \(k\) = 독립변수 수
\(H_0\): 조건부 이분산성 없음 (동분산)
\(H_1\): 조건부 이분산성 존재
보조회귀에서 자유도를 \(\frac{k(k+3)}{2}\)로 설정하는 이유는, White 검정의 완전한 형태에서 보조회귀에 원래 설명변수뿐 아니라 그 제곱항과 교차항까지 포함하기 때문입니다. 독립변수가 \(k\)개일 때, 원래 변수 \(k\)개 + 제곱항 \(k\)개 + 교차항 \(\frac{k(k-1)}{2}\)개 = 총 \(\frac{k(k+3)}{2}\)개의 항이 보조회귀에 포함됩니다.
예시: 이분산성 검정
분석가가 200개 관측치(\(n=200\))와 3개의 독립변수(\(k=3\))를 사용하여 OLS 회귀를 실행했습니다. 잔차 제곱에 대한 보조회귀의 \(R^2 = 0.08\)입니다.
검정통계량:
$$\chi^2 = nR^2 = 200 \times 0.08 = 16.0$$자유도:
$$\text{df} = \frac{3(3+3)}{2} = \frac{18}{2} = 9$$\(\chi^2_{0.05, 9}\)의 임계값은 약 16.92이므로, 계산된 검정통계량(16.0) < 임계값(16.92)입니다. 따라서 5% 유의수준에서 귀무가설(조건부 이분산성 없음)을 기각할 수 없습니다.
LO 20.b: 이분산성 데이터 처리 방법
1. White 표준오차 (Robust Standard Errors)
조건부 이분산성이 탐지되면, OLS 계수 추정치 자체는 여전히 불편이고 일치하지만, 표준오차가 신뢰할 수 없으므로 가설검정에 문제가 생깁니다. 이 문제를 해결하기 위해 White 표준오차(White Standard Errors), 즉 이분산성-일치 표준오차(Heteroskedasticity-Consistent Standard Errors)를 사용합니다.
White 표준오차의 핵심 아이디어는 잔차의 분산이 관측치마다 다를 수 있다는 점을 반영하여 표준오차를 계산하는 것입니다. 전통적 OLS 표준오차는 \(\text{Var}(\hat{\beta}) = \sigma^2(X'X)^{-1}\)로 계산되며, 여기서 \(\sigma^2\)이 모든 관측치에 대해 동일하다고 가정합니다. White 표준오차는 이 가정을 완화합니다.
중간 행렬에 각 관측치별 잔차 제곱 \(\hat{\varepsilon}_i^2\)가 개별적으로 반영됨
이 공식은 "샌드위치 추정량(Sandwich Estimator)"이라고도 불립니다. \((X'X)^{-1}\)이 양쪽 "빵" 역할을 하고, 가운데 \(\sum x_i x_i' \hat{\varepsilon}_i^2\)가 "속" 역할을 합니다. 각 관측치의 잔차 제곱을 개별적으로 반영하므로, 분산이 관측치마다 달라도 일관된 추정이 가능합니다.
White 표준오차는 경제학자 Halbert White의 이름을 따서 명명되었습니다. 이분산성이 탐지된 경우, OLS의 전통적 표준오차 대신 White 표준오차를 사용하면 올바른 가설검정이 가능합니다. 실무에서는 이분산성 존재 여부와 관계없이 항상 Robust SE를 사용하는 것이 안전한 관행으로 여겨집니다.
LO 20.c: 다중공선성(Multicollinearity)과 완전 공선성의 구분
1. 완전 공선성 (Perfect Collinearity)
다중회귀에서 필요한 추가 가정은 독립변수들이 완전하게 상관되지 않아야 한다는 것입니다. 즉, 어떤 독립변수도 다른 독립변수들의 정확한 선형결합(Linear Combination)으로 표현될 수 없어야 합니다. 이 가정이 위반되는 경우를 완전 공선성(Perfect Collinearity)이라고 합니다.
이 경우 \(X'X\) 행렬이 특이(Singular)하여 역행렬이 존재하지 않음 → OLS 자체가 불가능
완전 공선성이 존재하면 \(X'X\) 행렬의 행렬식(Determinant)이 0이 되어 역행렬을 구할 수 없고, 따라서 OLS 추정량 \(\hat{\beta} = (X'X)^{-1}X'y\)를 계산하는 것 자체가 불가능합니다. 이것은 진정한 의미의 가정 위반(Violation)입니다.
2. 다중공선성 (Multicollinearity)
다중공선성(Multicollinearity)은 두 개 이상의 독립변수(또는 독립변수들의 선형결합)가 서로 높은 상관관계를 가지는 상태를 의미합니다. 완전 공선성과 달리, 다중공선성은 엄밀히 말해 회귀 가정의 위반이 아닙니다. 그러나 존재할 경우 모수 추정치의 신뢰성을 크게 떨어뜨립니다.
다중공선성은 "서로 비슷한 설명변수들이 서로 경쟁하여 개별 효과가 보이지 않는 문제"로 직관적으로 이해할 수 있습니다. 설명변수들이 거의 같은 정보를 담고 있으면, 모형 전체로는 종속변수를 잘 설명하지만(\(R^2\)가 높음), 각 변수의 "순수 기여분"을 분리하기가 어려워집니다.
3. 완전 공선성 vs 다중공선성 비교
| 항목 | 완전 공선성 (Perfect Collinearity) | 다중공선성 (Multicollinearity) |
|---|---|---|
| 상관관계 정도 | 독립변수 간 정확한(완전한) 선형관계 | 독립변수 간 매우 높은(불완전한) 상관 |
| 가정 위반 여부 | 가정 위반 (OLS 자체 불가능) | 가정 위반 아님 (OLS 가능, 결과 불안정) |
| OLS 추정 | \(X'X\) 역행렬 불가 → 추정 자체 불가능 | 추정 가능하나 \(\hat{\beta}\)의 분산이 매우 커짐 |
| 주요 결과 | 모형 실행 불가 | 개별 t-검정 유의하지 않음, Type II 오류 증가 |
4. 다중공선성이 회귀분석에 미치는 영향
다중공선성의 핵심 결과는 개별 독립변수에 대한 Type II 오류(제2종 오류)의 확률이 증가한다는 것입니다. 즉, 실제로는 유의한 변수인데도 "유의하지 않다"고 잘못 결론내릴 가능성이 커집니다.
이를 수식적으로 이해하면, \(\hat{\beta}_j\)의 분산은 대략 다음과 같이 표현됩니다:
\(R_j^2\)가 1에 가까울수록(공선성이 심할수록) 분산이 폭증
분산이 커지면 표준오차 \(\text{SE}(\hat{\beta}_j)\)도 커지고, t-통계량 \(t_j = \frac{\hat{\beta}_j}{\text{SE}(\hat{\beta}_j)}\)는 작아집니다. t-통계량이 작아지면 귀무가설(\(\beta_j = 0\))을 기각하기 어려워져, 실제로 중요한 변수도 "유의하지 않다"는 잘못된 결론에 도달할 수 있습니다.
5. 다중공선성 탐지 방법
(1) t-검정과 F-검정의 불일치
다중공선성을 탐지하는 가장 흔한 방법은 개별 t-검정과 전체 F-검정 사이의 불일치를 확인하는 것입니다. 구체적으로, \(R^2\)가 높고 F-검정은 귀무가설을 기각하는데(모형 전체는 유의), 개별 독립변수의 t-검정은 모두 유의하지 않은 경우입니다.
이러한 "괴현상"이 발생하는 이유는 다음과 같습니다: 독립변수들이 서로 높은 상관관계를 가지면, 공통적으로 종속변수를 설명하는 부분은 크지만(그래서 \(R^2\)는 높음), 각 변수의 "고유한 기여분"은 매우 작습니다. F-검정은 변수들의 공동 설명력을 평가하므로 유의하게 나오지만, t-검정은 각 변수의 개별 기여분을 평가하므로 유의하지 않게 나옵니다.
예시: 다중공선성 탐지
Bob Watson이 뮤추얼 펀드 수익률을 평균 P/B, 평균 P/E, 평균 시가총액으로 회귀분석한 결과:
| 변수 | 계수 | p-value |
|---|---|---|
| 평균 P/B | 0.35 | 0.42 |
| 평균 P/E | -0.12 | 0.38 |
| 평균 시가총액 | 0.08 | 0.55 |
\(R^2 = 0.91\) (매우 높음), F-검정 p-value = 0.001 (유의)
판단: \(R^2\)가 매우 높아 세 변수가 함께 뮤추얼 펀드 수익률을 잘 설명하지만, 개별 변수의 p-value는 모두 10% 이상으로 유의하지 않습니다. 이것은 다중공선성의 전형적인 징후입니다. P/B, P/E, 시가총액은 서로 높은 상관관계를 가지므로, 개별 효과가 "씻겨 나간(washed out)" 것입니다.
(2) 분산팽창계수 (Variance Inflation Factor, VIF)
다중공선성을 정량적으로 진단하는 또 다른 방법은 각 설명변수에 대해 분산팽창계수(VIF)를 계산하는 것입니다.
설명변수 \(X_j\)를 종속변수로, 나머지 독립변수들을 설명변수로 회귀하여 \(R_j^2\) 산출
$$\text{VIF}_j = \frac{1}{1 - R_j^2}$$판단 기준: VIF > 10 (즉, \(R_j^2 > 90\%\))이면 해당 변수에 다중공선성 문제가 있다고 판단
예시: VIF 해석
| \(R_j^2\) | VIF | 해석 |
|---|---|---|
| 0.50 | 2.0 | 양호 |
| 0.80 | 5.0 | 주의 필요 |
| 0.90 | 10.0 | 문제 수준 (기준값) |
| 0.95 | 20.0 | 심각한 다중공선성 |
| 0.99 | 100.0 | 매우 심각 (거의 완전 공선성에 근접) |
VIF가 10이라는 것은 \(\hat{\beta}_j\)의 분산이 다중공선성이 없는 경우의 10배라는 의미입니다. 이로 인해 해당 변수의 t-통계량은 \(\sqrt{10} \approx 3.16\)배 작아집니다.
6. 다중공선성 교정 방법
다중공선성을 교정하는 가장 일반적인 방법은 상관된 독립변수 중 하나 이상을 제거(Omit)하는 것입니다. 그러나 공선성의 원인이 되는 변수를 정확히 식별하는 것이 항상 쉽지는 않습니다.
이를 돕기 위해 단계적 회귀(Stepwise Regression)와 같은 통계적 절차를 사용할 수 있습니다. 단계적 회귀는 회귀에서 체계적으로 변수를 제거하여 다중공선성을 최소화합니다.
MODULE QUIZ
Module Quiz 20.1
문제 1. 조건부 이분산성의 영향에는 다음 중 어떤 문제가 포함됩니까?
I. 회귀모형의 계수 추정치가 편향된다.
II. 표준오차가 신뢰할 수 없다.
A. I만
B. II만
C. I과 II 모두
D. I도 II도 아님
문제 2. Xiang Li Quant Systems의 연구원 Der-See Hsu는 다중회귀모형을 사용하여 통화 가치를 예측하고 있습니다. Hsu는 잔차 제곱을 종속변수로 하는 보조회귀의 \(R^2\)를 이용하여 계산한 카이제곱 통계량이 카이제곱 임계값을 초과한다는 것을 확인했습니다. Hsu가 도달해야 할 가장 적절한 결론은?
A. Hsu는 가설검정에 사용하기 위해 White 표준오차를 추정해야 한다.
B. OLS 추정치와 표준오차는 일치하고, 불편이며, 신뢰할 수 있다.
C. OLS 계수는 편향되었지만 표준오차는 신뢰할 수 있다.
D. 선형 모형은 종속변수의 변동을 모델링하기에 부적절하다.
문제 3. Ben Strong은 최근 Equity Partners에 주니어 분석가로 합류했습니다. 몇 주 만에 Strong은 다중회귀모형을 사용하여 인기 주식의 가격 움직임을 성공적으로 모델링했습니다. Strong의 상사인 Beth Sinclair는 다음 VIF 정보를 기반으로 가장 적절한 결론을 내려야 합니다.
| 변수 | VIF |
|---|---|
| \(X_1\) | 1.4 |
| \(X_2\) | 12.1 |
| \(X_3\) | 1.2 |
A. 변수 \(X_1\)과 \(X_2\)는 높은 상관관계를 가지며 하나의 변수로 결합해야 한다.
B. 변수 \(X_3\)를 모형에서 제거해야 한다.
C. 변수 \(X_2\)를 모형에서 제거해야 한다.
D. 변수 \(X_1\)과 \(X_2\)는 통계적으로 유의하지 않다.
문제 4. 다중공선성에 관한 다음 진술 중 가장 부정확한 것은?
A. 다중공선성은 모든 회귀모형에 존재할 수 있다.
B. 다중공선성은 회귀 가정의 위반이 아니다.
C. 다중공선성은 개별 설명변수가 종속변수 설명에 기여하는 정도를 파악하기 어렵게 만든다.
D. 개별 독립변수의 t-통계량은 유의하지 않은데 F-통계량은 유의한 경우 다중공선성의 존재를 나타낸다.
MODULE 20.2: 모형 명세, 잔차 진단, BLUE 조건
LO 20.d: 관련 변수 누락 vs 무관 변수 포함의 결과
1. 모형 명세(Model Specification)의 중요성
모형 명세란 회귀모형에 어떤 설명변수를 포함하고 어떤 변수를 제외할지를 결정하는 과정입니다. 이는 종속변수의 행동을 설명하는 경제 이론에 대한 깊은 이해를 필요로 하는 일종의 예술(Art)입니다. 예를 들어, 단기 이자율에 영향을 미치는 요인으로는 인플레이션율, 실업률, GDP 성장률, 설비가동률 등이 있을 수 있습니다. 분석가는 이 중 어떤 요인을 모형에 포함하고 제외할지 결정해야 합니다.
모형 명세 오류에는 두 가지 방향이 있습니다: 무관 변수를 포함하는 것과 관련 변수를 누락하는 것입니다. 이 두 가지 오류의 결과는 크게 다르며, 시험에서 이 차이를 정확히 이해하는 것이 매우 중요합니다.
2. 무관 변수 포함 (Including an Irrelevant Variable)
무관한(관련 없는) 설명변수를 모형에 포함하는 것은 상대적으로 덜 심각한 문제입니다. 무관 변수를 포함해도 계수 추정치의 편향은 발생하지 않습니다. 그러나 두 가지 부정적 결과가 있습니다:
| 항목 | 영향 |
|---|---|
| 계수 추정치 \(\hat{\beta}\) | 여전히 불편(Unbiased)이고 일치(Consistent) |
| 추정치의 분산 | 증가 (효율성 저하) |
| 조정 \(R^2\) (Adjusted \(R^2\)) | 감소 (무관 변수가 의미 있는 설명력을 추가하지 못하므로) |
무관 변수를 포함하는 것은 "불필요한 짐을 지는 것"에 비유할 수 있습니다. 방향(추정치)은 맞지만, 짐 때문에 걸음이 불안정해지고(분산 증가), 효율이 떨어집니다.
3. 관련 변수 누락 (Omitting a Relevant Variable)
관련 변수를 누락하는 것은 훨씬 더 심각한 문제입니다. 이를 누락변수편향(Omitted Variable Bias, OVB)이라고 합니다. OVB가 발생하려면 두 가지 조건이 동시에 충족되어야 합니다.
조건 1: 누락된 변수가 모형에 포함된 다른 독립변수와 상관관계를 가짐
조건 2: 누락된 변수가 종속변수의 결정요인(Determinant)임
두 조건이 모두 충족되면, 포함된 변수의 계수 추정치가 편향되고(Biased) 불일치(Inconsistent)하게 됩니다. 이 문제는 표본 크기를 아무리 늘려도 해결되지 않습니다.
4. 누락변수편향의 방향과 크기
누락변수편향의 방향과 크기를 정확히 이해하는 것은 시험에서 매우 중요합니다. 진짜 모형과 추정 모형을 비교하여 편향 공식을 유도할 수 있습니다.
이 공식에서 편향의 방향은 두 가지 요소에 의해 결정됩니다: (1) 누락된 변수 \(x_2\)가 종속변수 \(y\)에 미치는 영향의 방향(\(\beta_2\)의 부호), (2) 누락된 변수 \(x_2\)와 포함된 변수 \(x_1\) 사이의 상관관계 방향(\(\text{Cov}(x_1, x_2)\)의 부호)입니다.
예시: 누락변수편향 방향 판단
상황: 임금(y)을 교육연수(\(x_1\))로 회귀하되, 능력(\(x_2\))을 누락한 경우
분석:
- \(\beta_2 > 0\): 능력이 높을수록 임금이 높음 (양의 관계)
- \(\text{Cov}(x_1, x_2) > 0\): 능력이 높은 사람은 교육을 더 많이 받는 경향
결론: 편향 = \((+) \times (+) = (+)\), 즉 \(\hat{\beta}_1^{(\text{omit})} > \beta_1\)
교육의 효과가 과대 추정됩니다. 능력의 효과 일부가 교육의 계수에 "흡수"되기 때문입니다.
편향 방향을 빠르게 판단하기 위한 규칙을 표로 정리하면 다음과 같습니다:
| \(\beta_2\)의 부호 | \(\text{Cov}(x_1, x_2)\)의 부호 | 편향 방향 | \(\hat{\beta}_1^{(\text{omit})}\)와 \(\beta_1\)의 관계 |
|---|---|---|---|
| + | + | 양(+) (상향 편향) | \(\hat{\beta}_1^{(\text{omit})} > \beta_1\) |
| + | − | 음(−) (하향 편향) | \(\hat{\beta}_1^{(\text{omit})} < \beta_1\) |
| − | + | 음(−) (하향 편향) | \(\hat{\beta}_1^{(\text{omit})} < \beta_1\) |
| − | − | 양(+) (상향 편향) | \(\hat{\beta}_1^{(\text{omit})} > \beta_1\) |
5. 무관 변수 포함 vs 관련 변수 누락: 종합 비교
| 항목 | 무관 변수 포함 (Including Irrelevant Variable) |
관련 변수 누락 (Omitting Relevant Variable) |
|---|---|---|
| 심각도 | 상대적으로 덜 심각 | 매우 심각 |
| 계수 추정치 | 불편(Unbiased), 일치(Consistent) | 편향(Biased), 불일치(Inconsistent) |
| 추정치 분산 | 증가 (효율성 저하) | 편향으로 인해 추정치 자체가 의미 없음 |
| 조정 \(R^2\) | 감소 | 왜곡 (높거나 낮을 수 있음) |
| 표본 크기 증가 시 | 분산 감소로 개선 가능 | 표본 크기와 무관하게 편향 지속 |
| 오차항 | 영향 없음 | 누락변수의 비상관 부분이 오차에 흡수되어 오차 확대 |
LO 20.e: 편향-분산 트레이드오프와 모형 선택 절차
1. 편향-분산 트레이드오프 (Bias-Variance Tradeoff)
모형 명세의 궁극적 목표는 적절한 설명변수를 선택하는 것입니다. 그런데 변수를 너무 많이 포함하면 과적합(Overfitting), 너무 적게 포함하면 과소적합(Underfitting)이라는 문제가 발생합니다. 이 두 극단 사이의 균형을 찾는 것이 편향-분산 트레이드오프(Bias-Variance Tradeoff)입니다.
| 특성 | 과적합 모형 (Overfit) 변수가 너무 많음 |
과소적합 모형 (Underfit) 변수가 너무 적음 |
|---|---|---|
| 편향(Bias) 오차 | 낮음 (표본 내 설명력 높음) | 높음 (중요 변수 누락으로 체계적 오류) |
| 분산(Variance) 오차 | 높음 (불필요한 변수로 인해 추정 불안정) | 낮음 (추정할 모수가 적어 안정적) |
| 표본 내(In-sample) 성능 | 우수 (높은 \(R^2\)) | 부족 (낮은 \(R^2\)) |
| 표본 외(Out-of-sample) 성능 | 저조 (과적합으로 일반화 실패) | 상대적으로 안정적 |
편향-분산 트레이드오프의 핵심은 표본 내 설명력과 표본 외 예측력 사이의 균형입니다. 과적합 모형은 훈련 데이터의 노이즈까지 학습하여 표본 내에서는 뛰어난 성능을 보이지만, 새로운 데이터에 대해서는 예측력이 급격히 떨어집니다. 반면, 과소적합 모형은 중요한 패턴을 포착하지 못해 어디서든 성능이 부족합니다.
2. 두 가지 모형 선택 절차
(1) 일반-특수 모형 (General-to-Specific Model)
가장 큰(가장 많은 변수를 포함한) 모형에서 시작하여, 절대값 t-통계량이 가장 작은 독립변수를 순차적으로 제거하는 방법입니다. 즉, 가장 덜 유의한 변수부터 하나씩 빼면서 모형을 축소합니다.
(2) m-fold 교차검증 (m-fold Cross-Validation)
표본을 \(m\)개의 부분으로 나누어, \(m-1\)개 부분을 훈련 세트(Training Set)로 사용하여 모형을 적합하고, 나머지 1개 부분을 검증 세트(Validation Set)로 사용하여 표본 외 검증을 수행합니다. 후보 모형들을 이 절차로 평가하여, 표본 외 오차가 가장 낮은 최적 모형을 선택합니다.
| 방법 | 접근 방식 | 핵심 기준 |
|---|---|---|
| 일반-특수 모형 | 큰 모형에서 시작 → 변수 순차 제거 | t-통계량 절대값이 가장 작은 변수 제거 |
| m-fold 교차검증 | 표본 분할 → 훈련/검증 반복 | 표본 외 오차(Out-of-sample Error) 최소화 |
LO 20.f: 잔차 시각화 방법
1. 기본 잔차 플롯 (Basic Residual Plots)
기본 잔차 플롯은 y축에 잔차를, x축에 종속변수의 예측값(\(\hat{y}\))을 표시합니다. 이상적인 잔차 플롯에서 잔차는 크기가 작고, 어떤 설명변수와도 체계적인 관계를 보이지 않아야 합니다. 즉, 무작위로 흩어진 점들의 패턴이 관찰되어야 합니다.
2. 표준화 잔차 (Standardized Residuals)
잔차를 그 표준편차로 나눈 표준화 잔차를 y축에 표시하는 방법도 있습니다. 표준화 잔차의 장점은 잔차의 크기가 표준화되어, \(\pm 4\) 표준편차를 초과하는 잔차를 문제가 있는 것으로 쉽게 식별할 수 있다는 것입니다.
| 패턴 | 의미 | 시사점 |
|---|---|---|
| 무작위 산포 (패턴 없음) | OLS 가정 충족 | 모형이 적절함 |
| 깔때기(Funnel) 형태 (좌측 좁고 우측 넓음) |
조건부 이분산성 | White 표준오차 사용 필요 |
| 곡선(Curve) 패턴 (U자 또는 역U자) |
비선형 관계 (모형 미스펙) | 비선형 항 추가 또는 모형 재설정 필요 |
LO 20.g: 이상치(Outlier) 식별 방법과 영향
1. 이상치의 정의와 문제점
선형회귀의 가정 중 하나는 표본 데이터에 이상치(Outlier)가 없다는 것입니다. 이상치가 존재하면 추정된 회귀 모수가 왜곡될 수 있습니다. 이상치란, 제거했을 때 추정 계수 값에 큰 변화를 유발하는 관측치를 의미합니다.
2. Cook's Distance
이상치를 식별하기 위한 대표적인 지표가 Cook's Distance입니다. Cook's Distance는 특정 관측치를 제거했을 때 회귀 결과가 얼마나 변하는지를 측정합니다.
여기서:
- \(e_i\): \(i\)번째 관측치의 잔차
- \(p\): 모수(Parameter)의 수
- \(\text{MSE}\): 평균제곱오차
- \(h_{ii}\): \(i\)번째 관측치의 레버리지(Leverage)
판단 기준: \(D_i > 1\)이면 해당 관측치는 이상치(영향점)로 의심
Cook's Distance가 커지는 데에는 두 가지 핵심 원인이 있습니다:
원인 1 - 큰 잔차 (\(e_i^2\) 큼): y 방향으로 크게 벗어난 관측치. 즉, 모형이 해당 관측치를 잘 예측하지 못하는 경우
원인 2 - 높은 레버리지 (\(h_{ii}\) 큼): 설명변수(X) 공간에서 다른 관측치들과 멀리 떨어진 특이한 위치에 있는 관측치. X 값이 극단적인 경우
둘 중 하나만 커도 영향력이 커질 수 있고, 둘 다 크면 매우 위험합니다.
LO 20.h: OLS가 BLUE가 되는 조건
1. BLUE (Best Linear Unbiased Estimator)
BLUE(최량선형불편추정량)란 모든 선형 불편 추정량 중에서 분산이 가장 작은(가장 효율적인) 추정량을 의미합니다. OLS가 BLUE가 되려면, 선형회귀의 기본 가정이 충족되어야 합니다. 이것이 바로 가우스-마르코프 정리(Gauss-Markov Theorem)의 내용입니다.
| 가정 | 수학적 표현 | 의미 |
|---|---|---|
| 선형성 | \(y = X\beta + \varepsilon\) | Y와 X(들) 사이의 관계가 선형 |
| 외생성 (기댓값 0) | \(E[\varepsilon \mid X] = 0\) | 잔차의 기댓값이 0 |
| 등분산성 | \(\text{Var}(\varepsilon \mid X) = \sigma^2 I\) | 잔차의 분산이 모든 관측치에 대해 동일(동분산) |
| 비자기상관 | \(\text{Cov}(\varepsilon_i, \varepsilon_j) = 0\) (\(i \ne j\)) | 잔차들 간에 상관관계 없음(독립) |
| 완전 공선성 없음 | \(\text{rank}(X) = k+1\) | 독립변수 간 완전한 선형관계 없음 |
이 가정들이 충족되면, OLS 추정량은 모든 선형 불편 추정량 중에서 분산이 가장 작습니다(가장 효율적).
중요한 점은 정규분포 가정은 BLUE에 필수가 아니라는 것입니다. 이상치가 없고 잔차의 기댓값이 0이면, 잔차 분포의 정규성 가정을 완화해도 OLS는 여전히 BLUE입니다. 정규분포 가정은 유한 표본에서의 정확한 검정(t-검정, F-검정)에 필요한 것이지, BLUE 성질 자체에는 필수적이지 않습니다.
Module Quiz 20.2
문제 1. 누락변수편향(Omitted Variable Bias)은 다음 중 무엇으로 인해 발생합니까?
A. 비상관 독립변수의 제외
B. 비상관 독립변수의 포함
C. 상관된 독립변수의 포함
D. 상관된 독립변수의 제외
문제 2. 편향-분산 트레이드오프에 관한 다음 진술 중 가장 정확한 것은?
A. 독립변수가 많은 모형은 높은 편향 오차를 가지는 경향이 있다.
B. 높은 분산 오차는 회귀의 표본 외 \(R^2\)가 높을 때 발생한다.
C. 독립변수가 적은 모형은 높은 분산 오차를 가지는 경향이 있다.
D. 일반-특수 모형은 편향-분산 트레이드오프를 해결하는 한 가지 방법이다.
문제 3. 다음 진술을 평가하십시오:
I. Cook's Distance의 높은 값은 이상치의 존재를 나타낸다.
II. Cook's Distance는 잔차 제곱과 역의 관계에 있다.
A. 두 진술 모두 정확
B. 진술 I만 정확
C. 진술 II만 정확
D. 두 진술 모두 부정확
정답 및 해설
| 문제 | 정답 | 해설 |
|---|---|---|
| 20.1-1 | B | 조건부 이분산성의 영향: (1) 표준오차가 신뢰할 수 없는 추정치가 됨, (2) 계수 추정치는 영향을 받지 않음(여전히 불편이고 일치). 따라서 II만 정확합니다. |
| 20.1-2 | A | Hsu의 검정 결과는 귀무가설(조건부 이분산성 없음)을 기각해야 함을 나타냅니다. 이 경우 OLS의 표준오차는 신뢰할 수 없으므로, White 교정 표준오차를 추정하여 가설검정에 사용해야 합니다. 계수 추정치는 여전히 신뢰할 수 있습니다(불편이고 일치). |
| 20.1-3 | C | \(X_2\)의 VIF가 12.1로 10을 초과하여, 모형의 다른 두 독립변수와 높은 상관관계가 있음을 나타내며 다중공선성을 의미합니다. 다중공선성 문제를 해결하는 방법 중 하나는 높은 상관관계를 가진 변수를 제거하는 것입니다. |
| 20.1-4 | A | 다중공선성은 단일 회귀(Simple Regression)에서는 존재할 수 없습니다(독립변수가 하나뿐이므로). 완전 공선성은 회귀 가정의 위반이지만, 다중공선성은 아닙니다. t-검정과 F-검정의 불일치는 다중공선성 탐지의 한 방법입니다. |
| 20.2-1 | D | 누락변수편향은 다른 독립변수와 상관된 관련 독립변수를 제외할 때 발생합니다. 두 가지 조건이 필요합니다: (1) 누락 변수가 포함된 변수와 상관, (2) 누락 변수가 종속변수의 결정요인. |
| 20.2-2 | D | 과적합 모형(변수 많음)은 낮은 편향 오차를 가짐(표본 내 \(R^2\) 높지만 표본 외 \(R^2\) 낮음). 간결한 모형(변수 적음)은 표본 내 \(R^2\)가 낮고 분산 오차가 낮음. 편향-분산 트레이드오프를 해결하는 두 가지 방법은 일반-특수 모형과 m-fold 교차검증입니다. |
| 20.2-3 | B | 진술 I은 정확: Cook's Distance가 높으면(\(D_i > 1\)) 해당 관측치가 이상치임을 나타냅니다. 진술 II는 부정확: Cook's Distance 공식에서 잔차 제곱(\(e_i^2\))은 분자에 있으므로, 잔차 제곱과 양의 관계(정비례)입니다. |
KEY CONCEPTS (핵심 개념 정리)
LO 20.a 핵심
- 조건부 이분산성: 잔차의 분산이 독립변수의 값에 의존하는 상태
- 계수 추정치는 불편이고 일치하지만, 추정된 표준오차는 신뢰할 수 없음
- 따라서 가설검정 결과도 신뢰할 수 없음
- 카이제곱 검정 \(\chi^2 = nR^2\)로 탐지 (보조회귀의 \(R^2\) 이용)
LO 20.b 핵심
- 조건부 이분산성 탐지 시: 계수는 영향 없음, 표준오차는 신뢰 불가
- 해결책: OLS 표준오차 대신 White(Robust) 표준오차 사용
- White 표준오차는 "샌드위치 추정량" 형태로, 각 관측치별 잔차 제곱을 개별 반영
LO 20.c 핵심
- 완전 공선성: 독립변수가 정확한 선형결합 → OLS 불가능 (가정 위반)
- 다중공선성: 독립변수 간 매우 높은 상관관계 → OLS 가능하나 \(\hat{\beta}\) 불안정 (가정 위반 아님)
- 다중공선성의 결과: Type II 오류 확률 증가 (유의한 변수를 유의하지 않다고 판단)
- 탐지: t-검정과 F-검정의 불일치, 또는 VIF > 10
- 교정: 상관된 변수 제거, 단계적 회귀
LO 20.d 핵심
- 무관 변수 포함: 계수 불편/일치, 조정 \(R^2\) 감소 (덜 심각)
- 관련 변수 누락: 계수 편향/불일치 (매우 심각)
- 누락변수편향 조건: (1) 누락 변수가 포함 변수와 상관, (2) 누락 변수가 Y의 결정요인
- 편향 공식: \(\text{Bias}(\hat{\beta}_1) = \beta_2 \cdot \frac{\text{Cov}(x_1, x_2)}{\text{Var}(x_1)}\)
LO 20.e 핵심
- 편향-분산 트레이드오프: 과적합(높은 분산, 낮은 편향) vs 과소적합(낮은 분산, 높은 편향)
- 해결 방법 1: 일반-특수 모형 (t-통계량 절대값 가장 작은 변수 순차 제거)
- 해결 방법 2: m-fold 교차검증 (표본 외 오차 최소화)
LO 20.f 핵심
- 잔차 시각화: 기본 잔차 플롯과 표준화 잔차 플롯
- 표준화 잔차의 장점: \(\pm 4\) 초과 시 이상치로 신속 식별 가능
- 잔차 플롯 패턴: 깔때기 = 이분산성, 곡선 = 비선형 관계
LO 20.g 핵심
- 이상치는 제거 시 추정 계수에 큰 변화를 유발하는 관측치
- Cook's Distance: 잔차 크기와 레버리지를 모두 반영하는 영향점 지표
- \(D_i > 1\)이면 이상치(영향점)로 의심
LO 20.h 핵심
- OLS가 BLUE가 되려면: 잔차 분산이 일정(등분산), 잔차 기댓값 0, 잔차 간 독립
- 정규분포 가정은 BLUE에 필수가 아님 (이상치 없고 기댓값 0이면 완화 가능)
시험 대비 한 줄 암기 체크리스트
| 주제 | 암기 포인트 |
|---|---|
| 조건부 이분산 | 계수는 OK, 표준오차/검정이 문제 → White(Robust) SE로 교정 |
| 비조건부 이분산 | X 수준과 무관한 분산 변화, 큰 문제 아님 |
| 이분산 검정 | \(\chi^2 = nR^2\), df = \(\frac{k(k+3)}{2}\), 보조회귀 이용 |
| 완전 공선성 | \(X'X\) 역행렬 불가 → OLS 자체 불가능 (가정 위반) |
| 다중공선성 | 가정 위반 아님, t-검정 약화, Type II 오류 증가 |
| 다중공선성 탐지 | t vs F 불일치, VIF > 10 (= \(R_j^2 > 90\%\)) |
| 다중공선성 존재 범위 | 단일 회귀에서는 존재 불가 (독립변수 1개뿐) |
| 무관 변수 포함 | 계수 불편/일치, 조정 \(R^2\) 감소, 덜 심각 |
| 관련 변수 누락 | 계수 편향/불일치, 표본 크기 무관, 매우 심각 |
| OVB 조건 2가지 | (1) 누락 변수 ↔ 포함 변수 상관 + (2) 누락 변수가 Y의 결정요인 |
| OVB 편향 방향 | \(\beta_2 \times \frac{\text{Cov}(x_1,x_2)}{\text{Var}(x_1)}\)의 부호로 판단 |
| 과적합 모형 | 낮은 편향, 높은 분산, 표본 외 성능 저조 |
| 모형 선택 2가지 | 일반-특수 모형 (t 순차 제거) / m-fold 교차검증 |
| 잔차 이상치 기준 | 표준화 잔차 \(\pm 4\) 초과 |
| Cook's Distance | 잔차 + 레버리지 모두 반영, \(D_i > 1\)이면 이상치 |
| BLUE 조건 | 등분산 + 기댓값 0 + 독립 (정규분포는 필수 아님) |
'취준 > FRM part1' 카테고리의 다른 글
| FRM part1. Reading 22: Non-Stationary Time Series (0) | 2026.02.11 |
|---|---|
| FRM part1. Reading 21: Stationary Time Series (0) | 2026.02.11 |
| FRM part1. Reading 19: Regression with Multiple Explanatory Variables (0) | 2026.02.11 |
| FRM part1. Reading 18: Linear Regression (0) | 2026.02.10 |
| FRM part1. Reading 17: Hypothesis Testing (0) | 2026.02.10 |