본문 바로가기

취준/FRM part1

FRM part1. Reading 19: Regression with Multiple Explanatory Variables

 

FRM Part I – Reading 19
다중 설명변수를 포함한 회귀분석 (Regression with Multiple Explanatory Variables)

EXAM FOCUS

핵심 학습 목표

이 Reading에서는 단순회귀(Simple Regression)를 확장하여 다중 설명변수(Multiple Explanatory Variables)를 포함하는 회귀모형을 다룹니다. 실무에서 사용되는 회귀분석은 거의 대부분 다중회귀이며, 종속변수의 변동을 설명하기 위해 여러 독립변수를 동시에 고려해야 합니다. 이 Reading은 다중회귀의 가정, 계수 해석, 적합도 측정, 가설검정을 체계적으로 학습합니다.

시험에서 반드시 할 수 있어야 하는 것

  • 단순회귀와 다중회귀의 가정 차이 정확히 구분하기 (특히 6번째 가정)
  • 부분기울기계수(Partial Slope Coefficient)의 의미를 "다른 변수를 고정(holding constant)"으로 해석
  • \(R^2\)조정 \(R^2\)(Adjusted \(R^2\))의 계산 및 해석, 그리고 두 지표의 차이점
  • 개별 계수의 t-검정 수행 (자유도 \(n - k - 1\) 적용)
  • F-검정을 이용한 다중 계수의 공동가설검정 (항상 우측검정)
  • \(R^2\)의 세 가지 한계점 이해 및 변수 추가 시 \(R^2\)가 항상 증가하는 이유
  • TSS = ESS + RSS 분해를 이용한 적합도 계산

이 Reading은 정량적 계산해석 능력이 모두 요구됩니다. 특히 \(R^2\)와 조정 \(R^2\)의 비교, t-검정과 F-검정의 구분, 그리고 회귀계수의 정확한 해석이 시험에 빈출됩니다.


MODULE 19.1: 다중회귀 (Multiple Regression)

LO 19.a: 단순회귀와 다중회귀의 가정 비교

1. 다중회귀 모형의 일반적 형태

단순회귀에서는 종속변수 \(Y\)를 하나의 독립변수 \(X\)로 설명하지만, 현실의 경제 및 금융 현상은 단 하나의 요인만으로 설명되는 경우가 거의 없습니다. 예를 들어, 주식 수익률은 시장 수익률뿐만 아니라 산업 요인, 기업 규모, 밸류에이션 등 여러 요인에 의해 결정됩니다. 이러한 현실을 반영하여 다중 설명변수를 포함하는 것이 다중회귀(Multiple Regression)입니다.

다중회귀 모형의 일반적 형태:

$$Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_k X_{ki} + \varepsilon_i$$

여기서:

  • \(Y_i\): i번째 관측치의 종속변수 (Dependent Variable)
  • \(X_{ji}\): i번째 관측치의 j번째 독립변수/설명변수 (Independent/Explanatory Variable)
  • \(\beta_0\): 절편 (Intercept) — 모든 \(X\)가 0일 때 \(Y\)의 기대값
  • \(\beta_j\): j번째 독립변수의 기울기 계수 (Slope Coefficient)
  • \(\varepsilon_i\): 오차항 (Error Term) — 모형이 설명하지 못하는 잔여 변동
  • \(k\): 독립변수의 개수

2. 단순회귀의 5가지 기본 가정 (다중회귀에도 동일 적용)

다중회귀는 단순회귀의 모든 가정을 그대로 유지합니다. 아래 5가지 가정은 단순회귀에서 이미 학습한 것이지만, 다중회귀에서도 반드시 충족되어야 합니다. 각 가정이 위반될 경우의 문제점을 함께 이해하는 것이 중요합니다.

가정 번호 가정 내용 (영문) 상세 설명
1 조건부 평균 0
\(E[\varepsilon_i | X_{1i}, \ldots, X_{ki}] = 0\)
오차항의 기대값이 독립변수들의 값에 관계없이 0이어야 합니다. 이는 설명변수들이 오차의 체계적인 부분을 이미 모두 포착하고 있음을 의미합니다. 이 가정이 위반되면 계수 추정치에 편의(bias)가 발생합니다.
2 독립 동일분포(i.i.d.) 모든 관측치 \((X_i, Y_i)\)는 독립적이고 동일한 분포에서 추출되어야 합니다. 시계열 데이터에서 자기상관(Autocorrelation)이 존재하면 이 가정이 위반됩니다.
3 설명변수의 분산 양수
\(\text{Var}(X_j) > 0\)
독립변수에 변동이 있어야 계수를 추정할 수 있습니다. 만약 \(X\)의 값이 모두 동일하다면(즉, 분산이 0이면), 그 변수의 효과를 식별하는 것이 수학적으로 불가능합니다.
4 등분산성(Homoskedasticity)
\(\text{Var}(\varepsilon_i | X) = \sigma^2\)
오차항의 분산이 독립변수의 값에 관계없이 일정해야 합니다. 이 가정이 위반되면(이분산성), 계수 추정치 자체는 편향되지 않지만 표준오차(Standard Error)가 신뢰할 수 없게 됩니다.
5 극단치(Outlier) 없음 극단적인 관측치가 회귀결과를 지배하지 않아야 합니다. 극단치는 회귀선을 자신 쪽으로 과도하게 끌어당겨 전체 모형의 추정을 왜곡할 수 있습니다.

3. 다중회귀에서 추가되는 6번째 가정: 완전 다중공선성 부재

단순회귀에서는 독립변수가 하나뿐이므로 변수 간 상관 문제가 발생하지 않습니다. 그러나 다중회귀에서는 여러 독립변수를 동시에 사용하기 때문에, 이 변수들 사이의 관계가 중요한 이슈가 됩니다. 다중회귀에서 추가로 요구되는 핵심 가정은 다음과 같습니다.

6번째 가정 (다중회귀 고유): 독립변수들이 완전하게 상관(Perfectly Correlated)되어서는 안 됩니다. 즉, 어떤 독립변수 \(X_j\)도 다른 독립변수들의 정확한 선형결합(Perfect Linear Combination)으로 표현되어서는 안 됩니다.

수학적으로 표현하면, \(X\) 설계행렬(Design Matrix)이 풀 랭크(Full Rank)여야 OLS 추정이 유일하게 정의됩니다.

예시: 만약 \(X_3 = 2X_1 + 3X_2\)라면, \(X_3\)은 \(X_1\)과 \(X_2\)의 완전한 선형결합이므로 이 세 변수를 동시에 모형에 포함시킬 수 없습니다.
시험 함정 주의: "독립변수들이 완전하게 상관되지 않아야 한다(Not Perfectly Correlated)"는 가정은 다중회귀에서만 추가되는 가정이며, 단순회귀의 가정이 아닙니다. 시험에서 "다음 중 단순회귀의 가정이 아닌 것은?"이라는 문제가 출제될 수 있으며, 이 경우 정답은 "독립변수들이 완전하게 상관되지 않아야 한다"입니다.

또한 이 가정은 "완전한(Perfect)" 상관만을 금지하는 것이지, 독립변수들 간에 어느 정도의 상관관계가 존재하는 것은 허용됩니다. 높은 상관관계(다중공선성, Multicollinearity)는 가정 위반이 아니라 실무적 문제입니다.

LO 19.b: 다중회귀 계수의 해석

1. 부분기울기계수 (Partial Slope Coefficient)

다중회귀에서 기울기 계수의 해석은 단순회귀와 근본적으로 다릅니다. 단순회귀에서 기울기 계수 \(\beta_1\)은 "\(X_1\)이 1 증가하면 \(Y\)가 \(\beta_1\)만큼 변한다"로 해석됩니다. 그러나 다중회귀에서는 "다른 모든 독립변수를 일정하게 유지한 상태에서(holding other independent variables constant)"라는 조건이 반드시 추가되어야 합니다.

다중회귀 계수 해석:

$$\beta_j = \frac{\partial E[Y | X]}{\partial X_j} \quad (\text{다른 } X \text{ 고정})$$

\(\beta_j\)는 다른 모든 독립변수를 고정한 상태에서 \(X_j\)가 1단위 증가할 때
\(Y\)의 조건부 기대값이 평균적으로 변하는 양입니다.

이러한 이유로 다중회귀의 기울기 계수를 부분기울기계수(Partial Slope Coefficient)라고 부릅니다. 이는 편미분(Partial Derivative)의 개념과 동일하며, 특정 변수 하나만의 "순수한 효과"를 측정합니다.

2. OLS 단계적 추정 과정 (Frisch-Waugh-Lovell 정리의 직관)

다중회귀에서 OLS 추정 과정은 단순회귀와 다릅니다. 핵심 아이디어는 각 독립변수에서 다른 독립변수들로 설명되는 부분을 먼저 제거한 후, 남은 "순수한 변동"만으로 종속변수와의 관계를 추정하는 것입니다. 이를 단계적(Stepwise) 추정 또는 FWL 정리(Frisch-Waugh-Lovell Theorem)의 직관이라고 합니다.

두 개의 독립변수가 있는 모형을 예로 들어 설명하겠습니다.

원래 모형: \(\quad Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \varepsilon\)

이 모형에서 \(\beta_1\)을 추정하는 단계적 과정은 다음과 같습니다.

단계적 추정 3단계:

단계 내용 목적
Step 1 \(X_1\)을 \(X_2\)에 회귀: \(X_1 = a + bX_2 + v_1\)
잔차 \(v_1\)을 구함
\(X_1\)에서 \(X_2\)로 설명되는 부분을 제거하여
\(X_1\)의 순수한 변동만 남김
Step 2 \(Y\)를 \(X_2\)에 회귀: \(Y = c + dX_2 + u\)
잔차 \(u\)를 구함
\(Y\)에서 \(X_2\)로 설명되는 부분을 제거하여
\(Y\)의 순수한 변동만 남김
Step 3 \(u\)를 \(v_1\)에 회귀: \(u = \beta_1 v_1\)
이 기울기가 바로 \(\beta_1\)
\(X_2\)를 통제한 후 \(X_1\)의 순수한 효과를 추정

이 과정을 통해 \(\beta_1\)은 "\(X_2\)가 설명하는 부분을 제거한 후의 관계"로 계산되므로, 자연스럽게 "다른 변수를 통제한(controlling for) 효과"가 반영됩니다. 역으로 \(\beta_2\)를 추정하려면 동일한 과정을 \(X_1\)과 \(X_2\)의 역할을 바꾸어 수행하면 됩니다.

3. 계수 변화의 이유: 단순회귀 vs. 다중회귀

실무에서 빈번하게 관찰되는 현상 중 하나는, 단순회귀에서의 계수값과 다중회귀에서의 계수값이 서로 다르다는 것입니다. 이는 매우 자연스러운 현상이며, 그 이유를 이해하는 것이 중요합니다.

예시: 계수 변화 관찰

단순회귀 결과:

$$\hat{Y} = 3.0 + 4.5 X_1$$

다중회귀 결과 (\(X_2\) 추가):

$$\hat{Y} = 1.0 + 2.5 X_1 + 1.8 X_2$$

\(X_1\)의 계수가 4.5에서 2.5로 변화한 것을 관찰할 수 있습니다. 이는 단순회귀에서 \(X_1\)의 계수(4.5)가 사실은 두 가지 효과를 혼합하고 있었기 때문입니다:

  • \(X_1\) 자체의 순수한 효과 (다중회귀에서 2.5로 나타남)
  • \(X_1\)과 상관된 \(X_2\)의 효과를 대리(proxy)로 포함한 부분

\(X_2\)를 모형에 추가하면 이 혼합된 효과가 분리되어, \(X_1\)은 순수한 자신의 효과만을 나타내게 됩니다. 단, \(X_1\)과 \(X_2\)가 상관되지 않은(Uncorrelated) 경우에는 계수가 변하지 않습니다.

시험 함정 주의: "\(X_2\)를 추가했더니 \(X_1\)의 계수가 변했다"는 것은 오류가 아니라 정상적인 현상입니다. 계수가 변하는 것은 \(X_1\)과 \(X_2\)가 상관되어 있다는 신호이며, 다중회귀가 누락변수 편의(Omitted Variable Bias)를 교정하고 있다는 증거입니다.

4. 절편(Intercept)의 해석

다중회귀에서 절편 \(\beta_0\)는 모든 독립변수가 0일 때 \(Y\)의 기대값을 나타냅니다. 단순회귀에서의 절편 해석과 동일하지만, 다중회귀에서는 "모든 \(X\)가 동시에 0"이라는 조건이 현실적으로 의미가 없는 경우가 많습니다. 따라서 절편의 해석에 지나치게 의미를 부여하지 않는 것이 바람직합니다.

예시: 3요인 포트폴리오 수익률 모형

연구자가 다양한 포트폴리오의 수익률을 설명하기 위해 다음과 같은 3요인 모형을 추정했습니다. (수익률은 % 단위로 표현)

$$E(R_P) = 1.70 + 1.03 R_m - 0.23 R_z + 0.32 R_v$$

질문 1: \(R_m = 8\%\), \(R_z = 2\%\), \(R_v = 3\%\)일 때 포트폴리오 수익률은?

$$E(R_P) = 1.70 + (1.03 \times 8) - (0.23 \times 2) + (0.32 \times 3) = 1.70 + 8.24 - 0.46 + 0.96 = 10.44\%$$

질문 2: \(R_z\)가 1%p 하락(\(\Delta R_z = -1\))하면 포트폴리오 수익률에 미치는 영향은?

$$\Delta R_P = -0.23 \times (-1) = +0.23\%p$$

다른 요인(\(R_m\), \(R_v\))을 일정하게 유지한 상태에서 \(R_z\)가 1%p 감소하면, 포트폴리오 수익률은 0.23%p 증가합니다.

질문 3: \(R_m = R_z = R_v = 0\)일 때 포트폴리오의 기대수익률은?

모든 요인이 0이면 기대수익률은 절편(Intercept)인 1.70%입니다. 이는 시장, 규모, 가치 요인과 무관하게 포트폴리오가 자체적으로 갖는 고유 수익률(알파)로 해석할 수 있습니다.


MODULE 19.2: 적합도 측정과 가설검정

LO 19.c & LO 19.e: 적합도 측정 (\(R^2\) 및 조정 \(R^2\))

1. 회귀의 표준오차 (Standard Error of the Regression, SER)

회귀의 표준오차(SER)는 종속변수의 예측값에 대한 불확실성을 측정합니다. 그래프적으로, 실제 데이터 포인트가 회귀선에 가깝게 위치할수록(즉, 오차가 작을수록) 관계가 더 강합니다. OLS 추정은 각 관측치에 대해 예측값과 실제값의 차이의 제곱합을 최소화합니다.

2. 변동의 분해: TSS = ESS + RSS

회귀모형은 종속변수 \(Y\)의 변동(Variation)을 설명하려고 시도합니다. 이 변동은 크게 "모형이 설명할 수 있는 부분"과 "모형이 설명할 수 없는 부분"으로 분해됩니다. 이 분해는 \(R^2\)를 이해하는 데 핵심적인 개념입니다.

변동의 분해 (Decomposition of Variation):

$$\underbrace{\sum_{i=1}^{n} (Y_i - \bar{Y})^2}_{\text{TSS (총제곱합)}} = \underbrace{\sum_{i=1}^{n} (\hat{Y}_i - \bar{Y})^2}_{\text{ESS (설명제곱합)}} + \underbrace{\sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2}_{\text{RSS (잔차제곱합)}}$$

즉, TSS = ESS + RSS

구성요소 영문명 공식 의미
TSS Total Sum of Squares
(총제곱합)
\(\sum (Y_i - \bar{Y})^2\) \(Y\)의 전체 변동. 종속변수가 평균으로부터 얼마나 벗어나는지를 측정합니다.
ESS Explained Sum of Squares
(설명제곱합)
\(\sum (\hat{Y}_i - \bar{Y})^2\) 회귀모형이 설명한 변동. 예측값이 평균으로부터 얼마나 벗어나는지를 측정합니다.
RSS Residual Sum of Squares
(잔차제곱합)
\(\sum (Y_i - \hat{Y}_i)^2 = \sum e_i^2\) 회귀모형이 설명하지 못한 변동. 실제값과 예측값의 차이를 측정합니다.

이 분해는 기하학적으로 직교분해(Orthogonal Decomposition)에 해당합니다. OLS 추정에서 잔차 벡터는 설명된 값 벡터에 직교하므로, 피타고라스 정리처럼 세 제곱합의 관계가 성립합니다.

3. 결정계수 \(R^2\) (Coefficient of Determination)

결정계수 \(R^2\)는 회귀모형의 적합도(Goodness of Fit)를 나타내는 가장 기본적인 지표입니다. \(Y\)의 전체 변동 중에서 회귀모형이 설명하는 비율을 나타냅니다.

결정계수 \(R^2\):

$$R^2 = \frac{ESS}{TSS} = 1 - \frac{RSS}{TSS}$$

\(0 \leq R^2 \leq 1\) (상수항 포함 시)

단순회귀에서 \(R^2 = r_{XY}^2\) (상관계수의 제곱)
다중회귀에서 \(R^2 = r_{Y\hat{Y}}^2\) (\(Y\)와 예측값 \(\hat{Y}\) 간 상관계수의 제곱)

예를 들어, \(R^2 = 0.63\)이면 "독립변수들이 \(Y\) 변동의 63%를 설명한다"고 해석합니다. 나머지 37%는 모형에 포함되지 않은 다른 요인들이나 랜덤한 변동에 의한 것입니다.

4. \(R^2\)의 세 가지 한계점

\(R^2\)는 유용한 지표이지만, 그 자체만으로는 다중회귀 모형의 설명력을 신뢰성 있게 측정하지 못합니다. 시험에서 자주 출제되는 세 가지 한계점은 다음과 같습니다.

\(R^2\)의 세 가지 한계점:

한계 1 — 변수 추가 시 거의 항상 증가: 독립변수를 추가하면 새로운 변수의 한계적 기여가 통계적으로 유의하지 않더라도 \(R^2\)는 거의 항상 증가합니다. 따라서 상대적으로 높은 \(R^2\)는 독립변수 집합이 종속변수를 잘 설명하는 것이 아니라, 단순히 많은 변수를 넣었기 때문일 수 있습니다. 이를 과대추정(Overestimating the Regression) 문제라고 합니다.

한계 2 — 서로 다른 종속변수 간 비교 불가: \(R^2\)는 종속변수(\(Y\))가 다른 모형들 사이에서 비교할 수 없습니다. 예를 들어, 주식 수익률을 설명하는 모형의 \(R^2\)와 환율을 설명하는 모형의 \(R^2\)를 직접 비교하는 것은 부적절합니다.

한계 3 — 절대적 기준값 부재: \(R^2\)가 몇 이상이면 "좋은 모형"인지에 대한 명확한 사전 기준이 없습니다. 노이즈가 많은 변수(예: 환율)의 경우, 낮은 \(R^2\)를 가진 모형이라도 가치 있는 통찰을 제공할 수 있습니다.

5. 조정 결정계수 (Adjusted \(R^2\))

\(R^2\)의 첫 번째 한계점(변수 추가 시 거의 항상 증가)을 극복하기 위해, 많은 연구자들은 독립변수의 개수에 대해 보정한 조정 \(R^2\)를 사용합니다. 조정 \(R^2\)는 분모와 분자에 자유도 보정을 적용하여, 변수 추가의 "공짜 점수"를 방지합니다.

조정 \(R^2\) (Adjusted \(R^2\)):

$$\bar{R}^2 = 1 - \frac{RSS / (n - k - 1)}{TSS / (n - 1)}$$

여기서:

  • \(n\): 관측치(표본) 수
  • \(k\): 독립변수의 개수
  • \(n - k - 1\): 잔차의 자유도
  • \(n - 1\): 전체 변동의 자유도
조정 \(R^2\)의 핵심 특성:
  • \(\bar{R}^2 \leq R^2\) (조정 \(R^2\)는 항상 \(R^2\) 이하)
  • 새로운 변수를 추가하면 \(R^2\)는 증가하지만, \(\bar{R}^2\)는 증가하거나 감소할 수 있음
  • 새 변수가 \(R^2\)에 미치는 효과가 작으면 \(\bar{R}^2\)는 오히려 감소
  • \(R^2\)가 매우 낮으면 \(\bar{R}^2\)가 음수가 될 수도 있음
  • 모형 비교 시 \(R^2\)보다 \(\bar{R}^2\)를 사용하는 것이 바람직함

예시 1: \(R^2\)와 조정 \(R^2\) 계산

분석가가 5개의 독립변수를 사용하여 60개월간의 가치주 월간 수익률에 대한 회귀분석을 수행했습니다. TSS = 460, RSS = 170일 때:

$$R^2 = 1 - \frac{RSS}{TSS} = 1 - \frac{170}{460} = 1 - 0.3696 = 0.6304 \approx 63.0\%$$ $$\bar{R}^2 = 1 - \frac{170 / (60 - 5 - 1)}{460 / (60 - 1)} = 1 - \frac{170/54}{460/59} = 1 - \frac{3.148}{7.797} = 1 - 0.4038 = 0.596 \approx 59.6\%$$

\(R^2\) 63%는 5개의 독립변수가 함께 가치주 월간 수익률 변동의 63%를 설명한다는 것을 의미합니다.

예시 2: 조정 \(R^2\)를 이용한 모형 비교

위 분석가가 4개의 독립변수를 추가(총 9개)하여 \(R^2\)가 65.0%로 증가했다고 가정합니다. 어떤 모형을 선호해야 할까요?

9개 변수 모형의 조정 \(R^2\):

$$\bar{R}^2 = 1 - \frac{(1 - 0.65) \times (60 - 1)}{60 - 9 - 1} = 1 - \frac{0.35 \times 59}{50} = 1 - \frac{20.65}{50} = 1 - 0.413 = 0.587 \approx 58.7\%$$
모형 독립변수 수 \(R^2\) 조정 \(R^2\)
모형 1 5개 63.0% 59.6%
모형 2 9개 65.0% 58.7%

\(R^2\)는 63%에서 65%로 증가했지만, 조정 \(R^2\)는 59.6%에서 58.7%로 오히려 감소했습니다. 이는 추가된 4개 변수의 설명력이 자유도 감소를 보상할 만큼 충분하지 않다는 것을 의미합니다. 따라서 분석가는 조정 \(R^2\)가 더 높은 모형 1(5개 변수)을 선호해야 합니다.


LO 19.d: 공동가설검정 및 신뢰구간

1. 개별 계수의 t-검정

다중회귀에서 계수의 크기(magnitude)만으로는 해당 독립변수가 종속변수를 설명하는 데 얼마나 중요한지 판단할 수 없습니다. 이는 독립변수들의 단위와 스케일이 다르기 때문입니다. 따라서 반드시 가설검정(Hypothesis Testing)을 통해 각 독립변수가 종속변수의 변동을 설명하는 데 유의미한 기여를 하는지 확인해야 합니다.

다중회귀에서 개별 계수의 유의성을 검정하는 t-통계량은 단순회귀와 동일한 공식을 사용합니다.

t-통계량 (개별 계수 검정):

$$t = \frac{\hat{\beta}_j - \beta_{j,0}}{SE(\hat{\beta}_j)}$$

여기서:

  • \(\hat{\beta}_j\): 추정된 계수값
  • \(\beta_{j,0}\): 귀무가설 하의 계수값 (보통 0)
  • \(SE(\hat{\beta}_j)\): 추정 계수의 표준오차
  • 자유도: \(df = n - k - 1\)

가장 일반적인 가설검정은 통계적 유의성(Statistical Significance) 검정으로, 해당 계수가 0인지 여부를 검정합니다.

통계적 유의성 검정:

\(H_0: \beta_j = 0\) (해당 독립변수는 \(Y\)를 설명하는 데 기여하지 않음)
\(H_A: \beta_j \neq 0\) (해당 독립변수는 \(Y\)를 설명하는 데 유의미하게 기여함)

계산된 \(|t|\)가 임계값 \(t_{\alpha/2, n-k-1}\)보다 크면 귀무가설을 기각하고, 해당 계수가 통계적으로 유의하다고 결론 내립니다.

2. 신뢰구간 (Confidence Interval)

다중회귀에서의 회귀계수 신뢰구간은 단순회귀와 동일한 방식으로 계산됩니다. 신뢰구간은 "모수의 참값이 이 구간 안에 있을 것"이라는 일정 수준의 확신을 제공합니다.

회귀계수의 신뢰구간 (예: 95%):

$$\hat{\beta}_j \pm t_{\alpha/2, \; n-k-1} \times SE(\hat{\beta}_j)$$

신뢰구간에 0이 포함되면 해당 계수는 유의하지 않으며, 0이 포함되지 않으면 유의합니다. 이는 t-검정의 결론과 항상 일치합니다.

예시: 회귀계수의 통계적 유의성 검정

S&P 500의 미래 10년 실질이익성장률(EG10)을 배당성향(PR)과 수익률곡선 기울기(YCS)로 설명하는 회귀분석을 수행했습니다. 관측치 수 \(n = 46\), 유의수준 10%, 임계 t값 = 1.68

변수 계수(\(\hat{\beta}\)) 표준오차(SE)
절편 -0.10 -
PR (배당성향) 0.08 0.01
YCS (수익률곡선 기울기) 0.56 0.21

검정: \(H_0: \beta_{PR} = 0\) vs. \(H_A: \beta_{PR} \neq 0\)

$$t = \frac{0.08}{0.01} = 8.0$$

자유도: \(df = 46 - 2 - 1 = 43\)

\(|t| = 8.0 > 1.68\)이므로 귀무가설을 기각합니다. PR의 회귀계수는 10% 유의수준에서 통계적으로 유의하게 0과 다릅니다. 즉, 배당성향은 미래 이익성장률을 설명하는 데 유의미한 기여를 합니다.


3. F-검정 (공동가설검정)

t-검정은 개별 계수의 유의성만을 검정합니다. 그러나 "여러 개의 독립변수가 동시에 종속변수를 설명하는 데 기여하는가?"를 검정하려면 F-검정을 사용해야 합니다. F-검정은 항상 우측검정(One-Tailed Test)으로 수행됩니다.

(1) 중첩모형 비교 (Nested Model Comparison)

F-검정의 가장 일반적인 용도는 전체 모형(Full Model)축소 모형(Partial Model)을 비교하는 것입니다. 예를 들어, 3개의 독립변수를 포함하는 전체 모형이 1개의 독립변수만 포함하는 축소 모형에 비해 유의미하게 더 나은 설명력을 제공하는지를 검정합니다.

중첩모형 F-통계량:

$$F = \frac{(RSS_P - RSS_F) / q}{RSS_F / (n - k_F - 1)}$$

여기서:

  • \(RSS_P\): 축소 모형(Partial Model)의 잔차제곱합
  • \(RSS_F\): 전체 모형(Full Model)의 잔차제곱합
  • \(q\): 제거된 변수의 수 (\(= k_F - k_P\))
  • \(k_F\): 전체 모형의 독립변수 수
  • 분자 자유도: \(q\), 분모 자유도: \(n - k_F - 1\)

계산된 F-통계량이 임계 F값보다 크면, 전체 모형의 추가 변수들이 종속변수의 변동을 설명하는 데 유의미한 기여를 한다고 결론 내립니다.

예시: 중첩모형 F-검정

연구자가 주식 수익률을 시장 수익률(1개 변수)로 설명하는 CAPM 모형에 2개의 추가 설명변수를 넣어 3변수 모형을 만들었습니다. 표본 크기 \(n = 64\).

\(RSS_F = 6{,}650\) (3변수 모형), \(RSS_P = 7{,}140\) (1변수 모형)

제거된 변수 수 \(q = 2\), 전체 모형의 변수 수 \(k_F = 3\)

$$F = \frac{(7{,}140 - 6{,}650) / 2}{6{,}650 / (64 - 3 - 1)} = \frac{490 / 2}{6{,}650 / 60} = \frac{245}{110.83} \approx 2.21$$

임계 F값 (5% 유의수준, 분자 df = 2, 분모 df = 60) = 3.15

\(F = 2.21 < 3.15\)이므로 귀무가설을 기각할 수 없습니다. 즉, 추가된 2개의 변수가 "함께" 종속변수를 설명하는 데 유의미한 기여를 한다고 말할 수 없습니다.

시험 함정 주의: F-검정에서 "기각 못함"이라는 결론은 두 변수가 동시에(jointly) 유의하지 않다는 것을 의미합니다. 개별적으로(individually) 보면 두 변수 중 하나는 여전히 유의할 수 있습니다. F-검정은 변수들의 공동(joint) 유의성만을 검정합니다.
(2) 전체 유의성 검정 (Overall Significance Test)

더 일반적인 F-검정은 "모형에 포함된 모든 독립변수가 종속변수를 설명하는 데 기여하지 않는가?"를 검정합니다. 이는 모든 기울기 계수가 동시에 0인지를 검정하는 것입니다.

전체 유의성 F-통계량:

\(H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0\)
\(H_A:\) 적어도 하나의 \(\beta_j \neq 0\)

$$F = \frac{ESS / k}{RSS / (n - k - 1)}$$

분자 자유도: \(k\), 분모 자유도: \(n - k - 1\)

예시: 전체 유의성 F-검정

분석가가 46개월간의 가치주 월간 수익률을 5개의 독립변수로 회귀분석했습니다. TSS = 460, RSS = 170.

\(H_0: \beta_1 = \beta_2 = \beta_3 = \beta_4 = \beta_5 = 0\) vs. \(H_A:\) 적어도 하나의 \(\beta_j \neq 0\)

$$ESS = TSS - RSS = 460 - 170 = 290$$ $$F = \frac{290 / 5}{170 / (46 - 5 - 1)} = \frac{58}{170 / 40} = \frac{58}{4.25} = 13.65$$

임계 F값 (5% 유의수준, 분자 df = 5, 분모 df = 40) = 2.45

\(F = 13.65 > 2.45\)이므로 귀무가설을 기각합니다. 5개의 독립변수 중 적어도 하나는 가치주 수익률의 변동을 설명하는 데 유의미하게 기여합니다.

t-검정 vs. F-검정 비교 정리:

구분 t-검정 F-검정
목적 개별 계수의 유의성 검정 여러 계수의 공동 유의성 검정
검정 방향 양측 또는 단측 가능 항상 우측검정(One-Tailed)
자유도 \(n - k - 1\) 분자: \(q\) (또는 \(k\)), 분모: \(n - k_F - 1\)
가설 \(H_0: \beta_j = 0\) \(H_0: \beta_1 = \beta_2 = \cdots = 0\)
사용 상황 하나의 변수 유의성 확인 추가 변수의 공동 기여도 확인 또는 전체 모형 유의성

MODULE QUIZ

Module Quiz 19.1

문제 1. 주식 수익률을 설명하기 위해 다중회귀를 사용하였으며, 독립변수로 시장수익률(MKT), 산업더미(IND), Fortune 500 더미(FORT)를 포함했습니다. 회귀결과에서 계수 열(Coefficients)에 다음 값이 나타났습니다: 절편 = 0.522, MKT = 0.0460, IND = 0.7102, FORT = 0.9. 다음 중 회귀방정식을 가장 정확하게 나타낸 것은?

A. 0.43 + 3.09(MKT) + 2.61(IND) + 1.70(FORT)
B. 0.681 + 0.021(MKT) + 0.04(IND) + 0.139(FORT)
C. 0.522 + 0.0460(MKT) + 0.7102(IND) + 0.9(FORT)
D. 1.21 + 0.015(MKT) + 0.2725(IND) + 0.5281(FORT)

문제 2. 위 회귀결과에서, Fortune 500 주식임에 따라 기대되는 수익률 귀속분은 얼마에 가장 가까운가?

A. 0.522
B. 0.046
C. 0.710
D. 0.900

문제 3. 다음 중 단순회귀의 가정이 아닌 것은?

A. 데이터에 극단치가 없어야 한다.
B. 독립변수의 분산이 0보다 커야 한다.
C. 독립변수들이 완전하게 상관되지 않아야 한다.
D. 잔차의 분산이 등분산이어야 한다.

Module Quiz 19.2

문제 1. Phil Ohlmer는 P/E 비율을 예측하기 위해 배당성향(DPO), 성장률(G), 베타(B), 산업더미(IND: 바이오테크 = 1, 전력유틸리티 = 0)를 독립변수로 하는 회귀분석을 수행했습니다. 회귀결과: 절편 = 6.75, IND = 8.00, DPO = 4.00, G = 12.35, B = -0.50 (IND의 t-통계량이 유의함). 다음 중 가장 적절한 결론은?

A. 바이오테크 산업 P/E가 전력유틸리티 산업 P/E보다 통계적으로 유의하게 크다.
B. DPO, G, B를 일정하게 유지할 때, 전력유틸리티 P/E가 바이오테크 P/E보다 통계적으로 유의하게 크다.
C. DPO, G, B를 일정하게 유지할 때, 바이오테크 산업 P/E가 전력유틸리티 산업 P/E보다 통계적으로 유의하게 크다.
D. 더미변수가 통계적 유의성을 나타내지 않는다.

문제 2. Ohlmer가 배당성향 0.00, 베타 1.50, 기대이익성장률 0.14인 바이오테크 주식을 평가합니다. 예측 P/E는 얼마에 가장 가까운가?

A. 7.7
B. 15.7
C. 17.2
D. 11.3

문제 3. 다중회귀의 \(R^2\)와 조정 \(R^2\) 측정치를 해석할 때, 잘못된 결론으로 이어질 수 있는 함정을 올바르지 않게 반영한 것은?

A. \(R^2\) 측정치는 가장 적절하거나 부적절한 독립변수가 선택되었다는 증거를 제공하지 않는다.
B. \(R^2\)가 높으면, 모든 관련 독립변수를 찾았다고 가정해야 한다.
C. 추가 독립변수가 \(R^2\)를 개선하더라도, 이 변수가 반드시 통계적으로 유의한 것은 아니다.
D. \(R^2\) 측정치는 허위적(spurious)일 수 있으며, 독립변수가 높은 \(R^2\)를 보이더라도 종속변수 변동의 정확한 원인이 아닐 수 있다.

정답

문제 정답 해설
19.1-1 C 회귀방정식은 계수 열(Coefficients column)의 값을 사용하여 구성합니다. 절편과 각 독립변수의 계수를 그대로 조합하면 됩니다.
19.1-2 D 회귀방정식은 0.522 + 0.0460(MKT) + 0.7102(IND) + 0.9(FORT)이며, FORT의 계수 0.9가 Fortune 500 주식임에 따른 수익률 귀속분입니다.
19.1-3 C "독립변수들이 완전하게 상관되지 않아야 한다"는 다중회귀에서 추가되는 가정이며, 단순회귀의 가정이 아닙니다. 단순회귀는 독립변수가 하나뿐이므로 변수 간 상관 문제가 발생하지 않습니다.
19.2-1 C t-통계량은 산업 P/E가 동일하다는 귀무가설을 검정합니다. 더미변수가 유의하고 양수이며, 바이오테크 = 1로 정의되었으므로, DPO, G, B를 일정하게 유지할 때 바이오테크 P/E가 전력유틸리티 P/E보다 유의하게 큽니다.
19.2-2 B 바이오테크이므로 IND = 1. 예측 P/E = 6.75 + (8.00 x 1) + (4.00 x 0.00) + (12.35 x 0.14) - (0.50 x 1.5) = 6.75 + 8.00 + 0 + 1.729 - 0.75 = 15.73 ≈ 15.7
19.2-3 B \(R^2\)가 높더라도 모든 관련 독립변수를 찾았다고 가정할 수 없습니다. 누락변수(Omitted Variables)가 여전히 존재할 수 있으며, 이를 포함하면 회귀결과가 더 개선될 수 있습니다. 이 선택지는 올바르지 않은 설명이므로 정답입니다.

KEY CONCEPTS (핵심 개념 정리)

LO 19.a 핵심

다중회귀는 단순회귀의 5가지 기본 가정(조건부 평균 0, i.i.d., 양의 분산, 등분산성, 극단치 없음)에 더하여 6번째 가정을 추가로 요구합니다. 이 추가 가정은 "독립변수들이 완전하게 상관(Perfectly Correlated)되지 않아야 한다"는 것으로, 어떤 독립변수도 다른 독립변수들의 정확한 선형결합으로 표현될 수 없어야 합니다. 이 가정은 단순회귀에서는 요구되지 않으며, 오직 다중회귀에서만 추가됩니다.

LO 19.b 핵심

다중회귀에서 기울기 계수(부분기울기계수)는 "다른 모든 독립변수를 일정하게 유지한 상태에서, 해당 독립변수가 1단위 변할 때 종속변수의 기대값이 변하는 양"으로 해석합니다. 절편은 모든 독립변수가 0일 때 종속변수의 기대값입니다. 단순회귀에서 다중회귀로 전환할 때 계수가 변하는 것은 정상적인 현상이며, 이는 독립변수들 간의 상관관계 때문입니다.

LO 19.c & LO 19.e 핵심

결정계수 \(R^2 = ESS/TSS = 1 - RSS/TSS\)는 모형의 적합도를 측정하는 기본 지표이지만, 변수 추가 시 거의 항상 증가하는 문제가 있습니다. 이를 보정하기 위해 조정 \(R^2 = 1 - \frac{RSS/(n-k-1)}{TSS/(n-1)}\)를 사용하며, 조정 \(R^2\)는 변수 추가 시 증가하거나 감소할 수 있어 모형 비교에 더 적합합니다. \(R^2\)는 서로 다른 종속변수를 가진 모형 간 비교가 불가능하며, 절대적인 "좋은" 기준값이 존재하지 않습니다.

LO 19.d 핵심

개별 계수의 유의성은 t-검정(\(t = \hat{\beta}_j / SE(\hat{\beta}_j)\), 자유도 \(n - k - 1\))으로 검정합니다. 여러 계수의 공동 유의성은 F-검정(항상 우측검정)으로 검정합니다. 중첩모형 비교 F-통계량은 \(F = \frac{(RSS_P - RSS_F)/q}{RSS_F/(n-k_F-1)}\)이며, 전체 유의성 F-통계량은 \(F = \frac{ESS/k}{RSS/(n-k-1)}\)입니다. F-검정은 변수들의 공동(joint) 유의성만을 검정하며, 개별 변수의 유의성과는 다른 결론이 나올 수 있습니다.


시험 대비 한 줄 암기 체크리스트

주제 암기 포인트
6번째 가정 (다중회귀 고유) 독립변수들이 완전하게 상관되지 않아야 함 (Perfect Collinearity 금지)
부분기울기계수 해석 "다른 변수를 일정하게 유지(holding constant)한 상태에서" 1단위 변화의 효과
단순 vs 다중 계수 변화 변수 추가 시 계수 변화는 정상 (독립변수 간 상관 때문)
\(R^2\) 공식 \(R^2 = ESS/TSS = 1 - RSS/TSS\)
\(R^2\) 함정 변수 추가 시 거의 항상 증가 → 과대추정 위험
조정 \(R^2\) 공식 \(\bar{R}^2 = 1 - \frac{RSS/(n-k-1)}{TSS/(n-1)}\)
조정 \(R^2\) 특성 \(\bar{R}^2 \leq R^2\), 변수 추가 시 증가 또는 감소 가능, 음수 가능
t-검정 자유도 \(df = n - k - 1\)
F-검정 방향 항상 우측검정 (One-Tailed)
중첩모형 F-통계량 \(F = \frac{(RSS_P - RSS_F)/q}{RSS_F/(n - k_F - 1)}\)
전체 유의성 F-통계량 \(F = \frac{ESS/k}{RSS/(n-k-1)}\)
높은 \(R^2\)의 의미 좋은 변수 선택을 보장하지 않음 (누락변수 가능)
계수 크기 비교 단위/스케일이 다르면 계수 크기 비교 무의미 → t-검정 사용
더미변수 함정 범주가 \(g\)개면 더미는 \(g-1\)개만 포함 (절편 있는 경우)