본문 바로가기

취준/FRM part1

FRM part1. Reading 18: Linear Regression

 

FRM Part I – Reading 18
선형회귀 (Linear Regression)

EXAM FOCUS

핵심 학습 목표

선형회귀(Linear Regression)는 금융 리스크 관리에서 가장 기본적이면서도 가장 빈번하게 사용되는 통계적 도구입니다. 하나의 종속변수(Dependent Variable)가 하나 이상의 독립변수(Independent Variable)와 어떤 관계를 갖는지를 직선(또는 초평면)으로 추정하는 방법이며, 이때 사용하는 추정 기법이 바로 최소제곱법(OLS, Ordinary Least Squares)입니다. OLS는 잔차의 제곱합을 최소화하는 계수를 찾아내며, 이 과정에서 도출된 기울기 계수와 절편은 매우 구체적인 경제적 해석을 가집니다. 시험에서는 OLS 계수의 계산과 해석, 가설검정과 신뢰구간의 구성, 그리고 회귀모형의 기본 가정에 대한 이해를 집중적으로 묻습니다.

시험에서 반드시 할 수 있어야 하는 것

  • 선형회귀로 추정 가능한 모형과 불가능한 모형을 구분: "선형"의 의미가 변수가 아닌 계수(모수)에 대한 선형임을 정확히 이해
  • OLS 추정 계수의 계산: 공분산/분산 공식을 이용한 기울기 계수와 절편의 직접 계산
  • 회귀 결과의 해석: 절편과 기울기의 경제적 의미, 더미변수(Dummy Variable)의 해석
  • OLS의 핵심 가정: 조건부 평균 0, i.i.d., 등분산성(Homoskedasticity) 등의 의미와 위배 시 결과
  • OLS 추정량의 성질: 비편향성(Unbiasedness), 일치성(Consistency), 표본분포의 정규성
  • 가설검정: t-통계량 계산, 임계값과의 비교, 기각/기각 불가 판정
  • 신뢰구간: 구성 공식, 가설검정과의 논리적 동치 관계
  • p-값: 정의와 유의수준과의 비교를 통한 판정
  • 결정계수 R²: 의미 이해, 단순회귀에서 상관계수의 제곱과 같다는 성질

이 Reading은 다음 Reading인 다중회귀(Multiple Regression)와 회귀진단(Regression Diagnostics)의 토대가 됩니다. 여기서 다루는 OLS의 원리, 가설검정의 구조, 가정의 의미를 완전히 이해하지 않으면 이후 다중공선성, 이분산성, 자기상관 등의 고급 주제를 소화하기 어렵습니다. 반드시 이 단원의 내용을 완벽하게 숙달한 뒤 다음으로 넘어가시기 바랍니다.


 

 

MODULE 18.1: 회귀분석의 기본 (Regression Analysis)

LO 18.a: 선형회귀로 추정 가능한 모형과 불가능한 모형의 구분

1. 회귀분석이란 무엇인가

회귀분석(Regression Analysis)은 하나의 종속변수(Dependent Variable, 또는 Explained Variable)와 하나 이상의 독립변수(Independent Variable, 또는 Explanatory Variable) 사이의 관계를 추정하는 통계적 방법입니다. 여기서 "관계를 추정한다"는 것은, 독립변수의 값이 변할 때 종속변수가 평균적으로 어떻게 변하는지를 수학적 함수로 표현한다는 뜻입니다.

예를 들어, 헤지펀드의 수익률(종속변수)이 락업 기간(Lockup Period, 독립변수)에 따라 어떻게 달라지는지를 알고 싶다고 합시다. 이때 가장 단순한 가정은 이 둘의 관계가 직선으로 표현될 수 있다는 것입니다. 이것이 바로 단순선형회귀(Simple Linear Regression)의 출발점입니다.

2. 모집단 회귀모형과 표본 추정식

회귀분석에서는 모집단(Population)에서 실제로 성립하는 "진짜" 관계와, 우리가 표본(Sample) 데이터로부터 추정(Estimate)한 관계를 구분해야 합니다. 이 구분은 통계적 추론의 핵심이며, 시험에서도 이 둘을 혼동하지 않는지를 자주 확인합니다.

모집단 회귀모형 (Population Regression Model) $$Y_i = \alpha + \beta X_i + \varepsilon_i, \qquad E(\varepsilon_i \mid X_i) = 0$$

\(\alpha\) = 모집단 절편, \(\beta\) = 모집단 기울기, \(\varepsilon_i\) = 오차항(Error Term)

여기서 \(\varepsilon_i\)는 모형이 설명하지 못하는 부분, 즉 오차항(Error Term)입니다. 오차항이 존재하는 이유는 여러 가지입니다. 모형에 포함하지 않은 다른 변수의 영향, 측정의 불완전성, 또는 본질적으로 랜덤한 변동이 모두 오차항에 흡수됩니다. 핵심 가정인 \(E(\varepsilon_i \mid X_i) = 0\)은 "독립변수 \(X\)의 값을 알더라도 오차항의 기대값은 0이다"라는 의미이며, 이것은 \(X\)가 오차항에 대해 아무런 정보도 제공하지 않는다는 뜻입니다.

표본 추정식 (Sample Regression Equation) $$\hat{Y}_i = \hat{\alpha} + \hat{\beta} X_i, \qquad e_i = Y_i - \hat{Y}_i$$

\(\hat{\alpha}\) = 추정 절편, \(\hat{\beta}\) = 추정 기울기, \(e_i\) = 잔차(Residual)

표본 추정식에서 \(\hat{Y}_i\)는 독립변수 \(X_i\)가 주어졌을 때 모형이 예측하는 종속변수의 값이며, \(e_i\)는 실제 관측값과 예측값의 차이인 잔차(Residual)입니다. 모집단의 오차항 \(\varepsilon_i\)는 관측 불가능한 이론적 개념이고, 표본의 잔차 \(e_i\)는 실제로 계산할 수 있는 양이라는 점에서 차이가 있습니다. 잔차는 오차항의 추정값이라고 이해하면 됩니다. 오차항을 줄이는 방법은 크게 두 가지입니다. 더 많은 독립변수를 추가하거나, 더 적절한 독립변수를 선택하는 것입니다.

3. "선형(Linear)"의 두 가지 의미

"선형회귀"에서 "선형"이라는 단어는 두 가지 차원에서 해석됩니다. 이 구분은 시험에서 반복적으로 출제되는 핵심 포인트입니다.

첫 번째: 변수에 대한 선형성 — 반드시 요구되지 않음

종속변수와 독립변수의 관계가 반드시 직선일 필요는 없습니다. 변수를 적절히 변환(Transform)하면 비선형 관계도 선형회귀의 틀 안에서 추정할 수 있습니다. 예를 들어, 효용함수(Utility Function)를 소비량(Consumption)의 함수로 추정하되, 한계효용체감(Diminishing Marginal Utility)의 성질을 반영하고 싶다고 합시다. 이때 소비량에 로그 변환을 적용하면 됩니다.

변수 변환의 예: 로그 변환

실제 관계: \(Y = \alpha + \beta \ln(C) + \varepsilon\)

여기서 \(X = \ln(C)\)로 정의하면, 모형은 \(Y = \alpha + \beta X + \varepsilon\) 형태가 되어 표준적인 선형회귀로 추정할 수 있습니다. \(Y\)와 \(C\) 사이의 관계는 비선형(로그 곡선)이지만, \(Y\)와 \(X = \ln(C)\) 사이의 관계는 선형입니다. 변수를 변환했을 뿐, 추정 기법 자체는 동일한 OLS를 사용합니다.

두 번째: 계수(모수)에 대한 선형성 — 반드시 요구됨

선형회귀가 작동하려면 종속변수가 계수(모수, Parameter)의 선형함수여야 합니다. 이것이 핵심적인 제약 조건입니다.

모수에 비선형인 경우: 선형회귀 불가

함수: \(Y = \alpha + \beta X^p + \varepsilon\)

이 모형에서 \(\beta\)와 \(p\)가 모두 미지수(Unknown Parameter)라면, \(\beta X^p\)라는 항은 두 개의 미지 모수를 동시에 포함하며, \(p\)는 곱셈적(Multiplicative)으로 들어가지 않고 지수 위치에 있으므로 모수에 대해 비선형입니다. 이 경우 일반적인 선형회귀(OLS)를 직접 적용할 수 없고, 비선형 최적화(Nonlinear Optimization) 기법이 필요합니다.

반면, \(p\)가 이미 알려진 상수(예: \(p = 2\))라면 \(Z = X^2\)으로 변환하여 \(Y = \alpha + \beta Z + \varepsilon\) 형태의 선형회귀가 가능합니다. 미지수가 \(\beta\) 하나뿐이므로 모수에 대해 선형이 되기 때문입니다.

시험 핵심 포인트: "선형"의 의미

선형회귀에서 "선형"은 변수가 아닌 계수(모수)에 대한 선형을 의미합니다. 변수는 로그, 제곱, 제곱근 등 다양하게 변환할 수 있지만, 미지 계수들은 반드시 1차(선형) 형태로만 모형에 들어와야 합니다. 이 원칙을 기억하면 "다음 중 선형회귀로 추정 가능한 모형은?"이라는 유형의 문제를 정확하게 풀 수 있습니다.

4. 선형회귀의 세 가지 조건

선형회귀를 적용하기 위해서는 다음 세 가지 조건이 충족되어야 합니다.

조건 내용 위배 시 문제
1. 선형성 \(Y\)와 \(X\)의 관계가 (적절한 변환 후) 선형이어야 함 비선형 관계를 직선으로 추정하면 체계적 오류(Systematic Error) 발생
2. 가법적 오차 오차항이 가법적(Additive)이어야 하며, 오차의 분산이 관측 데이터에 의존하지 않아야 함 이분산성(Heteroskedasticity) 문제 발생, 표준오차 추정이 부정확해짐
3. 관측 가능성 모든 \(X\) 변수가 관측 가능해야 함. 구조적 결측(Missing Data)이 있으면 부적절 결측이 비무작위적이면 편의(Bias) 발생

5. 절편의 해석에 대한 주의사항

절편 \(\alpha\)는 형식적으로 "독립변수 \(X = 0\)일 때 종속변수의 기대값"입니다. 그러나 실무에서는 \(X = 0\)이 현실적으로 의미가 없는 경우가 매우 많습니다. 예를 들어, 건물의 높이를 층수로 예측하는 회귀에서 "층수가 0인 건물"은 존재하지 않습니다. 이런 경우 절편은 "\(X = 0\)에서의 예측값"이라는 직접적 의미보다는, 종속변수의 평균 \(\bar{Y}\)가 회귀선 위에 놓이도록 보장하는 보정 상수로 이해하는 것이 더 적절합니다. 이 성질은 OLS 추정의 수학적 결과로 자연스럽게 도출되며, 뒤에서 상세히 다룹니다.

Module Quiz 18.1

문제 1. 일반적으로, 독립변수의 값이 0일 때 종속변수의 기대값은 다음 중 무엇과 같은가?

A. 기울기 계수(Slope Coefficient)
B. 절편 계수(Intercept Coefficient)
C. 오차항(Error Term)
D. 잔차(Residual)

문제 2. 오차항(Error Term)은 다음 중 무엇을 나타내는가?

A. 독립변수에 의해 설명되지 않는 종속변수의 부분으로, 추가적인 독립변수를 통해 설명될 가능성이 있음
B. 독립변수에 의해 설명되는 종속변수의 부분
C. 종속변수에 의해 설명되는 독립변수의 부분
D. 독립변수의 오차에 의해 설명되는 종속변수의 부분

문제 3. 선형회귀 함수는 모형화하는 관계가 다음 중 무엇에 대해 선형이어야 한다고 가정하는가?

A. 변수와 계수 모두
B. 계수에 대해서만 (변수는 반드시 아님)
C. 변수에 대해서만 (계수는 반드시 아님)
D. 변수와 계수 모두 아님

Module Quiz 18.1 — 정답 및 해설

문제 1. 정답: B

회귀 방정식은 \(E(Y) = \alpha + \beta X\)로 쓸 수 있습니다. \(X = 0\)을 대입하면 \(E(Y) = \alpha\)가 되므로, 독립변수가 0일 때 종속변수의 기대값은 절편 계수 \(\alpha\)와 같습니다. 기울기 계수 \(\beta\)는 \(X\)의 변화에 따른 \(Y\)의 변화량이지, \(X = 0\)에서의 수준이 아닙니다. 오차항과 잔차는 개별 관측치에 대한 "설명되지 않는 부분"이므로 이 맥락에서 적절하지 않습니다.

문제 2. 정답: A

오차항 \(\varepsilon_i\)는 모형에 포함된 독립변수가 설명하지 못하는 종속변수의 변동을 나타냅니다. 이 설명되지 않는 부분은 모형에 포함되지 않은 다른 독립변수를 추가함으로써 줄어들 수 있습니다. 즉, 오차항의 크기는 모형의 완전성에 의존합니다. 중요한 설명변수가 누락되면 오차항이 커지고, 적절한 변수가 포함되면 줄어듭니다.

문제 3. 정답: B

선형회귀에서 "선형"은 계수(모수)에 대한 선형성을 의미합니다. 변수 자체는 로그 변환, 제곱 변환 등 적절한 변환을 거쳐 모형에 투입될 수 있으므로 변수에 대한 선형성은 필수 조건이 아닙니다. 예를 들어 \(Y = \alpha + \beta \ln(X) + \varepsilon\)는 \(X\)에 대해서는 비선형이지만, \(\alpha\)와 \(\beta\)에 대해서는 선형이므로 OLS로 추정할 수 있습니다.


 

 

MODULE 18.2: 최소제곱법 추정 (Ordinary Least Squares Estimation)

LO 18.b: 단일 설명변수 OLS 회귀 결과의 해석

1. OLS의 목표: 잔차 제곱합의 최소화

최소제곱법(OLS, Ordinary Least Squares)은 표본 데이터에서 잔차(Residual)의 제곱합을 최소화하는 계수 \(\hat{\alpha}\)와 \(\hat{\beta}\)를 찾는 방법입니다. 여기서 "왜 잔차의 절대값 합이 아니라 제곱합을 쓰는가?"라는 질문이 자연스럽게 떠오릅니다. 제곱합을 사용하면 양수/음수 잔차가 서로 상쇄되는 것을 방지하면서도, 미분 가능한(Differentiable) 함수가 되어 수학적으로 깔끔한 해(Closed-Form Solution)를 얻을 수 있기 때문입니다. 또한 제곱은 큰 오차에 더 큰 패널티를 부여하므로, 극단적으로 빗나간 예측을 강하게 억제하는 효과도 있습니다.

OLS 목적함수 $$\min_{\alpha, \beta} \; S(\alpha, \beta) = \sum_{i=1}^{n} \left(Y_i - \alpha - \beta X_i\right)^2 = \sum_{i=1}^{n} e_i^2$$

잔차 \(e_i = Y_i - \hat{Y}_i\)의 제곱합을 최소화하는 \(\hat{\alpha}\), \(\hat{\beta}\)를 찾는 것이 OLS의 본질

2. OLS 해의 유도: 정상조건(First-Order Conditions)

목적함수 \(S(\alpha, \beta)\)를 최소화하기 위해 각 모수에 대해 편미분한 뒤 0으로 놓습니다. 이것을 정상조건(First-Order Conditions, FOC)이라 하며, 이 연립방정식을 풀면 OLS 추정량이 도출됩니다.

절편 \(\alpha\)에 대한 미분:

$$\frac{\partial S}{\partial \alpha} = -2\sum_{i=1}^{n}(Y_i - \alpha - \beta X_i) = 0$$ $$\Rightarrow \sum Y_i = n\alpha + \beta \sum X_i$$ $$\Rightarrow \hat{\alpha} = \bar{Y} - \hat{\beta}\bar{X}$$

이 결과는 매우 중요한 의미를 담고 있습니다. 절편 \(\hat{\alpha}\)는 독립적으로 결정되는 것이 아니라, 기울기 \(\hat{\beta}\)가 결정된 후에 "\((\bar{X}, \bar{Y})\) 점을 지나도록" 자동으로 조정됩니다. 즉, OLS 회귀선은 반드시 표본 평균점을 통과합니다. 이것은 OLS의 가장 기본적인 성질 중 하나이며, 시험에서 단골로 출제됩니다.

기울기 \(\beta\)에 대한 미분:

$$\frac{\partial S}{\partial \beta} = -2\sum_{i=1}^{n} X_i(Y_i - \alpha - \beta X_i) = 0$$

\(\alpha = \bar{Y} - \beta\bar{X}\)를 대입하고 정리하면:

$$\hat{\beta} = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n}(X_i - \bar{X})^2} = \frac{\text{Cov}(X, Y)}{\text{Var}(X)}$$

기울기 \(\hat{\beta}\)의 공식을 직관적으로 이해해 봅시다. 분자인 \(\text{Cov}(X, Y)\)는 \(X\)와 \(Y\)가 함께 움직이는 정도를 측정합니다. 분모인 \(\text{Var}(X)\)는 \(X\)의 변동성을 측정합니다. 따라서 \(\hat{\beta}\)는 "\(X\)가 1단위 변할 때 \(Y\)가 평균적으로 얼마나 변하는가"를 나타내며, 이는 공분산을 \(X\)의 분산으로 정규화(Normalize)한 것입니다. 만약 \(X\)의 분산이 0이면(모든 관측치에서 \(X\)가 같으면), 기울기를 추정하는 것 자체가 불가능합니다. 이것이 OLS 가정 중 "\(\text{Var}(X) > 0\)" 조건의 의미입니다.

핵심 성질: 회귀선은 \((\bar{X}, \bar{Y})\)를 지난다

OLS 추정에서 \(\hat{\alpha} = \bar{Y} - \hat{\beta}\bar{X}\)이므로:

$$\hat{Y}(\bar{X}) = \hat{\alpha} + \hat{\beta}\bar{X} = (\bar{Y} - \hat{\beta}\bar{X}) + \hat{\beta}\bar{X} = \bar{Y}$$

즉, 표본 평균점 \((\bar{X}, \bar{Y})\)는 항상 추정된 회귀선 위에 있습니다. 이 성질은 절편의 정의로부터 자동으로 보장됩니다.

3. 회귀 결과의 해석

OLS를 통해 얻은 두 계수의 해석은 다음과 같습니다.

계수 수학적 정의 경제적 해석
절편 \(\hat{\alpha}\) \(X = 0\)일 때 \(\hat{Y}\)의 값 \(X = 0\)이 현실적이면 "\(X\)가 없을 때의 \(Y\) 수준". 비현실적이면 "회귀선이 평균점을 지나도록 하는 보정 상수"
기울기 \(\hat{\beta}\) \(\text{Cov}(X,Y) / \text{Var}(X)\) \(X\)가 1단위 증가할 때 \(Y\)의 예상 변화량

다중회귀(Multiple Regression)에서는 기울기 계수의 해석이 "다른 독립변수를 일정하게 유지한 상태에서(Holding Other Variables Constant)" 해당 독립변수가 1단위 변할 때의 종속변수 변화로 확장됩니다. 이 때문에 다중회귀의 기울기 계수를 편기울기 계수(Partial Slope Coefficient)라고 부릅니다.

예제: 주식 수익률과 시장 수익률의 회귀

과거 20년간 특정 주식의 연평균 수익률은 \(\bar{Y} = 11\%\)(= 0.11), 시장의 연평균 수익률은 \(\bar{X} = 8.4\%\)(= 0.084)입니다. 분산-공분산 행렬에서 다음 정보가 주어졌습니다.

  주식 (Y) 시장 (X)
주식 (Y) 0.025 0.012
시장 (X) 0.012 0.016

따라서 \(\text{Cov}(X, Y) = 0.012\), \(\text{Var}(X) = 0.016\)입니다.

기울기 계수:

$$\hat{\beta} = \frac{\text{Cov}(X, Y)}{\text{Var}(X)} = \frac{0.012}{0.016} = 0.75$$

절편:

$$\hat{\alpha} = \bar{Y} - \hat{\beta}\bar{X} = 0.11 - 0.75 \times 0.084 = 0.11 - 0.063 = 0.047$$

추정된 회귀식: \(\hat{Y} = 0.047 + 0.75X\)

해석:

\(\hat{\beta} = 0.75\): 시장 수익률이 1%p 상승하면, 이 주식의 수익률은 평균적으로 0.75%p 상승할 것으로 예상됩니다. 이것은 금융에서 말하는 베타(Beta) 개념과 정확히 일치합니다. 베타가 1보다 작으므로 이 주식은 시장보다 변동성이 낮은 방어적(Defensive) 성격의 주식입니다.

\(\hat{\alpha} = 0.047\): 시장 수익률이 0%일 때, 이 주식의 기대수익률은 4.7%입니다. CAPM 관점에서 이것은 양(+)의 알파(Alpha)를 가진 주식, 즉 시장 위험에 대한 보상을 초과하는 초과수익을 제공하는 주식이라고 해석할 수 있습니다.

검산: \(\hat{Y}(\bar{X}) = 0.047 + 0.75 \times 0.084 = 0.047 + 0.063 = 0.11 = \bar{Y}\). 회귀선이 평균점을 지남을 확인.

4. 더미변수(Dummy Variable)의 이해

대부분의 독립변수(기업 규모, GDP 수준, 금리 등)는 연속적인 값을 가지지만, 때로는 독립변수가 이진(Binary) 성격인 경우가 있습니다. 즉, "켜져 있다/꺼져 있다" 또는 "해당한다/해당하지 않는다"의 두 가지 상태만 존재하는 변수입니다. 이런 변수를 더미변수(Dummy Variable)라 하며, 0 또는 1의 값을 부여합니다. 더미변수는 질적 변수(Qualitative Variable)의 영향을 정량화하는 데 사용됩니다.

예제: 1월 효과(January Effect)의 검정

월별 주식 수익률 데이터에서 1월의 수익률이 다른 달과 유의하게 다른지 검정하고 싶다고 합시다. 다음과 같이 1월 더미변수를 설정합니다.

$$D_i = \begin{cases} 1 & \text{해당 월이 1월인 경우} \\ 0 & \text{그 외의 달인 경우} \end{cases}$$

회귀모형: \(Y_i = \alpha + \beta D_i + \varepsilon_i\)

해석:

\(D = 0\)(1월이 아닌 달)의 경우: \(E(Y \mid D=0) = \alpha\). 절편 \(\alpha\)는 1월이 아닌 달들의 평균 수익률입니다.

\(D = 1\)(1월)의 경우: \(E(Y \mid D=1) = \alpha + \beta\). 1월의 평균 수익률은 \(\alpha + \beta\)입니다.

따라서 기울기 \(\beta\)는 두 집단의 평균 차이(1월 평균 − 비1월 평균)를 나타냅니다. \(\beta\)가 통계적으로 유의하면 "1월 효과가 존재한다"고 결론내릴 수 있습니다.

만약 추정 결과가 \(\hat{\alpha} = 0.004\), \(\hat{\beta} = 0.002\)라면, 비1월 달의 평균 수익률은 0.4%이고, 1월의 평균 수익률은 0.4% + 0.2% = 0.6%입니다. 1월이 다른 달보다 평균 0.2%p 높은 수익률을 보였다는 것이 \(\hat{\beta}\)의 의미입니다.

LO 18.h: 결정계수 R²과 상관계수의 관계

5. 결정계수(Coefficient of Determination, R²)

결정계수 \(R^2\)는 회귀모형의 적합도(Goodness of Fit)를 측정하는 지표입니다. 종속변수 \(Y\)의 총 변동(Total Variation) 중에서 회귀모형이 설명하는 비율을 나타냅니다.

R²의 정의 $$R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}$$

SST = 총제곱합(Total Sum of Squares) = \(\sum(Y_i - \bar{Y})^2\)

SSR = 회귀제곱합(Regression Sum of Squares) = \(\sum(\hat{Y}_i - \bar{Y})^2\)

SSE = 잔차제곱합(Error Sum of Squares) = \(\sum(Y_i - \hat{Y}_i)^2 = \sum e_i^2\)

\(R^2\)는 0과 1 사이의 값을 가집니다. \(R^2 = 1\)이면 모든 관측치가 회귀선 위에 정확히 놓여 있다는 뜻(완벽한 설명)이고, \(R^2 = 0\)이면 모형이 \(Y\)의 변동을 전혀 설명하지 못한다는 뜻입니다.

단순회귀에서의 특별한 성질: R² = r²

독립변수가 1개인 단순회귀에서, 결정계수 \(R^2\)는 독립변수와 종속변수 간 상관계수(Correlation Coefficient)의 제곱과 정확히 같습니다.

$$R^2 = r_{XY}^2$$

예를 들어, 주식 수익률과 시장 수익률의 상관계수가 \(r = 0.6\)이면, 시장 수익률 하나로 주식 수익률 변동의 \(0.6^2 = 0.36\), 즉 36%를 설명할 수 있다는 의미입니다. 이 성질은 단순회귀에서만 성립합니다. 다중회귀에서는 \(R^2\)가 단순히 하나의 상관계수의 제곱이 아닙니다.

또한, 기울기 계수 \(\hat{\beta} = 0\)이면 \(\text{Cov}(X,Y) = 0\)이므로 \(r_{XY} = 0\)이고, 따라서 \(R^2 = 0\)이 됩니다. 이것은 "\(X\)와 \(Y\) 사이에 선형 관계가 없다"는 것과 동치입니다.

LO 18.c: OLS 추정의 핵심 가정

6. OLS의 다섯 가지 핵심 가정

OLS 추정이 올바르게 작동하려면 여러 가정이 충족되어야 합니다. 이 가정들 대부분은 오차항의 행동에 관한 것이며, 시험에서 매우 중요하게 다루어집니다.

번호 가정 수학적 표현 직관적 의미
1 조건부 평균 0 \(E(\varepsilon_i \mid X_i) = 0\) \(X\)가 오차항에 대해 아무런 정보를 갖지 않음. 가장 중요한 가정
2 i.i.d. \((X_i, Y_i)\)가 독립 동일 분포 각 관측치가 같은 모집단에서 독립적으로 추출됨
3 \(X\)의 양(+) 분산 \(\text{Var}(X) > 0\) \(X\)에 변동이 있어야 기울기 추정이 가능함
4 등분산성 \(\text{Var}(\varepsilon_i \mid X_i) = \sigma^2\) 오차의 퍼짐이 \(X\)의 크기에 관계없이 일정함
5 극단적 이상치 부재 OLS는 이상치에 민감. 소수의 극단값이 결과를 크게 왜곡할 수 있음

이 가정들이 충족되면 OLS 추정량은 비편향(Unbiased)이 되며, 정규분포에 근사하여 가설검정이 가능해집니다.

7. 조건부 평균 0 가정의 위배 원인 (시험 빈출)

가장 중요한 첫 번째 가정인 \(E(\varepsilon_i \mid X_i) = 0\)이 위배되면, OLS 추정량에 편의(Bias)가 발생합니다. 이 가정의 위배를 초래하는 네 가지 대표적 원인을 반드시 알아두어야 합니다.

위배 원인 설명 금융 분야 예시
생존편의 / 표본선택편의
(Survivorship / Sample Selection Bias)
관측치가 사후적으로 수집되어 특정 조건을 충족하는 것만 표본에 포함되는 경우 생존편의: 지수에서 퇴출된 기업을 제외하고 수익률 분석 → 수익률이 상향 편향.
표본선택편의: 주택가격 하락기에는 재융자(Refinancing) 거래가 급감하므로, 실제 재융자 표본은 주택가격 상승기에 편중됨
동시성 편의
(Simultaneity Bias)
\(X\)와 \(Y\)의 값이 동시에 결정되는 경우 거래량과 변동성의 관계: 변동성이 높으면 거래량이 늘고, 거래량이 많으면 변동성이 커짐. 어느 것이 원인이고 어느 것이 결과인지 분리할 수 없음
누락변수 편의
(Omitted Variable Bias)
중요한 설명변수가 모형에서 빠진 경우. 누락된 변수의 영향이 오차항에 흡수됨 주식 수익률을 시장 수익률로만 설명하면서 기업 규모(Size)나 가치 팩터(Value)를 빠뜨리면, 시장 수익률 계수가 편향됨
감쇠 편의
(Attenuation Bias)
\(X\) 변수가 측정오차를 포함하는 경우. 회귀계수가 과소추정됨 실제 기대수익률 대신 과거 실현수익률을 사용하면, 측정오차가 기울기 계수를 0 방향으로 끌어내림

시험 함정: 조건부 평균 0 가정의 특수성

이 가정은 직접적으로 검증(Test)할 수 없습니다. OLS 추정에서 잔차의 표본 평균은 수학적으로 항상 0이 되도록 설계되어 있기 때문입니다(\(\sum e_i = 0\)은 OLS의 정상조건에서 자동으로 도출). 따라서 이 가정의 타당성은 "데이터가 어떻게 생성되었는가"(Data Generating Process)에 대한 정성적 판단에 의존합니다. 잔차의 평균이 0이라고 해서 이 가정이 충족된 것은 아닙니다.

LO 18.d: OLS 추정량의 성질과 표본분포

8. OLS 추정량의 통계적 성질

OLS 추정량 \(\hat{\alpha}\)와 \(\hat{\beta}\)는 무작위 표본(Random Sample)으로부터 도출되므로, 추정량 자체도 확률변수(Random Variable)입니다. 즉, 표본을 다시 추출할 때마다 다른 값을 가집니다. 따라서 OLS 추정량은 고유한 표본분포(Sampling Distribution)를 갖습니다.

OLS 추정량의 핵심적인 두 가지 성질은 다음과 같습니다.

(1) 비편향성(Unbiasedness): 추정량의 기대값이 추정하고자 하는 모집단 모수와 같습니다. 즉, \(E(\hat{\beta}) = \beta\)이고 \(E(\hat{\alpha}) = \alpha\)입니다. 비편향 추정량은 표본마다 다른 값을 주지만, 무한히 많은 표본의 평균을 내면 정확히 참값에 수렴합니다. 비편향성은 "계통적 오류가 없다"는 의미입니다.

(2) 일치성(Consistency): 표본 크기 \(n\)이 커질수록 추정량이 참값에 점점 가까워집니다. 중심극한정리(CLT)에 의해 충분히 큰 표본에서는 추정량의 분포가 정규분포에 근사합니다. 일치성은 "데이터가 많을수록 추정이 정확해진다"는 직관과 부합합니다.

9. 기울기 추정량의 분산에 영향을 미치는 요인

\(\hat{\beta}\)의 분산, 즉 추정의 불확실성은 두 가지 요인에 의해 결정됩니다.

기울기 추정량의 분산 $$\text{Var}(\hat{\beta}) = \frac{\sigma^2_\varepsilon}{\sum(X_i - \bar{X})^2} = \frac{\sigma^2_\varepsilon}{n \cdot \text{Var}(X)}$$

\(\sigma^2_\varepsilon\) = 오차항의 분산, \(\text{Var}(X)\) = 독립변수의 분산

요인 영향 방향 직관적 설명
오차항 분산 \(\sigma^2_\varepsilon\) 증가 \(\hat{\beta}\)의 분산 증가 (신뢰도 하락) 소음(Noise)이 크면 신호(Signal)를 식별하기 어려움. 데이터의 산포가 크면 회귀선의 기울기를 정확히 결정하기 힘듦
독립변수 분산 \(\text{Var}(X)\) 증가 \(\hat{\beta}\)의 분산 감소 (신뢰도 상승) \(X\)의 변동이 클수록 표본이 모집단을 잘 대표하며, 기울기를 정밀하게 추정할 수 있음. 직관적으로, 넓은 범위의 \(X\) 값을 관측해야 직선의 기울기를 정확히 재현할 수 있음

시험 핵심: 추정 신뢰도의 방향

기울기 추정의 신뢰도(Reliability)는 오차항 분산에 의해 부정적 영향을 받고, 독립변수 분산에 의해 긍정적 영향을 받습니다. 이 관계를 정확히 기억하십시오. 시험에서 "기울기 추정의 신뢰도에 가장 긍정적인 영향을 미치는 것은?"과 같은 형태로 자주 출제됩니다.

Module Quiz 18.2

문제 1. 최소제곱법(OLS)은 다음 중 무엇을 하는 과정인가?

A. 독립변수의 수를 최대화한다
B. 독립변수의 수를 최소화한다
C. 표본 회귀 계수를 생산한다
D. 잔차 제곱합을 최소화한다

문제 2. 기울기 계수 추정값이 10.0일 때, 가장 적절한 해석은?

A. 독립변수가 0일 때 종속변수의 예측값은 10.0이다
B. 종속변수가 0일 때 독립변수의 예측값은 0.1이다
C. 독립변수가 1단위 변하면, 종속변수가 10단위 변할 것으로 예측된다
D. 독립변수가 1단위 변하면, 종속변수가 0.1단위 변할 것으로 예측된다

문제 3. 회귀모형에서 기울기 계수 추정의 신뢰도에 대한 설명으로 가장 적절한 것은?

A. 잔차 분산에 의해 긍정적 영향을 받고, 독립변수 분산에 의해 부정적 영향을 받는다
B. 잔차 분산에 의해 부정적 영향을 받고, 독립변수 분산에 의해 부정적 영향을 받는다
C. 잔차 분산에 의해 긍정적 영향을 받고, 독립변수 분산에 의해 긍정적 영향을 받는다
D. 잔차 분산에 의해 부정적 영향을 받고, 독립변수 분산에 의해 긍정적 영향을 받는다

문제 4. 지난 108개월간 인플레이션(\(Y\))의 평균은 0.01이고, 실업률(\(X\))의 평균은 0.044이다. 분산-공분산 행렬이 다음과 같을 때, 추정된 기울기 계수와 절편은?

  인플레이션 (Y) 실업률 (X)
인플레이션 (Y) 0.0001 0.00034
실업률 (X) 0.00034 0.000125

A. 2.72 와 −0.11
B. 1.89 와 0.01
C. 3.44 와 −0.52
D. 1.44 와 1.23

문제 5. 단일 설명변수 선형회귀 모형에서 기울기 계수가 0으로 추정되었다. 이 결과의 가장 적절한 해석은?

A. \(Y\) 변수의 평균이 0이다
B. 회귀의 절편이 0이다
C. \(X\)와 \(Y\)의 관계가 선형이 아니다
D. 모형의 결정계수 \(R^2\)가 0이다

Module Quiz 18.2 — 정답 및 해설

문제 1. 정답: D

OLS(최소제곱법)는 잔차의 제곱합 \(\sum e_i^2\)을 최소화하여 모집단 모수의 표본 추정값인 회귀 계수를 구하는 과정입니다. 독립변수의 수를 최대화하거나 최소화하는 것과는 관련이 없습니다. 보기 C는 결과적으로 맞지만, OLS가 "하는" 일의 정의는 잔차 제곱합 최소화입니다.

문제 2. 정답: C

기울기 계수는 독립변수가 1단위 변할 때 종속변수의 예측 변화량입니다. 기울기가 10.0이면, 독립변수가 1단위 변할 때 종속변수는 10단위 변할 것으로 예측됩니다. 보기 A는 절편의 해석이고, 보기 B와 D는 수치적으로 부정확합니다.

문제 3. 정답: D

기울기의 신뢰도는 그 분산에 반비례합니다. \(\text{Var}(\hat{\beta}) = \sigma^2_\varepsilon / (n \cdot \text{Var}(X))\)이므로, 오차항 분산이 클수록 기울기의 분산이 커져(신뢰도 하락) 부정적 영향을 미치고, 독립변수 분산이 클수록 기울기의 분산이 작아져(신뢰도 상승) 긍정적 영향을 미칩니다.

문제 4. 정답: A

\(\text{Cov}(X, Y) = 0.00034\), \(\text{Var}(X) = 0.000125\)

$$\hat{\beta} = \frac{0.00034}{0.000125} = 2.72$$ $$\hat{\alpha} = \bar{Y} - \hat{\beta}\bar{X} = 0.01 - 2.72 \times 0.044 = 0.01 - 0.1197 = -0.11$$

검산: \(\hat{Y}(\bar{X}) = -0.11 + 2.72 \times 0.044 = -0.11 + 0.1197 \approx 0.01 = \bar{Y}\). 정확합니다.

해석: 실업률이 1%p(= 0.01) 증가하면 인플레이션은 약 2.72%p(= 0.01 × 2.72 = 0.0272) 증가할 것으로 예측됩니다. 양(+)의 관계는 비용 인상형 인플레이션(Cost-Push Inflation)과는 다른 패턴이므로, 해석 시 경제적 맥락을 함께 고려해야 합니다.

문제 5. 정답: D

\(\hat{\beta} = 0\)이면, \(\hat{\beta} = \text{Cov}(X,Y) / \text{Var}(X)\)에서 \(\text{Cov}(X,Y) = 0\)이므로 상관계수 \(r_{XY} = 0\)입니다. 단순회귀에서 \(R^2 = r_{XY}^2 = 0^2 = 0\)이 됩니다. 이것은 \(Y\)의 변동 중 \(X\)로 설명되는 부분이 전혀 없다는 뜻입니다. 보기 A(\(Y\)의 평균이 0)와 보기 B(절편이 0)는 도출할 수 없으며, 보기 C는 \(\hat{\beta} = 0\)이 "비선형 관계"를 의미하는 것이 아니라 "선형 관계가 없음"을 의미합니다.


 

 

MODULE 18.3: 가설검정 (Hypothesis Testing)

LO 18.e: 단일 회귀계수에 대한 가설검정과 신뢰구간의 구성, 적용, 해석

LO 18.f: 선형회귀에서 가설검정 수행 절차

LO 18.g: t-통계량, p-값, 신뢰구간의 관계

1. 왜 가설검정이 필요한가

OLS를 통해 기울기 계수를 추정했다고 합시다. 예를 들어, \(\hat{\beta} = 0.76\)이라는 결과를 얻었습니다. 하지만 이 값이 표본의 우연한 변동(Random Fluctuation) 때문에 나온 것인지, 아니면 모집단에서 진짜 0이 아닌 관계가 존재하기 때문인지를 구분해야 합니다. 이것이 가설검정의 핵심 질문입니다. 추정량이 확률변수이므로, 모집단에서 \(\beta = 0\)(관계 없음)이더라도 특정 표본에서는 \(\hat{\beta} = 0.76\)이 나올 수 있습니다. 가설검정은 이 가능성이 얼마나 희박한지를 수량화하여 판단합니다.

2. 가설검정의 세 단계

Step 1: 가설의 설정

검정하고자 하는 귀무가설(Null Hypothesis)과 대립가설(Alternative Hypothesis)을 명확히 설정합니다.

$$H_0: \beta = \beta_0 \qquad \text{vs} \qquad H_A: \beta \neq \beta_0$$

가장 일반적인 경우: \(\beta_0 = 0\) (독립변수와 종속변수 사이에 관계가 없다)

양측검정(Two-Tailed Test)에서는 "\(\beta\)가 \(\beta_0\)보다 큰지 작은지를 특정하지 않고, 단지 같지 않은지"를 검정합니다. 시험에서는 대부분 양측검정이 출제됩니다.

Step 2: 검정통계량의 계산

t-통계량 (t-Statistic) $$t = \frac{\hat{\beta} - \beta_0}{S_{\hat{\beta}}}$$

\(\hat{\beta}\) = 추정된 기울기 계수, \(\beta_0\) = 귀무가설 하의 값, \(S_{\hat{\beta}}\) = 기울기 계수의 표준오차(Standard Error)

이 t-통계량의 직관적 의미는 "추정값이 귀무가설 하의 값으로부터 표준오차 몇 배만큼 떨어져 있는가"입니다. 표준오차는 추정량의 표본분포에서의 표준편차이므로, t-값이 크다는 것은 귀무가설 하에서 현재의 추정값이 나올 가능성이 극히 낮다는 뜻입니다.

단순회귀에서 자유도(Degrees of Freedom)는 \(n - 2\)입니다. \(\alpha\)와 \(\beta\) 두 개의 모수를 추정했으므로, 전체 관측치 수 \(n\)에서 2를 뺍니다.

Step 3: 판정(기각/기각 불가)

계산된 t-통계량의 절대값이 임계값(Critical Value)을 초과하면 귀무가설을 기각합니다.

$$|t| > t_c \quad \Rightarrow \quad H_0 \text{ 기각 (관계가 통계적으로 유의함)}$$ $$|t| \leq t_c \quad \Rightarrow \quad H_0 \text{ 기각 불가 (관계가 통계적으로 유의하지 않음)}$$

예제: 기울기 계수의 가설검정

주어진 정보: \(n = 46\), \(\hat{\beta} = 0.76\), \(S_{\hat{\beta}} = 0.33\), 유의수준 5%, \(t_c = 2.02\) (자유도 44)

가설: \(H_0: \beta = 0\) vs \(H_A: \beta \neq 0\)

Step 1 — 가설 설정: 기울기 계수가 0인지(관계가 없는지) 검정합니다.

Step 2 — 검정통계량 계산:

$$t = \frac{0.76 - 0}{0.33} = \frac{0.76}{0.33} \approx 2.30$$

Step 3 — 판정: \(|t| = 2.30 > 2.02 = t_c\)이므로 귀무가설을 기각합니다. 5% 유의수준에서 기울기 계수는 0과 통계적으로 유의하게 다릅니다. 즉, 독립변수와 종속변수 사이에 유의한 선형 관계가 존재합니다.

3. 신뢰구간(Confidence Interval)

신뢰구간은 가설검정과 논리적으로 동치인 또 다른 판단 방법입니다. 기울기 계수의 95% 신뢰구간은 "이 구간이 진짜 \(\beta\)를 포함할 확률이 95%"라는 의미이며, 다음과 같이 구성됩니다.

기울기 계수의 신뢰구간 $$\hat{\beta} \pm t_c \times S_{\hat{\beta}}$$

\(t_c\) = 주어진 유의수준과 자유도(\(n - 2\))에 해당하는 임계 t-값

예제: 95% 신뢰구간의 구성과 활용

주어진 정보: \(\hat{\beta} = 0.76\), \(S_{\hat{\beta}} = 0.33\), \(t_c = 2.02\)

$$\text{95% 신뢰구간} = 0.76 \pm 2.02 \times 0.33 = 0.76 \pm 0.6666$$ $$\Rightarrow (0.0934, \; 1.4266)$$

해석 1: \(\beta_0 = 0\)이 신뢰구간 밖에 있으므로 \(H_0: \beta = 0\)을 기각합니다. 이것은 앞의 t-검정 결과와 정확히 일치합니다.

해석 2: \(\beta_0 = 0.20\)은 신뢰구간 \((0.0934, 1.4266)\) 안에 있으므로 \(H_0: \beta = 0.20\)은 기각할 수 없습니다. 즉, 추정된 기울기가 0.20과 통계적으로 유의하게 다르다고 말할 수 없습니다.

해석 3: \(\beta_0 = 1.50\)은 신뢰구간 밖에 있으므로 \(H_0: \beta = 1.50\)은 기각됩니다.

핵심 원리: 가설검정과 신뢰구간의 논리적 동치

다음 세 가지 판단은 항상 같은 결론을 도출합니다.

(1) t-검정: \(|t| > t_c\)이면 기각

(2) 신뢰구간: \(\beta_0\)가 구간 밖이면 기각

(3) p-값: \(p < \alpha\)(유의수준)이면 기각

이 세 가지 방법은 동일한 기각/기각 불가 결론을 내며, 시험에서는 이 세 접근법의 일관성을 확인하는 문제가 자주 출제됩니다. 하나의 방법으로 결론을 내렸을 때, 다른 방법으로도 같은 결론이 나오는지 반드시 교차 검증하십시오.

4. p-값(p-Value)의 정확한 이해

p-값은 "귀무가설을 기각할 수 있는 최소 유의수준"으로 정의됩니다. 다시 말해, p-값은 귀무가설이 참이라는 전제 하에, 현재 관측된 검정통계량만큼 또는 그보다 더 극단적인 값이 나올 확률입니다.

p-값을 이용한 판정 $$p\text{-value} < \alpha \quad \Rightarrow \quad H_0 \text{ 기각}$$ $$p\text{-value} \geq \alpha \quad \Rightarrow \quad H_0 \text{ 기각 불가}$$

\(\alpha\) = 유의수준 (예: 0.05, 0.01)

예제: p-값을 이용한 판정

앞의 예제에서 \(\hat{\beta} = 0.76\), \(S_{\hat{\beta}} = 0.33\)이고, 회귀 출력(Regression Output)에서 p-값이 0.026으로 주어졌습니다.

\(p = 0.026 < 0.05 = \alpha\)이므로, 5% 유의수준에서 \(H_0: \beta = 0\)을 기각합니다. 이것은 t-검정 및 신뢰구간 분석과 동일한 결론입니다.

만약 유의수준을 1%로 설정했다면, \(p = 0.026 > 0.01 = \alpha\)이므로 기각할 수 없습니다. 이처럼 p-값이 제공하는 정보는 "어느 유의수준까지 기각이 가능한가"입니다.

시험 함정: p-값에 대한 오해

p-값은 "귀무가설이 참일 확률"이 아닙니다. 이것은 매우 흔한 오해이며, 시험에서 함정으로 자주 활용됩니다. p-값의 정확한 정의는 "귀무가설이 참이라고 가정했을 때, 현재의 관측 결과(또는 더 극단적인 결과)가 나올 확률"입니다. 확률의 대상은 "가설"이 아니라 "데이터"입니다. 이 미묘하지만 결정적인 차이를 반드시 기억하십시오.

또한, 회귀 출력에서 제공되는 p-값은 일반적으로 \(H_0: \beta = 0\)에 대한 것입니다. 다른 값(예: \(\beta_0 = 0.20\))에 대한 검정을 하려면 별도로 t-통계량을 계산해야 합니다.

5. 가설검정의 종합적 사고 흐름

시험에서 가설검정 문제를 만나면 다음의 체계적 흐름을 따르십시오.

단계 질문 확인 사항
1 무엇을 검정하는가? \(H_0\)과 \(H_A\)를 정확히 설정. \(\beta_0\)가 0인지, 다른 값인지 확인
2 검정통계량은? \(t = (\hat{\beta} - \beta_0) / S_{\hat{\beta}}\). 주어진 \(\beta_0\)가 0이 아닐 수 있음에 주의
3 임계값은? 자유도 \(n - 2\), 유의수준(양측/단측) 확인
4 결론은? \(|t| > t_c\)이면 기각. 신뢰구간과 p-값으로 교차검증

Module Quiz 18.3

다음 정보를 이용하여 문제 1–3에 답하시오.

Bob Shepperd는 10년 만기 국채 수익률을 예측하고자 합니다. 여러 설명변수를 사용한 단일 변수 회귀 모형의 결과가 아래와 같습니다. (세 개의 별도 단순회귀 결과임에 유의하십시오.)

설명변수 \(\hat{\beta}\) \(S_{\hat{\beta}}\) p-값 (\(H_0: \beta = 0\))
인플레이션(Inflation) 1.08 0.67 0.11
실업률(Unemployment) -0.50 0.10 < 0.001
GDP 성장률(GDP Growth) 1.33 0.45 0.005

임계 t-값 (5% 유의수준) = 2.02

문제 1. 인플레이션을 설명변수로 사용한 모형에서 기울기 계수의 신뢰구간에 가장 가까운 것은?

A. −0.27 ~ 2.43
B. 0.26 ~ 2.43
C. −2.27 ~ 2.43
D. 0.22 ~ 1.88

문제 2. 실업률을 설명변수로 사용한 모형에서, 기울기 계수가 0.20과 같다는 가설(\(H_0: \beta = 0.20\) vs \(H_A: \beta \neq 0.20\))의 5% 유의수준 검정 결과는?

A. p-값이 0.001 미만이므로 0.20과 유의하게 다르지 않다
B. t-값이 2.33으로 임계값 2.02를 초과하므로 0.20과 유의하게 다르다
C. t-값이 −5.67이므로 0.20과 유의하게 다르다
D. t-값이 −2.33이므로 0.20과 유의하게 다르지 않다

문제 3. GDP 성장률을 설명변수로 사용한 모형에서, 5% 유의수준에서 기울기 계수에 관한 다음 진술 중 가장 부정확한 것은?

A. p-값이 0.005이므로 계수가 0과 유의하게 다르다
B. 95% 신뢰구간에 0이 포함되지 않으므로 계수가 0과 유의하게 다르다
C. t-값이 2.27이므로 계수가 0과 유의하게 다르다
D. t-값이 0.73이므로 계수가 1과 유의하게 다르지 않다

Module Quiz 18.3 — 정답 및 해설

문제 1. 정답: A

인플레이션 모형: \(\hat{\beta} = 1.08\), \(S_{\hat{\beta}} = 0.67\), \(t_c = 2.02\)

$$\text{신뢰구간} = 1.08 \pm 2.02 \times 0.67 = 1.08 \pm 1.3534$$ $$\Rightarrow (-0.27, \; 2.43)$$

0이 이 구간 안에 있으므로, 5% 유의수준에서 기울기 계수는 0과 유의하게 다르지 않습니다. 이것은 p-값 = 0.11 > 0.05의 결론과도 일치합니다. 인플레이션은 이 모형에서 통계적으로 유의한 설명변수가 아닙니다.

문제 2. 정답: C

실업률 모형에서 \(H_0: \beta = 0.20\)을 검정합니다. 주의할 점: 표에서 제공된 p-값(< 0.001)은 \(H_0: \beta = 0\)에 대한 것이므로, \(\beta_0 = 0.20\)에 대해서는 별도로 t-통계량을 계산해야 합니다.

$$t = \frac{\hat{\beta} - \beta_0}{S_{\hat{\beta}}} = \frac{-0.50 - 0.20}{0.10} = \frac{-0.70}{0.10} = -7.00$$

\(|t| = 7.00 > 2.02 = t_c\)이므로 \(H_0: \beta = 0.20\)을 기각합니다. 기울기 계수는 0.20과 통계적으로 유의하게 다릅니다.

보기 C의 t-값 −5.67은 계산과 약간 다르지만, 해당 보기의 결론(유의하게 다르다)이 정확하며, 이것이 출제된 정답입니다. (보기 A는 p-값의 적용 대상을 잘못 파악했고, 보기 B는 t-값이 부정확하며, 보기 D는 결론이 틀렸습니다.)

문제 3. 정답: C

GDP 성장률 모형: \(\hat{\beta} = 1.33\), \(S_{\hat{\beta}} = 0.45\)

보기 A 확인 (정확): p-값 = 0.005 < 0.05이므로 기각. 계수가 0과 유의하게 다릅니다.

보기 B 확인 (정확): 신뢰구간 = 1.33 ± 2.02 × 0.45 = 1.33 ± 0.909 = (0.42, 2.24). 0이 구간 밖에 있으므로 기각.

보기 C 확인 (부정확): \(H_0: \beta = 0\)에 대한 t-값 = 1.33 / 0.45 = 2.96이지, 2.27이 아닙니다. t-값 수치가 잘못되어 있으므로 이 진술이 가장 부정확합니다.

보기 D 확인 (정확): \(H_0: \beta = 1\)에 대한 t-값 = (1.33 − 1) / 0.45 = 0.33 / 0.45 = 0.73. \(|t| = 0.73 < 2.02\)이므로 기각 불가. 계수는 1과 유의하게 다르지 않습니다.


 

 

흔한 함정과 오해 (Common Pitfalls)

번호 함정 올바른 이해
1 "선형 = 변수도 직선 관계"라고 착각 변수는 로그, 제곱근 등으로 변환 가능. 핵심은 계수(모수)에 대한 선형
2 절편을 항상 "\(X = 0\)에서의 의미"로만 해석 \(X = 0\)이 비현실적이면, 절편은 회귀선이 \((\bar{X}, \bar{Y})\)를 지나게 하는 보정 상수
3 \(R^2\)가 높으면 인과관계라고 착각 회귀는 연관(Association)을 측정. 누락변수, 동시성이 있으면 인과 해석 불가
4 통계적 유의성 = 경제적 중요성 표본이 크면 매우 작은 효과도 유의해질 수 있음. 계수의 크기(경제적 규모)도 함께 고려해야 함
5 OLS는 이상치에 강건하다고 생각 OLS는 잔차를 제곱하므로 극단값 몇 개가 기울기를 크게 왜곡할 수 있음
6 p-값 = "귀무가설이 참일 확률" p-값은 "귀무가설이 참이라면 현재 결과(또는 더 극단적 결과)가 나올 확률". 가설의 참/거짓 확률이 아님
7 주어진 p-값을 모든 \(\beta_0\)에 적용 회귀 출력의 p-값은 \(H_0: \beta = 0\)에 대한 것. 다른 \(\beta_0\)에 대해서는 별도 t-통계량 계산 필요
8 "기각 불가" = "귀무가설이 참" 기각 불가는 "귀무가설을 반증할 충분한 증거가 없다"는 의미. 귀무가설이 참이라는 증명이 아님

 

 

KEY CONCEPTS 요약

LO 18.a — 선형회귀의 적용 범위

회귀분석은 종속변수와 독립변수 간의 관계를 선형 방정식으로 추정합니다. 선형회귀를 사용하기 위한 세 가지 조건은 다음과 같습니다. 첫째, \(Y\)와 \(X\)의 관계가 (적절한 변환 후) 선형이어야 합니다. 둘째, 오차항의 분산이 관측 데이터에 독립이어야 합니다. 셋째, 모든 \(X\) 변수가 관측 가능해야 합니다. "선형"은 변수가 아닌 계수(모수)에 대한 선형성을 의미합니다.

LO 18.b — OLS 결과의 해석

절편 \(\hat{\alpha}\)는 독립변수가 0일 때 종속변수의 예측값이며, 기울기 \(\hat{\beta}\)는 독립변수 1단위 변화에 대한 종속변수의 예상 변화량입니다. OLS 회귀선은 반드시 표본 평균점 \((\bar{X}, \bar{Y})\)를 지나갑니다. 기울기는 공분산을 독립변수의 분산으로 나눈 값입니다.

LO 18.c — OLS의 핵심 가정

조건부 평균 0 (\(E(\varepsilon_i \mid X_i) = 0\)), 관측치의 i.i.d. 성질, 독립변수 분산의 양(+), 등분산성(Homoskedasticity), 극단적 이상치의 부재가 핵심 가정입니다. 조건부 평균 0 위배의 원인으로는 생존편의, 동시성, 누락변수, 감쇠편의가 있습니다.

LO 18.d — OLS 추정량의 성질

OLS 추정량 \(\hat{\alpha}\)와 \(\hat{\beta}\)는 각각의 모집단 모수에 대한 비편향(Unbiased)이고 일치적(Consistent)인 추정량입니다. 대표본에서 정규분포에 근사하며, 기울기의 분산은 오차항 분산에 비례하고 독립변수 분산에 반비례합니다.

LO 18.e, 18.f — 가설검정과 신뢰구간

가설검정의 세 단계는 가설 설정, 검정통계량 계산, 판정입니다. t-통계량은 \(t = (\hat{\beta} - \beta_0) / S_{\hat{\beta}}\)이며, 자유도 \(n - 2\)의 t-분포를 따릅니다. 신뢰구간은 \(\hat{\beta} \pm t_c \times S_{\hat{\beta}}\)입니다.

LO 18.g — t-통계량, p-값, 신뢰구간의 관계

세 가지 방법은 동일한 결론을 도출합니다. \(|t| > t_c\)이면 기각, \(\beta_0\)가 신뢰구간 밖이면 기각, \(p < \alpha\)이면 기각입니다. p-값은 귀무가설을 기각할 수 있는 최소 유의수준입니다.

LO 18.h — R²와 상관계수

\(R^2\)는 종속변수 변동 중 독립변수가 설명하는 비율입니다. 단일 독립변수 회귀에서 \(R^2 = r_{XY}^2\)이 성립합니다.


 

 

핵심 공식 체크리스트

번호 공식 의미
1 \(\hat{\beta} = \frac{\text{Cov}(X,Y)}{\text{Var}(X)}\) OLS 기울기 계수
2 \(\hat{\alpha} = \bar{Y} - \hat{\beta}\bar{X}\) OLS 절편 (평균점 통과 보장)
3 \(\hat{Y}(\bar{X}) = \bar{Y}\) 회귀선은 \((\bar{X}, \bar{Y})\)를 지남
4 \(t = \frac{\hat{\beta} - \beta_0}{S_{\hat{\beta}}}\) 기울기 계수의 t-통계량 (자유도 \(n-2\))
5 \(\hat{\beta} \pm t_c \times S_{\hat{\beta}}\) 기울기 계수의 신뢰구간
6 \(R^2 = r_{XY}^2\) 단순회귀에서 결정계수 = 상관계수의 제곱
7 \(R^2 = 1 - \frac{SSE}{SST}\) 결정계수의 일반 정의
8 \(\text{Var}(\hat{\beta}) = \frac{\sigma^2_\varepsilon}{n \cdot \text{Var}(X)}\) 기울기 분산: 오차 분산에 비례, \(X\) 분산에 반비례
9 \(p < \alpha \Rightarrow\) 기각 p-값 판정 규칙
10 더미: \(E(Y \mid D=1) - E(Y \mid D=0) = \beta\) 더미변수의 기울기 = 두 집단 평균 차이

 

 

추가 연습문제

심화 문제 (Advanced Practice)

문제 A. (계산) 다음 정보가 주어졌습니다: \(\bar{X} = 5\), \(\bar{Y} = 12\), \(\sum(X_i - \bar{X})(Y_i - \bar{Y}) = 40\), \(\sum(X_i - \bar{X})^2 = 50\). (1) \(\hat{\beta}\)와 \(\hat{\alpha}\)를 구하시오. (2) 회귀선이 평균점을 지남을 검산하시오.

문제 B. (가설검정 종합) \(n = 30\), \(\hat{\beta} = 1.20\), \(S_{\hat{\beta}} = 0.50\), \(t_c = 2.048\) (5% 유의수준, 자유도 28). (1) \(H_0: \beta = 0\)을 검정하시오. (2) 95% 신뢰구간을 구하시오. (3) \(H_0: \beta = 1\)은 기각되는가?

문제 C. (더미변수) \(Y = \alpha + \beta D + \varepsilon\)에서 \(D = 1\)(1월), \(D = 0\)(그 외). 추정 결과: \(\hat{\alpha} = 0.004\), \(\hat{\beta} = 0.002\). (1) 1월 평균 수익률 예측값은? (2) 1월 효과(1월 − 그 외)는?

추가 연습문제 — 정답 및 해설

문제 A 해설:

(1) \(\hat{\beta} = 40 / 50 = 0.8\), \(\hat{\alpha} = 12 - 0.8 \times 5 = 12 - 4 = 8\)

(2) 검산: \(\hat{Y}(\bar{X}) = 8 + 0.8 \times 5 = 8 + 4 = 12 = \bar{Y}\). 확인 완료.

해석: \(X\)가 1단위 증가하면 \(Y\)는 평균 0.8단위 증가. \(X = 0\)이면 \(Y\)의 예측값은 8.

문제 B 해설:

(1) \(t = (1.20 - 0) / 0.50 = 2.40\). \(|t| = 2.40 > 2.048 = t_c\)이므로 5%에서 기각. 기울기가 0과 유의하게 다릅니다.

(2) 신뢰구간: \(1.20 \pm 2.048 \times 0.50 = 1.20 \pm 1.024 = (0.176, \; 2.224)\). 0이 구간 밖에 있으므로 기각과 일치.

(3) \(\beta_0 = 1\)이 신뢰구간 \((0.176, 2.224)\) 안에 있으므로 \(H_0: \beta = 1\)은 기각할 수 없습니다. t-값으로도 확인: \(t = (1.20 - 1) / 0.50 = 0.40\). \(|t| = 0.40 < 2.048\)이므로 기각 불가. 두 방법의 결론이 일치합니다.

문제 C 해설:

(1) \(D = 1\): \(\hat{Y} = 0.004 + 0.002 = 0.006\), 즉 1월 평균 수익률 예측값은 0.6%.

(2) 1월 효과 = \(\hat{\beta} = 0.002\), 즉 0.2%p. 1월의 수익률이 다른 달보다 평균 0.2%p 높다는 의미입니다.


 

 

다음 Reading과의 연결

Reading 18에서 다룬 단순회귀의 원리는 Reading 19(다중회귀 및 회귀 진단)의 직접적인 기반이 됩니다. 다음 Reading에서는 독립변수가 2개 이상인 경우의 편기울기 계수(Partial Slope Coefficient), 여러 독립변수를 동시에 검정하는 F-검정, 그리고 OLS 가정이 위배되었을 때 발생하는 다중공선성(Multicollinearity), 이분산성(Heteroskedasticity), 자기상관(Autocorrelation) 등의 문제를 다룹니다. 이 모든 주제는 Reading 18의 가정과 추정 원리를 정확히 이해한 상태에서만 의미 있게 학습할 수 있으므로, 반드시 이 단원의 내용을 완전히 소화한 뒤 다음으로 넘어가시기 바랍니다.