본문 바로가기

ML

ML 주니어 엔지니어를 위한 기술면접 질문 모음 3

 

주요 확률 분포

1. 감마 분포(Gamma Distribution)의 정의와 주요 성질을 수식으로 설명해주세요.

모범 답안:

감마 분포는 양의 실수를 값으로 갖는 연속 확률 분포로, 형상(shape) 매개변수 \(a > 0\)비율(rate) 매개변수 \(b > 0\)를 가집니다.

  • 확률 밀도 함수 (PDF): \[ Ga(x | a, b) = \frac{b^a}{\Gamma(a)} x^{a-1} e^{-xb} \] 여기서 \(\Gamma(a) = \int_0^\infty u^{a-1}e^{-u}du\)는 감마 함수입니다.
  • 주요 성질:
    • 기댓값: \(E[X] = \frac{a}{b}\)
    • 분산: \(Var[X] = \frac{a}{b^2}\)
    • 최빈값 (Mode): \(\frac{a-1}{b}\) (단, \(a \ge 1\))
    • 지수 분포와의 관계: 형상 매개변수 \(a=1\)일 때, 감마 분포는 비율 매개변수 \(b\)를 갖는 지수 분포(Exponential Distribution)가 됩니다. \(Ga(x | 1, b) = b e^{-xb}\)
    • 카이제곱 분포와의 관계: \(Ga(x | \frac{\nu}{2}, \frac{1}{2})\)는 자유도 \(\nu\)인 카이제곱 분포(\(\chi^2(\nu)\))와 같습니다.

2. 베타 분포(Beta Distribution)의 정의와 주요 성질을 수식으로 설명해주세요.

모범 답안:

베타 분포는 [0, 1] 구간에서 정의되는 연속 확률 분포로, 두 개의 양의 형상 매개변수 \(a > 0\)\(b > 0\)를 가집니다. 베르누이/이항 분포의 모수 \(\theta\)에 대한 켤레 사전 분포로 사용됩니다.

  • 확률 밀도 함수 (PDF): \[ Beta(x | a, b) = \frac{1}{B(a, b)} x^{a-1} (1-x)^{b-1} \] 여기서 \(B(a, b) = \frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}\)는 베타 함수입니다.
  • 주요 성질:
    • 기댓값: \(E[X] = \frac{a}{a+b}\)
    • 분산: \(Var[X] = \frac{ab}{(a+b)^2(a+b+1)}\)
    • 최빈값 (Mode): \(\frac{a-1}{a+b-2}\) (단, \(a, b > 1\))
    • 균등 분포와의 관계: \(a=1, b=1\)일 때, 베타 분포는 [0, 1] 구간의 균등 분포(Uniform Distribution)가 됩니다.

3. 정규 분포(Normal Distribution)의 확률 밀도 함수를 수식으로 작성해주세요.

모범 답안:

정규 분포는 평균 \(\mu\)와 분산 \(\sigma^2\)을 파라미터로 가지는 대표적인 연속 확률 분포입니다.

\[ N(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right) \]

4. 베르누이(Bernoulli)와 이항 분포(Binomial Distribution)의 확률 질량 함수를 각각 작성해주세요.

모범 답안:

  • 베르누이 분포 (Bernoulli Distribution): 성공 확률이 \(\theta\)인 단일 시행의 결과를 모델링합니다 (\(x=1\)은 성공, \(x=0\)은 실패). \[ Ber(x|\theta) = \theta^x (1-\theta)^{1-x} \quad \text{for } x \in \{0, 1\} \]
  • 이항 분포 (Binomial Distribution): 성공 확률이 \(\theta\)인 베르누이 시행을 \(n\)번 독립적으로 반복했을 때 성공 횟수 \(k\)의 분포입니다. \[ Bin(k|n, \theta) = \binom{n}{k} \theta^k (1-\theta)^{n-k} \quad \text{for } k \in \{0, 1, ..., n\} \]

5. 푸아송 분포(Poisson Distribution)의 확률 질량 함수를 작성하고, 어떤 현상을 모델링하는 데 사용되는지 설명해주세요.

모범 답안:

푸아송 분포는 단위 시간 또는 단위 공간 내에서 어떤 사건이 발생하는 평균 횟수 \(\lambda\)를 알 때, 실제 발생하는 횟수 \(k\)에 대한 확률 분포입니다.

  • 확률 질량 함수 (PMF): \[ Poi(k|\lambda) = \frac{\lambda^k e^{-\lambda}}{k!} \quad \text{for } k \in \{0, 1, 2, ...\} \]
  • 사용처: 시간당 웹사이트 방문자 수, 1제곱미터당 잡초의 수, 시간당 콜센터에 걸려오는 전화 수 등 희귀 사건의 발생 횟수를 모델링하는 데 사용됩니다.

6. 다항 분포(Multinomial Distribution)의 확률 질량 함수를 작성해주세요.

모범 답안:

다항 분포는 \(K\)개의 카테고리가 있는 시행을 \(n\)번 독립적으로 반복했을 때, 각 카테고리가 \(x_k\)번 관측될 확률 분포입니다. (\(\sum x_k=n\))

\[ Mu(\mathbf{x}|n, \boldsymbol{\theta}) = \frac{n!}{x_1!x_2!...x_K!} \prod_{k=1}^K \theta_k^{x_k} \]

여기서 \(\boldsymbol{\theta} = (\theta_1, ..., \theta_K)\)는 각 카테고리가 선택될 확률 벡터이며 \(\sum_{k=1}^K \theta_k = 1\)입니다.

7. 라플라스 분포(Laplace Distribution)의 확률 밀도 함수를 작성하고, L1 규제와 어떤 관련이 있는지 설명해주세요.

모범 답안:

  • 확률 밀도 함수 (PDF): \[ Lap(x|\mu, b) = \frac{1}{2b} \exp\left(-\frac{|x-\mu|}{b}\right) \]
  • L1 규제와의 관계: 베이즈 관점에서 회귀 모델의 가중치 파라미터 \(w\)에 대한 사전 분포로 라플라스 분포를 가정하고 MAP(Maximum a Posteriori) 추정을 수행하면, 이는 로그 가능도 함수에 L1 규제항을 더한 형태가 됩니다. \[ \arg\max_w \left[ \log p(D|w) + \log p(w) \right] \propto \arg\min_w \left[ -\log p(D|w) + \lambda \sum_j |w_j| \right] \] 이는 라플라스 분포의 로그값이 \(|w|\)에 비례하기 때문이며, 결과적으로 일부 가중치를 정확히 0으로 만들어 변수 선택 효과를 낳습니다.

기본 확률 및 통계 이론

8. 베이즈 정리(Bayes' Theorem)를 수식으로 설명하고, 각 항의 의미를 설명해주세요.

모범 답안:

\[ P(H|E) = \frac{P(E|H)P(H)}{P(E)} = \frac{P(E|H)P(H)}{\sum_{H'} P(E|H')P(H')} \]
  • \(P(H|E)\): 사후 확률 (Posterior Probability) - 증거 \(E\)가 관측되었을 때 가설 \(H\)가 참일 조건부 확률.
  • \(P(E|H)\): 가능도 (Likelihood) - 가설 \(H\)가 참일 때 증거 \(E\)가 관측될 조건부 확률.
  • \(P(H)\): 사전 확률 (Prior Probability) - 증거 \(E\)와 무관하게 가설 \(H\)가 참일 확률.
  • \(P(E)\): 증거 (Evidence) - 모든 가능한 가설에 대한 가능도의 가중 평균으로, 정규화 상수 역할을 합니다.

9. 확률 변수의 기댓값(Expected Value)과 분산(Variance)의 정의를 수식으로 작성해주세요.

모범 답안:

  • 기댓값 (Expected Value): 확률 변수가 가질 수 있는 모든 값들의 가중 평균.
    • 이산 확률 변수: \(E[X] = \sum_{x} x P(x)\)
    • 연속 확률 변수: \(E[X] = \int_{-\infty}^{\infty} x p(x) dx\)
  • 분산 (Variance): 확률 변수가 기댓값으로부터 얼마나 퍼져 있는지의 정도를 측정. \[ Var[X] = E[(X - E[X])^2] = E[X^2] - (E[X])^2 \]

10. 조건부 확률(Conditional Probability)과 통계적 독립(Statistical Independence)의 정의를 수식으로 설명해주세요.

모범 답안:

  • 조건부 확률 (Conditional Probability): 사건 \(B\)가 일어났다는 조건 하에 사건 \(A\)가 일어날 확률. \[ P(A|B) = \frac{P(A \cap B)}{P(B)} \quad (\text{단, } P(B) > 0) \]
  • 통계적 독립 (Statistical Independence): 두 사건 \(A\), \(B\)가 서로 영향을 주지 않음을 의미. \[ P(A \cap B) = P(A)P(B) \] 이로부터 다음이 성립합니다: \(P(A|B) = P(A)\) 그리고 \(P(B|A) = P(B)\).

11. 대수의 법칙(LLN)과 중심 극한 정리(CLT)의 차이점을 수식과 함께 설명해주세요.

모범 답안:

동일한 분포에서 추출된 독립적인 확률 변수 \(X_1, X_2, ..., X_N\)의 표본 평균을 \(\bar{X}_N = \frac{1}{N}\sum_{i=1}^N X_i\)라고 할 때,

  • 대수의 법칙 (Law of Large Numbers): 표본의 크기 \(N\)이 커질수록, 표본 평균이 모평균 \(\mu\)로 수렴한다는 정리입니다. 이는 표본 평균의 '값'에 대한 것입니다. \[ \bar{X}_N \xrightarrow{p} \mu \quad \text{as } N \to \infty \]
  • 중심 극한 정리 (Central Limit Theorem): 표본의 크기 \(N\)이 충분히 클 때, 표본 평균의 분포가 정규 분포를 따른다는 정리입니다. 이는 표본 평균의 '분포 모양'에 대한 것입니다. \[ \frac{\bar{X}_N - \mu}{\sigma/\sqrt{N}} \xrightarrow{d} N(0, 1) \quad \text{as } N \to \infty \]

12. 공분산(Covariance)과 상관 계수(Correlation Coefficient)의 정의를 수식으로 쓰고, 차이점을 설명해주세요.

모범 답안:

  • 공분산 (Covariance): 두 확률 변수 \(X, Y\)가 함께 변하는 정도를 측정. \[ Cov(X, Y) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y] \]
  • 상관 계수 (Correlation Coefficient): 공분산을 각 변수의 표준편차로 나누어 정규화한 값. \[ \rho(X, Y) = \frac{Cov(X, Y)}{\sigma_X \sigma_Y} = \frac{Cov(X, Y)}{\sqrt{Var[X]Var[Y]}} \]
  • 차이점: 공분산은 변수의 단위에 따라 값이 달라지지만, 상관 계수는 \([-1, 1]\) 사이의 값을 가져 단위와 무관하게 두 변수 간의 **선형 관계**의 강도와 방향을 나타냅니다.

13. 체비셰프 부등식(Chebyshev's Inequality)을 수식으로 쓰고 그 의미를 설명해주세요.

모범 답안:

  • 수식: 확률 변수 \(X\)의 기댓값이 \(\mu\)이고 분산이 \(\sigma^2\)일 때, 임의의 양수 \(k > 0\)에 대하여, \[ P(|X - \mu| \ge k) \le \frac{\sigma^2}{k^2} \quad \text{또는} \quad P(|X - \mu| \ge k\sigma) \le \frac{1}{k^2} \]
  • 의미: 이 부등식은 확률 분포의 종류에 상관없이, 특정 확률 변수의 값이 평균으로부터 일정 거리 이상 떨어져 있을 확률의 상한선을 제공합니다. 즉, 데이터가 평균 주변에 얼마나 집중되어 있는지를 대략적으로 알려주는 강력한 도구입니다.

14. 적률 생성 함수(Moment Generating Function, MGF)를 수식으로 정의하고, 이를 통해 n차 적률을 구하는 방법을 설명해주세요.

모범 답안:

  • 정의: 확률 변수 \(X\)의 적률 생성 함수 \(M_X(t)\)는 다음과 같이 정의됩니다. \[ M_X(t) = E[e^{tX}] \]
    • 이산: \(M_X(t) = \sum_x e^{tx} P(X=x)\)
    • 연속: \(M_X(t) = \int_{-\infty}^{\infty} e^{tx} p(x) dx\)
  • n차 적률 계산: MGF를 \(t\)에 대해 \(n\)번 미분하고 \(t=0\)을 대입하면 원점에 대한 \(n\)차 적률 \(E[X^n]\)을 얻을 수 있습니다. \[ E[X^n] = \frac{d^n M_X(t)}{dt^n} \bigg|_{t=0} \]

정보 이론

15. 엔트로피(Entropy)의 정의를 수식으로 쓰고, 그 의미를 설명해주세요. 언제 최대가 되나요?

모범 답안:

엔트로피는 확률 변수의 불확실성(또는 정보량의 기댓값)을 측정하는 지표입니다.

  • 정의: 이산 확률 변수 \(X\)가 가질 수 있는 값이 \(\{x_1, ..., x_K\}\)이고 확률 질량 함수가 \(p(x)\)일 때, \[ H(X) = E[-\log_2 p(X)] = -\sum_{k=1}^{K} p(x_k) \log_2 p(x_k) \]
  • 의미: 엔트로피가 높을수록 결과 예측이 어렵고, 낮을수록 예측이 쉽습니다.
  • 최대 조건: 확률 분포가 균등 분포(Uniform Distribution), 즉 모든 사건이 동일한 확률 \(p(x_k) = 1/K\)로 발생할 때, 엔트로피는 최대값 \(\log_2 K\)를 가집니다.

16. 쿨백-라이블러 발산(Kullback-Leibler Divergence)의 정의를 수식으로 쓰고, 비대칭성에 대해 설명해주세요.

모범 답안:

KL 발산은 두 확률 분포 \(p\)와 \(q\)의 차이를 측정하는 척도입니다.

  • 정의: \[ D_{KL}(p||q) = \sum_{x} p(x) \log \frac{p(x)}{q(x)} = E_{x \sim p}\left[\log \frac{p(x)}{q(x)}\right] \]
  • 비대칭성: KL 발산은 거리가 아니며, 대칭적이지 않아 \(D_{KL}(p||q) \neq D_{KL}(q||p)\) 입니다.
    • \(D_{KL}(p||q)\): 분포 \(q\)를 사용하여 분포 \(p\)를 근사할 때 발생하는 정보 손실을 의미합니다. 만약 \(p(x) > 0\)인데 \(q(x)=0\)이면 KL값은 무한대가 됩니다. (Zero-avoiding)
    • \(D_{KL}(q||p)\): 분포 \(p\)를 사용하여 분포 \(q\)를 근사할 때의 정보 손실을 의미합니다. \(p(x)=0\)인 지점에서 \(q(x)\)도 0이 되도록 강제하는 경향이 있습니다. (Zero-forcing)

17. 상호 정보량(Mutual Information)을 엔트로피와 KL 발산을 이용하여 각각 정의해주세요.

모범 답안:

상호 정보량은 한 확률 변수를 통해 다른 확률 변수에 대해 알게 되는 정보의 양(불확실성 감소량)을 측정합니다.

  • 엔트로피 사용 정의: \[ I(X; Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = H(X) + H(Y) - H(X, Y) \] 여기서 \(H(X|Y)\)는 조건부 엔트로피, \(H(X, Y)\)는 결합 엔트로피입니다.
  • KL 발산 사용 정의: 결합 분포 \(p(x, y)\)와 두 변수가 독립일 때의 분포 \(p(x)p(y)\) 사이의 KL 발산으로 정의할 수 있습니다. \[ I(X; Y) = D_{KL}(p(x, y) || p(x)p(y)) = \sum_x \sum_y p(x,y) \log\frac{p(x,y)}{p(x)p(y)} \]

추론 및 추정

18. 최대 가능도 추정(Maximum Likelihood Estimation, MLE)의 목적 함수를 수식으로 작성하고, 정규 분포의 평균에 대한 MLE를 유도해주세요.

모범 답안:

MLE는 주어진 데이터 \(D = \{x_1, ..., x_N\}\)에 대한 가능도를 최대로 만드는 파라미터 \(\theta\)를 찾는 방법입니다.

  • 목적 함수: 가능도 함수 \(L(\theta; D) = p(D|\theta) = \prod_{i=1}^N p(x_i|\theta)\)를 최대화합니다. 계산의 편의를 위해 로그 가능도 함수 \(\ell(\theta)\)를 사용합니다. \[ \hat{\theta}_{\text{MLE}} = \arg\max_{\theta} \ell(\theta) = \arg\max_{\theta} \sum_{i=1}^N \log p(x_i|\theta) \]
  • 정규 분포 평균 MLE 유도: \(X_i \sim N(\mu, \sigma^2)\)일 때, 로그 가능도는 (분산 \(\sigma^2\)는 상수 취급) \[ \ell(\mu) = \sum_{i=1}^N \log \left( \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i - \mu)^2}{2\sigma^2}\right) \right) = C - \frac{1}{2\sigma^2}\sum_{i=1}^N (x_i - \mu)^2 \] 이를 \(\mu\)에 대해 미분하여 0으로 두면, \[ \frac{\partial\ell}{\partial\mu} = \frac{1}{\sigma^2}\sum_{i=1}^N (x_i - \mu) = 0 \implies \sum x_i - N\mu = 0 \] 따라서, \(\hat{\mu}_{\text{MLE}} = \frac{1}{N}\sum_{i=1}^N x_i = \bar{x}\) 입니다.

19. 최대 사후 확률 추정(Maximum a Posteriori, MAP)의 목적 함수를 수식으로 작성하고, MLE와의 관계를 설명해주세요.

모범 답안:

MAP는 사후 확률 \(p(\theta|D)\)를 최대로 만드는 파라미터 \(\theta\)를 찾는 방법입니다.

  • 목적 함수: 베이즈 정리에 의해 \(p(\theta|D) \propto p(D|\theta)p(\theta)\)이므로, \[ \hat{\theta}_{\text{MAP}} = \arg\max_{\theta} p(\theta|D) = \arg\max_{\theta} p(D|\theta)p(\theta) \] 로그 변환을 하면, \[ \hat{\theta}_{\text{MAP}} = \arg\max_{\theta} \left[ \log p(D|\theta) + \log p(\theta) \right] = \arg\max_{\theta} \left[ \sum_{i=1}^N \log p(x_i|\theta) + \log p(\theta) \right] \]
  • MLE와의 관계: MAP는 MLE의 목적 함수(로그 가능도)에 로그 사전 확률(log prior) \(\log p(\theta)\) 항이 추가된 형태입니다. 이 사전 확률 항은 파라미터에 대한 규제(regularization) 역할을 하여 과적합을 방지하는 효과를 줍니다. 사전 분포가 균등 분포(uniform prior)라면, \(\log p(\theta)\)가 상수가 되어 MAP는 MLE와 같아집니다.

20. 켤레 사전 분포(Conjugate Prior)란 무엇이며, 베타-이항 모델을 예로 들어 수식으로 설명해주세요.

모범 답안:

켤레 사전 분포는 특정 가능도 함수와 결합했을 때, 그 결과로 나오는 사후 분포가 사전 분포와 동일한 분포족(distribution family)에 속하게 만드는 사전 분포를 의미합니다. 이는 베이즈 추론의 계산을 매우 편리하게 만듭니다.

  • 베타-이항 모델 예시:
    • 가능도 (Likelihood): 이항 분포. \(N_1\)번의 성공과 \(N_0\)번의 실패가 관측. \[ p(D|\theta) = \text{Bin}(N_1 | N_1+N_0, \theta) \propto \theta^{N_1}(1-\theta)^{N_0} \]
    • 사전 분포 (Prior): 베타 분포. \[ p(\theta) = \text{Beta}(\theta|a, b) \propto \theta^{a-1}(1-\theta)^{b-1} \]
    • 사후 분포 (Posterior): \[ p(\theta|D) \propto p(D|\theta)p(\theta) \propto \theta^{N_1}(1-\theta)^{N_0} \cdot \theta^{a-1}(1-\theta)^{b-1} = \theta^{N_1+a-1}(1-\theta)^{N_0+b-1} \] 이는 \(\text{Beta}(\theta | N_1+a, N_0+b)\) 분포의 핵(kernel)이므로, 사후 분포 또한 베타 분포가 됩니다. 따라서 베타 분포는 이항 분포의 켤레 사전 분포입니다.

21. p-값(p-value)의 정의는 무엇이며, 유의수준 \(\alpha\)와 어떤 관계가 있나요?

모범 답안:

p-값은 귀무가설(\({H_0}\))이 사실이라고 가정했을 때, 관측된 통계량(test statistic) 혹은 그보다 더 극단적인(대립가설을 지지하는) 값이 나올 확률입니다. 즉, (우측 검정의 경우) \[ \text{p-value} = P(\text{observing test statistic} \ge t_{obs} | H_0 \text{ is true}) \] 계산된 p-값이 미리 정한 유의수준(significance level) \(\alpha\)보다 작으면 (\(p < \alpha\)), 귀무가설을 기각하고 대립가설을 채택합니다. 이는 관측된 결과가 우연히 발생했을 확률이 매우 낮다고 판단하는 것입니다.

22. 신뢰 구간(Confidence Interval)의 정의를 설명해주세요. 정규분포를 따르는 모집단의 평균에 대한 95% 신뢰구간을 구하는 수식을 작성해주세요.

모범 답안:

신뢰 구간은 "동일한 방식으로 표본을 반복 추출했을 때, 그 중 몇 퍼센트의 신뢰 구간이 실제 모수(parameter)를 포함할 것인가"를 나타내는 구간입니다. 주의할 점은, 모수가 특정 신뢰 구간에 포함될 확률이 95%라는 의미가 아닙니다.

모평균 \(\mu\)에 대한 (\(1-\alpha\))\( \times 100\)% 신뢰구간은 (모분산 \(\sigma^2\)을 알 때): \[ \left[ \bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{N}}, \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{N}} \right] \] 여기서 \(\bar{X}\)는 표본 평균, \(N\)은 표본 크기, \(z_{\alpha/2}\)는 표준정규분포의 상위 \(\alpha/2\) 백분위수입니다. 95% 신뢰구간의 경우 \(z_{0.025} \approx 1.96\)입니다.

23. 부트스트랩(Bootstrap)은 어떤 경우에 사용되며, 기본적인 아이디어를 설명해주세요.

모범 답안:

부트스트랩은 통계량의 표집 분포(sampling distribution)를 이론적으로 유도하기 어려울 때, 주어진 데이터로부터 복원추출(sampling with replacement)을 반복하여 표집 분포를 근사하는 방법입니다. 예를 들어, 중앙값이나 분산과 같은 통계량의 신뢰 구간을 구하고 싶을 때 사용합니다.

기본적인 아이디어는 다음과 같습니다:

  1. 원본 데이터 \(D = \{x_1, ..., x_N\}\)에서 \(N\)개의 데이터를 복원추출하여 부트스트랩 표본 \(D^{*b}\)을 생성합니다.
  2. 이 과정을 \(B\)번 반복하여 \(B\)개의 부트스트랩 표본 \(\{D^{*1}, ..., D^{*B}\}\)을 만듭니다.
  3. 각 부트스트랩 표본에 대해 원하는 통계량 \(\hat{\theta}^{*b} = f(D^{*b})\)을 계산합니다.
  4. 계산된 통계량들의 분포 \(\{\hat{\theta}^{*1}, ..., \hat{\theta}^{*B}\}\)가 원래 통계량 \(\hat{\theta}\)의 표집 분포를 근사합니다. 이 분포를 사용하여 신뢰구간을 추정할 수 있습니다.

24. 가설 검정에서 1종 오류(Type I Error)와 2종 오류(Type II Error)를 정의해주세요.

모범 답안:

  • 1종 오류 (Type I Error, \(\alpha\)): 귀무가설(\({H_0}\))이 실제로 참인데도 불구하고 이를 기각하는 오류 (False Positive). \(\alpha = P(\text{Reject } H_0 | H_0 \text{ is true})\)
  • 2종 오류 (Type II Error, \(\beta\)): 대립가설(\({H_1}\))이 실제로 참인데도 불구하고 귀무가설을 기각하지 못하는 오류 (False Negative). \(\beta = P(\text{Fail to Reject } H_0 | H_1 \text{ is true})\)

25. EM 알고리즘에서 E-step과 M-step의 목적을 수식과 함께 설명해주세요.

모범 답안:

EM 알고리즘은 관측 데이터 \(X\)와 잠재 변수 \(Z\)가 있을 때, 가능도 \(p(X|\theta)\)를 최대화하기 위해 사용됩니다.

  • E-step (Expectation): 현재 파라미터 추정치 \(\theta^{(t)}\)를 이용하여, 완전 데이터(complete data) 로그 가능도 \(\log p(X, Z|\theta)\)의 기댓값인 Q 함수를 계산합니다. 이 기댓값은 잠재 변수 \(Z\)의 사후 분포 \(p(Z|X, \theta^{(t)})\)에 대해 계산됩니다. \[ Q(\theta|\theta^{(t)}) = E_{Z|X, \theta^{(t)}}[\log p(X, Z|\theta)] = \sum_Z p(Z|X, \theta^{(t)}) \log p(X, Z|\theta) \]
  • M-step (Maximization): E-step에서 계산한 Q 함수를 최대로 만드는 새로운 파라미터 \(\theta^{(t+1)}\)를 찾습니다. \[ \theta^{(t+1)} = \arg\max_{\theta} Q(\theta|\theta^{(t)}) \]

26. 피셔 정보(Fisher Information)를 수식으로 정의하고, 크라메르-라오 하한(Cramér-Rao Lower Bound)과의 관계를 설명해주세요.

모범 답안:

  • 피셔 정보: 피셔 정보 \(I(\theta)\)는 데이터가 파라미터 \(\theta\)에 대해 얼마나 많은 정보를 담고 있는지를 측정하는 척도입니다. 로그 가능도 함수의 2차 미분값의 기댓값에 음수를 취한 값으로 정의됩니다. \[ I(\theta) = -E\left[\frac{\partial^2}{\partial\theta^2} \log p(X|\theta)\right] = E\left[\left(\frac{\partial}{\partial\theta} \log p(X|\theta)\right)^2\right] \]
  • 크라메르-라오 하한과의 관계: 이 정리는 파라미터 \(\theta\)에 대한 임의의 불편 추정량(unbiased estimator) \(\hat{\theta}\)의 분산이 피셔 정보의 역수보다 작을 수 없음을 보장합니다. \[ Var(\hat{\theta}) \ge \frac{1}{I(\theta)} \] 이는 추정량이 얼마나 정확해질 수 있는지에 대한 이론적 한계(하한)를 제시합니다.

다변량 분석 및 시계열

27. 다변량 정규 분포(Multivariate Normal Distribution)의 확률 밀도 함수를 공분산 행렬 \(\Sigma\)를 사용하여 표현해주세요.

모범 답안:

D차원 확률 벡터 \(\mathbf{x}\)가 평균 벡터 \(\boldsymbol{\mu}\)와 공분산 행렬 \(\Sigma\)를 가질 때,

\[ N(\mathbf{x} | \boldsymbol{\mu}, \Sigma) = \frac{1}{(2\pi)^{D/2} |\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu})\right) \]

여기서 \(|\Sigma|\)는 \(\Sigma\)의 행렬식(determinant)입니다.

28. 마르코프 연쇄(Markov Chain)의 마르코프 속성(Markov Property)과 정상 분포(Stationary Distribution)를 수식으로 설명해주세요.

모범 답안:

마르코프 연쇄는 미래의 상태가 오직 현재 상태에만 의존하여 결정되는 확률적 과정을 모델링한 것입니다. 즉, 과거의 이력 전체가 아닌, 바로 직전의 '현재'만이 미래를 결정한다는 '기억 상실'의 특징을 가집니다.

  • 마르코프 속성 (Markov Property): "미래는 현재에만 의존한다"
    어떤 시점의 상태(예: 오늘의 날씨)가 주어졌을 때, 다음 시점의 상태(내일의 날씨)는 그 이전의 모든 과거(어제, 그저께의 날씨)와는 무관하게 오직 현재 상태에 의해서만 결정된다는 성질입니다.
    수식: 현재 상태가 \(i\), 다음 상태가 \(j\)일 때, 마르코프 속성은 다음과 같이 표현됩니다.\[ P(X_{t+1} = j | X_t = i, X_{t-1} = i_{t-1}, ..., X_0 = i_0) = P(X_{t+1} = j | X_t = i) \]이 식은 \(t+1\) 시점의 상태가 \(j\)가 될 확률은, \(t-1\) 이전의 긴 역사와는 상관없이 오직 \(t\) 시점의 상태가 \(i\)라는 정보에만 의존한다는 것을 의미합니다.
  • 정상 분포 (Stationary Distribution): "변하지 않는 안정적인 상태"
    마르코프 연쇄가 충분한 시간이 지난 후 도달하는 최종적인 평형 상태의 확률 분포를 정상 분포 \(\boldsymbol{\pi}\)라고 합니다. 일단 이 분포에 도달하면, 그 이후로는 시간이 지나도 각 상태에 있을 확률이 변하지 않고 안정적으로 유지됩니다.
    수식: 정상 분포 \(\boldsymbol{\pi}\)는 다음의 방정식을 만족하는 유일한 확률 분포입니다.\[ \boldsymbol{\pi} = \boldsymbol{\pi} \mathbf{A} \quad \text{또는} \quad \boldsymbol{\pi}^T = \mathbf{A}^T \boldsymbol{\pi}^T \]여기서 각 기호의 의미는 다음과 같습니다.
    • \(\boldsymbol{\pi}\): 각 상태에 대한 확률을 원소로 갖는 행 벡터입니다. (예: [\(\pi_{맑음}, \pi_{흐림}, \pi_{비}\)])
    • \(\mathbf{A}\): 전이 확률 행렬(transition probability matrix)입니다. 원소 \(A_{ij}\)는 현재 상태가 \(i\)일 때 다음 상태가 \(j\)로 변할 확률 \(P(X_{t+1}=j | X_t=i)\)를 나타냅니다.
    수식 \(\boldsymbol{\pi} = \boldsymbol{\pi} \mathbf{A}\)는 현재 시스템의 상태 분포가 \(\boldsymbol{\pi}\)일 때, 전이 행렬 \(\mathbf{A}\)를 통해 한 단계를 진행시켜도 그 결과 분포가 여전히 \(\boldsymbol{\pi}\)로 변하지 않음을 의미합니다. 수학적으로 이는 \(\boldsymbol{\pi}\)가 전이 행렬의 전치 행렬 \(\mathbf{A}^T\)에 대한 고유값(eigenvalue) 1에 해당하는 고유벡터(eigenvector)임을 의미하며, MCMC와 같은 알고리즘이 특정 분포로 수렴한다는 이론적 보장을 제공하는 핵심적인 개념입니다.

29. 시계열 데이터의 약한 정상성(Weak-sense stationarity)과 강한 정상성(Strong-sense stationarity)을 비교 설명해주세요.

모범 답안:

정상성(Stationarity)은 시계열의 확률적 특성이 시간에 따라 변하지 않는다는 것을 의미하며, 시계열 분석의 가장 기본적인 가정 중 하나입니다. 정상성은 조건의 강도에 따라 약한 정상성과 강한 정상성으로 나뉩니다.

참고: 자기공분산(Autocovariance)이란?

자기공분산은 한 시계열 내에서 서로 다른 두 시점의 값이 얼마나 선형적으로 연관되어 있는지를 나타내는 척도입니다. 시차(lag) \(k\)에 대한 자기공분산 \(\gamma(k)\)는 다음과 같이 정의됩니다.

\[ \gamma(k) = \text{Cov}(X_t, X_{t-k}) = \mathbb{E}[(X_t - \mu)(X_{t-k} - \mu)] \]

정상 시계열에서는 이 값이 특정 시점 \(t\)가 언제인지와는 무관하고, 오직 두 시점 간의 간격인 \(k\)에만 의존합니다.


  • 약한 정상성 (Weak-sense stationarity):
    시계열 분석에서 일반적으로 사용되는 '정상성'은 대부분 약한 정상성을 의미합니다. 이는 모델링과 예측을 가능하게 하는 최소한의 실용적인 조건으로, 시계열의 1차 모멘트(평균)와 2차 모멘트(자기공분산)가 시간에 따라 변하지 않는다는 것을 의미합니다.
    1. 일정한 평균: \[E[X_t] = \mu\] (모든 시점 \(t\)에 대해 상수)
      시계열 데이터의 평균값이 시간에 따라 변하지 않고 일정하게 유지됩니다.
    2. 일정한 자기공분산: \[Cov(X_t, X_{t-k}) = \gamma(k)\] (시차 \(k\)에만 의존하고 시점 \(t\)와는 무관)
      두 시점 간의 관계는 현재가 언제인지(예: 2023년인지 2024년인지)와는 상관없이, 오직 두 시점의 간격(\(k\))에 의해서만 결정됩니다. 예를 들어, 1월과 2월의 관계는 7월과 8월의 관계와 통계적으로 동일해야 합니다. 이 조건은 분산 역시 \(\gamma(0)\)으로 일정함을 포함합니다.
  • 강한 정상성 (Strong-sense stationarity):
    이는 훨씬 더 강력하고 엄격한 조건으로, 시계열의 모든 결합 확률 분포(joint probability distribution)가 시간에 따른 이동(shift)에 대해 불변임을 의미합니다.\[ P(X_{t_1}, ..., X_{t_k}) = P(X_{t_1+h}, ..., X_{t_k+h}) \]이는 단순히 평균이나 분산뿐만 아니라, 왜도(skewness), 첨도(kurtosis) 등 분포의 모든 모멘트와 특성이 시간에 따라 변하지 않음을 의미합니다. 현실 세계의 데이터에서 강한 정상성을 만족하는 경우는 매우 드물기 때문에 이론적인 중요성에 비해 실제 분석에서는 잘 사용되지 않습니다. 단, 모든 시점의 결합 분포가 정규분포를 따르는 '가우시안 프로세스'의 경우, 약한 정상성을 만족하면 자동으로 강한 정상성도 만족하게 됩니다.

30. 백색 잡음(White Noise) 과정의 정의와 성질을 수식으로 설명해주세요.

모범 답안:

백색 잡음 \(\epsilon_t\)는 정상성을 만족하는 가장 기본적인 시계열이며, 서로 다른 시점의 값들이 상관관계가 없는 확률 과정입니다.

  • 평균: \(E[\epsilon_t] = 0\)
  • 분산: \(Var(\epsilon_t) = E[\epsilon_t^2] = \sigma^2\) (일정)
  • 자기공분산: \(Cov(\epsilon_t, \epsilon_s) = E[\epsilon_t \epsilon_s] = 0\) (for \(t \neq s\))
  • 자기상관함수(ACF): \[ \rho(k) = \begin{cases} 1 & \text{if } k=0 \\ 0 & \text{if } k \neq 0 \end{cases} \]

31. 확률 보행(Random Walk) 과정의 식을 쓰고, 왜 비정상(non-stationary) 시계열인지 설명해주세요.

모범 답안:

  • 식: \(Y_t = Y_{t-1} + \epsilon_t\), 여기서 \(\epsilon_t\)는 백색 잡음이고 \(Y_0=0\)입니다.
    이는 \(Y_t = \sum_{i=1}^t \epsilon_i\) 와 같습니다.
  • 비정상인 이유:
    • 평균: \(E[Y_t] = E[\sum_{i=1}^t \epsilon_i] = \sum_{i=1}^t E[\epsilon_i] = 0\)으로 일정하지만,
    • 분산: \(Var(Y_t) = Var(\sum_{i=1}^t \epsilon_i) = \sum_{i=1}^t Var(\epsilon_i) = t\sigma^2\)으로 시간에 따라 증가합니다.
    분산이 시간에 따라 변하므로, 약한 정상성의 조건을 만족하지 못하여 비정상 시계열입니다.

32. 자기상관함수(ACF)와 부분자기상관함수(PACF)의 차이점을 설명해주세요.

모범 답안:

  • 자기상관함수 (ACF, Autocorrelation Function): 시차 \(k\)에 따른 \(X_t\)와 \(X_{t-k}\) 사이의 **전체** 상관관계를 측정합니다. 즉, 두 시점 사이의 직접적인 영향과 다른 중간 시점들 (\(X_{t-1}, ..., X_{t-k+1}\))을 통한 간접적인 영향을 모두 포함합니다. \[ ACF(k) = \rho_k = Corr(X_t, X_{t-k}) \]
  • 부분자기상관함수 (PACF, Partial Autocorrelation Function): \(X_t\)와 \(X_{t-k}\) 사이에서 중간 시점들 (\(X_{t-1}, ..., X_{t-k+1}\))의 선형적 영향을 제거한 후의 **순수한** 상관관계를 측정합니다. \[ PACF(k) = \phi_{kk} = Corr(X_t - \hat{X}_t, X_{t-k} - \hat{X}_{t-k}) \] 여기서 \(\hat{X}_t\)는 \(X_{t-1}, ..., X_{t-k+1}\)로 \(X_t\)를 선형 예측한 값입니다.

33. AR(p) 모델의 수식을 작성하고, ACF와 PACF의 특징을 설명해주세요.

모범 답안:

AR(Autoregressive, 자기회귀) 모델은 시계열 데이터의 현재 값이 과거 일정 기간의 관측값들의 선형 결합으로 표현된다고 가정하는 모델입니다. 즉, "과거의 자신이 현재의 자신에게 영향을 미친다"는 아이디어에 기반합니다.

  • 수식 (Autoregressive model of order p): \[ X_t = c + \sum_{i=1}^p \phi_i X_{t-i} + \epsilon_t \]
    • \(X_t\): 현재 시점의 관측값
    • \(c\): 상수항 (시계열의 평균과 관련)
    • \(\phi_i\): i번째 과거 시점의 관측값에 대한 가중치 계수
    • \(p\): 모델이 고려하는 과거 시점의 개수 (모델의 차수)
    • \(\epsilon_t\): 현재 시점의 오차항 (평균이 0이고 분산이 \(\sigma^2\)인 백색 잡음)
    이 수식은 현재 값 \(X_t\)가 과거 p개의 값(\(X_{t-1}, \dots, X_{t-p}\))에 의해 예측되며, 예측할 수 없는 무작위적인 충격(\(\epsilon_t\))이 더해져 결정된다는 의미입니다.

ACF와 PACF의 정의와 특징

AR(p) 모델의 차수 p를 식별하기 위해 자기상관함수(ACF)와 편자기상관함수(PACF)의 특징을 활용합니다.

  • ACF (Autocorrelation Function, 자기상관함수)
    정의: 시차(lag) k에 대한 ACF는 현재 시점의 데이터 \(X_t\)와 k 시점 전의 데이터 \(X_{t-k}\) 사이의 상관관계를 의미합니다.
    AR(p) 모델에서의 특징: 지수적으로 감소하거나 진동하는 사인파 형태로 천천히 0으로 수렴합니다 (Tails off).
    이유: AR(p) 모델의 구조상, \(X_{t-1}\)은 \(X_t\)에 직접적인 영향을 미칩니다. 그런데 이 \(X_{t-1}\)은 또다시 자신의 과거인 \(X_{t-2}\)의 영향을 받습니다. 이러한 연쇄적인 효과 때문에, \(X_{t-2}\)의 영향은 \(X_{t-1}\)을 통해 \(X_t\)에 간접적으로 전달됩니다. 이처럼 과거 시점의 영향이 계속해서 누적되어 다음 시점으로 전달되기 때문에, 시차가 멀어지더라도 상관관계가 한 번에 0으로 끊어지지 않고 점차적으로 감소하는 패턴을 보이게 됩니다.
  • PACF (Partial Autocorrelation Function, 편자기상관함수)
    정의: 시차 k에 대한 PACF는 \(X_t\)와 \(X_{t-k}\) 사이의 상관관계를 계산할 때, 그 사이에 있는 모든 데이터(\(X_{t-1}, \dots, X_{t-k+1}\))의 영향을 제거한 순수한 상관관계를 의미합니다.
    AR(p) 모델에서의 특징: 시차 p 이후에 급격히 0으로 절단됩니다 (Cuts off after lag p).
    이유: AR(p) 모델의 수식 정의 그 자체가 바로 \(X_t\)와 과거 시점들 간의 편자기상관관계를 보여줍니다. 수식에 따르면, \(X_t\)는 \(X_{t-1}\)부터 \(X_{t-p}\)까지만 직접적인 선형 관계를 가집니다. \(X_{t-p-1}\)과 같은 더 먼 과거 시점의 영향은 오직 \(X_{t-1}, \dots, X_{t-p}\)를 통해서만 간접적으로 전달될 뿐입니다. 따라서 중간 시점들의 영향을 모두 제거하고 나면, 시차 p를 초과하는 시점(\(k > p\))과 \(X_t\) 사이에는 직접적인 상관관계가 전혀 남지 않게 됩니다. 이 때문에 PACF는 시차 p에서 '뚝' 끊어지는 형태를 보입니다.

34. MA(q) 모델의 수식을 작성하고, ACF와 PACF의 특징을 설명해주세요.

모범 답안:

MA(Moving Average, 이동평균) 모델은 시계열 데이터가 과거의 연속적인 오차(error) 또는 충격(shock)들의 선형 결합으로 표현된다고 가정하는 모델입니다. 현재 시점의 데이터가 과거의 관측값에 의존하는 AR(자기회귀) 모델과 대조됩니다.

  • 수식 (Moving Average model of order q): \[ X_t = \mu + \epsilon_t + \sum_{i=1}^q \theta_i \epsilon_{t-i} \]
    • \(X_t\): 현재 시점의 관측값
    • \(\mu\): 시계열의 평균
    • \(\epsilon_t\): 현재 시점의 오차항 (평균이 0이고 분산이 \(\sigma^2\)인 백색 잡음)
    • \(\theta_i\): i번째 과거 시점의 오차항에 대한 가중치 계수
    • \(q\): 모델이 고려하는 과거 오차항의 개수 (모델의 차수)
    즉, 현재 시점의 값(\(X_t\))은 시계열의 평균(\(\mu\))에 현재의 예측할 수 없는 충격(\(\epsilon_t\))과 과거 q개 시점까지의 충격들(\(\epsilon_{t-1}, \dots, \epsilon_{t-q}\))이 더해져 결정된다는 의미입니다.

ACF와 PACF의 정의와 특징

MA(q) 모델의 차수 q를 식별하기 위해 자기상관함수(ACF)와 편자기상관함수(PACF)의 특징을 활용합니다.

  • ACF (Autocorrelation Function, 자기상관함수)
    정의: 시차(lag) k에 대한 ACF는 현재 시점의 데이터 \(X_t\)와 k 시점 전의 데이터 \(X_{t-k}\) 사이의 상관관계를 의미합니다.
    MA(q) 모델에서의 특징: 시차 q 이후에 급격히 0으로 절단됩니다 (Cuts off after lag q).
    이유: MA(q) 모델의 정의에 따라, \(X_t\)는 \(\epsilon_t, \epsilon_{t-1}, \dots, \epsilon_{t-q}\)에만 의존합니다. 만약 시차 k가 q보다 크다면(\(k > q\)), \(X_t\)와 \(X_{t-k}\)는 공통으로 가지는 오차항(\(\epsilon\))이 하나도 없습니다. 백색 잡음의 정의에 따라 서로 다른 시점의 오차항들은 서로 독립이므로, 두 변수의 공분산은 0이 됩니다. 따라서 상관관계(ACF)도 정확히 0이 되어 그래프가 '뚝' 끊어지는 형태를 보입니다.
    $$ \text{Cov}(X_t, X_{t-k}) = \text{Cov}(\mu + \sum_{i=0}^q \theta_i \epsilon_{t-i}, \mu + \sum_{j=0}^q \theta_j \epsilon_{t-k-j}) = 0 \quad \text{for } k > q $$
  • PACF (Partial Autocorrelation Function, 편자기상관함수)
    정의: 시차 k에 대한 PACF는 \(X_t\)와 \(X_{t-k}\) 사이의 상관관계를 계산할 때, 그 사이에 있는 모든 데이터(\(X_{t-1}, X_{t-2}, \dots, X_{t-k+1}\))의 영향을 제거한 순수한 상관관계를 의미합니다.
    MA(q) 모델에서의 특징: 지수적으로 감소하거나 진동하는 형태로 천천히 0으로 수렴합니다 (Tails off).
    이유: \(X_t\)는 과거 오차항 \(\epsilon_{t-1}\)에 직접적으로 영향을 받습니다. 그런데 이 \(\epsilon_{t-1}\)은 중간에 있는 \(X_{t-1}\) 값에도 영향을 미칩니다. 이처럼 MA 모델에서는 현재 값이 과거의 모든 관측값들과 과거 오차항을 통해 복잡하게 얽혀있습니다. 따라서 중간 시점들의 영향을 제거하더라도, 과거 시점과의 간접적인 상관관계가 여전히 남아있어 0으로 한 번에 절단되지 않고 점차적으로 감소하는 패턴을 보이게 됩니다.

35. ARIMA(p, d, q) 모델에서 차수 d가 의미하는 바는 무엇인가요?

모범 답안:

ARIMA(AutoRegressive Integrated Moving Average) 모델은 비정상 시계열(non-stationary time series) 데이터를 분석하고 예측하기 위해 사용되는 통계 모델입니다. 이 모델은 세 가지 핵심 요소로 구성됩니다.

       
  • AR (AutoRegressive, 자기회귀) - p: 현재 값이 과거 p개의 값에 영향을 받는다는 모델.
  •    
  • I (Integrated, 누적) - d: 비정상 시계열을 정상 시계열로 만들기 위해 필요한 차분(differencing)의 횟수.
  •    
  • MA (Moving Average, 이동평균) - q: 현재 값이 과거 q개의 오차(error)에 영향을 받는다는 모델.

이 중 차수 \(d\)는 차분(differencing)의 횟수를 의미하며, 이는 Integrated (누적)을 나타냅니다. 시계열 데이터가 시간에 따라 평균이나 분산이 변하는 비정상성을 보일 때, 차분을 통해 이를 안정적인 정상 시계열로 변환합니다. \(d\)는 이 정상성을 만족시키기 위해 몇 번의 차분을 적용했는지를 나타내는 값입니다.

       
  • \(d=0\): 시계열이 이미 정상성을 만족하여 차분이 필요 없음 (이 경우 모델은 ARMA(p,q)가 됩니다).
  •    
  • \(d=1\): 1차 차분(\(\nabla X_t = X_t - X_{t-1}\))을 적용하여 시계열을 정상화. 이는 주로 시계열이 추세(trend)를 가질 때 사용됩니다.
  •    
  • \(d=2\): 2차 차분(\(\nabla^2 X_t = (X_t - X_{t-1}) - (X_{t-1} - X_{t-2})\))을 적용하여 시계열을 정상화. 이는 추세가 시간에 따라 변하는(예: 곡선 형태의 추세) 경우에 사용될 수 있습니다.

결론적으로 ARIMA(p, d, q) 모델은 원본 시계열 \(X_t\)를 d번 차분한 새로운 시계열 \(W_t = \nabla^d X_t\)가 안정적인 ARMA(p,q) 모델을 따른다는 것을 의미합니다. 이를 수식으로 표현하면 다음과 같습니다.

\[ W_t = c + \sum_{i=1}^{p} \phi_i W_{t-i} + \sum_{j=1}^{q} \theta_j \epsilon_{t-j} + \epsilon_t \]

여기서 \(W_t\)는 \(d\)번 차분된 시계열입니다.


36. 단위근 검정(Unit Root Test, e.g., ADF test)의 목적과 귀무가설은 무엇인가요?

모범 답안:

  • 목적: 시계열 데이터에 단위근(unit root)이 존재하는지, 즉 확률 보행(random walk)과 같은 비정상 시계열인지 여부를 통계적으로 검정하기 위해 사용됩니다.

단위근(Unit Root)이란 무엇인가?

시계열 데이터의 가장 기본적인 모델 중 하나인 AR(1) 모델을 통해 단위근을 이해할 수 있습니다. AR(1) 모델은 현재 시점의 데이터 \(X_t\)가 바로 이전 시점의 데이터 \(X_{t-1}\)에 의해 결정된다고 봅니다.

\[ X_t = \phi X_{t-1} + \epsilon_t \]
  • \(\epsilon_t\): 백색 잡음(White Noise, 평균 0, 분산 \(\sigma^2\))
  • \(\phi\): 이전 시점의 데이터가 현재에 얼마나 영향을 미치는지 나타내는 계수

여기서 단위근이 존재한다는 것은 계수 \(\phi = 1\)인 특별한 경우를 의미합니다. 이 경우 모델은 다음과 같이 변합니다.

\[ X_t = X_{t-1} + \epsilon_t \]

이 식을 재귀적으로 풀어보면,

\[ X_t = (X_{t-2} + \epsilon_{t-1}) + \epsilon_t = X_{t-2} + \epsilon_{t-1} + \epsilon_t = \dots = X_0 + \sum_{i=1}^{t} \epsilon_i \]

이것이 바로 확률 보행(Random Walk) 모델입니다. 이 모델의 분산을 계산해보면,

\[ \text{Var}(X_t) = \text{Var}(X_0 + \sum_{i=1}^{t} \epsilon_i) = \text{Var}(\sum_{i=1}^{t} \epsilon_i) = t\sigma^2 \]

분산이 시간 \(t\)에 의존하여 계속해서 증가하는 것을 볼 수 있습니다. 평균과 분산이 시간에 따라 변하는 시계열을 비정상(non-stationary) 시계열이라고 합니다. 이러한 비정상 시계열은 분석과 예측을 매우 어렵게 만들고, 서로 관련 없는 변수들 사이에 거짓된 관계가 있는 것처럼 보이는 '허구의 회귀(spurious regression)' 문제를 일으킬 수 있습니다.

따라서 많은 시계열 분석에서는 데이터를 다루기 전에 먼저 단위근 검정을 통해 시계열의 정상성(stationarity) 여부를 확인하는 것이 매우 중요합니다.


  • 귀무가설 (\(H_0\)): 시계열에 단위근이 존재한다 (\(\phi = 1\)). 즉, 시계열은 비정상(non-stationary)이다.
  • 대립가설 (\(H_1\)): 시계열에 단위근이 존재하지 않는다 (\(|\phi| < 1\)). 즉, 시계열은 정상(stationary)이다.

검정 결과 p-값이 설정한 유의수준(예: 0.05)보다 작으면 귀무가설을 기각하고, 시계열이 정상성을 가진다고 판단할 수 있습니다.


37. 선형 동적 시스템(LDS) 또는 칼만 필터(Kalman Filter)의 상태 전이 및 관측 방정식을 수식으로 작성해주세요.

모범 답안:

선형 동적 시스템(Linear Dynamical System, LDS)은 시간에 따라 상태가 변하는 시스템을 선형 방정식으로 모델링하는 방법입니다. 칼만 필터(Kalman Filter)는 이러한 LDS 모델을 기반으로, 노이즈가 포함된 관측값으로부터 시스템의 실제 숨겨진 상태(잠재 상태)를 추정하는 강력한 알고리즘입니다.

예를 들어, 움직이는 로봇의 '진짜 위치와 속도'는 우리가 직접 볼 수 없는 잠재 상태입니다. 우리는 단지 노이즈가 낀 GPS 센서 값과 같은 관측값만을 얻을 수 있습니다. 칼만 필터는 이 관측값을 이용해 진짜 위치와 속도를 가장 확률적으로 높은 값으로 추정해냅니다. 이 과정은 두 개의 핵심 방정식으로 구성됩니다.

  • 상태 전이 방정식 (State Transition Equation): "시스템은 어떻게 움직이는가?"
    이 방정식은 현재 시점(\(t\))의 잠재 상태 \(\mathbf{z}_t\)가 바로 이전 시점(\(t-1\))의 잠재 상태 \(\mathbf{z}_{t-1}\)로부터 어떻게 변하는지를 모델링합니다. 즉, 시스템의 '움직임'을 정의합니다.\[ \mathbf{z}_t = \mathbf{A}\mathbf{z}_{t-1} + \mathbf{w}_t, \quad \mathbf{w}_t \sim N(0, \mathbf{Q}) \]
    • \(\mathbf{z}_t\): 시간 \(t\)에서의 잠재 상태 벡터 (예: [위치, 속도]).
    • \(\mathbf{A}\): 상태 전이 행렬. 이전 상태가 현재 상태에 어떻게 영향을 미치는지 정의합니다 (예: 이전 위치와 속도가 현재 위치에 미치는 영향).
    • \(\mathbf{w}_t\): 과정 잡음 (process noise). 우리가 모델링하지 못한 미세한 외부 요인(예: 바람, 바닥의 마찰)에 의한 상태의 불확실성을 나타내는 가우시안 잡음입니다.
    • \(\mathbf{Q}\): 과정 잡음의 공분산 행렬.
  • 관측 방정식 (Observation Equation): "시스템을 어떻게 측정하는가?"
    이 방정식은 현재 시점(\(t\))의 잠재 상태 \(\mathbf{z}_t\)로부터 우리가 실제로 얻는 관측값 \(\mathbf{y}_t\)가 어떻게 생성되는지를 모델링합니다. 즉, '센서'의 작동 방식을 정의합니다.\[ \mathbf{y}_t = \mathbf{C}\mathbf{z}_t + \mathbf{v}_t, \quad \mathbf{v}_t \sim N(0, \mathbf{R}) \]
    • \(\mathbf{y}_t\): 시간 \(t\)에서의 관측값 벡터 (예: GPS 좌표).
    • \(\mathbf{C}\): 관측 행렬. 실제 잠재 상태가 관측값에 어떻게 반영되는지를 정의합니다 (예: 실제 위치, 속도 중 위치 정보만 GPS 좌표로 변환).
    • \(\mathbf{v}_t\): 측정 잡음 (measurement noise). 센서 자체의 부정확성으로 인해 발생하는 불확실성을 나타내는 가우시안 잡음입니다.
    • \(\mathbf{R}\): 측정 잡음의 공분산 행렬.

38. 칼만 필터의 예측(prediction) 단계와 업데이트(update) 단계의 목적을 설명해주세요.

답변:

칼만 필터(Kalman Filter)는 시간에 따라 변하는 시스템의 내부 상태(state)를 직접 관측할 수 없을 때, 노이즈가 포함된 측정값(measurement)을 바탕으로 그 상태를 재귀적으로 추정하는 최적의 필터입니다. 미사일 추적, 자율 주행 자동차의 위치 추정 등 불확실성이 존재하는 동적 시스템에 널리 사용됩니다.

핵심 아이디어는 "예측하고, 측정값으로 교정하고, 다시 예측하고..."를 반복하는 것입니다. 이를 위해 칼만 필터는 시스템이 어떻게 움직이는지에 대한 수학적 모델(시스템 모델)과, 시스템의 상태를 어떻게 측정하는지에 대한 모델(측정 모델)을 사용합니다.

칼만 필터의 기본 가정 및 수식 정의

칼만 필터는 시스템이 선형(linear)이고, 모든 노이즈가 가우시안 분포(Gaussian distribution)를 따른다고 가정합니다.

  • 시스템 모델 (State Equation): 현재 상태 \(\mathbf{z}_t\)가 이전 상태 \(\mathbf{z}_{t-1}\)로부터 어떻게 변하는지를 나타냅니다.
    \(\mathbf{z}_t = \mathbf{A}\mathbf{z}_{t-1} + \mathbf{w}_{t-1}\), 여기서 \(\mathbf{w}_{t-1} \sim N(0, \mathbf{Q})\) (프로세스 노이즈)
  • 측정 모델 (Measurement Equation): 현재 상태 \(\mathbf{z}_t\)로부터 측정값 \(\mathbf{y}_t\)가 어떻게 얻어지는지를 나타냅니다.
    \(\mathbf{y}_t = \mathbf{C}\mathbf{z}_t + \mathbf{v}_t\), 여기서 \(\mathbf{v}_t \sim N(0, \mathbf{R})\) (측정 노이즈)

칼만 필터는 예측업데이트 두 단계를 재귀적으로 반복하여 상태를 추정합니다.

  • 1. 예측 단계 (Prediction / Time Update):
    목적: 이전 시간(\(t-1\))의 정보만을 사용하여, 현재 시간(\(t\))의 상태가 어떨지 미리 예측합니다. 즉, 시스템 모델을 통해 상태를 한 스텝 진전시키고, 이 과정에서 발생하는 불확실성(프로세스 노이즈)을 반영하여 예측의 불확실성을 업데이트합니다.오차 공분산 예측: $$ \mathbf{P}_{t|t-1} = \mathbf{A}\mathbf{P}_{t-1|t-1}\mathbf{A}^T + \mathbf{Q} $$
  • 상태 예측: $$ \hat{\mathbf{z}}_{t|t-1} = \mathbf{A}\hat{\mathbf{z}}_{t-1|t-1} $$
  • 2. 업데이트 단계 (Update / Measurement Update):
    목적: 예측 단계에서 구한 사전 추정치(\(\hat{\mathbf{z}}_{t|t-1}\))를, 현재 시간에 실제로 얻은 측정값(\(\mathbf{y}_t\))을 이용하여 수정(보정)하는 단계입니다. 예측값과 실제 측정값 사이의 오차를 계산하고, 이 오차를 칼만 이득(Kalman Gain)에 따라 가중하여 최종 추정치를 업데이트합니다.상태 업데이트: $$ \hat{\mathbf{z}}_{t|t} = \hat{\mathbf{z}}_{t|t-1} + \mathbf{K}_t(\mathbf{y}_t - \mathbf{C}\hat{\mathbf{z}}_{t|t-1}) $$
  • 오차 공분산 업데이트: $$ \mathbf{P}_{t|t} = (\mathbf{I} - \mathbf{K}_t\mathbf{C})\mathbf{P}_{t|t-1} $$
  • 칼만 이득 계산: 칼만 이득은 예측의 불확실성과 측정의 불확실성을 비교하여, 둘 중 어디에 더 비중을 둘지 결정하는 가중치입니다. $$ \mathbf{K}_t = \mathbf{P}_{t|t-1}\mathbf{C}^T(\mathbf{C}\mathbf{P}_{t|t-1}\mathbf{C}^T + \mathbf{R})^{-1} $$

39. 스펙트럼 밀도(Spectral Density)는 무엇이며, 자기공분산 함수와 어떤 관계가 있나요?

답변:

스펙트럼 밀도는 시계열의 전체 변동성(분산)을 주파수별로 분해하여 어떤 주기의 패턴이 강하게 나타나는지 분석하는 주파수 영역(frequency domain)에서의 도구입니다. 반면, 자기공분산 함수는 시간의 흐름에 따른 시계열의 상관 구조를 분석하는 시간 영역(time domain)에서의 도구입니다. 이 둘은 서로 동등한 정보를 담고 있으며, 푸리에 변환을 통해 상호 변환이 가능합니다.

자기공분산 함수 (Autocovariance Function)란?

자기공분산은 정상 시계열(stationary time series)에서 현재 시점의 데이터와 k 시점 떨어진(lagged) 과거 시점의 데이터가 얼마나 선형적으로 관련되어 있는지를 측정하는 지표입니다. 즉, 시계열을 k만큼 옆으로 옮겼을 때 원래의 시계열과 얼마나 닮았는지를 나타냅니다.

시차(lag) \(k\)에 대한 자기공분산 함수 \(\gamma(k)\)는 다음과 같이 정의됩니다.

\[ \gamma(k) = \text{Cov}(X_t, X_{t-k}) = \mathbb{E}[(X_t - \mu)(X_{t-k} - \mu)] \]
  • \(X_t\): 시간 \(t\)에서의 시계열 값
  • \(\mu\): 시계열의 평균
  • \(k\): 두 시점 간의 시간 간격 (시차)

\(\gamma(k)\) 값이 크면 \(k\) 시차를 갖는 데이터 포인트들 사이에 강한 양의 상관관계가 있음을, 값이 0에 가까우면 상관관계가 거의 없음을 의미합니다. 특히 \(\gamma(0)\)은 시계열의 분산 \(\text{Var}(X_t)\)과 같습니다.


  • 정의 (스펙트럼 밀도): 스펙트럼 밀도는 정상 시계열의 분산을 주파수(frequency) 성분별로 분해한 것입니다. 즉, 시계열의 전체 변동성 중에서 특정 주파수 \(\omega\)가 얼마나 기여하는지를 나타냅니다. 이를 통해 시계열에 어떤 주기의 패턴(예: 계절성)이 강하게 나타나는지를 분석할 수 있습니다.
  • 관계 (비너-힌친 정리, Wiener–Khinchin theorem): 스펙트럼 밀도 함수 \(f(\omega)\)와 자기공분산 함수 \(\gamma(k)\)는 서로 푸리에 변환(Fourier transform) 관계에 있습니다. \[ f(\omega) = \frac{1}{2\pi} \sum_{k=-\infty}^{\infty} \gamma(k) e^{-i\omega k} \] \[ \gamma(k) = \int_{-\pi}^{\pi} f(\omega) e^{i\omega k} d\omega \] 즉, 한 쪽을 알면 다른 쪽을 계산할 수 있으며, 시간 영역에서의 분석(자기공분산)과 주파수 영역에서의 분석(스펙트럼 밀도)이 통계적으로 동등한 정보를 담고 있음을 의미합니다.

40. 깁스 샘플링(Gibbs Sampling)의 업데이트 과정을 수식으로 표현해주세요.

답변:

샘플링(Sampling)이란?
확률 분포에서 샘플링을 한다는 것은, 동전을 던져 앞/뒤를 확인하거나 주사위를 굴려 숫자를 얻는 것처럼, 특정 확률 모델을 따르는 결과값을 생성하는 행위를 의미합니다. 머신러닝에서는 모델이 학습한 복잡한 확률 분포(예: 베이즈 모델의 사후 분포)에서 구체적인 파라미터 값들을 뽑아내어 분포의 특성을 파악하거나 기댓값을 근사하는 데 사용합니다.

깁스 샘플링(Gibbs Sampling) 소개
깁스 샘플링은 여러 변수가 얽혀있는 다변량 확률 분포 \(p(x_1, ..., x_D)\)에서 직접 샘플링하기 어려울 때 사용하는 대표적인 MCMC(Markov Chain Monte Carlo) 방법입니다. 핵심 아이디어는 "전체를 한 번에 다루기 어려우니, 하나씩 번갈아 가며 다루자"는 것입니다.

즉, D개의 변수를 한 번에 샘플링하는 대신, D-1개의 변수를 특정 값으로 고정시킨 채 나머지 한 개의 변수만 샘플링하는 과정을 모든 변수에 대해 반복합니다. 이 때 각 변수를 샘플링하는 데 사용되는 조건부 확률 분포를 완전 조건부 분포(full conditional distribution)라고 합니다. 깁스 샘플링은 이 완전 조건부 분포들로부터는 샘플링이 쉽다는 것을 전제로 합니다.

깁스 샘플링의 업데이트 과정

\(t\)번째 반복에서, \(\mathbf{x}^{(t)} = (x_1^{(t)}, ..., x_D^{(t)})\) 상태가 주어졌을 때 \(t+1\)번째 샘플 \(\mathbf{x}^{(t+1)}\)은 다음과 같은 순서로 생성됩니다. 각 단계에서는 바로 직전에 업데이트된 최신 값을 사용합니다.

  • 1단계: 다른 모든 변수($x_2$부터 $x_D$)는 \(t\)번째 상태로 고정한 채, $x_1$을 그것의 완전 조건부 분포에서 샘플링하여 \(x_1^{(t+1)}\)을 얻습니다.
    \(x_1^{(t+1)} \sim p(x_1 | x_2^{(t)}, x_3^{(t)}, ..., x_D^{(t)})\)
  • 2단계: 방금 업데이트된 \(x_1^{(t+1)}\)과 나머지 변수들($x_3$부터 $x_D$)을 고정한 채, $x_2$를 그것의 완전 조건부 분포에서 샘플링하여 \(x_2^{(t+1)}\)을 얻습니다.
    \(x_2^{(t+1)} \sim p(x_2 | x_1^{(t+1)}, x_3^{(t)}, ..., x_D^{(t)})\)
  • ...
  • D단계: 이전에 모두 업데이트된 변수들($x_1^{(t+1)}$부터 $x_{D-1}^{(t+1)}$)을 고정한 채, 마지막 변수 $x_D$를 그것의 완전 조건부 분포에서 샘플링하여 \(x_D^{(t+1)}\)을 얻습니다.
    \(x_D^{(t+1)} \sim p(x_D | x_1^{(t+1)}, x_2^{(t+1)}, ..., x_{D-1}^{(t+1)})\)

이 D단계의 과정을 한 번의 반복(iteration)으로 간주하며, 이 과정을 충분히 많이 반복하면 초기값의 영향이 사라지고(burn-in), 이후 생성되는 샘플들은 우리가 목표로 하는 다변량 분포 \(p(x_1, ..., x_D)\)를 따르게 됩니다.


41. MCMC(Markov Chain Monte Carlo) 방법의 목표는 무엇이며, 왜 정상 분포가 중요한가요?

답변:

MCMC(Markov Chain Monte Carlo)는 샘플링하기 어려운 복잡한 확률 분포(주로 베이즈 추론에서의 사후 분포)에서 직접 샘플을 추출하는 대신, 그 분포를 따르는 표본을 효과적으로 생성하기 위한 계산 알고리즘입니다. 이름에서 알 수 있듯, 마르코프 연쇄(Markov Chain)를 구성하여 몬테 카를로(Monte Carlo) 방식으로 샘플링을 수행합니다.

  • 목표: MCMC의 목표는 샘플링하기 어려운 복잡한 확률 분포 \(p(x)\)(주로 베이즈 추론에서의 사후 분포)를 직접 따르지 않더라도, 그 분포로부터 표본을 효과적으로 생성하는 것입니다.
  • 정상 분포의 중요성: MCMC는 목표 분포 \(p(x)\)를 유일한 정상 분포(stationary distribution)로 갖는 마르코프 연쇄를 구성합니다. 이 연쇄를 충분히 오래 실행하면, 에르고딕 정리(ergodic theorem)에 의해 연쇄의 상태 분포는 그 정상 분포인 \(p(x)\)로 수렴합니다. 따라서 연쇄가 정상 상태에 도달한 이후에 생성되는 샘플들은 우리가 원하는 목표 분포 \(p(x)\)에서 추출된 샘플로 간주할 수 있습니다. 정상 분포의 존재와 유일성은 MCMC 샘플이 우리가 원하는 분포로 수렴한다는 것을 이론적으로 보장해주기 때문에 매우 중요합니다.

보충 설명

  • 정상 분포 (Stationary Distribution)란?
    마르코프 연쇄가 특정 분포 \(\pi\)에 도달했을 때, 다음 스텝에서도 계속해서 동일한 분포 \(\pi\)를 유지하는 경우, 이 분포 \(\pi\)를 정상 분포라고 합니다. 즉, 한 스텝을 진행해도 분포가 변하지 않는 '안정 상태'의 분포입니다. 이를 수식으로 표현하면, 현재 상태가 \(x\)에서 다음 상태가 \(x'\)로 전이될 확률을 \(P(x'|x)\)라고 할 때, 다음을 만족하는 분포 \(\pi\)를 의미합니다. $$ \pi(x') = \sum_{x} \pi(x) P(x'|x) $$ MCMC에서는 우리가 샘플링하고자 하는 목표 분포 \(p(x)\)가 바로 이 정상 분포 \(\pi(x)\)가 되도록 마르코프 연쇄를 설계합니다.
  • 에르고딕 정리 (Ergodic Theorem)란?
    마르코프 연쇄가 특정 조건(비주기적이며, 모든 상태가 서로 연결되어 있음)을 만족하면 '에르고딕(ergodic)'하다고 합니다. 에르고딕 정리는 이러한 마르코프 연쇄를 무한히 실행하면, 연쇄가 특정 시작점에 관계없이 항상 정상 분포로 수렴함을 보장합니다. 또한, 연쇄를 따라 샘플링한 값들의 시간 평균은 정상 분포 하에서의 기댓값과 같아집니다. 이것이 바로 MCMC가 작동하는 이론적 근거입니다. 즉, 연쇄를 충분히 돌려서 얻은 샘플들의 평균을 계산하면, 우리가 원하는 분포 \(p(x)\)의 기댓값을 근사할 수 있게 됩니다.

42. 지수족 확률분포(Exponential Family)의 일반적인 형태를 수식으로 표현해주세요.

답변:

지수족(Exponential Family)은 특정 수학적 형태를 공유하는 광범위한 확률 분포 클래스를 의미합니다. 이 형태 덕분에 여러 분포를 하나의 통일된 프레임워크 안에서 분석할 수 있고, 일반화 선형 모델(GLM)과 같은 여러 머신러닝 모델의 이론적 기반이 됩니다. 우리가 흔히 아는 정규분포, 베타, 감마, 베르누이, 다항 분포 등이 모두 지수족에 속합니다.

지수족 확률분포는 다음과 같은 일반적인 형태로 표현할 수 있습니다.

\[ p(x|\eta) = h(x) \exp(\eta^T T(x) - A(\eta)) \]

각 구성 요소의 의미

  • \(\eta\) (eta): 자연 파라미터 (natural parameter) 벡터. 분포의 원래 파라미터(예: 정규분포의 평균 \(\mu\))를 변환한 형태이며, 이 형태로 표현했을 때 수학적 계산이 더 편리해지는 경우가 많습니다.
  • \(T(x)\): 충분 통계량 (sufficient statistic) 벡터. 데이터 \(x\)의 함수로, 파라미터 \(\eta\)를 추정하는 데 필요한 모든 정보를 담고 있는 통계량입니다. 예를 들어, 베르누이 분포에서는 \(T(x) = x\) 입니다.
  • \(A(\eta)\): 로그 정규화 함수 (log-normalizer) 또는 로그 분할 함수(log partition function). 이 함수의 역할은 전체 분포의 합(또는 적분)이 1이 되도록 만들어주는 정규화 상수(normalizing constant)에 로그를 씌운 것입니다. 즉, 확률분포로서의 자격을 갖추게 해줍니다. 수식적으로는 \(A(\eta) = \log \int h(x) \exp(\eta^T T(x)) dx\) 로 정의됩니다.
  • \(h(x)\): 기저 측정치 (base measure). 분포의 형태를 잡아주는 \(x\)에 대한 함수로, 종종 1과 같은 상수로 나타납니다.

예시: 베르누이 분포를 지수족 형태로 변환하기

성공 확률이 \(\mu\)인 베르누이 분포의 확률 질량 함수는 \(p(x|\mu) = \mu^x (1-\mu)^{1-x}\) 입니다. 이를 지수족 형태로 바꿔보겠습니다.

\[ \begin{align*} p(x|\mu) &= \mu^x (1-\mu)^{1-x} \\ &= \exp\left( \log(\mu^x (1-\mu)^{1-x}) \right) \\ &= \exp\left( x\log\mu + (1-x)\log(1-\mu) \right) \\ &= \exp\left( x\log\mu + \log(1-\mu) - x\log(1-\mu) \right) \\ &= \exp\left( x \left( \log\frac{\mu}{1-\mu} \right) + \log(1-\mu) \right) \end{align*} \]

위 식을 일반 형태 \(p(x|\eta) = h(x) \exp(\eta T(x) - A(\eta))\) 와 비교하면 다음과 같이 각 요소를 대응시킬 수 있습니다.

  • \(\eta = \log\frac{\mu}{1-\mu}\) (로짓 함수)
  • \(T(x) = x\)
  • \(A(\eta) = -\log(1-\mu)\). 여기서 \(\eta\)에 대해 \(\mu\)를 정리하면 \(\mu = \frac{1}{1+e^{-\eta}}\) (시그모이드 함수)가 되므로, \(A(\eta) = \log(1+e^\eta)\) 입니다.
  • \(h(x) = 1\)

이처럼 베르누이 분포는 지수족의 일반적인 형태로 표현될 수 있음을 확인할 수 있습니다.


43. 충분 통계량(Sufficient Statistic)이란 무엇인가요?

모범 답안:

통계량 \(T(X)\)가 모수 \(\theta\)에 대한 충분 통계량이라는 것은, 데이터 샘플 \(X\)가 모수 \(\theta\)에 대해 가지는 모든 정보를 통계량 \(T(X)\)가 전부 포함하고 있다는 의미입니다.

피셔-네이만 인수분해 정리 (Fisher-Neyman Factorization Theorem)에 따르면, \(T(X)\)가 충분 통계량일 필요충분조건은 확률(밀도)함수 \(p(X|\theta)\)가 다음과 같이 두 함수의 곱으로 표현되는 것입니다.

\[ p(X|\theta) = h(X) g(T(X), \theta) \]

여기서 \(h(X)\)는 \(\theta\)에 의존하지 않고, \(g\)는 오직 \(T(X)\)를 통해서만 데이터 \(X\)에 의존합니다. 이는 모수 추정을 위해 전체 데이터 \(X\)를 저장할 필요 없이 충분 통계량 \(T(X)\)만 저장해도 충분함을 의미합니다.

44. 재현율(Recall)과 특이도(Specificity)를 혼동행렬(TP, FN, FP, TN)의 항으로 정의해주세요.

모범 답안:

혼동 행렬(Confusion Matrix)의 네 가지 요소는 다음과 같습니다:

  • TP (True Positive): 실제 Positive를 Positive로 올바르게 예측.
  • FN (False Negative): 실제 Positive를 Negative로 잘못 예측.
  • FP (False Positive): 실제 Negative를 Positive로 잘못 예측.
  • TN (True Negative): 실제 Negative를 Negative로 올바르게 예측.
  • 재현율 (Recall / Sensitivity / True Positive Rate, TPR): 실제 Positive 샘플 중에서 모델이 Positive로 올바르게 예측한 샘플의 비율. \[ \text{Recall} = \frac{TP}{TP + FN} \]
  • 특이도 (Specificity / True Negative Rate, TNR): 실제 Negative 샘플 중에서 모델이 Negative로 올바르게 예측한 샘플의 비율. \[ \text{Specificity} = \frac{TN}{TN + FP} \]

45. 가능도 비 검정(Likelihood Ratio Test)의 검정 통계량을 수식으로 쓰고, 그 점근적 분포를 설명해주세요.

모범 답안:

가능도 비 검정(LRT)은 두 개의 중첩된(nested) 통계 모델 중 어떤 모델이 데이터에 더 잘 맞는지를 검정하는 데 사용됩니다.

  • 검정 통계량 \(\Lambda\) (Test Statistic): \[ \Lambda(x) = -2 \log \left[ \frac{\sup_{\theta \in \Theta_0} L(\theta|x)}{\sup_{\theta \in \Theta} L(\theta|x)} \right] = 2 \left( \ell(\hat{\theta}) - \ell(\hat{\theta}_0) \right) \] 여기서 \(L(\theta|x)\)는 가능도 함수, \(\ell(\theta)\)는 로그 가능도 함수입니다. \(\Theta_0\)는 귀무가설 하의 더 작은 파라미터 공간, \(\Theta\)는 대립가설 하의 더 큰 파라미터 공간입니다. \(\hat{\theta}_0\)와 \(\hat{\theta}\)는 각 공간에서 가능도를 최대화하는 MLE 추정치입니다.
  • 점근 분포 (Asymptotic Distribution): 귀무가설 \(H_0: \theta \in \Theta_0\)가 참일 때, 표본 크기가 충분히 크면 검정 통계량 \(\Lambda\)는 카이제곱 분포(\(\chi^2\))를 따릅니다. \[ \Lambda(x) \xrightarrow{d} \chi^2_k \] 여기서 자유도 \(k\)는 두 파라미터 공간의 차원 차이입니다: \(k = \dim(\Theta) - \dim(\Theta_0)\).

46. 이산 확률 변수와 연속 확률 변수의 누적 분포 함수(CDF)의 정의를 각각 수식으로 작성해주세요.

모범 답안:

누적 분포 함수(Cumulative Distribution Function) \(F_X(x)\)는 확률 변수 \(X\)가 특정 값 \(x\)보다 작거나 같을 확률을 나타냅니다: \(F_X(x) = P(X \le x)\).

  • 이산 확률 변수: \[ F_X(x) = \sum_{k \le x} P(X=k) \] 여기서 합산은 \(x\)보다 작거나 같은 모든 가능한 값 \(k\)에 대해 이루어집니다. CDF는 계단 함수 형태를 띱니다.
  • 연속 확률 변수: \[ F_X(x) = \int_{-\infty}^{x} f(t) dt \] 여기서 \(f(t)\)는 확률 밀도 함수(PDF)입니다. PDF를 적분하면 CDF를 얻고, CDF를 미분하면 PDF를 얻습니다: \(\frac{d}{dx}F_X(x) = f(x)\).

47. 확률변수의 독립(Independence)과 조건부 독립(Conditional Independence)을 수식으로 정의하고 비교 설명해주세요.

모범 답안:

  • 독립 (Independence): 두 확률 변수 \(X, Y\)가 독립이라는 것은 한 변수의 값이 다른 변수에 대한 정보를 전혀 제공하지 않음을 의미합니다. \[ P(X, Y) = P(X)P(Y) \quad \text{또는} \quad P(X|Y) = P(X) \]
  • 조건부 독립 (Conditional Independence): 두 확률 변수 \(X, Y\)가 주어진 다른 변수 \(Z\)에 대해 조건부 독립이라는 것은, \(Z\)의 값을 알고 나면 \(X\)와 \(Y\)는 서로 독립이 됨을 의미합니다. \[ P(X, Y | Z) = P(X | Z)P(Y | Z) \quad \text{또는} \quad P(X|Y, Z) = P(X|Z) \]
  • 비교: 두 개념은 다릅니다. 두 변수가 독립이 아니더라도, 특정 조건 \(Z\)가 주어지면 조건부 독립이 될 수 있습니다 (예: Z가 공통 원인). 반대로, 독립인 두 변수가 특정 조건 하에서는 조건부 종속이 될 수도 있습니다 (예: Z가 공통 결과, 설명 효과).

48. 이항 분포와 정규 분포의 관계는 무엇인가요?

모범 답안:

드무아브르-라플라스 정리 (De Moivre-Laplace Theorem)에 따르면, 이항 분포 \(Bin(n, p)\)는 특정 조건 하에서 정규 분포로 근사할 수 있습니다.

시행 횟수 \(n\)이 충분히 크고, \(np > 5\)이고 \(n(1-p) > 5\)를 만족할 때, 이항 분포는 평균 \(\mu=np\)이고 분산 \(\sigma^2=np(1-p)\)인 정규 분포 \(N(np, np(1-p))\)로 근사할 수 있습니다. \[ \text{If } X \sim Bin(n, p) \text{ and } n \text{ is large, then } \frac{X-np}{\sqrt{np(1-p)}} \approx N(0,1) \] 이는 이산 분포인 이항 분포의 확률 계산을 연속 분포인 정규 분포를 통해 근사적으로 계산할 수 있게 해줍니다(연속성 수정 포함).

49. 이항 분포와 푸아송 분포의 관계는 무엇인가요?

모범 답안:

이항 분포 \(Bin(n, p)\)는 시행 횟수 \(n\)이 매우 크고(\({n \to \infty}\)) 성공 확률 \(p\)가 매우 작을 때(\({p \to 0}\)), \(\lambda=np\)를 평균으로 갖는 푸아송 분포 \(Poi(\lambda)\)로 근사할 수 있습니다.

수학적으로, \(n \to \infty\)이고 \(p \to 0\)일 때, \(np \to \lambda\) (상수)이면, \[ \binom{n}{k} p^k (1-p)^{n-k} \to \frac{\lambda^k e^{-\lambda}}{k!} \] 이를 희귀 사건의 법칙(Law of Rare Events)이라고도 합니다. 예를 들어, 매우 많은 사람 중 특정 희귀병에 걸릴 사람의 수를 모델링할 때 사용할 수 있습니다.

50. 정보량(Information)의 정의를 수식으로 작성하고, 확률이 낮은 사건일수록 정보량이 큰 이유를 설명해주세요.

모범 답안:

  • 정의: 특정 사건 \(x\)가 발생했다는 것을 알게 되었을 때 얻는 정보의 양, 즉 자기 정보량(self-information) 또는 놀람의 정도(surprisal)는 다음과 같이 정의됩니다. \[ I(x) = -\log_b p(x) \] 여기서 \(p(x)\)는 사건 \(x\)의 발생 확률이며, 로그의 밑 \(b\)에 따라 단위가 결정됩니다 (\(b=2\)일 때 비트(bit), \(b=e\)일 때 내트(nat)).
  • 이유: 로그 함수 \(\log(p)\)는 \(p \in (0, 1]\) 구간에서 단조 증가 함수입니다. 따라서 확률 \(p(x)\)가 0에 가까워질수록 (즉, 사건이 거의 일어나지 않을수록), \(\log p(x)\)는 음의 무한대로 발산합니다. 여기에 음수 부호를 붙인 \(-\log p(x)\)는 양의 무한대로 발산하게 됩니다. 이는 직관과 일치하는데, 거의 일어나지 않을 것이라 예상했던 희귀한 사건(e.g., 월드컵에서 약팀이 우승)이 실제로 발생했다는 소식을 들었을 때 우리가 더 많은 "놀라움" 또는 "정보"를 얻기 때문입니다.