본문 바로가기

ML

ML 주니어 엔지니어를 위한 기술면접 질문 모음(1,2,3,4) 보충 1. 베르누이 분포 (Bernoulli Distribution)베르누이 분포는 '성공' 또는 '실패'와 같이 두 가지 결과만 존재하는 단일 시행(single trial)을 모델링하는 가장 기본적인 이산 확률 분포입니다.가. 수식적 정의시행 결과 '성공'이 나올 확률을 $\theta$ $(0 \le \theta \le 1)$라고 할 때, 확률 변수 $X$가 $1$(성공) 또는 $0$(실패)의 값을 갖는다고 정의합니다. 이때 확률 질량 함수(PMF)는 다음과 같습니다.$$ P(X=x)=f(x;\theta)=\theta^{x}(1-\theta)^{1-x}, \quad x\in\{0,1\} $$$X=1$ (성공)일 확률: $P(X=1)=\theta$$X=0$ (실패)일 확률: $P(X=0)=1-\theta$나... 더보기
ML 주니어 엔지니어를 위한 기술면접 질문 모음 4 1. 상태 가치 함수(State-Value Function)에 대한 벨만 기대 방정식(Bellman Expectation Equation)을 작성하세요.상태 가치 함수 $v_{\pi}(s)$는 특정 정책 $\pi$를 따를 때, 상태 $s$에서 시작하여 받을 것으로 기대되는 미래 보상의 총합(리턴)을 의미합니다. 이는 특정 상태가 해당 정책 하에서 얼마나 "좋은지"를 나타내는 척도입니다.벨만 기대 방정식은 이 상태 가치 함수를 재귀적으로 정의하는 핵심적인 관계식입니다. 현재 상태의 가치는 즉시 받는 보상과 다음 상태의 가치로 분해하여 표현할 수 있다는 아이디어를 기반으로 합니다.수식은 다음과 같이 유도되고 표현됩니다.정의: 상태 가치 함수는 시점 $t$에 상태 $S_t=s$에 있을 때의 기대 리턴 $G_t.. 더보기
ML 주니어 엔지니어를 위한 기술면접 질문 모음 3 주요 확률 분포1. 감마 분포(Gamma Distribution)의 정의와 주요 성질을 수식으로 설명해주세요.모범 답안:감마 분포는 양의 실수를 값으로 갖는 연속 확률 분포로, 형상(shape) 매개변수 \(a > 0\)와 비율(rate) 매개변수 \(b > 0\)를 가집니다.확률 밀도 함수 (PDF): \[ Ga(x | a, b) = \frac{b^a}{\Gamma(a)} x^{a-1} e^{-xb} \] 여기서 \(\Gamma(a) = \int_0^\infty u^{a-1}e^{-u}du\)는 감마 함수입니다.주요 성질:기댓값: \(E[X] = \frac{a}{b}\)분산: \(Var[X] = \frac{a}{b^2}\)최빈값 (Mode): \(\frac{a-1}{b}\) (단, \(a \ge 1\).. 더보기
ML 주니어 엔지니어를 위한 기술면접 질문 모음 2 1. 편향-분산 트레이드오프(Bias-Variance Tradeoff)란 무엇인가요?답변:편향(Bias)은 모델이 지나치게 단순하여 데이터의 기저에 있는 관계를 제대로 학습하지 못해 발생하는 오차이고, 분산(Variance)은 모델이 학습 데이터의 노이즈까지 과도하게 학습하여, 다른 데이터셋에 대해서는 예측이 크게 변동하는 경향입니다.편향-분산 트레이드오프는 이 둘 사이의 상충 관계를 의미합니다.수식적 이해실제 데이터가 $y = f(x) + \epsilon$ 이라는 관계를 따른다고 가정해 봅시다. 여기서 $f(x)$는 실제 함수(true function)이고, $\epsilon$은 평균이 0이고 분산이 $\sigma^2$인 노이즈(noise)입니다. 우리가 훈련 데이터로 학습한 모델을 $\hat{f}(x.. 더보기
ML 주니어 엔지니어를 위한 기술면접 질문 모음 1. 경사 하강법(Gradient Descent)의 가중치 업데이트 규칙을 수식으로 설명해 보세요.답변:경사 하강법은 손실 함수(Loss Function)의 값을 최소화하기 위해 가중치(weight)를 반복적으로 업데이트하는 최적화 알고리즘입니다. 가중치 업데이트는 손실 함수의 기울기(gradient) 반대 방향으로 일정 크기(learning rate)만큼 이동하는 방식으로 이루어집니다.시간 $t$에서의 가중치를 $W_t$라고 할 때, 다음 시간 $t+1$에서의 가중치 $W_{t+1}$은 다음과 같이 업데이트됩니다.$$W_{t+1} = W_t - \eta \nabla J(W_t)$$여기서 각 기호의 의미는 다음과 같습니다.$W_{t+1}$: 업데이트될 새로운 가중치$W_t$: 현재 가중치$\eta$ (에.. 더보기
Batch Normalization, Layer Normalization 딥러닝 모델이 깊어질수록 학습이 불안정해지는 문제가 발생합니다. 각 층을 통과하면서 활성화 값의 분포가 계속 바뀌기 때문인데, 이를 내부 공변량 변화(Internal Covariate Shift)라고 합니다. 배치 정규화(BN)와 계층 정규화(LN)는 각 층의 입력을 일정한 분포로 '정규화'하여 이 문제를 해결하고, 학습을 안정적이고 빠르게 만드는 핵심적인 기법입니다.공통 표기법 정의$x$: 정규화 계층에 들어오는 입력(pre-activation). 텐서(Tensor) 형태입니다.$m$: 미니배치(minibatch)의 크기. 즉, 한 번의 경사 하강 단계에서 사용되는 데이터 샘플의 수입니다.$d$: 특징(feature) 차원의 크기. 예를 들어, 자연어 처리 모델(Transformer)에서는 임베딩 벡터.. 더보기