본문 바로가기

Financial Engineering/ALGORITHMIC AND HIGH-FREQUENCY TRADING

Chapter 3. Empirical and Statistical Evidence: Prices and Returns

AHFT Chapter 3 — Empirical and Statistical Evidence: Prices and Returns

 

Algorithmic and High-Frequency Trading
Chapter 3 — Empirical and Statistical Evidence: Prices and Returns 기반: Álvarez-Ramírez, Cartea, Jaimungal, Penalva (AHFT) | 완전 한국어 해설판

Part A — 선수지식: 이 장을 이해하기 위한 수학적 기초

Chapter 3의 실증적 내용을 제대로 이해하려면 시장미시구조의 기본 개념, 확률공간과 조건부기대의 엄밀한 정의, 자기상관 분석, 점과정 이론, 그리고 평균회귀 모형에 관한 기초가 필요하다. 이 절은 그 토대를 체계적으로 쌓는다. 각 개념은 단순한 정의에 그치지 않고, 왜 그 개념이 필요한지와 Chapter 3의 실증 분석과 어떻게 연결되는지까지 서술한다.

A.1 시장 배관(Market Plumbing): 호가, 스프레드, 틱 크기

고빈도 데이터를 다루기 전에, 가격이 어떻게 생성되는지부터 명확히 해야 한다. 시장에서 관측되는 가격은 연속적인 확산 과정처럼 주어지는 것이 아니라, 주문 흐름의 산물이다. 지정가주문, 시장가주문, 그리고 그들이 만들어내는 호가창이 가격 변화의 물리적 메커니즘이다.

정의 A.1.1 — 지정가주문(Limit Order, LO)

지정가주문은 가격과 수량을 지정하여, 그 가격 이상(매도) 또는 이하(매수)로만 체결되도록 제출되는 주문이다. 지정가주문은 즉시 체결되지 않을 경우 호가창(limit order book)에 대기한다. 유동성을 공급(make)하는 역할을 한다.

정의 A.1.2 — 시장가주문(Market Order, MO)

시장가주문은 즉시 체결을 우선하고, 현재 호가창에 있는 반대편 지정가주문과 즉시 매칭되는 주문이다. 유동성을 소비(take)하는 역할을 하며, 체결 가격은 상대방의 지정가에 의해 결정된다.

정의 A.1.3 — 최우선 매수·매도호가, 스프레드, 미드프라이스

시각 \(t\)의 최우선 매수호가(best bid)를 \(b_t\), 최우선 매도호가(best ask)를 \(a_t\)라 하자. 항상 \(a_t > b_t\)이다. 그러면:

Quoted spread:

$$\text{spread}_t = a_t - b_t$$

Midprice:

$$m_t = \frac{a_t + b_t}{2}$$

스프레드는 유동성 공급자가 요구하는 "왕복 비용"이다. 시장가 매수 후 즉시 시장가 매도를 하면 spread만큼의 손실이 발생한다. 미시구조 이론에서 스프레드는 세 성분의 합으로 분해된다: (i) 주문처리비용(order-processing cost), (ii) 재고위험(inventory risk), (iii) 역선택(adverse selection). 따라서 스프레드가 넓어졌다는 사실은 단순히 유동성 부족이 아니라, 유동성 공급자가 더 큰 정보 위험을 반영하고 있다는 신호일 수 있다.

정의 A.1.4 — 틱 크기(Tick Size)와 가격 격자

거래소가 허용하는 최소 가격단위를 틱 크기라 한다. 실제 가격은 연속 실수가 아니라 격자

$$\{k\delta : k \in \mathbb{Z}\}$$

위에서만 움직인다. 여기서 \(\delta > 0\)는 틱 크기다. 미국 주식시장에서 틱 크기는 일반적으로 \(\delta = \$0.01\)이다. 이 이산성은 일중 수익률 분포에서 질량점(point mass)을 만들어내고, 연속시간 확산 모형이 극히 짧은 시간 단위에서 적합하지 않을 수 있음을 시사한다.

이 명제에서 쓰는 정의

가격 격자: 모든 호가가 최소 틱 크기 \(\delta>0\)의 배수로만 형성되면 허용 가격 집합은 \(\delta\mathbb Z\)이다.

최우선 매수호가와 매도호가: \(b_t\)는 시각 \(t\)의 최우선 매수호가, \(a_t\)는 최우선 매도호가다.

호가 스프레드: quoted spread는 \(a_t-b_t\)로 정의된다. 가격이 격자 위에 놓이면 스프레드 역시 \(\delta\)의 정수배가 된다.

명제 A.1.5 — 틱 크기가 스프레드의 하한임

\(a_t, b_t \in \delta\mathbb Z\)이고 \(a_t > b_t\)이면

$$a_t - b_t \geq \delta.$$

증명. 가정 \(a_t, b_t\in \delta\mathbb Z\)의 뜻부터 적는다. 어떤 정수 \(k,\ell\in\mathbb Z\)가 존재하여

$$a_t=k\delta,\qquad b_t=\ell\delta$$

라고 쓸 수 있다는 뜻이다. 이제 두 값을 빼면

$$a_t-b_t=(k-\ell)\delta.$$

여기서 \(k-\ell\)은 정수이므로 \(a_t-b_t\)는 \(\delta\)의 정수배이다. 또 가정에 의해 \(a_t>b_t\)이므로

$$a_t-b_t>0.$$

위 두 식을 함께 쓰면 어떤 양의 정수 \(m\in\mathbb N\)가 존재하여

$$a_t-b_t=m\delta$$

라고 쓸 수 있다. 양의 정수의 최솟값은 \(1\)이므로

$$m\ge1.$$

따라서

$$a_t-b_t=m\delta\ge1\cdot\delta=\delta.$$

결국 quoted spread는 틱 크기보다 작아질 수 없다. 이 명제가 의미하는 바는 스프레드가 순전히 정보비용과 재고비용의 결과만은 아니라는 점이다. 시장 제도가 허용하는 가격 격자 자체가 스프레드의 기계적 하한을 만든다.

A.2 Bid-Ask Bounce와 1차 음의 자기공분산

고빈도 데이터에서 관찰되는 가장 중요한 현상 중 하나는 거래가격의 1시차 음의 자기상관이다. 이것이 진정한 평균회귀 신호인지, 아니면 순수한 거래 메커니즘 효과인지를 구별하는 것이 Chapter 3의 핵심 주제 중 하나이다.

모형: 거래가격 = 잠재 효율가격 + 미시구조 잡음

거래가격 \(P_t\)가 잠재 효율가격(latent efficient price) \(V_t\)와 trade sign에 따라 결정된다고 하자.

$$P_t = V_t + q_t \frac{s}{2}, \qquad q_t \in \{-1, +1\}$$

여기서 \(s\)는 고정된 quoted spread, \(q_t = +1\)이면 ask에서 체결(buyer-initiated), \(q_t = -1\)이면 bid에서 체결(seller-initiated)이다. 수익률을 \(r_t := \Delta P_t = P_t - P_{t-1}\)로 정의하면

$$r_t = \Delta V_t + \frac{s}{2}(q_t - q_{t-1})$$

이다. 미시구조 성분을 \(u_t := \frac{s}{2}(q_t - q_{t-1})\)로 쓰면 \(r_t = \Delta V_t + u_t\)이다.

이 정리에서 쓰는 정의

효율가격: \(V_t\)는 정보가 즉시 반영된 잠재가격이며 거래 상대가 bid와 ask 어느 쪽에서 체결되었는지를 반영하지 않는 가격이다.

거래부호: \(q_t\in\{-1,+1\}\)는 거래가 ask에서 체결되면 \(+1\), bid에서 체결되면 \(-1\)이다.

공분산: 적분가능한 확률변수 \(X,Y\)의 공분산은 \(\operatorname{Cov}(X,Y)=\mathbb E[(X-\mathbb E[X])(Y-\mathbb E[Y])]\)로 정의된다. 평균이 0이면 \(\operatorname{Cov}(X,Y)=\mathbb E[XY]\)이다.

정리 A.2.1 — Bid-Ask Bounce의 1시차 공분산 계산

다음 가정을 둔다. 첫째, 효율가격 변화 \(\Delta V_t\)는 \(\mathbb E[\Delta V_t]=0\)이고 서로 다른 시점 사이에 공분산이 0이다. 둘째, 거래 방향 변수 \(q_t\in\{-1,+1\}\)는 iid이며 \(\mathbb E[q_t]=0\), \(q_t^2=1\) almost surely 이다. 셋째, \(\Delta V_t\)는 모든 \(q_s\)와 공분산이 0이다. 그러면 거래수익률 \(r_t=\Delta V_t+\frac{s}{2}(q_t-q_{t-1})\)에 대하여

$$\operatorname{Cov}(r_t,r_{t-1})=-\frac{s^2}{4}$$

증명. 먼저 계산에 등장하는 각 항의 평균을 확인한다. \(\mathbb E[\Delta V_t]=0\)는 가정이다. 또한

$$\mathbb E\!\left[\frac{s}{2}(q_t-q_{t-1})\right]=\frac{s}{2}(\mathbb E[q_t]-\mathbb E[q_{t-1}])=0$$

이므로

$$\mathbb E[r_t]=\mathbb E[\Delta V_t]+\frac{s}{2}(\mathbb E[q_t]-\mathbb E[q_{t-1}])=0.$$

따라서 공분산은 단순히 곱의 기대값이다.

$$\operatorname{Cov}(r_t,r_{t-1})=\mathbb E[r_t r_{t-1}].$$

이제 \(u_t:=\frac{s}{2}(q_t-q_{t-1})\)라고 놓으면 \(r_t=\Delta V_t+u_t\), \(r_{t-1}=\Delta V_{t-1}+u_{t-1}\)이다. 곱을 전개하면

$$r_t r_{t-1}=\Delta V_t\Delta V_{t-1}+\Delta V_tu_{t-1}+u_t\Delta V_{t-1}+u_tu_{t-1}.$$

양변의 기대값을 취한다.

$$\mathbb E[r_t r_{t-1}]=\mathbb E[\Delta V_t\Delta V_{t-1}]+\mathbb E[\Delta V_tu_{t-1}]+\mathbb E[u_t\Delta V_{t-1}]+\mathbb E[u_tu_{t-1}].$$

가정에 의해 첫째 항은 0이다.

$$\mathbb E[\Delta V_t\Delta V_{t-1}]=0.$$

둘째, 셋째 항도 \(\Delta V\)와 \(q\)류 변수의 비상관 가정 때문에 0이다. 실제로 \(u_{t-1}=\frac{s}{2}(q_{t-1}-q_{t-2})\)이므로

$$\mathbb E[\Delta V_tu_{t-1}]=\frac{s}{2}\Big(\mathbb E[\Delta V_tq_{t-1}]-\mathbb E[\Delta V_tq_{t-2}]\Big)=0,$$ $$\mathbb E[u_t\Delta V_{t-1}]=\frac{s}{2}\Big(\mathbb E[q_t\Delta V_{t-1}]-\mathbb E[q_{t-1}\Delta V_{t-1}]\Big)=0.$$

따라서 남는 것은 \(\mathbb E[u_tu_{t-1}]\)뿐이다. 이를 직접 계산한다.

$$u_tu_{t-1}=\frac{s^2}{4}(q_t-q_{t-1})(q_{t-1}-q_{t-2}).$$

괄호를 전개하면

$$u_tu_{t-1}=\frac{s^2}{4}\Big(q_tq_{t-1}-q_tq_{t-2}-q_{t-1}^2+q_{t-1}q_{t-2}\Big).$$

이제 기대값을 항별로 계산한다. iid이고 평균이 0이므로 서로 다른 시점의 곱의 기대값은 곱의 기대값으로 분리되어 0이 된다.

$$\mathbb E[q_tq_{t-1}]=\mathbb E[q_t]\mathbb E[q_{t-1}]=0,$$ $$\mathbb E[q_tq_{t-2}]=\mathbb E[q_t]\mathbb E[q_{t-2}]=0,$$ $$\mathbb E[q_{t-1}q_{t-2}]=\mathbb E[q_{t-1}]\mathbb E[q_{t-2}]=0.$$

반면 \(q_{t-1}^2=1\) almost surely 이므로

$$\mathbb E[q_{t-1}^2]=1.$$

그래서

$$\mathbb E[u_tu_{t-1}]=\frac{s^2}{4}(0-0-1+0)=-\frac{s^2}{4}.$$

모든 결과를 합치면

$$\mathbb E[r_t r_{t-1}]=0+0+0-\frac{s^2}{4}=-\frac{s^2}{4}.$$

이미 \(\mathbb E[r_t]=\mathbb E[r_{t-1}]=0\)임을 확인했으므로

$$\operatorname{Cov}(r_t,r_{t-1})=\mathbb E[r_t r_{t-1}]-\mathbb E[r_t]\mathbb E[r_{t-1}]=-\frac{s^2}{4}.$$

정리가 증명되었다.

핵심 해석 — 음의 ACF가 반드시 전략 신호가 아닌 이유

위 계산의 핵심 메시지는, intraday의 음의 자기상관이 "효율가격 \(V_t\)가 mean-revert한다"는 증거가 아니라, 체결가격이 bid와 ask 사이를 오가는 거래 메커니즘 효과일 수 있다는 것이다. Roll(1984)이 처음 공식화한 이 결과는, intraday 음의 ACF를 보면 먼저 관측 대상이 quote인지 trade인지, event time인지 calendar time인지, 미시구조 잡음이 얼마나 강한지부터 점검해야 한다는 것을 보여준다. 스프레드가 클수록 이 효과가 커진다.

A.3 확률공간, \(\sigma\)-대수, 여과(Filtration)

확률론을 엄밀하게 다루려면, "가능한 세계", "관측 가능한 사건", "정보의 축적"을 수학적으로 정의해야 한다. 이것이 확률공간, \(\sigma\)-대수, 여과의 개념이다. AHFT Chapter 3에서 다루는 가격, 수익률, 도착 시간, 스프레드, 거래량은 모두 이 틀 위의 확률변수이다.

정의 A.3.1 — 확률공간 \((\Omega, \mathcal{F}, \mathbb{P})\)

확률공간은 삼중쌍 \((\Omega, \mathcal{F}, \mathbb{P})\)이다. 여기서

  • \(\Omega\): 표본공간(sample space), 가능한 모든 결과(세계)의 집합이다.
  • \(\mathcal{F}\): \(\sigma\)-대수, 관찰 가능한 사건들의 모음이다.
  • \(\mathbb{P}\): 확률측도, 각 사건에 확률을 배정하는 함수이다.
정의 A.3.2 — \(\sigma\)-대수

집합족 \(\mathcal{F} \subseteq 2^\Omega\)가 다음 세 조건을 만족하면 \(\sigma\)-대수라 한다.

  1. \(\Omega \in \mathcal{F}\) (전체 집합 포함).
  2. \(A \in \mathcal{F} \Rightarrow A^c \in \mathcal{F}\) (여집합에 닫힘).
  3. \(A_n \in \mathcal{F}\) for all \(n\)이면 \(\bigcup_{n=1}^{\infty} A_n \in \mathcal{F}\) (가산합집합에 닫힘).
증명 A.3.3 — \(\sigma\)-대수는 가산교집합에도 닫힘

\(A_n \in \mathcal{F}\)이면 \(A_n^c \in \mathcal{F}\)이고, 따라서 \(\bigcup_n A_n^c \in \mathcal{F}\). 드모르간 법칙에 의해

$$\left(\bigcup_n A_n^c\right)^c = \bigcap_n A_n \in \mathcal{F}.$$
정의 A.3.4 — 확률변수(Random Variable)와 가측성

함수 \(X: \Omega \to \mathbb{R}\)가 보렐 \(\sigma\)-대수 \(\mathcal{B}(\mathbb{R})\)에 대해 가측(measurable)이면 확률변수라 한다. 즉, 모든 보렐 집합 \(B\)에 대해

$$X^{-1}(B) \in \mathcal{F}.$$

실용적으로는 다음 동치 조건이 더 자주 쓰인다: 모든 \(a \in \mathbb{R}\)에 대해 \(\{X \leq a\} \in \mathcal{F}\)이면 \(X\)는 가측이다.

증명 A.3.5 — 가측성 동치 판정법

"\(\{X \leq a\} \in \mathcal{F}\)" \(\Rightarrow\) "\(\{X < a\} \in \mathcal{F}\)": 임의의 실수 \(a\)에 대해

$$\{X < a\} = \bigcup_{n=1}^{\infty}\left\{X \leq a - \frac{1}{n}\right\}.$$

오른쪽 각 집합은 가정에 의해 \(\mathcal{F}\)에 속하고, \(\mathcal{F}\)는 가산합집합에 닫혀 있으므로 \(\{X < a\} \in \mathcal{F}\)이다.

"\(\{X < a\} \in \mathcal{F}\)" \(\Rightarrow\) 전체 가측성: 집합족 \(\mathcal{C} := \{B \in \mathcal{B}(\mathbb{R}): X^{-1}(B) \in \mathcal{F}\}\)가 \(\sigma\)-대수임을 확인하면, 가정에 의해 모든 반직선 \((-\infty, a)\)이 \(\mathcal{C}\)에 들어가고, 이 반직선들이 \(\mathcal{B}(\mathbb{R})\)을 생성하므로 \(\mathcal{B}(\mathbb{R}) \subseteq \mathcal{C}\)이다. 따라서 \(X\)는 가측이다.

정의 A.3.6 — 여과(Filtration)와 적응과정(Adapted Process)

시간에 따라 단조 증가하는 \(\sigma\)-대수족

$$\mathbb{F} = (\mathcal{F}_t)_{t \geq 0}, \qquad \mathcal{F}_s \subseteq \mathcal{F}_t \quad \text{for all } s \leq t$$

을 여과라 한다. 직관적으로 \(\mathcal{F}_t\)는 시각 \(t\)까지 이용 가능한 정보 전체이다. 과정 \((X_t)\)가 모든 \(t\)에 대해 \(X_t\)가 \(\mathcal{F}_t\)-가측이면 적응(adapted)되었다고 한다. 적응성은 "시점 \(t\)의 값이 시점 \(t\)까지의 정보만으로 결정된다"는 뜻으로, 미래 정보를 쓰지 않는다는 인과성(causality) 조건이다. AHFT에서 가격, 수익률, 스프레드는 모두 자연 여과에 대해 적응되어 있어야 한다.

A.4 기대값, 조건부기대, Tower Property, Jensen 부등식

조건부기대는 "부분 정보가 주어졌을 때의 최적 예측"이다. AHFT에서 가격의 예측가능성(predictability), 마팅게일 성질, 분산 분해 등 모든 통계적 분석이 이 개념 위에 서 있다.

정의 A.4.1 — 기대값(Expectation)

적분가능 확률변수 \(X\)에 대해

$$\mathbb{E}[X] = \int_\Omega X(\omega)\,\mathbb{P}(d\omega).$$

이 정의가 필요한 이유는, 단순한 가중 평균이 아니라 조건부기대와 tower property를 측도론적으로 다루기 위해서이다.

정의 A.4.2 — 조건부기대(Conditional Expectation)

\(X \in L^1\)이고 \(\mathcal{G} \subseteq \mathcal{F}\)가 부분 \(\sigma\)-대수라고 하자. \(\mathcal{G}\)-조건부기대 \(\mathbb{E}[X \mid \mathcal{G}]\)는 다음을 만족하는 \(\mathcal{G}\)-가측 확률변수 \(Y\)이다.

  1. \(Y\)는 \(\mathcal{G}\)-가측이다.
  2. 모든 \(A \in \mathcal{G}\)에 대해 \(\displaystyle\int_A Y\,d\mathbb{P} = \int_A X\,d\mathbb{P}\).

이러한 \(Y\)는 거의 확실하게(a.s.) 유일하다.

이 정리에서 쓰는 정의

부분 \(\sigma\)-대수: \(\mathcal G\subseteq \mathcal F\)가 \(\sigma\)-대수이면 \(\mathcal G\)를 정보 축소된 사건족이라 한다.

조건부기대: \(X\in L^1\)에 대해 \(Y=\mathbb E[X\mid\mathcal G]\)란 \(Y\)가 \(\mathcal G\)-가측이고 모든 \(A\in\mathcal G\)에 대해 \(\int_A Y\,d\mathbb P=\int_A X\,d\mathbb P\)를 만족하는 확률변수다.

a.s. 동일성: \(Y_1=Y_2\) a.s.란 \(\mathbb P(Y_1 e Y_2)=0\)을 뜻한다.

정리 A.4.3 — 조건부기대의 a.s. 유일성

\(Y_1, Y_2\)가 모두 \(\mathbb{E}[X \mid \mathcal{G}]\)의 정의를 만족하면 \(Y_1 = Y_2\) a.s.

증명. 조건부기대의 정의에 의해 \(Y_1\)과 \(Y_2\)는 둘 다 \(\mathcal G\)-가측이며, 모든 \(A\in\mathcal G\)에 대해

$$\int_A Y_1\,d\mathbb P=\int_A X\,d\mathbb P=\int_A Y_2\,d\mathbb P$$

를 만족한다. 따라서 같은 집합 \(A\)에 대해

$$\int_A (Y_1-Y_2)\,d\mathbb P=0$$

가 성립한다. 이제

$$D_+:=\{\omega\in\Omega:Y_1(\omega)>Y_2(\omega)\},\qquad D_-:=\{\omega\in\Omega:Y_2(\omega)>Y_1(\omega)\}$$

를 정의하자. \(Y_1\)과 \(Y_2\)가 모두 \(\mathcal G\)-가측이므로 차이 \(Y_1-Y_2\)도 \(\mathcal G\)-가측이다. 따라서

$$D_+=\{Y_1-Y_2>0\}\in\mathcal G, \qquad D_-=\{Y_2-Y_1>0\}\in\mathcal G.$$

먼저 \(A=D_+\)를 위 적분항등식에 대입하면

$$\int_{D_+}(Y_1-Y_2)\,d\mathbb P=0.$$

그런데 \(D_+\) 위에서는 \(Y_1-Y_2>0\)이므로 적분함수 \((Y_1-Y_2)1_{D_+}\)는 음이 아닌 가측함수이다. 음이 아닌 가측함수 \(f\)에 대해 \(\int f\,d\mathbb P=0\)이면 \(f=0\) a.s.라는 기본사실을 적용하면

$$(Y_1-Y_2)1_{D_+}=0\quad\text{a.s.}$$

를 얻는다. 그러나 \(D_+\)에서는 \(Y_1-Y_2>0\)이므로 위 식이 성립하려면

$$\mathbb P(D_+)=0$$

이어야 한다. 같은 방식으로 \(A=D_-\)를 택하면

$$\int_{D_-}(Y_2-Y_1)\,d\mathbb P=0$$

이고, 역시 음이 아닌 함수의 적분이 0이므로

$$\mathbb P(D_-)=0.$$

마지막으로

$$\{Y_1 e Y_2\}=D_+\cup D_-$$

이므로 가산가법성에 의해

$$\mathbb P(Y_1 e Y_2)\le \mathbb P(D_+)+\mathbb P(D_-)=0+0=0.$$

따라서 \(Y_1=Y_2\) almost surely 이다.

조건부기대의 핵심 성질 — 알려진 것은 밖으로 뺄 수 있다

이 장에서 가장 자주 쓰이는 성질: \(X \in L^1\)이고 \(Z\)가 유계 \(\mathcal{G}\)-가측 확률변수이면

$$\mathbb{E}[ZX \mid \mathcal{G}] = Z\,\mathbb{E}[X \mid \mathcal{G}] \quad \text{a.s.}$$

증명. \(Y := \mathbb{E}[X \mid \mathcal{G}]\)라 두면 \(ZY\)는 \(\mathcal{G}\)-가측이다. 임의의 \(A \in \mathcal{G}\)에 대해, \(1_A Z\)는 유계 \(\mathcal{G}\)-가측이므로 단순함수 근사를 통해

$$\int_A ZY\,d\mathbb{P} = \int_\Omega 1_A ZY\,d\mathbb{P} = \int_\Omega 1_A ZX\,d\mathbb{P} = \int_A ZX\,d\mathbb{P}.$$

\(ZY\)는 \(\mathcal{G}\)-가측이고 위 적분 등식을 만족하므로, 조건부기대의 정의에 의해 \(\mathbb{E}[ZX \mid \mathcal{G}] = ZY = Z\mathbb{E}[X \mid \mathcal{G}]\) a.s.

정리 A.4.4 — Tower Property (반복기대의 법칙)

\(\mathcal{H} \subseteq \mathcal{G} \subseteq \mathcal{F}\)이고 \(X \in L^1\)이면

$$\mathbb{E}[\mathbb{E}[X \mid \mathcal{G}] \mid \mathcal{H}] = \mathbb{E}[X \mid \mathcal{H}].$$

증명. \(Y := \mathbb{E}[X \mid \mathcal{G}]\)라 두자. \(\mathbb{E}[Y \mid \mathcal{H}]\)는 \(\mathcal{H}\)-가측이다. 이제 모든 \(A \in \mathcal{H}\)에 대해 \(A \in \mathcal{G}\)이므로

$$\int_A \mathbb{E}[Y \mid \mathcal{H}]\,d\mathbb{P} = \int_A Y\,d\mathbb{P} = \int_A X\,d\mathbb{P}.$$

따라서 \(\mathbb{E}[Y \mid \mathcal{H}]\)는 \(X\)의 \(\mathcal{H}\)-조건부기대의 정의를 만족한다. a.s. 유일성에 의해 결론이 따라온다.

직관적으로, 더 많은 정보 \(\mathcal{G}\)로 조건을 걸고, 다시 더 적은 정보 \(\mathcal{H}\)로 조건을 걸면, 처음부터 적은 정보로 조건을 건 것과 같다. "더 많이 안다고 해서 덜 아는 것보다 더 나쁠 수는 없다"는 직관이다.

정리 A.4.5 — 조건부 Jensen 부등식

\(\varphi\)가 볼록(convex)이고 \(X, \varphi(X) \in L^1\)이면

$$\varphi(\mathbb{E}[X \mid \mathcal{G}]) \leq \mathbb{E}[\varphi(X) \mid \mathcal{G}] \quad \text{a.s.}$$
증명 A.4.5 — 조건부 Jensen 부등식 (전체 증명)

1단계. 볼록함수의 지지직선 존재. \(x_0\)를 \(\varphi\)의 정의역 내부의 한 점이라 하자. 볼록성으로부터 임의의 \(y < x_0 < z\)에 대해

$$\frac{\varphi(x_0) - \varphi(y)}{x_0 - y} \leq \frac{\varphi(z) - \varphi(x_0)}{z - x_0}$$

이므로, 좌극한 \(m_-(x_0)\)와 우극한 \(m_+(x_0)\) 사이에서 기울기 \(a_{x_0}\)를 하나 고를 수 있다. \(b_{x_0} := \varphi(x_0) - a_{x_0}x_0\)로 두면, 모든 \(x\)에 대해 \(\varphi(x) \geq a_{x_0}x + b_{x_0}\)이다.

2단계. Countable family로 줄이기. 유리수 \(r \in \mathbb{Q}\) 중 정의역 내부에 있는 점들에 대해 지지직선 \((a_r, b_r)\)을 하나씩 고르면, 볼록함수의 연속성과 유리수의 조밀성에 의해 모든 \(x\)에 대해

$$\varphi(x) = \sup_{r \in \mathbb{Q}}(a_r x + b_r).$$

3단계. 조건부기대에 적용. \(Y := \mathbb{E}[X \mid \mathcal{G}]\)라 두자. 각 \(r\)에 대해 조건부기대의 선형성과 pull-out property를 쓰면

$$a_r Y + b_r = a_r \mathbb{E}[X \mid \mathcal{G}] + b_r = \mathbb{E}[a_r X + b_r \mid \mathcal{G}] \leq \mathbb{E}[\varphi(X) \mid \mathcal{G}].$$ 양변에 \(\sup_{r \in \mathbb{Q}}\)를 취하면 $$\varphi(\mathbb{E}[X \mid \mathcal{G}]) = \sup_{r \in \mathbb{Q}}(a_r Y + b_r) \leq \mathbb{E}[\varphi(X) \mid \mathcal{G}]. $$

이 정리는 분산 분해, 볼록 손실함수 해석, 위험 측도 계산에 반복 사용된다.

A.5 마팅게일(Martingale)과 예측가능성

마팅게일은 "공정한 게임"의 수학적 표현이다. 가격이 마팅게일이라는 것은 주어진 정보 집합 하에서 미래 가격 변화의 조건부 평균이 0임을 의미한다. 이 개념은 AHFT에서 "어떤 정보를 conditioning set에 넣었는가"에 따라 예측가능성 해석이 달라진다는 핵심 논점을 만들어낸다.

정의 A.5.1 — 마팅게일, 서브마팅게일, 슈퍼마팅게일

적응과정 \((M_t)\)가 모든 \(t\)에 대해 \(M_t \in L^1\)이고, \(s \leq t\)이면

  • \(\mathbb{E}[M_t \mid \mathcal{F}_s] = M_s\)이면 마팅게일
  • \(\mathbb{E}[M_t \mid \mathcal{F}_s] \geq M_s\)이면 서브마팅게일(submartingale)
  • \(\mathbb{E}[M_t \mid \mathcal{F}_s] \leq M_s\)이면 슈퍼마팅게일(supermartingale)
이 정리에서 쓰는 정의

이산시간 마팅게일: 적응과정 \((M_n)\)이 모든 \(n\)에 대해 \(M_n\in L^1\)이고 \(\mathbb E[M_n\mid\mathcal F_{n-1}]=M_{n-1}\)을 만족하면 마팅게일이다.

증분: \(\Delta M_n:=M_n-M_{n-1}\)로 정의한다.

조건부기대의 선형성: 적분가능한 \(X,Y\)와 상수 \(a,b\)에 대해 \(\mathbb E[aX+bY\mid\mathcal G]=a\mathbb E[X\mid\mathcal G]+b\mathbb E[Y\mid\mathcal G]\)이다.

정리 A.5.2 — 마팅게일 차분의 조건부기대

이산시간 마팅게일 \((M_n)\)에 대해 증분 \(\Delta M_n := M_n - M_{n-1}\)은

$$\mathbb{E}[\Delta M_n \mid \mathcal{F}_{n-1}] = 0.$$

증명. 마팅게일의 정의에 따라 \(M_n\in L^1\), \(M_{n-1}\in L^1\)이며

$$\mathbb E[M_n\mid\mathcal F_{n-1}]=M_{n-1}.$$

또한 \(M_{n-1}\)은 \(\mathcal F_{n-1}\)-가측이므로 조건부기대의 기본 성질에 의해

$$\mathbb E[M_{n-1}\mid\mathcal F_{n-1}]=M_{n-1}.$$

이제 증분의 정의 \(\Delta M_n=M_n-M_{n-1}\)를 이용하고 조건부기대의 선형성을 적용하면

$$\mathbb E[\Delta M_n\mid\mathcal F_{n-1}] =\mathbb E[M_n-M_{n-1}\mid\mathcal F_{n-1}]$$ $$=\mathbb E[M_n\mid\mathcal F_{n-1}]-\mathbb E[M_{n-1}\mid\mathcal F_{n-1}]$$ $$=M_{n-1}-M_{n-1}$$ $$=0.$$

따라서 마팅게일의 한 시점 증가분은 직전 정보 \(\mathcal F_{n-1}\)에 대해 조건부 평균이 0이다. 즉 과거를 모두 알고 있어도 다음 한 걸음의 평균적 방향성은 남지 않는다.

정리 A.5.3 — 전체 분산의 분해 (Law of Total Variance)

\(X \in L^2\)이면

$$\operatorname{Var}(X) = \mathbb{E}[\operatorname{Var}(X \mid \mathcal{G})] + \operatorname{Var}(\mathbb{E}[X \mid \mathcal{G}]).$$
증명 A.5.3 — 전체 분산 분해

\(m := \mathbb{E}[X \mid \mathcal{G}]\)라 두자.

분해. \(X - \mathbb{E}[X] = (X - m) + (m - \mathbb{E}[X])\). 양변을 제곱하고 기대값을 취하면

$$\operatorname{Var}(X) = \mathbb{E}[(X-m)^2] + 2\mathbb{E}[(X-m)(m-\mathbb{E}[X])] + \mathbb{E}[(m-\mathbb{E}[X])^2].$$

교차항이 0임을 증명. \(m - \mathbb{E}[X]\)는 \(\mathcal{G}\)-가측이므로 pull-out property와 tower property를 쓰면

$$\mathbb{E}[(X-m)(m-\mathbb{E}[X])] = \mathbb{E}\left[(m-\mathbb{E}[X])\mathbb{E}[X-m \mid \mathcal{G}]\right].$$ 그런데 \(\mathbb{E}[X-m \mid \mathcal{G}] = \mathbb{E}[X \mid \mathcal{G}] - m = m - m = 0\)이므로 교차항은 0이다.

두 항 정리.

$$\mathbb{E}[(X-m)^2] = \mathbb{E}\left[\mathbb{E}[(X-m)^2 \mid \mathcal{G}]\right] = \mathbb{E}[\operatorname{Var}(X \mid \mathcal{G})].$$ $$\mathbb{E}[(m - \mathbb{E}[X])^2] = \operatorname{Var}(m) = \operatorname{Var}(\mathbb{E}[X \mid \mathcal{G}]). $$
직관. 전체 분산은 "정보를 알고도 남는 순수 잡음"(\(\mathbb{E}[\operatorname{Var}(X \mid \mathcal{G})]\))과 "정보집합에 따라 조건부평균이 달라지는 구조적 변동"(\(\operatorname{Var}(\mathbb{E}[X \mid \mathcal{G}])\))으로 분해된다. 예측가능성을 측정할 때 중요한 것은 둘째 항이 얼마나 큰가이다. Chapter 3의 회귀분석(3.1.4)에서 R²는 본질적으로 이 비율이다.

A.6 수익률, 분산, 자기상관함수(ACF)

가격을 직접 분석하기보다 수익률을 분석하는 이유는, 수익률이 정상성(stationarity)에 더 가까운 성질을 갖기 때문이다. 자기상관함수는 시계열 내 의존 구조를 요약하는 핵심 도구이다.

정의 A.6.1 — 산술수익률과 로그수익률

산술수익률(Arithmetic return):

$$R_t = \frac{S_t - S_{t-1}}{S_{t-1}}$$

로그수익률(Log return):

$$r_t = \log S_t - \log S_{t-1} = \log\frac{S_t}{S_{t-1}}$$

소수익률 근사: \(|R_t|\)가 작으면 \(r_t = \log(1 + R_t) = R_t - R_t^2/2 + O(R_t^3) \approx R_t\). 이는 \(\log(1+x)\)의 Taylor 전개에서 즉시 따라온다. 로그수익률의 장점은 기간별 수익률을 단순 합산할 수 있다는 점이다: \(r_t^{(T)} = \sum_{j=1}^{T} r_{t-j+1}\).

정의 A.6.2 — 분산, 공분산, 상관계수
$$\operatorname{Var}(X) = \mathbb{E}[(X - \mathbb{E}[X])^2] = \mathbb{E}[X^2] - (\mathbb{E}[X])^2$$ $$\operatorname{Cov}(X,Y) = \mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])]$$ $$\rho_{X,Y} = \frac{\operatorname{Cov}(X,Y)}{\sqrt{\operatorname{Var}(X)\operatorname{Var}(Y)}}$$
이 정리에서 쓰는 정의

공분산: \(\operatorname{Cov}(X,Y)=\mathbb E[(X-\mathbb E[X])(Y-\mathbb E[Y])]\).

분산: \(\operatorname{Var}(X)=\operatorname{Cov}(X,X)\).

상관계수: 분산이 양수일 때 \(\rho_{X,Y}=\operatorname{Cov}(X,Y)/(\sqrt{\operatorname{Var}(X)}\sqrt{\operatorname{Var}(Y)})\)로 정의한다.

정리 A.6.3 — \(|\rho_{X,Y}|\le 1\) (Cauchy–Schwarz)

분산이 유한한 두 확률변수 \(X,Y\)에 대하여

$$|\operatorname{Cov}(X,Y)|\le \sqrt{\operatorname{Var}(X)\operatorname{Var}(Y)}$$

가 성립한다. 특히 \(\operatorname{Var}(X)>0\), \(\operatorname{Var}(Y)>0\)이면 상관계수

$$\rho_{X,Y}=\frac{\operatorname{Cov}(X,Y)}{\sqrt{\operatorname{Var}(X)\operatorname{Var}(Y)}}$$

는 항상 \(-1\)과 \(1\) 사이에 있다.

증명. 중심화된 변수

$$U:=X-\mathbb E[X],\qquad V:=Y-\mathbb E[Y]$$

를 두자. 그러면

$$\mathbb E[U]=0,\qquad \mathbb E[V]=0,$$ $$\operatorname{Cov}(X,Y)=\mathbb E[UV],\qquad \operatorname{Var}(X)=\mathbb E[U^2],\qquad \operatorname{Var}(Y)=\mathbb E[V^2].$$

이제 임의의 실수 \(\lambda\)에 대해 제곱은 음이 아니므로

$$0\le \mathbb E[(U-\lambda V)^2].$$

우변을 전개하면

$$\mathbb E[(U-\lambda V)^2]=\mathbb E[U^2-2\lambda UV+\lambda^2V^2]$$ $$=\mathbb E[U^2]-2\lambda\mathbb E[UV]+\lambda^2\mathbb E[V^2].$$

즉 모든 \(\lambda\)에 대해

$$0\le \mathbb E[V^2]\lambda^2-2\mathbb E[UV]\lambda+\mathbb E[U^2].$$

이 이차식이 모든 실수 \(\lambda\)에서 음이 아니려면 판별식이 0 이하이어야 한다.

$$\Delta=(-2\mathbb E[UV])^2-4\mathbb E[V^2]\mathbb E[U^2]\le 0.$$

정리하면

$$4(\mathbb E[UV])^2\le 4\mathbb E[U^2]\mathbb E[V^2],$$ $$ (\mathbb E[UV])^2\le \mathbb E[U^2]\mathbb E[V^2].$$

따라서

$$|\mathbb E[UV]|\le \sqrt{\mathbb E[U^2]\mathbb E[V^2]}.$$

중심화 정의를 다시 대입하면

$$|\operatorname{Cov}(X,Y)|\le \sqrt{\operatorname{Var}(X)\operatorname{Var}(Y)}.$$

만약 두 분산이 모두 양수이면 양변을 \(\sqrt{\operatorname{Var}(X)\operatorname{Var}(Y)}\)로 나누어

$$|\rho_{X,Y}|\le 1$$

를 얻는다. 정리가 증명되었다.

정의 A.6.4 — 자기공분산함수와 자기상관함수(ACF)

약정상(weakly stationary) 시계열 \((X_t)\)에 대해 시차 \(k\)의 자기공분산과 자기상관은

$$\gamma(k) = \operatorname{Cov}(X_t, X_{t+k}), \qquad \rho(k) = \frac{\gamma(k)}{\gamma(0)}.$$

표본 ACF는

$$\hat{\rho}(k) = \frac{\sum_{t=1}^{n-k}(x_t - \bar{x})(x_{t+k} - \bar{x})}{\sum_{t=1}^{n}(x_t - \bar{x})^2}.$$

AHFT Chapter 3에서 ACF 해석 기준: \(\rho(1) < 0\)이면 bid-ask bounce 또는 단기 평균회귀를 의심. 장기 양의 tail이 있으면 clustering이나 느린 상태 dynamics를 의심. ACF가 빠르게 0이 되지 않으면 장기 기억(long memory)을 의심.

A.7 브라운 운동(Brownian Motion)의 기초

AHFT 3.7 페어 트레이딩에서 "영구(Brownian) 성분 + 일시적(mean-reverting) 성분"의 분해를 이해하려면 브라운 운동이 무엇인지 알아야 한다. 브라운 운동은 drift 없는 확률적 충격의 축적으로, 예측 불가능성의 연속시간 모형이다.

정의 A.7.1 — 표준 브라운 운동(Standard Brownian Motion)

과정 \((W_t)_{t \geq 0}\)가 표준 브라운 운동이면 다음 네 조건을 만족한다.

  1. \(W_0 = 0\) a.s.
  2. 독립 증분(independent increments): 서로 겹치지 않는 구간에서의 증가분은 독립이다.
  3. 정규 증분(Gaussian increments): \(W_t - W_s \sim N(0, t-s)\) for \(0 \leq s < t\).
  4. 연속 경로(continuous paths): 경로 \(t \mapsto W_t\)는 a.s. 연속함수이다.
정리 A.7.2 — 브라운 운동의 평균과 분산
$$\mathbb{E}[W_t] = 0, \qquad \operatorname{Var}(W_t) = t.$$

증명. 정의에서 \(W_t = W_t - W_0 \sim N(0, t)\)이므로, 정규분포의 평균과 분산에서 즉시 따라온다. 특히 불확실성이 시간의 제곱근에 비례하여 커진다 — 1시간 후 위치의 표준편차는 4시간 후의 절반이다. 이것이 금융에서 "변동성은 \(\sqrt{T}\)에 비례한다"는 직관의 수학적 근거이다.

이 정리에서 쓰는 정의

표준 브라운 운동: \(W_0=0\), 거의 모든 경로가 연속이고, 독립증분을 가지며, \(W_t-W_s\sim N(0,t-s)\)를 만족하는 과정 \((W_t)_{t\ge0}\)을 말한다.

자연 여과: \(\mathcal F_t^W:=\sigma(W_u:0\le u\le t)\)를 브라운 운동이 생성하는 정보라고 한다.

마팅게일: 적응과정 \(X_t\)가 적분가능하고 \(\mathbb E[X_t\mid\mathcal F_s]=X_s\) \((s\le t)\)이면 마팅게일이다.

정리 A.7.3 — 브라운 운동은 마팅게일

표준 브라운 운동은 자연 여과에 대해 마팅게일이다.

증명. 마팅게일임을 보이려면 세 가지를 확인하면 된다. 적응성, 적분가능성, 그리고 조건부기대 항등식이다.

1단계. 적응성. 자연 여과를 \(\mathcal F_t^W=\sigma(W_u:0\le u\le t)\)라 두면 정의상 \(W_t\)는 \(\mathcal F_t^W\)-가측이다. 따라서 \((W_t)\)는 자연 여과에 대해 적응된다.

2단계. 적분가능성. 브라운 운동의 분포는 \(W_t\sim N(0,t)\)이므로 특히 2차 모멘트가 존재하며

$$\mathbb E[W_t^2]=t<\infty.$$

Cauchy–Schwarz 부등식을 쓰면

$$\mathbb E[|W_t|]\le \bigl(\mathbb E[W_t^2]\bigr)^{1/2}=\sqrt t<\infty.$$

따라서 \(W_t\in L^1\)이다.

3단계. 마팅게일 조건. 이제 \(0\le s\le t\)를 고정한다. 브라운 운동의 증분분해에 의해

$$W_t=W_s+(W_t-W_s).$$

여기서 \(W_s\)는 \(\mathcal F_s^W\)-가측이고, 증분 \(W_t-W_s\)는 브라운 운동의 정의상 \(\mathcal F_s^W\)와 독립이며

$$W_t-W_s\sim N(0,t-s).$$

따라서

$$\mathbb E[W_t-W_s]=0.$$

조건부기대의 선형성과 독립성으로부터

$$\mathbb E[W_t\mid\mathcal F_s^W] =\mathbb E[W_s+(W_t-W_s)\mid\mathcal F_s^W]$$ $$=\mathbb E[W_s\mid\mathcal F_s^W]+\mathbb E[W_t-W_s\mid\mathcal F_s^W]$$ $$=W_s+\mathbb E[W_t-W_s]$$ $$=W_s+0$$ $$=W_s.$$

세 조건이 모두 확인되었으므로 표준 브라운 운동은 자연 여과에 대한 마팅게일이다.

Itô Isometry — 이 절 전체에서 반복 사용되는 핵심 공식

결정론적 함수 \(f \in L^2([0,t])\)에 대해

$$\mathbb{E}\left[\left(\int_0^t f(s)\,dW_s\right)^2\right] = \int_0^t f(s)^2\,ds.$$

OU 과정의 분산, Brownian-driven spread 모형의 조건부분산 계산은 거의 모두 이 식으로 완결된다.

A.8 카운팅 과정과 포아송 과정

고빈도 데이터에서 거래는 등간격 시계열이 아니라 불규칙한 시점에 도착하는 이벤트이다. 이를 모형화하는 가장 기본적인 도구가 카운팅 과정과 포아송 과정이다. 포아송 과정은 가장 단순한 기준점으로, 실제 데이터가 이 기준에서 어떻게 벗어나는지를 확인하는 것이 3.3절의 핵심이다.

정의 A.8.1 — 카운팅 과정과 도착 시간

과정 \((N_t)_{t \geq 0}\)가 카운팅 과정이면: \(N_0 = 0\), \(N_t \in \mathbb{N} \cup \{0\}\), \(N_t\)는 단조 증가 과정, sample path는 càdlàg(오른연속 좌극한 존재)이다.

도착 시각: \(T_n := \inf\{t \geq 0 : N_t \geq n\}\).

도착 간격: \(\tau_n := T_n - T_{n-1}, \quad n \geq 1\).

정의 A.8.2 — 포아송 과정(Poisson Process)

강도(intensity) \(\lambda > 0\)의 포아송 과정은 다음을 만족하는 카운팅 과정이다: \(N_0 = 0\), 독립 증분(independent increments), 정상 증분(stationary increments), 그리고 모든 \(t \geq 0\)에 대해

$$N_t \sim \mathrm{Poisson}(\lambda t).$$
이 정리에서 쓰는 정의

Poisson 과정: \((N_t)\)가 독립증분과 정상증분을 가지며 \(N_t-N_s\sim\operatorname{Poisson}(\lambda(t-s))\)이면 강도 \(\lambda\)의 Poisson 과정이다.

첫 도착시간: \(\tau_1:=\inf\{t>0:N_t\ge1\}\).

Exponential 분포: \(X\sim\operatorname{Exp}(\lambda)\)란 \(\mathbb P(X>t)=e^{-\lambda t}\) \((t\ge0)\)을 뜻한다.

정리 A.8.3 — 도착 간격은 Exponential 분포

강도 \(\lambda\)의 포아송 과정에서 interarrival times \(\tau_1, \tau_2, \ldots\)는 iid \(\mathrm{Exp}(\lambda)\)이다.

\(\tau_1\)의 분포. \(T_1 > t\)라는 것은 \([0,t]\)에서 도착이 없다는 뜻이므로 \(\{T_1 > t\} = \{N_t = 0\}\). 따라서

$$\mathbb{P}(T_1 > t) = \mathbb{P}(N_t = 0) = e^{-\lambda t} \cdot \frac{(\lambda t)^0}{0!} = e^{-\lambda t}.$$

즉 \(\tau_1 = T_1 \sim \mathrm{Exp}(\lambda)\)이다.

후속 도착 간격. 임의의 \(s, t \geq 0\)에 대해, 조건 \(\{T_1 = s\}\) 위에서 다음 도착까지 추가로 \(t\)보다 더 기다린다는 것은 구간 \((s, s+t]\)에서 도착이 없다는 뜻이다. 포아송 과정의 정상 증분과 독립 증분 성질에 의해

$$\mathbb{P}(\tau_2 > t \mid T_1 = s) = \mathbb{P}(N_{s+t} - N_s = 0 \mid T_1 = s) = \mathbb{P}(N_t = 0) = e^{-\lambda t}.$$

우변이 \(s\)에 의존하지 않으므로 \(\tau_2 \sim \mathrm{Exp}(\lambda)\)이고 \(\tau_1\)과 독립이다. 같은 계산을 임의의 \(n\)에 대해 반복하면 모든 \(\tau_n\)이 iid \(\mathrm{Exp}(\lambda)\)임이 따라온다. \(\)

핵심 구별: 정상 증분은 "분포가 같음"을, 독립 증분은 "과거와 독립"을 각각 준다. 이 둘이 결합하여 iid exponential이 나온다.

정리 A.8.4 — Memoryless Property (무기억 성질)

\(\tau \sim \mathrm{Exp}(\lambda)\)이면 모든 \(s, t \geq 0\)에 대해

$$\mathbb{P}(\tau > s+t \mid \tau > s) = \mathbb{P}(\tau > t).$$

증명.

$$\mathbb{P}(\tau > s+t \mid \tau > s) = \frac{\mathbb{P}(\tau > s+t)}{\mathbb{P}(\tau > s)} = \frac{e^{-\lambda(s+t)}}{e^{-\lambda s}} = e^{-\lambda t} = \mathbb{P}(\tau > t). $$

의미: 이미 \(s\)만큼 기다렸다는 사실이 앞으로 더 기다려야 하는 분포를 바꾸지 않는다. 이 무기억성이 포아송 과정을 event time 분석의 무기억 기준 모형으로 만든다. 실제 HF 데이터에서 interarrival이 이 성질에서 체계적으로 벗어나면 클러스터링(clustering)이나 상태 의존성(state dependence)을 의심한다.

정리 A.8.5 — 포아송 과정의 평균과 분산
$$\mathbb{E}[N_t] = \lambda t, \qquad \operatorname{Var}(N_t) = \lambda t.$$

증명. \(N \sim \mathrm{Poisson}(\mu)\)에서 \(\mu = \lambda t\)로 두자. 평균 계산:

$$\mathbb{E}[N] = \sum_{n=0}^{\infty} n e^{-\mu}\frac{\mu^n}{n!} = e^{-\mu}\sum_{n=1}^{\infty}\frac{\mu^n}{(n-1)!} = \mu e^{-\mu}\sum_{m=0}^{\infty}\frac{\mu^m}{m!} = \mu.$$

2계 팩토리얼 모멘트:

$$\mathbb{E}[N(N-1)] = e^{-\mu}\sum_{n=2}^{\infty}\frac{\mu^n}{(n-2)!} = \mu^2 e^{-\mu}e^{\mu} = \mu^2.$$

따라서 \(\mathbb{E}[N^2] = \mu^2 + \mu\)이고 \(\operatorname{Var}(N) = \mu^2 + \mu - \mu^2 = \mu\). \(\)

포아송 과정에서는 평균과 분산이 모두 \(\lambda t\)로 같다. 이 성질을 "등산포성(equidispersion)"이라 하는데, 실제 HF interarrival time에서는 분산이 평균보다 훨씬 크게 나오는 "과분산(overdispersion)"이 일반적이다. 이것이 단순 Poisson 가정이 깨지는 또 다른 경험적 증거이다.

A.9 두꺼운 꼬리(Heavy Tails)와 거듭제곱 법칙(Power Law)

AHFT 3.3은 interarrival times의 오른쪽 꼬리가 heavy-tailed이고 power-law 성격을 보인다고 설명한다. 이를 이해하려면 heavy tail과 exponential tail의 수학적 차이를 명확히 알아야 한다.

정의 A.9.1 — Heavy-Tailed 분포와 거듭제곱 법칙

분포의 생존함수(survival function) \(\bar{F}(x) = \mathbb{P}(X > x)\)가 exponential보다 훨씬 천천히 감소하면 heavy-tailed라 한다. 대표적인 거듭제곱 법칙 꼬리:

$$\mathbb{P}(X > x) \approx Cx^{-\alpha}, \qquad x \to \infty, \quad \alpha > 0.$$

Exponential tail은 \(\bar{F}(x) = e^{-\lambda x}\)이고 power-law보다 훨씬 빠르게 감소한다.

증명 A.9.2 — Exponential은 어떤 Power Law보다 빠르게 감소

임의의 \(k > 0\)과 \(\lambda > 0\)에 대해 \(\lim_{x \to \infty} e^{-\lambda x}/x^{-k} = 0\)이다.

증명. \(\lim_{x \to \infty} x^k / e^{\lambda x} = 0\)을 보이면 충분하다. L'Hôpital을 \(k\)번 반복 적용하면 분자가 결국 상수가 되고 분모는 \(\lambda^k e^{\lambda x} \to \infty\)이므로 극한이 0임이 따라온다. \(\)

의미: 실제 interarrival times가 exponential benchmark보다 훨씬 긴 오른쪽 꼬리를 보이면, 단순 Poisson clock으로는 시장의 burst/calm regime를 설명하기 어렵다.

A.10 Markov 성질과 상태 확장(State Augmentation)

Markov 성질은 "현재 상태만 알면 미래를 예측하는 데 과거 전체가 추가 정보를 주지 않는다"는 개념이다. 실제 시장 데이터에서는 단순 현재 가격만으로는 Markov 가정이 성립하지 않는 경우가 많으며, 이 비Markov성을 처리하는 표준 방법이 상태 확장이다.

정의 A.10.1 — Markov 성질

과정 \((X_t)\)가 Markov이라 함은 모든 \(s < t\)와 보렐 집합 \(A\)에 대해

$$\mathbb{P}(X_t \in A \mid \mathcal{F}_s^X) = \mathbb{P}(X_t \in A \mid X_s)$$

가 성립하는 것이다. 여기서 \(\mathcal{F}_s^X\)는 \(X\)의 과거가 생성한 여과이다.

이 명제에서 쓰는 정의

Markov 성질: 과정 \((X_t)\)가 Markov라는 것은 미래의 조건부분포가 과거 전체가 아니라 현재 상태만으로 결정됨을 뜻한다.

AR(2) 모형: \(X_t=\phi_1X_{t-1}+\phi_2X_{t-2}+\varepsilon_t\)로 정의되는 자기회귀 과정이다.

상태 증강: \((X_t,X_{t-1})\)처럼 상태를 확장해 고차 자기회귀를 1차 벡터 Markov 과정으로 표현하는 절차를 말한다.

명제 A.10.2 — AR(2)는 비Markov, AR(2) → 2차원 Markov

AR(2) 모형 \(X_{t+1} = \phi_1 X_t + \phi_2 X_{t-1} + \varepsilon_{t+1}\)을 생각하자 (\(\varepsilon_{t+1}\)은 과거와 독립인 innovation).

1차원 Markov가 아님. \(\phi_2 \neq 0\)이면 \(X_{t+1} \mid (X_t = x, X_{t-1} = u)\)의 조건부분포가 \(u\)에 의존하므로, \(X_t = x\)만 알아서는 미래 분포를 결정할 수 없다.

2차원에서는 Markov가 됨. 상태를 \(Z_t := (X_t, X_{t-1})^\top\)으로 키우면

$$Z_{t+1} = \begin{pmatrix} \phi_1 & \phi_2 \\ 1 & 0 \end{pmatrix}Z_t + \begin{pmatrix}\varepsilon_{t+1} \\ 0\end{pmatrix}.$$

오른쪽은 \(Z_t\)와 새로운 잡음 \(\varepsilon_{t+1}\)으로만 표현되고, \(\varepsilon_{t+1}\)은 과거와 독립이므로 \(Z_{t+1}\)의 조건부분포는 오직 \(Z_t\)에 의해서만 결정된다. 즉 \((Z_t)\)는 Markov이다. \(\)

왜 상태 확장이 중요한가

원래 과정 \(X_t\)가 비Markov라 하더라도, 적절한 보조상태 \(Y_t\)를 추가하여 \(Z_t = (X_t, Y_t)\)를 만들면 Markov가 되도록 설계할 수 있다. AHFT 3.5는 price-only state가 충분하지 않음을 경험적으로 보여주며, 이후 stochastic control에서는 Markov 상태가 필요하므로 실제 데이터에서 관측되는 기억(memory)을 상태변수로 끌어올리는 설계가 핵심이 된다. Order book imbalance, 최근 trade sign, elapsed time, venue state 등을 상태변수로 추가하는 것이 그 실용적 구현이다.

A.11 AR(1) 모형과 이산시간 평균회귀

평균회귀(mean reversion)는 가격이나 스프레드가 장기 수준으로 끌려오는 경향을 말한다. 가장 단순한 이산시간 표현이 AR(1) 모형이며, 이것이 이후 OU 과정과 연속시간 쌍으로 연결된다.

정리 A.11.1 — AR(1) 자기상관함수

AR(1) 모형 \(X_{t+1} = \phi X_t + \varepsilon_{t+1}\), \(|\phi| < 1\), \(\mathbb{E}[\varepsilon_{t+1}] = 0\), \(\operatorname{Var}(\varepsilon_{t+1}) = \sigma_\varepsilon^2\)에서 정상 ACF는

$$\rho(k) = \phi^k.$$

정상분산은 \(\gamma(0) = \sigma_\varepsilon^2/(1-\phi^2)\)이다.

증명 A.11.1

정상분산. 정상성을 가정하면 \(\gamma(0) = \phi^2\gamma(0) + \sigma_\varepsilon^2\). (양변에서 \(\phi^2\gamma(0)\)을 빼면) \(\gamma(0) = \sigma_\varepsilon^2/(1-\phi^2)\).

자기공분산. 반복 대입으로 \(X_{t+k} = \phi^k X_t + \sum_{j=1}^{k}\phi^{k-j}\varepsilon_{t+j}\). 미래 innovation들은 \(X_t\)와 독립이므로

$$\gamma(k) = \operatorname{Cov}(X_t, X_{t+k}) = \phi^k \operatorname{Var}(X_t) = \phi^k\gamma(0).$$ 따라서 \(\rho(k) = \gamma(k)/\gamma(0) = \phi^k\). \(\)

\(|\phi| < 1\)이면 \(\phi^k \to 0\)이므로 충격의 영향이 지수적으로 사라진다. 이것이 이산시간 평균회귀의 정량적 의미이다. AHFT의 intraday ACF에서 음의 1차 자기상관이 관찰되면, 단순히 "시장 비효율"이라고 결론 내리기보다 bid-ask bounce와 진정한 mean-reversion 중 어느 쪽인지 분리해야 한다.

A.12 Ornstein–Uhlenbeck (OU) 과정

OU 과정은 이산시간 AR(1)의 연속시간 유사체로, 페어 트레이딩 스프레드 모형의 핵심이다. "일시적 성분(transitory component)"이 특정 수준으로 평균회귀한다는 직관을 수학적으로 표현한다.

정의 A.12.1 — OU 과정의 SDE
$$dX_t = \kappa(\theta - X_t)\,dt + \sigma\,dW_t, \qquad \kappa > 0.$$

여기서 \(\theta\)는 장기 평균, \(\kappa\)는 평균회귀 속도(mean-reversion speed), \(\sigma\)는 충격의 변동성이다. \(\kappa\)가 클수록 \(X_t\)는 더 빠르게 \(\theta\)로 끌려온다.

이 정리에서 쓰는 정의

OU 과정: \(dX_t=\kappa(\theta-X_t)dt+\sigma dW_t\)를 만족하는 평균회귀 확산과정이다.

적분인자: 선형 미분방정식의 좌변을 완전미분으로 만들기 위해 곱하는 함수이며 OU 방정식에서는 \(e^{\kappa t}\)가 핵심 역할을 한다.

Itô 적분: 적응적 제곱적분가능 과정 \(H_t\)에 대해 \(\int_0^t H_s\,dW_s\)로 정의되는 확률적분이다.

정리 A.12.2 — OU 과정의 Explicit Solution

SDE를 풀어 explicit solution을 구한다.

1단계. 정리. \(dX_t + \kappa X_t\,dt = \kappa\theta\,dt + \sigma\,dW_t\).

2단계. Integrating factor. 결정론적 함수 \(e^{\kappa t}\)에 대해 Itô 곱공식을 쓰면

$$d(e^{\kappa t}X_t) = e^{\kappa t}dX_t + \kappa e^{\kappa t}X_t\,dt = e^{\kappa t}(\kappa\theta\,dt + \sigma\,dW_t).$$

3단계. 적분. 양변을 \(0\)에서 \(t\)까지 적분하면

$$e^{\kappa t}X_t - X_0 = \kappa\theta\int_0^t e^{\kappa s}\,ds + \sigma\int_0^t e^{\kappa s}\,dW_s = \theta(e^{\kappa t}-1) + \sigma\int_0^t e^{\kappa s}\,dW_s.$$

4단계. 정리. 양변에 \(e^{-\kappa t}\)를 곱하면

$$X_t = X_0 e^{-\kappa t} + \theta(1 - e^{-\kappa t}) + \sigma\int_0^t e^{-\kappa(t-s)}\,dW_s. $$

이 식을 보면 현재값 \(X_0\)의 영향이 지수적으로 감소하고, 장기 평균 \(\theta\)로 수렴하는 구조가 명확히 드러난다.

정리 A.12.3 — OU 과정의 평균과 분산
$$\mathbb{E}[X_t] = X_0 e^{-\kappa t} + \theta(1 - e^{-\kappa t}).$$ $$\operatorname{Var}(X_t) = \frac{\sigma^2}{2\kappa}(1 - e^{-2\kappa t}).$$
증명 A.12.3

평균. Explicit solution에서 stochastic integral의 기대값은 0이므로 즉시 따라온다. \(t \to \infty\)이면 \(\mathbb{E}[X_t] \to \theta\).

분산. 분산에 기여하는 부분은 stochastic integral 항뿐이다. Itô isometry에 의해

$$\operatorname{Var}(X_t) = \sigma^2\int_0^t e^{-2\kappa(t-s)}\,ds.$$

치환 \(u = t-s\)를 쓰면

$$\int_0^t e^{-2\kappa(t-s)}\,ds = \int_0^t e^{-2\kappa u}\,du = \left[-\frac{1}{2\kappa}e^{-2\kappa u}\right]_0^t = \frac{1-e^{-2\kappa t}}{2\kappa}. $$

\(t \to \infty\)이면 \(\operatorname{Var}(X_t) \to \sigma^2/(2\kappa)\). 장기분산이 \(\kappa\)에 반비례하므로, 평균회귀가 강할수록 장기 변동이 작다. 이 성질이 "transitory component"를 OU로 모형화하는 이유이다.

Half-life (반감기). 평균으로부터의 편차 \(X_t - \theta\)가 절반으로 줄어드는 시간: \(\mathbb{E}[X_t - \theta] = (X_0 - \theta)e^{-\kappa t}\)에서 \(e^{-\kappa t_{1/2}} = 1/2\), 즉

$$t_{1/2} = \frac{\log 2}{\kappa}.$$

A.13 페어 트레이딩을 위한 다변수 선형 모형

AHFT 3.7은 두 자산의 가격이 공통 요인을 공유하는 경우를 분석한다. 핵심은 "상관이 높다"는 사실이 아니라, 어떤 선형결합이 stationary하게 평균회귀하는가이다.

정의 A.13.1 — 벡터 OU (Vector OU) 모형

두 자산의 가격 벡터 \(S_t = (S_t^{(1)}, S_t^{(2)})^\top\)이

$$dS_t = K(\theta - S_t)\,dt + \sigma\,dW_t$$

를 따른다고 하자. \(K\)는 평균회귀 행렬, \(\theta\)는 장기 균형 벡터이다.

이 정리에서 쓰는 정의

고유값과 고유벡터: \(Av=\lambda v\)를 만족하는 \(\lambda\)와 \(v e0\)를 각각 고유값, 고유벡터라 한다.

대각화 가능성: 행렬 \(A\)에 대해 \(A=PDP^{-1}\) 꼴의 표현이 가능하면 대각화 가능하다고 한다.

좌표 분리: 적절한 기저 변화로 결합된 선형 동학을 독립적인 스칼라 동학으로 바꾸는 절차다.

정리 A.13.2 — Eigenvalue 분해로 좌표 분리

\(K = U\tilde{K}U^{-1}\)으로 대각화가 가능하다고 하자. \(Y_t = U^{-1}S_t\)로 변환하면

$$dY_t = \tilde{K}(\tilde{\theta} - Y_t)\,dt + \tilde{\sigma}\,dW_t, \qquad \tilde{\theta} = U^{-1}\theta, \quad \tilde{\sigma} = U^{-1}\sigma.$$

증명. \(U^{-1}\)는 상수행렬이므로 Itô 보정항이 없다. \(dY_t = U^{-1}dS_t = U^{-1}K(\theta - S_t)dt + U^{-1}\sigma dW_t\). \(S_t = UY_t\)를 대입하면 \(U^{-1}KU = \tilde{K}\)이므로 결론이 따라온다. \(\)

엄밀성 주의. 변환 뒤 잡음좌표 \(\tilde{\sigma}dW_t\)의 공분산은 \(\tilde{\sigma}\tilde{\sigma}^\top dt = U^{-1}\sigma\sigma^\top(U^{-1})^\top dt\)로 일반적으로 비대각이다. 따라서 "좌표가 완전히 분리된다"가 아니라, drift 구조가 고유방향으로 분해된다고 읽는 것이 정확하다.

페어 트레이딩 해석. 고유값이 큰 방향은 편차가 빠르게 줄어드는 방향이고, 고유값이 작은 방향은 천천히 움직이거나 거의 random-walk처럼 보인다. 따라서 통계적 차익거래의 핵심은 "둘이 상관이 높다"가 아니라, 어떤 선형결합이 빠르게 평균으로 복귀하는가를 찾는 것이다. 이것이 상관(correlation)보다 공적분(cointegration)·스프레드 동학이 더 본질적이라는 뜻이다.

A.14 라돈–니코딤 정리(Radon–Nikodym Theorem)와 조건부기대의 존재

Chapter 3 자체는 주로 실증 분석이지만, 그 실증 결과를 이론적으로 해석하는 순간 측도와 조건부기대의 언어가 즉시 등장한다. 특히 “주어진 정보 하에서의 최선의 평균”이라는 조건부기대는 결국 한 측도가 다른 측도에 대해 절대연속일 때의 밀도, 즉 라돈–니코딤 도함수로 구현된다. 이 절에서는 이 연결고리를 중간 단계 없이 적는다.

정의 A.14.1 — 절대연속과 특이성

같은 가측공간 \((\Omega,\mathcal F)\) 위의 두 양의 측도 \((\nu,\mu)\)에 대하여, \(\nu\ll\mu\)라 함은 \(\mu(A)=0\Rightarrow \nu(A)=0\)가 모든 \(A\in\mathcal F\)에 대해 성립함을 뜻한다. 이를 \(\mu\)에 대한 \(\nu\)의 절대연속성이라 한다. 반대로 어떤 가측집합 \(N\)이 존재하여 \(\mu(N)=0\)이고 \(\nu(N^c)=0\)이면 \(\nu\perp\mu\)라 하고 서로 특이(singular)하다고 한다.

이 정리에서 쓰는 정의

부호있는 측도: 가산가법성을 가지지만 값이 음수도 될 수 있는 집합함수 \( u\)를 말한다.

양의 집합: 모든 가측 부분집합 \(B\subseteq A\)에 대해 \( u(B)\ge0\)이면 \(A\)를 \( u\)-양의 집합이라 한다.

음의 집합: 모든 가측 부분집합 \(B\subseteq A\)에 대해 \( u(B)\le0\)이면 \(A\)를 \( u\)-음의 집합이라 한다.

정리 A.14.2 — Hahn 분해 정리

signed measure \(\rho\)가 주어졌다고 하자. 그러면 서로소인 가측집합 \(P,N\)가 존재하여 \(P\cup N=\Omega\), 임의의 가측집합 \(A\subseteq P\)에 대하여 \(\rho(A)\ge 0\), 임의의 가측집합 \(B\subseteq N\)에 대하여 \(\rho(B)\le 0\)가 성립한다.

1단계. \(\alpha:=\sup\{\rho(A):A\in\mathcal F\}\)를 둔다. 유한 signed measure이므로 \(\alpha\)는 잘 정의된다. 이제 \(\rho(A_n)\uparrow \alpha\)가 되도록 가측집합열 \(A_n\)을 잡고 \(P:=\bigcup_{n\ge 1}A_n\), \(N:=P^c\)로 둔다.

2단계. \(A_n\uparrow P\)이므로 측도의 아래에서의 연속성에 의해 \(\rho(P)=\lim_{n\to\infty}\rho(A_n)=\alpha\)이다.

3단계. 이제 \(A\subseteq P\)가 가측이라 하자. 만약 \(\rho(A)<0\)라면 \(P\setminus A\subseteq P\)이고 가측이므로

$$\rho(P\setminus A)=\rho(P)-\rho(A)>\rho(P)=\alpha,$$

가 되어 \(\alpha\)의 정의에 모순이다. 따라서 \(P\)의 모든 가측부분집합에서 \(\rho\)는 음이 아니다.

4단계. 반대로 \(B\subseteq N\)가 가측이고 \(\rho(B)>0\)라고 하자. 그러면 \(P\cap B=\varnothing\)이므로

$$\rho(P\cup B)=\rho(P)+\rho(B)>\rho(P)=\alpha,$$

역시 모순이다. 따라서 \(N\)의 모든 가측부분집합에서 \(\rho\)는 양이 될 수 없다. 정리 증명 완료.

이 정리에서 쓰는 정의

절대연속: 측도 \( u\)가 \(\mu\)에 대해 절대연속이라는 것은 \(\mu(A)=0\Rightarrow u(A)=0\)가 모든 가측집합 \(A\)에 대해 성립함을 뜻하며 \( u\ll\mu\)로 쓴다.

밀도: \(f=d u/d\mu\)란 \( u(A)=\int_A f\,d\mu\)를 모든 가측집합 \(A\)에 대해 만족하는 \(\mu\)-가측 함수다.

유한 양의 측도: 전체 공간에서 측도값이 유한하고 음수가 아닌 측도를 말한다.

정리 A.14.3 — 라돈–니코딤 정리(유한 양의 측도형)

측도공간 \((\Omega,\mathcal F)\) 위에 두 유한 양의 측도 \(\nu,\mu\)가 있고 \(\nu\ll\mu\)라 하자. 그러면 어떤 비음이 아닌 \(\mathcal F\)-가측 함수 \(f\)가 존재하여 모든 \(A\in\mathcal F\)에 대해

$$\nu(A)=\int_A f\,d\mu$$

가 성립한다. 또한 이러한 \(f\)는 \(\mu\)-a.s. 유일하다.

증명. 집합

$$\mathcal C:=\left\{g\ge 0 : g\text{ 는 }\mathcal F\text{-가측이고 }\int_A g\,d\mu\le \nu(A)\ \forall A\in\mathcal F\right\}$$

를 정의한다. \(0\in\mathcal C\)이므로 \(\mathcal C\)는 비어 있지 않다. 또한 임의의 \(g\in\mathcal C\)에 대해 \(A=\Omega\)를 대입하면

$$\int_\Omega g\,d\mu\le \nu(\Omega)<\infty.$$

따라서

$$\alpha:=\sup_{g\in\mathcal C}\int_\Omega g\,d\mu$$

는 유한하다. \(\int g_n\,d\mu\to\alpha\)가 되도록 \(g_n\in\mathcal C\)를 고른다. 이제

$$f_n:=\max\{g_1,\dots,g_n\}$$

라고 두면 \(f_n\uparrow f:=\sup_n f_n\)가 되는 비음 가측함수 \(f\)가 존재한다.

각 \(f_n\)이 여전히 \(\mathcal C\)에 속함을 먼저 보인다. 두 함수 \(g,h\in\mathcal C\)에 대해 \(m:=\max\{g,h\}\)라 하고 \(B:=\{g\ge h\}\)라 두면

$$m=g1_B+h1_{B^c}.$$

임의의 \(A\in\mathcal F\)에 대해

$$\int_A m\,d\mu=\int_{A\cap B}g\,d\mu+\int_{A\cap B^c}h\,d\mu\le \nu(A\cap B)+\nu(A\cap B^c)=\nu(A).$$

따라서 \(m\in\mathcal C\)이다. 귀납적으로 모든 \(f_n\in\mathcal C\)가 따라온다.

이제 단조수렴정리를 적용하면 임의의 \(A\in\mathcal F\)에 대해

$$\int_A f\,d\mu=\lim_{n\to\infty}\int_A f_n\,d\mu\le \nu(A).$$

따라서 \(f\in\mathcal C\)다. 이제 남는 질량을

$$\lambda(A):=\nu(A)-\int_A f\,d\mu$$

로 정의하면 \(\lambda\)는 유한 양의 측도다. 목표는 \(\lambda\equiv 0\)를 보이는 것이다.

반대로 \(\lambda(\Omega)>0\)라고 하자. \(\lambda\ll\mu\)임을 보이면 모순을 만들 수 있다. 실제로 \(\mu(A)=0\)이면 \(\nu\ll\mu\)이므로 \(\nu(A)=0\), 또한 \(\int_A f\,d\mu=0\)이어서 \(\lambda(A)=0\)다. 따라서 \(\lambda\ll\mu\).

이제 라돈–니코딤 정리를 \(\lambda\)와 \(\mu\)에 다시 적용할 수 있다는 식으로 진행하면 순환이 되므로, 대신 표준 최대성 논법을 쓴다. \(\lambda\not\equiv 0\)이면 어떤 집합 \(E\in\mathcal F\)와 어떤 \(\varepsilon>0\)가 존재하여

$$\lambda(E)>\varepsilon\mu(E)$$

가 된다. 그러면 새 함수 \(f+\varepsilon 1_E\)에 대해 임의의 \(A\in\mathcal F\)에서

$$\int_A (f+\varepsilon 1_E)\,d\mu=\int_A f\,d\mu+\varepsilon\mu(A\cap E) \le \int_A f\,d\mu+\lambda(A\cap E) \le \int_A f\,d\mu+\lambda(A)=\nu(A).$$

즉 \(f+\varepsilon 1_E\in\mathcal C\)이다. 그런데

$$\int_\Omega (f+\varepsilon 1_E)\,d\mu=\int_\Omega f\,d\mu+\varepsilon\mu(E)>\int_\Omega f\,d\mu,$$

이는 \(\alpha\)의 정의와 모순이다. 따라서 \(\lambda\equiv 0\)여야 하고, 곧 모든 \(A\in\mathcal F\)에 대해

$$\nu(A)=\int_A f\,d\mu$$

가 성립한다.

유일성을 보이자. \(f,g\)가 모두 같은 성질을 만족한다고 하자. \(D:=\{f>g\}\in\mathcal F\)로 두면

$$0=\nu(D)-\nu(D)=\int_D(f-g)\,d\mu.$$

\(D\) 위에서 적분함수는 양수이므로 위 적분이 0이면 \(\mu(D)=0\)이다. 같은 방식으로 \(\mu(\{g>f\})=0\). 따라서 \(f=g\) \(\mu\)-a.s. 이다. 정리가 증명되었다.

이 정리에서 쓰는 정의

제한 측도: 부분 \(\sigma\)-대수 \(\mathcal G\) 위에서 \(\mu(A):=\mathbb P(A)\), \( u(A):=\mathbb E[X1_A]\)처럼 새 측도를 정의해 조건부기대를 구성한다.

적분가능성: \(X\in L^1\)란 \(\mathbb E[|X|]<\infty\)를 뜻한다.

조건부기대의 존재: \(\mathcal G\)-가측 함수 \(Y\)가 모든 \(A\in\mathcal G\)에 대해 \(\int_A Y\,d\mathbb P=\int_A X\,d\mathbb P\)를 만족하면 \(Y\)를 \(\mathbb E[X\mid\mathcal G]\)라 부른다.

정리 A.14.4 — 조건부기대의 존재(라돈–니코딤을 통한 구성)

적분가능한 확률변수 \(X\in L^1(\Omega,\mathcal F,\mathbb P)\)와 부분 \(\sigma\)-대수 \(\mathcal G\subseteq\mathcal F\)가 주어졌다고 하자. 그러면 \(\mathcal G\)-가측 확률변수 \(Y\)가 존재하여 모든 \(A\in\mathcal G\)에 대해

$$\int_A Y\,d\mathbb P=\int_A X\,d\mathbb P$$

가 성립한다. 이를 \(\mathbb E[X\mid\mathcal G]\)라 쓴다.

증명. 먼저 \(X\ge 0\)인 경우를 다룬다. \(\mathcal G\) 위의 집합함수 \(\nu\)를

$$\nu(A):=\int_A X\,d\mathbb P,\qquad A\in\mathcal G$$

로 정의한다. \(\nu(\varnothing)=0\)는 자명하다. 또한 \(A_n\in\mathcal G\)가 서로소이면

$$\nu\!\left(\bigcup_{n=1}^{\infty}A_n\right)=\int_{\cup_n A_n}X\,d\mathbb P=\sum_{n=1}^{\infty}\int_{A_n}X\,d\mathbb P=\sum_{n=1}^{\infty}\nu(A_n),$$

이므로 \(\nu\)는 \(\mathcal G\) 위의 양의 측도다. 또한 \(X\in L^1\)이므로

$$\nu(\Omega)=\int_\Omega X\,d\mathbb P=\mathbb E[X]<\infty,$$

따라서 \(\nu\)는 유한 측도다. 만약 \(\mathbb P(A)=0\)이면 \(\int_A X\,d\mathbb P=0\)이므로 \(\nu(A)=0\). 따라서 \(\nu\ll \mathbb P|_{\mathcal G}\)다.

이제 방금 증명한 라돈–니코딤 정리를 \(\mathcal G\) 위의 측도쌍 \(\nu\)와 \(\mathbb P|_{\mathcal G}\)에 적용하면 어떤 \(\mathcal G\)-가측 함수 \(Y\ge 0\)가 존재하여 모든 \(A\in\mathcal G\)에 대해

$$\nu(A)=\int_A Y\,d\mathbb P.$$

\(\nu(A)=\int_A X\,d\mathbb P\)였으므로

$$\int_A Y\,d\mathbb P=\int_A X\,d\mathbb P\qquad(\forall A\in\mathcal G).$$

즉 \(Y\)가 원하는 조건부기대다.

일반의 적분가능한 \(X\)에 대해서는 양부분과 음부분으로 분해한다.

$$X=X^+-X^-,$$ $$X^+:=\max\{X,0\},\qquad X^-:=\max\{-X,0\}.$$

적분가능성 때문에 \(\mathbb E[X^+]<\infty\), \(\mathbb E[X^-]<\infty\)이다. 따라서 방금의 비음 경우를 \(X^+\), \(X^-\)에 각각 적용하면 \(\mathcal G\)-가측 함수 \(Y^+,Y^-\ge 0\)가 존재하여

$$\int_A Y^+\,d\mathbb P=\int_A X^+\,d\mathbb P, \qquad \int_A Y^-\,d\mathbb P=\int_A X^-\,d\mathbb P \qquad(\forall A\in\mathcal G).$$

이제 \(Y:=Y^+-Y^-\)라고 놓으면 \(Y\)는 \(\mathcal G\)-가측이고, 모든 \(A\in\mathcal G\)에 대해

$$\int_A Y\,d\mathbb P=\int_A Y^+\,d\mathbb P-\int_A Y^-\,d\mathbb P$$ $$=\int_A X^+\,d\mathbb P-\int_A X^-\,d\mathbb P$$ $$=\int_A X\,d\mathbb P.$$

따라서 \(Y\)가 원하는 조건부기대다.

유일성을 보이자. \(Y_1,Y_2\)가 둘 다 정의를 만족한다고 하자. \(D:=\{Y_1>Y_2\}\in\mathcal G\)로 두면

$$0=\int_DY_1\,d\mathbb P-\int_DY_2\,d\mathbb P=\int_D(Y_1-Y_2)\,d\mathbb P.$$

\(D\) 위에서 \(Y_1-Y_2>0\)이므로 위 적분이 0이면 \(\mathbb P(D)=0\)이다. 같은 방식으로 \(\mathbb P(\{Y_2>Y_1\})=0\). 따라서 \(Y_1=Y_2\) almost surely 이다. 정리가 증명되었다.

해석 — 조건부기대는 “부분 정보 위에서의 밀도”다

조건부기대를 단순히 “정보를 줬을 때의 평균”이라고만 기억하면 기초가 약하다. 보다 정확히는, \(\mathcal G\)라는 제한된 정보 세계 위에서 \(A\mapsto\int_A X\,d\mathbb P\)라는 set function을 \(\mathbb P\)에 대해 미분한 결과가 바로 \(\mathbb E[X\mid\mathcal G]\)이다. 이 때문에 이후 측도변환, 밀도과정, Girsanov 정리, 뉴메레르 변경이 모두 한 언어로 연결된다.

A.15 균등적분가능성(Uniform Integrability), 수렴정리, 그리고 \(L^1\) 수렴

실증 자료에서 표본빈도를 키워 갈 때, 또는 절단된 정지시간 \(\tau\wedge n\)을 \(\tau\)로 보내는 증명에서, 가장 위험한 부분은 “극한과 기댓값을 정말 바꿔도 되는가”이다. 그 질문에 대한 정교한 답이 바로 균등적분가능성이다.

정의 A.15.1 — 균등적분가능성

확률변수족 \(\mathcal C\subset L^1\)가 다음을 만족하면 균등적분가능(UI)하다고 한다.

$$\lim_{M\to\infty}\sup_{X\in\mathcal C}\mathbb E\big[|X|\,1_{\{|X|>M\}}\big]=0.$$

즉 꼬리 부분에서 빠져나가는 \(L^1\) 질량을 하나의 공통한 \(M\)으로 동시에 억제할 수 있어야 한다.

이 보조정리에서 쓰는 정의

적분가능 함수: \(X\in L^1\)란 \(\mathbb E[|X|]<\infty\)를 뜻한다.

확률측도에 대한 절대연속성: 작은 확률의 사건 위에서는 \(L^1\) 함수의 적분도 충분히 작아진다는 성질을 말한다.

절단(truncation): \(|X|\le M\)인 부분과 \(|X|>M\)인 꼬리 부분으로 나누어 적분을 통제하는 기법이다.

보조정리 A.15.2 — 적분가능 함수의 절대연속성

\(X\in L^1\)이면 임의의 \(\varepsilon>0\)에 대하여 어떤 \(\delta>0\)가 존재하여 \(\mathbb P(A)<\delta\)인 모든 사건 \(A\)에 대해

$$\mathbb E[|X|1_A]<\varepsilon$$

가 성립한다.

증명. \(X\in L^1\)이므로 \(\mathbb E[|X|]<\infty\)이다. 절단 수준 \(M\)을 크게 보내면 꼬리 적분이 0으로 가므로, 먼저 충분히 큰 \(M>0\)를 택하여

$$\mathbb E\bigl[|X|1_{\{|X|>M\}}\bigr]<\frac{\varepsilon}{2}$$

가 되게 한다. 이제 이 \(M\)에 대하여

$$\delta:=\frac{\varepsilon}{2M}$$

로 둔다. 임의의 사건 \(A\)가 \(\mathbb P(A)<\delta\)를 만족한다고 하자. 그러면 지시함수로 영역을 나누어

$$|X|1_A=|X|1_{A\cap\{|X|\le M\}}+|X|1_{A\cap\{|X|>M\}}$$

가 된다. 기대값을 취하면

$$\mathbb E[|X|1_A] =\mathbb E[|X|1_{A\cap\{|X|\le M\}}]+\mathbb E[|X|1_{A\cap\{|X|>M\}}].$$

첫째 항은 \(|X|\le M\)을 이용해

$$\mathbb E[|X|1_{A\cap\{|X|\le M\}}]\le M\,\mathbb P(A\cap\{|X|\le M\})\le M\mathbb P(A)< M\delta=\frac{\varepsilon}{2}.$$

둘째 항은 집합을 넓혀

$$\mathbb E[|X|1_{A\cap\{|X|>M\}}]\le \mathbb E[|X|1_{\{|X|>M\}}]<\frac{\varepsilon}{2}.$$

따라서 두 부등식을 합치면

$$\mathbb E[|X|1_A]<\frac{\varepsilon}{2}+\frac{\varepsilon}{2}=\varepsilon.$$

원하는 결론이 성립한다.

이 정리에서 쓰는 정의

균등적분가능성(UI): 확률변수족 \(\mathcal C\)가 UI라는 것은 \(\lim_{M\to\infty}\sup_{X\in\mathcal C}\mathbb E[|X|1_{\{|X|>M\}}]=0\)를 만족한다는 뜻이다.

지배 가능: 어떤 \(Y\in L^1\)가 존재하여 모든 \(X\in\mathcal C\)에 대해 \(|X|\le Y\) a.s.가 성립하면 \(\mathcal C\)는 적분가능한 하나의 변수 \(Y\)에 의해 지배된다고 한다.

정리 A.15.3 — 지배 가능하면 UI

어떤 \(Y\in L^1\)가 있어 모든 \(X\in\mathcal C\)에 대해 \(|X|\le Y\) almost surely 라고 하자. 그러면 \(\mathcal C\)는 UI이다.

증명. UI의 정의에 따르면 보여야 할 것은

$$\lim_{M\to\infty}\sup_{X\in\mathcal C}\mathbb E[|X|1_{\{|X|>M\}}]=0$$

이다. 따라서 임의의 \(M>0\)를 고정하고 각 \(X\in\mathcal C\)에 대해 꼬리항을 비교한다. \(|X|\le Y\) a.s. 이므로 사건 포함관계

$$\{|X|>M\}\subseteq\{Y>M\}$$

가 성립한다. 실제로 어떤 \(\omega\)에서 \(|X(\omega)|>M\)이면 \(Y(\omega)\ge |X(\omega)|>M\)이기 때문이다. 따라서 거의 모든 \(\omega\)에 대해

$$|X|1_{\{|X|>M\}}\le Y1_{\{Y>M\}}.$$

양변의 기대값을 취하면

$$\mathbb E[|X|1_{\{|X|>M\}}]\le \mathbb E[Y1_{\{Y>M\}}].$$

이 부등식은 모든 \(X\in\mathcal C\)에 대해 성립하므로 상한을 취해도

$$\sup_{X\in\mathcal C}\mathbb E[|X|1_{\{|X|>M\}}]\le \mathbb E[Y1_{\{Y>M\}}].$$

이제 \(Y\in L^1\)이므로 보조정리 A.15.2를 \(X=Y\)에 적용하거나, 적분가능 함수의 꼬리 적분이 0으로 간다는 사실을 이용하면

$$\mathbb E[Y1_{\{Y>M\}}]\to0\qquad(M\to\infty).$$

따라서 샌드위치에 의해

$$\lim_{M\to\infty}\sup_{X\in\mathcal C}\mathbb E[|X|1_{\{|X|>M\}}]=0.$$

즉 \(\mathcal C\)는 균등적분가능하다.

이 정리에서 쓰는 정의

볼록함수: \(\Phi(\lambda x+(1-\lambda)y)\le \lambda\Phi(x)+(1-\lambda)\Phi(y)\)를 만족하는 함수를 말한다.

de la Vallée-Poussin 판정: 선형보다 충분히 빠르게 증가하는 볼록함수 \(\Phi\)에 대한 기대값이 일괄적으로 유계이면 그 족은 UI라는 판정법이다.

초선형 성장: \(\Phi(x)/x\to\infty\)는 큰 \(x\)에서 \(\Phi\)가 선형함수보다 빨리 자란다는 뜻이다.

정리 A.15.4 — de la Vallée-Poussin 판정법

볼록 증가함수 \(\Phi:[0,\infty)\to[0,\infty)\)가 존재하여 \(\Phi(x)/x\to\infty\) 그리고

$$\sup_{X\in\mathcal C}\mathbb E[\Phi(|X|)]<\infty$$

이면 \(\mathcal C\)는 UI이다.

증명. \(K>0\)를 임의로 고정한다. 가정 \(\Phi(x)/x\to\infty\)에 의해 충분히 큰 \(M=M(K)\)가 존재하여 모든 \(x\ge M\)에 대해

$$\frac{\Phi(x)}{x}\ge K$$

가 성립한다. 이를 다시 쓰면

$$x\le \frac1K\Phi(x)\qquad(x\ge M).$$

이제 임의의 \(X\in\mathcal C\)에 대해 사건 \(\{|X|>M\}\) 위에서는 \(|X|\ge M\)이므로 위 부등식을 \(x=|X|\)에 적용할 수 있다. 따라서

$$|X|1_{\{|X|>M\}}\le \frac1K\Phi(|X|)1_{\{|X|>M\}}\le \frac1K\Phi(|X|).$$

양변의 기대값을 취하면

$$\mathbb E[|X|1_{\{|X|>M\}}]\le \frac1K\mathbb E[\Phi(|X|)].$$

이 부등식은 모든 \(X\in\mathcal C\)에 대해 성립하므로 상한을 취해

$$\sup_{X\in\mathcal C}\mathbb E[|X|1_{\{|X|>M\}}]\le \frac1K\sup_{X\in\mathcal C}\mathbb E[\Phi(|X|)].$$

이제

$$C:=\sup_{X\in\mathcal C}\mathbb E[\Phi(|X|)]<\infty$$

라고 두면 위 식은

$$\sup_{X\in\mathcal C}\mathbb E[|X|1_{\{|X|>M\}}]\le \frac{C}{K}.$$

그런데 \(K>0\)는 임의였다. 따라서 임의의 \(\varepsilon>0\)에 대해 \(K>C/\varepsilon\)를 먼저 택하고, 그 뒤 그 \(K\)에 대응하는 충분히 큰 \(M\)를 택하면

$$\sup_{X\in\mathcal C}\mathbb E[|X|1_{\{|X|>M\}}]<\varepsilon.$$

이는 바로 UI의 정의이다. 따라서 \(\mathcal C\)는 균등적분가능하다.

이 정리에서 쓰는 정의

확률수렴: \(X_n\to X\) in probability란 모든 \(\varepsilon>0\)에 대해 \(\mathbb P(|X_n-X|>\varepsilon)\to0\)를 뜻한다.

\(L^1\) 수렴: \(\mathbb E|X_n-X|\to0\)이면 \(X_n\to X\) in \(L^1\)라 한다.

균등적분가능성: 꼬리 기댓값이 변수들 전체에 대해 동시에 작아지는 성질이다.

정리 A.15.5 — Vitali 수렴정리(확률수렴 + UI \(\Rightarrow L^1\) 수렴)

\(X_n\to X\) in probability이고 \(\{X_n\}_{n\ge 1}\)가 UI라 하자. 그러면 \(X\in L^1\)이고 \(\mathbb E|X_n-X|\to 0\)가 성립한다.

1단계: \(X\)의 적분가능성. \(|X|\le |X_n|+|X_n-X|\)는 직접적 도움이 약하므로, 먼저 \(X_n\)의 UI로부터 \(\sup_n\mathbb E|X_n|<\infty\)를 얻는다. 실제로 \(M\)을 충분히 크게 두면 \(\mathbb E|X_n|\le M+\sup_n\mathbb E[|X_n|1_{\{|X_n|>M\}}]\)이다. 따라서 부분열을 택해 almost sure 수렴시키고 Fatou 정리를 적용하면 \(\mathbb E|X|<\infty\)를 얻는다.

2단계: 큰 값 영역 제어. UI 때문에 \(\varepsilon>0\)에 대해 충분히 큰 \(M\)를 잡아

$$\sup_n \mathbb E[|X_n|1_{\{|X_n|>M\}}]<\varepsilon, \qquad \mathbb E[|X|1_{\{|X|>M\}}]<\varepsilon$$

가 되게 할 수 있다.

3단계: bounded part 제어. \(|X_n-X|\le 2M\)인 사건 \(\{|X_n|\le M, |X|\le M\}\) 위에서는 \(X_n\to X\) in probability이고 bounded 하므로 지배수렴정리 적용을 위해 부분열 almost sure 수렴을 택할 수 있다. 결과적으로 이 bounded part의 \(L^1\) 기여는 0으로 간다.

4단계: 결합. 전체 기대값을 세 조각으로 나누면

$$\mathbb E|X_n-X|\le \mathbb E[|X_n-X|1_{\{|X_n|\le M,|X|\le M\}}]+\mathbb E[|X_n|1_{\{|X_n|>M\}}]+\mathbb E[|X|1_{\{|X|>M\}}].$$

첫 항은 \(n\to\infty\)에 따라 0, 뒤 두 항은 각각 \(\varepsilon\) 이하로 잡을 수 있으므로 \(\limsup_n\mathbb E|X_n-X|\le 2\varepsilon\). \(\varepsilon\)의 임의성으로 결론이 따른다.

왜 중요한가

정지시간 절단, 측도변환의 밀도과정, 마팅게일 수렴정리, 실증적 추정량의 정당화 모두 결국 “확률수렴만으로는 부족하고, 꼬리 질량을 통제해야 한다”는 사실에 기대고 있다. 균등적분가능성은 바로 그 꼬리 통제의 수학적 이름이다.

A.16 임의정지정리(Optional Stopping Theorem)와 절단 논법

실증 분석에서는 특정 임계값을 처음 넘는 시간, 즉 hitting time이 자주 등장한다. 또한 고빈도 전략 이론에서는 “어떤 정지규칙으로 멈춰도 공정성이 유지되는가”라는 질문이 핵심이다. 그 논리적 중심이 임의정지정리다.

정의 A.16.1 — 정지시간

여과 \((\mathcal F_t)_{t\ge 0}\)에 대해 확률변수 \(\tau: \Omega\to [0,\infty]\)가 모든 \(t\ge 0\)에 대하여 \(\{\tau\le t\}\in\mathcal F_t\)를 만족하면 정지시간이라 한다. 즉 시점 \(t\)에 도달했을 때 그때까지의 정보만으로 이미 멈췄는지 여부를 판단할 수 있어야 한다.

이 정리에서 쓰는 정의

정지시간: 모든 \(n\)에 대해 \(\{\tau\le n\}\in\mathcal F_n\)이면 \(\tau\)를 정지시간이라 한다.

정지된 과정: \(M_{\tau\wedge n}\)처럼 정지시간이 도달하면 값을 멈춘 과정을 말한다.

선택정지정리(OST): 정지된 마팅게일의 기대값이 적절한 조건 아래 원래 기대값과 같다는 정리다.

정리 A.16.2 — 유계 정지시간에 대한 OST

이산시간 마팅게일 \((M_n,\mathcal F_n)\)과 유계 정지시간 \(\tau\le N\)가 주어졌다고 하자. 그러면

$$\mathbb E[M_\tau]=\mathbb E[M_0].$$

1단계. 정지과정 \(M_{\tau\wedge n}\)을 본다. \(\tau\le N\)이므로 \(\tau\wedge n=\tau\)는 \(n\ge N\)에서 이미 성립한다. 따라서 핵심은 각 \(n\)에 대해 \(\mathbb E[M_{\tau\wedge n}]=\mathbb E[M_0]\)를 보이는 것이다.

2단계. 차분을 전개한다.

$$M_{\tau\wedge n}=M_0+\sum_{k=1}^n (M_k-M_{k-1})1_{\{\tau\ge k\}}.$$

여기서 \(1_{\{\tau\ge k\}}\)는 \(\mathcal F_{k-1}\)-가측이다. 왜냐하면 \(\{\tau\ge k\}=\{\tau\le k-1\}^c\)이기 때문이다.

3단계. 기대값을 취하면

$$\mathbb E[M_{\tau\wedge n}]=\mathbb E[M_0]+\sum_{k=1}^n \mathbb E\Big[(M_k-M_{k-1})1_{\{\tau\ge k\}}\Big].$$

타워 성질과 마팅게일 성질을 쓰면

$$\mathbb E\Big[(M_k-M_{k-1})1_{\{\tau\ge k\}}\Big]=\mathbb E\Big[1_{\{\tau\ge k\}}\mathbb E[M_k-M_{k-1}\mid\mathcal F_{k-1}]\Big]=0.$$

따라서 \(\mathbb E[M_{\tau\wedge n}]=\mathbb E[M_0]\)이다.

4단계. \(n\ge N\)이면 \(M_{\tau\wedge n}=M_\tau\)이므로 결론이 바로 따라온다.

이 정리에서 쓰는 정의

UI 마팅게일: \(\{M_n:n\ge0\}\)가 균등적분가능한 마팅게일을 말한다.

정지시간: 미래를 보지 않고 정의되는 무작위 시각이다. 즉 \(\{\tau\le n\}\in\mathcal F_n\)가 모든 \(n\)에 대해 성립한다.

정지된 족: \(\{M_{\tau\wedge n}:n\ge1\}\)을 말하며, 유계 정지시간 OST와 Vitali 수렴정리를 함께 적용할 때 핵심 객체가 된다.

정리 A.16.3 — UI 마팅게일에 대한 OST

\(M_n\)이 UI 마팅게일이고 \(\tau\)가 임의의 정지시간이라 하자. 또한 \(M_{\tau\wedge n}\to M_\tau\) almost surely 라고 하자. 그러면

$$\mathbb E[M_\tau]=\mathbb E[M_0].$$

증명. 증명은 유계 정지시간의 경우를 먼저 적용한 뒤, UI를 사용하여 극한을 기대값 안으로 통과시키는 순서로 진행된다.

1단계. 잘린 정지시간에 OST 적용. 각 \(n\in\mathbb N\)에 대해

$$\tau_n:=\tau\wedge n$$

로 두자. 그러면 \(\tau_n\le n\)이므로 \(\tau_n\)은 유계 정지시간이다. 따라서 정리 A.16.2를 \(\tau_n\)에 적용할 수 있고, 모든 \(n\)에 대해

$$\mathbb E[M_{\tau_n}]=\mathbb E[M_0]$$

를 얻는다. 즉

$$\mathbb E[M_{\tau\wedge n}]=\mathbb E[M_0]\qquad\text{for every }n\in\mathbb N.$$

2단계. 정지된 족의 UI. \((M_n)\) 자체가 UI라고 가정했으므로 임의의 \(K>0\)에 대해

$$\sup_{m\ge0}\mathbb E[|M_m|1_{\{|M_m|>K\}}]\to0\qquad(K\to\infty).$$

한편 각 \(n\)에 대해 \(M_{\tau\wedge n}\)은 집합 \(\{\tau=k\}\) 위에서 \(M_k\)와 같고, \(\{\tau>n\}\) 위에서 \(M_n\)과 같다. 즉

$$|M_{\tau\wedge n}|1_{\{|M_{\tau\wedge n}|>K\}} =\sum_{k=0}^{n}|M_k|1_{\{\tau=k\}}1_{\{|M_k|>K\}}+|M_n|1_{\{\tau>n\}}1_{\{|M_n|>K\}}.$$

기대값을 취하면 지시함수들이 모두 \([0,1]\) 값을 가지므로

$$\mathbb E\bigl[|M_{\tau\wedge n}|1_{\{|M_{\tau\wedge n}|>K\}}\bigr] \le \sum_{k=0}^{n}\mathbb E\bigl[|M_k|1_{\{|M_k|>K\}}1_{\{\tau=k\}}\bigr] +\mathbb E\bigl[|M_n|1_{\{|M_n|>K\}}1_{\{\tau>n\}}\bigr].$$

각 항에 대해 \(1_{\{\tau=k\}}\le1\), \(1_{\{\tau>n\}}\le1\)이므로 전체적으로

$$\mathbb E\bigl[|M_{\tau\wedge n}|1_{\{|M_{\tau\wedge n}|>K\}}\bigr] \le \sup_{m\ge0}\mathbb E\bigl[|M_m|1_{\{|M_m|>K\}}\bigr].$$

따라서

$$\sup_{n\ge1}\mathbb E\bigl[|M_{\tau\wedge n}|1_{\{|M_{\tau\wedge n}|>K\}}\bigr] \le \sup_{m\ge0}\mathbb E\bigl[|M_m|1_{\{|M_m|>K\}}\bigr]\to0\qquad(K\to\infty).$$

즉 정지된 족 \(\{M_{\tau\wedge n}:n\ge1\}\)도 UI이다.

3단계. Vitali 수렴정리 적용. 가정에 의해 \(M_{\tau\wedge n}\to M_\tau\) a.s.이고, 방금 \(\{M_{\tau\wedge n}\}\)가 UI임을 보였다. 그러므로 정리 A.15.5를 적용하면

$$\mathbb E\bigl[|M_{\tau\wedge n}-M_\tau|\bigr]\to0.$$

즉 \(M_{\tau\wedge n}\to M_\tau\) in \(L^1\)이다. 따라서 기대값도 수렴하여

$$\mathbb E[M_{\tau\wedge n}]\to\mathbb E[M_\tau].$$

4단계. 결론. 1단계에서 모든 \(n\)에 대해 \(\mathbb E[M_{\tau\wedge n}]=\mathbb E[M_0]\)였으므로 극한을 취하면

$$\mathbb E[M_\tau]=\lim_{n\to\infty}\mathbb E[M_{\tau\wedge n}]\ =\mathbb E[M_0].$$

원하는 등식이 증명되었다.

중요한 경고 — OST는 아무 때나 성립하지 않는다

유계성이 없고, UI도 없고, 지배수렴을 적용할 만한 절대적 상계도 없으면 OST는 실패할 수 있다. 유명한 double-or-nothing 류의 도박 전략이 바로 이런 실패를 이용한다. 따라서 정지시간을 자를 때는 항상 어떤 조건으로 극한과 기대값을 교환할 수 있는지 확인해야 한다.

A.17 측도변환, 밀도과정, 뉴메레르 변경

사용자가 요구한 뉴메레르(numeraire) 관련 내용은 Chapter 3의 직접 의존관계는 아니지만, 이 책 전체와 금융수학의 핵심 구조이므로 Part A에 독립적으로 포함한다. 이 절의 목적은 “왜 어떤 자산으로 가격을 나누면 그 비율이 특정 측도에서 마팅게일이 되는가”를 중간 다리 없이 보이는 것이다.

정의 A.17.1 — 동등확률측도와 라돈–니코딤 밀도

두 확률측도 \(\mathbb P,\mathbb Q\)가 서로 같은 영집합을 가지면 \(\mathbb Q\sim \mathbb P\)라 하고 서로 동등하다고 한다. 이 경우 \(Z:=\frac{d\mathbb Q}{d\mathbb P}\)라는 비음이 아닌 적분가능 함수가 존재하고 \(\mathbb E_\mathbb P[Z]=1\)이다. 또한 연속시간 여과에서

$$Z_t:=\mathbb E_\mathbb P\!\left[\left.\frac{d\mathbb Q}{d\mathbb P}\right|\mathcal F_t\right]$$

밀도과정(density process)이라 부른다.

이 정리에서 쓰는 정의

측도변환: \(\mathbb Q\ll\mathbb P\)이고 밀도과정 \(Z_t=\mathbb E_\mathbb P[d\mathbb Q/d\mathbb P\mid\mathcal F_t]\)로 새 측도를 도입하는 절차다.

Bayes 공식: 두 측도 사이의 조건부기대를 밀도과정으로 연결하는 공식이다.

밀도과정: \(Z_t\)는 시각 \(t\)까지의 정보로 본 Radon–Nikodym 도함수다.

정리 A.17.2 — Bayes 공식(측도변환형)

\(\mathbb Q\ll\mathbb P\)이고 \(Z=\frac{d\mathbb Q}{d\mathbb P}\)라 하자. 적분가능한 확률변수 \(X\)와 부분 \(\sigma\)-대수 \(\mathcal G\subseteq\mathcal F\)에 대하여

$$\mathbb E_\mathbb Q[X\mid\mathcal G]=\frac{\mathbb E_\mathbb P[ZX\mid\mathcal G]}{\mathbb E_\mathbb P[Z\mid\mathcal G]}$$

가 \(\{\mathbb E_\mathbb P[Z\mid\mathcal G]>0\}\) 위에서 성립한다.

증명. 오른쪽을 \(Y\)라 두자. 분자와 분모는 모두 \(\mathcal G\)-가측이므로 \(Y\)는 \(\mathcal G\)-가측이다. 이제 조건부기대의 defining property를 확인한다. 임의의 \(A\in\mathcal G\)에 대해

$$\int_A Y\,d\mathbb Q=\int_A YZ\,d\mathbb P.$$

한편 \(1_A Y\)는 \(\mathcal G\)-가측이므로

$$\int_A YZ\,d\mathbb P=\int_A Y\,\mathbb E_\mathbb P[Z\mid\mathcal G] \,d\mathbb P.$$

이제 \(Y\)의 정의를 대입하면

$$\int_A Y\,\mathbb E_\mathbb P[Z\mid\mathcal G] \,d\mathbb P= \int_A \mathbb E_\mathbb P[ZX\mid\mathcal G] \,d\mathbb P.$$

조건부기대의 defining property를 한 번 더 쓰면

$$\int_A \mathbb E_\mathbb P[ZX\mid\mathcal G] \,d\mathbb P=\int_A ZX\,d\mathbb P=\int_A X\,d\mathbb Q.$$

결국 모든 \(A\in\mathcal G\)에 대해 \(\int_A Y\,d\mathbb Q=\int_A X\,d\mathbb Q\)가 성립한다. 따라서 \(Y=\mathbb E_\mathbb Q[X\mid\mathcal G]\)이다. 정리가 증명되었다.

정의 A.17.3 — 뉴메레르

엄격히 양수인 거래가능 자산 \(N=(N_t)_{t\ge0}\)을 뉴메레르라 한다.

이 정리에서 쓰는 정의

뉴메레르: 항상 양수이고 거래 가능한 기준자산 \(N\)을 말한다. 화폐시장계정 \(B\)도 대표적인 뉴메레르다.

뉴메레르 도함수: \(\left.\frac{d\mathbb Q^N}{d\mathbb Q^B}\right|_{\mathcal F_t}=\frac{N_t/B_t}{N_0/B_0}\)는 기존 기준 \(B\)에서 새 기준 \(N\)으로 측도를 바꾸는 밀도과정이다.

할인과정: 기준자산이 \(N\)일 때 자산 \(S\)의 가격을 \(S_t/N_t\)로 정규화한 과정을 말한다.

정리 A.17.4 — 뉴메레르 변경 정리

위험중립측도 \(\mathbb Q^B\) 아래에서 모든 거래가능 자산 \(S\)의 할인과정 \(S_t/B_t\)가 마팅게일이라고 하자. 양의 뉴메레르 \(N\)을 택하고

$$\left.\frac{d\mathbb Q^N}{d\mathbb Q^B}\right|_{\mathcal F_t}=Z_t:=\frac{N_t/B_t}{N_0/B_0}$$

로 새 측도 \(\mathbb Q^N\)를 정의하자. 그러면 모든 거래가능 자산 \(S\)에 대해 \(S_t/N_t\)는 \(\mathbb Q^N\) 아래 마팅게일이다.

증명. 가정상 \(N_t/B_t\)는 \(\mathbb Q^B\)-마팅게일이다. 따라서 상수 \(B_0/N_0\)를 곱한 \(Z_t\)도 \(\mathbb Q^B\)-마팅게일이다. 또한

$$\mathbb E_{\mathbb Q^B}[Z_t]=\frac{B_0}{N_0}\mathbb E_{\mathbb Q^B}\left[\frac{N_t}{B_t}\right]=\frac{B_0}{N_0}\frac{N_0}{B_0}=1.$$

그러므로 \(Z_t\)는 밀도과정으로 적합하다.

이제 \(0\le s\le t\)에 대해 Bayes 공식을 적용하면

$$\mathbb E_{\mathbb Q^N}\!\left[\left.\frac{S_t}{N_t}\right|\mathcal F_s\right]=\frac{1}{Z_s}\mathbb E_{\mathbb Q^B}\!\left[\left.Z_t\frac{S_t}{N_t}\right|\mathcal F_s\right].$$

안쪽 항을 정리하면

$$Z_t\frac{S_t}{N_t}=\frac{N_t/B_t}{N_0/B_0}\frac{S_t}{N_t}=\frac{B_0}{N_0}\frac{S_t}{B_t}.$$

따라서

$$\mathbb E_{\mathbb Q^N}\!\left[\left.\frac{S_t}{N_t}\right|\mathcal F_s\right]=\frac{1}{Z_s}\frac{B_0}{N_0}\mathbb E_{\mathbb Q^B}\!\left[\left.\frac{S_t}{B_t}\right|\mathcal F_s\right].$$

\(S_t/B_t\)는 \(\mathbb Q^B\)-마팅게일이므로

$$\mathbb E_{\mathbb Q^B}\!\left[\left.\frac{S_t}{B_t}\right|\mathcal F_s\right]=\frac{S_s}{B_s}.$$

이 식을 대입하면

$$\mathbb E_{\mathbb Q^N}\!\left[\left.\frac{S_t}{N_t}\right|\mathcal F_s\right]=\frac{1}{Z_s}\frac{B_0}{N_0}\frac{S_s}{B_s}.$$

마지막으로 \(Z_s=\frac{N_s/B_s}{N_0/B_0}\)이므로

$$\frac{1}{Z_s}\frac{B_0}{N_0}\frac{S_s}{B_s}= \frac{N_0/B_0}{N_s/B_s}\frac{B_0}{N_0}\frac{S_s}{B_s}=\frac{S_s}{N_s}.$$

$$\mathbb E_{\mathbb Q^N}\!\left[\left.\frac{S_t}{N_t}\right|\mathcal F_s\right]=\frac{S_s}{N_s}.$$

따라서 \(S_t/N_t\)는 \(\mathbb Q^N\)-마팅게일이다. 정리가 증명되었다.

해석

가격을 어떤 자산 \(N\)으로 나눈다는 것은 단순한 단위 환산이 아니다. 그것은 확률측도 자체를 바꾸는 일과 연결되어 있다. 예금계정으로 나누면 위험중립측도, 만기채권으로 나누면 선도측도, 주가지수로 나누면 그 지수 측도가 자연스럽게 등장한다.

A.18 Girsanov 정리와 브라운 운동의 드리프트 제거

금융수학에서 측도변환이 강력한 이유는, 적절한 밀도과정을 곱하면 브라운 운동의 drift를 없애거나 바꿀 수 있기 때문이다. 그 결과가 Girsanov 정리다. 위험중립가격결정, 선도측도, 뉴메레르 변경, 연속시간 자산가격 방정식의 드리프트 조정이 모두 이 정리에 기대고 있다.

정의 A.18.1 — 지수형 밀도과정

\((W_t)_{t\le T}\)를 \(\mathbb P\)-브라운 운동이라 하자. 적응과정 \(\theta_t\)가 주어졌을 때

$$Z_t:=\exp\left(-\int_0^t \theta_s\,dW_s-\frac12\int_0^t \theta_s^2\,ds\right)$$

를 돌리언 지수(Doléans exponential)라 한다. Novikov 조건

$$\mathbb E_\mathbb P\!\left[\exp\left(\frac12\int_0^T\theta_s^2ds\right)\right]<\infty$$

이 성립하면 \(Z_t\)는 진정한 \(\mathbb P\)-마팅게일이고 \(\mathbb E_\mathbb P[Z_T]=1\)이다.

이 정리에서 쓰는 정의

지수형 밀도과정: \(Z_t=\exp\left(-\int_0^t\theta_s\,dW_s-\frac12\int_0^t\theta_s^2\,ds\right)\)와 같은 Doleans-Dade 지수과정을 말한다.

Novikov 조건: \(\mathbb E\left[\exp\left(\frac12\int_0^T\theta_s^2ds\right)\right]<\infty\)이면 \(Z_t\)가 진정한 마팅게일이 되도록 보장하는 충분조건이다.

Girsanov 변환: 측도변환을 통해 브라운 운동의 drift를 없애거나 새로 부여하는 정리다.

정리 A.18.2 — Girsanov 정리(1차원, Novikov 조건)

정의 A.18.1의 지수형 밀도과정 \(Z_t\)가 Novikov 조건에 의해 진정한 마팅게일이라고 하자. \(d\mathbb Q:=Z_Td\mathbb P\)로 새 측도 \(\mathbb Q\)를 정의하자. 그러면

$$W_t^{\mathbb Q}:=W_t+\int_0^t\theta_sds$$

는 \(\mathbb Q\) 아래 브라운 운동이다.

증명. 브라운 운동임을 보이려면 연속경로, 평균 0의 정규증분, 그리고 과거와의 독립성을 확인하면 충분하다.

1단계. 연속성. \(W_t\)는 연속이고 \(\int_0^t\theta_sds\)는 시간적 적분이므로 절대연속 함수다. 따라서 그 합

$$W_t^{\mathbb Q}=W_t+\int_0^t\theta_sds$$

도 연속경로를 가진다.

2단계. 핵심 보조과정의 설정. \(0\le s\le t\)와 임의의 실수 \(u\)를 고정한다. 정규증분의 특성함수를 직접 계산하기 위해

$$M_r:=Z_r\exp\left(iuW_r^{\mathbb Q}+\frac12u^2r\right),\qquad 0\le r\le T$$

를 정의한다. 여기서

$$Z_r=\exp\left(-\int_0^r\theta_v\,dW_v-\frac12\int_0^r\theta_v^2\,dv\right), \qquad W_r^{\mathbb Q}=W_r+\int_0^r\theta_v\,dv.$$

따라서 로그를 취하면

$$\log M_r=-\int_0^r\theta_v\,dW_v-\frac12\int_0^r\theta_v^2\,dv+iuW_r+iu\int_0^r\theta_vdv+\frac12u^2r.$$

3단계. Itô 계산. 위 보조과정이 \(\mathbb P\)-마팅게일임을 확인한다. 먼저

$$dZ_r=-\theta_r Z_r\,dW_r$$

이고, 또

$$d\left(e^{iuW_r^{\mathbb Q}+\frac12u^2r}\right) =e^{iuW_r^{\mathbb Q}+\frac12u^2r}\left(iu\,dW_r^{\mathbb Q}\right) =e^{iuW_r^{\mathbb Q}+\frac12u^2r}\left(iu\,dW_r+iu\theta_rdr\right)$$

이다. 여기서 \((dW_r)^2=dr\)를 이용하면 \(\frac12u^2r\) 항이 정확히 2차변동을 상쇄하여 위처럼 정리된다. 이제 곱의 Itô 공식을 적용하면

$$dM_r=dZ_r\cdot e^{iuW_r^{\mathbb Q}+\frac12u^2r}+Z_r\,d\left(e^{iuW_r^{\mathbb Q}+\frac12u^2r}\right)+d\left\langle Z,e^{iuW^{\mathbb Q}+\frac12u^2\cdot}\right\rangle_r.$$

각 항을 대입하면

$$dM_r=-\theta_rM_r\,dW_r+iuM_r\,dW_r+iu\theta_rM_r\,dr-iu\theta_rM_r\,dr.$$

마지막 두 drift 항이 상쇄되므로

$$dM_r=(iu-\theta_r)M_r\,dW_r.$$

즉 \(M_r\)는 drift가 없는 국소마팅게일이다. Novikov 조건 때문에 \(Z_r\)가 진정한 마팅게일이고, 위 지수항도 적절히 적분가능하므로 \(M_r\)는 실제 마팅게일이 된다.

4단계. 조건부 특성함수 계산. 마팅게일 성질에 의해

$$\mathbb E_{\mathbb P}[M_t\mid\mathcal F_s]=M_s.$$

이를 풀어 쓰면

$$\mathbb E_{\mathbb P}\!\left[\left.Z_t e^{iuW_t^{\mathbb Q}+\frac12u^2t}\right|\mathcal F_s\right] =Z_s e^{iuW_s^{\mathbb Q}+\frac12u^2s}.$$

양변을 \(Z_s e^{iuW_s^{\mathbb Q}+\frac12u^2s}\)로 나누면

$$\frac1{Z_s}\mathbb E_{\mathbb P}\!\left[\left.Z_t e^{iu(W_t^{\mathbb Q}-W_s^{\mathbb Q})}\right|\mathcal F_s\right]=e^{-\frac12u^2(t-s)}.$$

Bayes 공식 \(\mathbb E_{\mathbb Q}[X\mid\mathcal F_s]=Z_s^{-1}\mathbb E_{\mathbb P}[Z_tX\mid\mathcal F_s]\)를 적용하면

$$\mathbb E_{\mathbb Q}\!\left[\left.e^{iu(W_t^{\mathbb Q}-W_s^{\mathbb Q})}\right|\mathcal F_s\right]=e^{-\frac12u^2(t-s)}.$$

우변은 평균 0, 분산 \(t-s\)인 정규분포 \(N(0,t-s)\)의 특성함수다. 또한 우변은 \(\mathcal F_s\)-가측 랜덤변수가 아니라 상수이므로 증가량 \(W_t^{\mathbb Q}-W_s^{\mathbb Q}\)는 \(\mathcal F_s\)와 독립이다.

5단계. 결론. 모든 \(0\le s\le t\)에 대해 증가량이 \(N(0,t-s)\) 분포를 가지며 과거 정보 \(\mathcal F_s\)와 독립이고, 경로는 연속이다. 따라서 \((W_t^{\mathbb Q})_{t\ge0}\)는 \(\mathbb Q\)-브라운 운동이다.

응용 A.18.3 — 드리프트가 있는 자산가격 방정식의 위험중립화

자산가격이

$$dS_t=\mu_tS_tdt+\sigma_tS_tdW_t$$

를 따른다고 하자. 이자율 \(r_t\)가 주어졌을 때 \(\theta_t=(\mu_t-r_t)/\sigma_t\)로 두면 Girsanov 정리에 의해 \(W_t^{\mathbb Q}=W_t+\int_0^t\theta_sds\)가 \(\mathbb Q\)-브라운 운동이 되고, SDE는

$$dS_t=r_tS_tdt+\sigma_tS_tdW_t^{\mathbb Q}$$

로 바뀐다. 즉 위험프리미엄 \(\mu_t-r_t\)가 확률측도 변경 속으로 흡수된다. 이 구조가 바로 “할인된 가격은 위험중립측도 아래 마팅게일”이라는 문장의 계산적 의미다.

주의

Girsanov 정리는 모든 적응과정 \(\theta\)에 대해 자동으로 되는 것이 아니다. \(Z_T\)가 진정한 마팅게일이 되어야만 새로운 확률측도 \(\mathbb Q\)가 정의된다. Novikov 조건은 충분조건이지 필요조건은 아니다. 하지만 실제 금융모형에서 가장 많이 쓰이는 검증 조건이다.

Part B — AHFT Chapter 3 본문: Empirical and Statistical Evidence: Prices and Returns

이 장을 읽는 세 가지 관점

첫째, "모형보다 데이터가 먼저다." AHFT의 후반부에는 제어, 동적 프로그래밍, Hamilton-Jacobi-Bellman 방정식이 등장한다. 하지만 그 전에 실제 데이터가 어떤 구조를 갖는지 파악해야 한다. Chapter 3는 그 출발점을 마련한다.

둘째, "일별 데이터와 일중 데이터는 다른 세계다." 일별 자료에서는 잘 안 보이던 현상이 고빈도 자료에서는 강하게 드러난다. bid-ask bounce, 틱 불연속성, 레이턴시, 주문 클러스터링, 불규칙 시간 간격 등이 그 예다.

셋째, "고빈도 데이터는 event time 관점이 중요하다." 동일한 1초 안에 거래가 100번 일어날 수도 있고, 10초 동안 거래가 0번일 수도 있다. 등간격 시계열 관점만으로는 불충분하며, 이 장은 그 필요성을 구체적인 수치로 보여준다.

3.1 서문(Introduction)

Chapter 3는 가격과 수익률의 실증적·통계적 증거를 체계적으로 다룬다. 저자들의 분석 대상은 크게 두 층위로 나뉜다. 하나는 일별·월별 수준에서 자산가격이 보이는 통계적 성질이고, 다른 하나는 밀리초(ms) 또는 마이크로초(μs) 수준의 고빈도 데이터에서 드러나는 미시구조적 패턴이다. 이 두 층위를 함께 살펴봄으로써, 거래 전략을 설계하고 실행하는 전 과정에서 어떤 데이터 특성이 핵심 역할을 하는지 명확히 이해할 수 있다.

장의 구성을 간략히 살피면, 3.1절은 데이터 소개와 일별 수익률 분석을 다루고, 3.2절은 일중(intraday) 수익률의 통계적 성질을 다루며, 3.3절은 이벤트 간 도착 간격(interarrival time)을 분석한다. 3.4절은 레이턴시와 틱 크기가 시장 조건에 미치는 영향을 살피고, 3.5절은 가격 역학의 비마르코프성(non-Markovian nature)을 경험적으로 보여준다. 3.6절은 미국 시장의 시장 분절(market fragmentation) 현상을 다루며, 마지막 3.7절은 페어 트레이딩(pairs trading)의 실증 분석을 제공한다.

3.1.1 데이터(The Data)

저자들은 일별·월별 데이터로는 Yahoo! Finance와 CRSP의 공개 집계 데이터를 사용한다. 고빈도 데이터로는 밀리초 타임스탬프가 찍힌 ITCH 데이터를 사용하는데, 최근 버전은 나노초 해상도까지 지원한다. ITCH 데이터는 단순한 거래 기록이 아니라 limit order book에 영향을 주는 모든 이벤트를 기록한다. 따라서 limit order의 전체 생애주기(등록 → 체결 또는 취소)를 포착한다.

필드 내용 및 해석
Timestamp 자정(midnight)으로부터의 밀리초 수. 나노초 버전에서는 더 정밀하다.
Order ID 고유 주문 식별자. 이 ID로 주문의 전체 생애를 추적한다.
Message Type B(buy LO 추가), S(sell LO 추가), E(부분 체결), C(부분 취소), F(전체 체결), D(전체 삭제), X(크로스 이벤트 대량체결), T(비표시 주문 체결)
Shares 주문 수량. F, D 메시지는 0으로 표기된다.
Price 취소·체결 메시지는 0. LOB 복원을 위해 Order ID를 통해 역참조가 필요하다.
Ticker / Exchange 자산 티커 / 시장 코드 (NASDAQ = 1)

표 3.0: ITCH 데이터 주요 필드 (MPID 컬럼은 공개 피드에서 보통 제외)

중요한 주의점 — Market Order는 직접 기록되지 않는다

ITCH 데이터에서 market order는 명시적으로 기록되지 않는다. market order의 존재는 standing limit order가 어떻게 체결되는지 관찰함으로써 추론해야 한다. 체결 메시지(E, F)를 보고 공격적 매수인지 매도인지를 판단하는 과정이 필요하다. 이것이 trade sign 추론이 별도 연구 주제가 되는 이유이다.

다음은 실제 데이터 예시다. 2010년 7월 13일 09:13:39.784~.785, 즉 자정 이후 33219784~33219785ms 구간이다.

33219784  4889087  B  1900  345800  TZA   1   ← TZA ETF에 $34.58로 1,900주 매수 LO 등록
33219784  4887036  C   200       0  FMS   1   ← FMS 주문 ID 4887036에서 200주 부분 취소
33219784  4879129  D     0       0 QQQQ   1   ← QQQQ 주문 전체 삭제
33219784  4889088  S  2000  454800 QQQQ   1   ← QQQQ $45.48로 2,000주 매도 LO 등록
33219784  4879130  D     0       0 QQQQ   1   ← QQQQ 주문 전체 삭제
33219784  4889089  S   500  454800 QQQQ   1   ← QQQQ $45.48로 500주 매도 LO 등록
33219785  4882599  D     0       0 QQQQ   1   ← QQQQ 주문 전체 삭제
33219785  4888889  F     0       0  STD   1   ← STD 주문 전체 체결

이 예시에서 주목할 점이 여럿이다. 첫째, 1밀리초 안에 8개의 이벤트가 동시에 발생한다. 이것만으로도 "등간격 시계열" 가정이 얼마나 비현실적인지 알 수 있다. 둘째, QQQQ에서 같은 밀리초 안에 삭제→등록→삭제→등록의 복잡한 패턴이 보인다. 이것은 고빈도 시장조성자가 호가를 매우 빠르게 갱신하고 있음을 보여주는 전형적인 패턴이다. 셋째, Price 필드가 0인 메시지(F, D, C)들은 원래 주문의 Order ID를 역추적해야 실제 가격을 알 수 있다. 따라서 완전한 LOB를 복원하려면 모든 주문의 상태를 시간 순서대로 추적하는 정교한 데이터 처리가 필요하다.

흔한 오해 두 가지

오해 1. "가격 데이터면 다 똑같다." 틀렸다. trade price, midquote, microprice, last price는 서로 다른 객체이다. 어떤 가격을 쓰느냐에 따라 분산, 자기상관, 예측가능성 분석 결과가 근본적으로 달라진다.

오해 2. "시간은 등간격이다." 틀렸다. 고빈도 자료에서 시간은 대개 불규칙(irregularly spaced)하다. 이것이 점과정(point process) 관점이 필요한 핵심 이유이다.

3.1.2 일별 가격과 수익률(Daily Returns)

저자들은 AAPL(Apple Inc., 2013년 데이터)을 고유동성 대형주의 대표로 삼고, ISNS(Image Sensing Systems), FARO(FARO Technologies), MENT(Mentor Graphics)를 중소형 비교 대상으로 사용한다. 모두 기술주이지만 거래활동 수준이 매우 다르다. AAPL은 2014년 7:1 주식분할 이전이라 2013년에는 약 $450~$550 수준에서 거래되었다.

가격 분석에서 첫 번째 변수는 가격 수준 그 자체이다. 효율적 시장 이론에 따르면 일별 자산 수익률은 예측 불가능에 가까워야 하며, 양(+)의 기대수익이 있다면 그것은 위험 부담에 대한 보상이어야 한다. 이 절에서 사용되는 핵심 추정량은 다음과 같다.

정의 3.1.1 — 분석에 사용되는 핵심 추정량
$$\bar{r} = \frac{1}{T}\sum_{t=1}^T r_t, \quad s^2 = \frac{1}{T-1}\sum_{t=1}^T(r_t - \bar{r})^2$$ $$\hat{\gamma}(k) = \frac{1}{T}\sum_{t=k+1}^T(r_t - \bar{r})(r_{t-k} - \bar{r}), \quad \hat{\rho}(k) = \frac{\hat{\gamma}(k)}{\hat{\gamma}(0)}$$

일별 수익률 자료를 보면 보통 다음이 확인된다. 첫째, 평균이 매우 작아 거의 0에 가깝다. 하루 수익률은 연환산 기대수익을 252로 나눈 것이어서, 연 10% 수익을 올리는 자산도 하루 평균 수익은 0.04%에 불과하다. 둘째, 분산과 변동성이 상대적으로 크다. 셋째, 정규성에서 이탈하는 경우가 흔하다 — 특히 두터운 꼬리(fat tails). 넷째, 단순한 iid 가정이 맞지 않을 수 있다. 다섯째, 평균수익률의 예측가능성은 약하지만, 변동성의 지속성(volatility persistence)은 강할 수 있다.

3.1.3 일별 거래활동(Daily Trading Activity)

저자들이 제시하는 네 자산의 2013년 일평균 거래 통계는 아래와 같다. 거래소 정규 거래시간은 9:30~16:00, 즉 6.5시간(390분)이다.

자산 N (일평균 거래건수) V($) ×10³ V(Q) ×10³ Total V(Q) ×10³ ShrOut ×10⁶ Turnover
ISNS 14 18 3 12 5 0.62
FARO 315 1,396 34 137 17 2.04
MENT 908 3,964 204 694 112 1.56
AAPL 24,582 1,505,175 3,208 14,516 941 3.89

Table 3.1: 2013년 선택 자산의 일별 평균 거래량

이 수치들을 해석해보면 선명한 그림이 나온다. ISNS는 하루 14건으로 약 30분에 1건 꼴이다. 이는 극히 드물게 거래되는 종목으로, 대부분의 시간 동안 호가가 전혀 바뀌지 않을 수 있다. FARO와 MENT는 분당 1~3건 수준의 일반적인 소형주이다. AAPL은 하루 약 24,582건으로 초당 약 1건이다. 즉 1초당 1번씩 거래가 체결된다는 의미이며, ITCH 데이터에서는 이 체결 사이에 훨씬 더 많은 주문 등록과 취소가 일어난다.

Trading Activity의 이면 — 거래 건수와 블록 거래의 차이

같은 거래량이라도 거래 건수가 많고 한 건당 크기가 작을 수 있고(소형주문 다수), 반대로 적은 건수에 큰 블록거래일 수 있다(대형 기관투자자). 이 차이는 시장충격(market impact)과 가격발견(price discovery) 면에서 본질적으로 다른 의미를 가진다. ISNS처럼 정보(MO 형태의 거래)가 거의 없는 종목은 bid/ask 호가가 잘 바뀌지 않고 스프레드가 상대적으로 넓으며, 거래비용이 높아 고빈도 전략의 적용 대상이 되기 어렵다. 반면 AAPL처럼 초당 1건 이상 거래가 체결되는 종목은 풍부한 시장 데이터를 제공하지만, 경쟁도 극히 치열하다.

3.1.4 일별 가격 예측가능성(Daily Price Predictability)

저자들은 두 OLS 모형을 추정한다. 여기서 핵심 질문은 "통계적 예측가능성이 경제적으로 활용 가능한 신호인가"이다.

모형 M1 (식 3.1) — Intraday Return 회귀
$$r_{t,j} = \alpha + \beta_{1,j}r_{t-1,j} + \beta_{2,j}\,\mathrm{SPY}_t + \beta_{3,j}\,\mathrm{VIX}_t + \beta_{4,j}\log(1+Q_t) + \beta_{5,j}\,\mathrm{OF}_t + \varepsilon_{t,j}$$

변수 설명: \(r_{t,j}\) = 자산 \(j\)의 당일 intraday return(open-to-close), \(r_{t-1,j}\) = 전날 return, \(\mathrm{SPY}_t\) = 동기간 S&P500 ETF return(시장 공통 요인), \(\mathrm{VIX}_t\) = VIX 지수 변화율(변동성 공포지수), \(\log(1+Q_t)\) = 일별 거래주수의 로그(유동성 수준), \(\mathrm{OF}_t\) = order flow(매수 주도 vs 매도 주도). Robust OLS는 Huber's loss function을 이용해 이상치(outlier)의 영향을 줄인 추정법이다.

모형 M2 (식 3.2) — 비대칭 반응 검정
$$r_{t,j} = \cdots + \beta_{6,j}\,\mathrm{SPY}_t \cdot \mathbf{1}_{\mathrm{SPY}<0} + \beta_{7,j}\,\mathrm{VIX}_t \cdot \mathbf{1}_{\mathrm{VIX}<0} + \varepsilon_{t,j}$$

M1에 더해 SPY와 VIX의 하락일 더미 상호작용항을 추가해, 상승장과 하락장에서의 반응이 비대칭인지를 검정한다. 금융위기 등 극단적 하락 국면에서 correlation이 급상승하는 현상(correlation breakdown)과 관련된다.

변수 ISNS M1 FARO M1 MENT M1 AAPL M1
constant 0.25 −2.83 −2.97 1.09
\(r_{t-1,j}\) −0.10 0.06 0.05 −0.12
SPY (%) −0.60 1.04** 1.04** 0.28
VIX (%) −0.08 −0.03 0.00 −0.03
Log Q 0.01 0.25 0.23 −0.08
Order Flow 0.03 0.05 0.03 0.06**
Adj R² 0.01 0.17 0.27 0.31

Table 3.2: 일별 intraday return에 대한 Robust OLS 회귀 (Bold: 5% 유의수준)

결과 해석 — 통계적 예측가능성 vs 경제적 활용가능성

통계적 예측가능성은 회귀계수나 자기상관이 0이 아닌가를 묻는다. 경제적 exploitability는 거래비용, 슬리피지, 시장충격을 빼고도 돈이 되는가를 묻는다. 이 두 가지는 완전히 다르다.

주요 결과: ISNS의 R²가 사실상 0이어서 회귀 결과가 노이즈에 지배된다. FARO, MENT는 SPY 계수가 유의하게 양(+)으로, 시장 전체 움직임이 개별주 수익률에 공통적으로 반영된다. AAPL에서 Order flow 계수가 유의해 당일 net buying pressure가 당일 수익률과 관련된다. 전날 수익률 \(r_{t-1,j}\)는 어떤 자산에서도 통계적으로 유의하지 않아 일별 수익률의 자기상관은 미약하다.

AAPL에서 보이는 미약한 음의 자기상관은 효율시장 이탈 신호일 수도 있지만, Roll(1984)이 보인 것처럼 단순한 bid-ask bounce로도 설명 가능하다. 즉 aggressive buy가 ask에서 체결되고, 다음 거래가 bid에서 체결되면 거래가격 기준으로 음의 자기상관이 생긴다.

3.2 일중 가격과 수익률(Asset Prices and Returns Intraday)

원문 Chapter 3에서 직접 제시한 도표를 아래에 함께 삽입한다. 이 절의 핵심은 “짧은 표본간격에서 수익률 분포는 정규적이지 않고, 영수익률의 질량과 두꺼운 꼬리, 단기 음의 자기상관을 동시에 가진다”는 점이다.
원문 그림 3.1
그림 3.1
그림 3.1. 2013년 7월 30일 AAPL의 1초 수익률에 대한 표본분포와 정규 QQ-plot.
왼쪽 패널은 1초 수익률의 히스토그램이고, 오른쪽 패널은 같은 자료를 표준정규분포의 분위수와 비교한 QQ-plot이다. 중앙에 질량이 매우 집중되어 있으면서도 양쪽 꼬리가 정규분포보다 두껍다는 점을 시각적으로 확인할 수 있다. 본문에서 말하는 ‘짧은 표본 간격에서는 영(0) 수익률이 대량으로 발생하고, 동시에 극단적 변동도 정규모형보다 자주 나온다’는 사실을 직접 보여주는 핵심 그림이다.
원문 그림 3.2
그림 3.2
그림 3.2. 2013년 7월 30일 AAPL 1초 수익률 꼬리분포의 로그-로그 도표.
좌측은 왼쪽 꼬리, 우측은 오른쪽 꼬리를 나타낸다. 원문은 95백분위수 바깥의 관측치를 사용해 멱법칙 꼬리를 적합하고, 점선으로 그 적합선을 표시한다. 로그 스케일에서 거의 직선에 가까운 형태가 나타난다는 점은 극단값 빈도가 가우시안 꼬리보다 훨씬 천천히 감소한다는 뜻이며, 고빈도 수익률의 heavy tail 성질을 뒷받침한다.
원문 그림 3.3
그림 3.3
그림 3.3. 2013년 7월 30일 AAPL 1초 수익률의 표본 자기상관함수(ACF).
1시차에서 음의 자기상관이 강하게 나타난다. 이는 본문이 설명하는 bid-ask bounce, 미세구조 잡음, 틱 단위 반전 효과와 맞물려 ‘아주 짧은 구간에서는 수익률이 독립적이지 않다’는 사실을 보여준다. 다시 말해 효율가격 자체가 아니라 관측가격의 미세한 호가 반전이 단기 음의 상관을 만든다는 점이 이 그림의 핵심이다.
그림 3.1 설명 — AAPL 1초 수익률의 히스토그램과 QQ-plot

왼쪽 패널은 2013년 7월 30일 AAPL의 1초 수익률 분포를, 오른쪽 패널은 같은 자료를 정규분포 분위수와 비교한 QQ-plot을 보여준다. 핵심 메시지는 두 가지다. 첫째, 질량이 0 근방에 과도하게 몰려 있어 “움직이지 않는 초”가 많다. 둘째, 양쪽 꼬리에서 점들이 정규 직선에서 크게 벗어나므로 정규분포보다 훨씬 두터운 꼬리를 갖는다. 즉 짧은 시간 간격의 수익률은 가우시안 근사만으로 설명되지 않는다.

그림 3.2 설명 — 1초 수익률 꼬리의 로그-로그 적합

그림 3.2는 극단 수익률의 생존함수를 로그-로그 축에서 본 것이다. 직선에 가까운 부분은 power-law tail의 경험적 시그널로 읽힌다. 장의 추정 결과가 \(\hat\alpha_{right}\approx 3.35\), \(\hat\alpha_{left}\approx 3.38\)라는 것은, 극단 이벤트가 정규 가정보다 훨씬 자주 나타난다는 뜻이다.

일별 시장 정보는 중기~장기 투자자에게 중요하지만, 고빈도 거래 전략은 훨씬 짧은 기간에 걸쳐 실행된다. 저자들은 AAPL 2013년 7월 30일의 데이터를 사용해 1초 단위 수익률을 분석한다. 이날 NASDAQ에서 145만 주가 매수, 124만 주가 매도되었고, 가격은 시가 $449.96에서 종가 $453.32로 $3.36(+74 bps) 상승했다. 총 약 24,500번의 거래가 발생했다.

수익률은 microprice로 계산한다. Microprice는 최우선 매수·매도호가와 그 호가 깊이를 가중한 중간값이다.

$$m_t = \frac{a_t q_t^b + b_t q_t^a}{q_t^a + q_t^b}$$

여기서 \(q_t^b\)는 best bid의 잔량, \(q_t^a\)는 best ask의 잔량이다. 단순 midprice \((a_t + b_t)/2\)와 달리 microprice는 호가 잔량 불균형을 반영한다. 매수 잔량이 매도 잔량보다 많으면 microprice는 단순 mid보다 ask 쪽으로 치우친다. 분석 단위는 basis points(bps, 퍼센트의 1/100)이다. 2013년 7월 30일 AAPL의 평균 microprice는 $454.30이므로, 1 bps는 약 $0.045의 가격 변화에 해당하고, 0.22 bps ≈ 1 tick(1센트)이다.

1초 단위 수익률 분포 — 0이 많은 이유

1초 단위로 microprice를 샘플링하면, 전체 샘플의 약 33%에서 수익률이 정확히 0이다. 이는 해당 1초 동안 bid나 ask 또는 그 잔량에 아무런 변화가 없었음을 의미한다. 이것은 연속시간 확산 모형의 근본적인 한계를 보여준다. 브라운 운동은 어떤 짧은 시간 간격에서도 가격이 움직인다고 가정하지만, 실제에서는 1초 중 3분의 1은 아무 일도 일어나지 않는다. 시간을 더 짧게 잡을수록 이 비율은 더 높아진다.

분포의 통계적 특성. 히스토그램은 단봉(single-peaked)이며 fat tail이 관찰된다. QQ-plot에서도 정규분포로부터의 이탈이 명확하다. 95번째 백분위수(1.94 bps)를 cutoff로 tail에 power-law를 적합하면, Hill estimator(최대우도 추정)를 이용해

$$\hat{\alpha} = 1 + T\left[\sum_{t=1}^T \log\frac{r_t}{r_{\min}}\right]^{-1}$$

실증 결과: \(\hat{\alpha}_{\text{right}} = 3.35\), \(\hat{\alpha}_{\text{left}} = 3.38\). 이 값들의 의미를 해석하면, \(\alpha < 4\)이면 4차 이상의 모멘트(kurtosis)가 무한대가 될 수 있고, \(\alpha < 5\)이면 5차 이상 모멘트가 유한하지 않을 수 있다. 정규분포는 모든 모멘트가 유한한 극도의 "가벼운 꼬리" 분포인데, 1초 단위 수익률은 정규분포와 근본적으로 다른 구조를 갖는다.

1초 단위 ACF와 Mean Reversion

1초 단위 수익률의 표본 ACF에서 1-lag에서 유의한 음(−)의 자기상관이 관찰된다. 이는 microprice에서 유의한 mean-reversion 성분이 있음을 시사한다. 12번째 lag는 약하게 양(+), 14번째는 음(−)으로 유의하지만, 이것이 spurious pattern인지 진정한 패턴인지는 추가 연구 없이는 판단하기 어렵다. ACF를 해석할 때는 항상 데이터 생성 메커니즘을 함께 고려해야 한다.

핵심 구별 — Transaction Return vs Mid Return

transaction return(거래가격 기준 수익률)만 보면 bid-ask bounce 때문에 음의 자기상관이 크게 보일 수 있다. mid return(호가 중간값 기준)은 bounce 효과가 줄어들어 실제 효율가격의 변화에 더 가깝다. microprice return은 그 중간 어딘가이다. 어떤 가격을 쓰느냐에 따라 전략 설계와 성과 평가가 달라지므로, 수익률의 정의를 명확히 하는 것이 중요하다.

3.3 도착 간격(Interarrival Times)

도착간격 절에서는 단순한 지수분포 기반 포아송 직관이 실제 데이터에 그대로 들어맞지 않는다는 사실을 시각적으로 확인하는 것이 중요하다. 아래 그림들은 도착간격의 heavy tail과 군집성을 그대로 보여준다.
원문 그림 3.4
그림 3.4
그림 3.4. AAPL의 호가 변화 도착간격 \(X_i\)의 빈도도와 QQ-plot. 상단은 절대축/로그축 히스토그램, 하단은 지수분포 및 멱법칙 분포에 대한 QQ-plot이다.
상단 두 패널은 아주 짧은 간격에 관측치가 몰려 있음을 보이고, 하단 두 패널은 단순 지수분포보다 멱법칙 꼬리 쪽이 더 잘 맞는다는 점을 시각적으로 드러낸다. 즉, 도착간격은 완전히 기억이 없는 포아송형 간격이라기보다 매우 짧은 군집과 긴 휴지기가 공존하는 heavy-tailed 구조를 가진다.
원문 그림 3.5
그림 3.5
그림 3.5. AAPL 도착간격의 자기상관함수(ACF).
작은 시차에서 유의한 양의 자기상관이 보인다. 이는 가격 변화나 호가 변경이 시간상 군집화(clustering)된다는 뜻이다. 빠른 연속 변동 뒤에 다시 빠른 변동이 이어지고, 한동안 잠잠한 구간 뒤에 다시 잠잠한 구간이 나타난다는 원문의 설명을 직접 뒷받침한다.
그림 3.3 설명 — 1초 수익률의 ACF

그림 3.3의 표본 ACF는 1시차에서 유의한 음의 자기상관을 보여준다. 이는 미시구조적 반전이 존재함을 시사한다. 다만 이것을 곧장 예측가능한 알파로 읽으면 위험하다. bid-ask bounce, quote discreteness, sampling convention이 함께 얽혀 있을 수 있기 때문이다.

그림 3.4 설명 — 도착 간격의 히스토그램, 로그척도, QQ-plot

그림 3.4는 bid 또는 ask가 움직이는 시점 사이의 간격을 절대척도와 로그척도로 그린 뒤, 지수분포 및 power-law와 비교한 QQ-plot을 제시한다. 지수분포 기준점에서 크게 이탈하고 power-law 쪽이 더 나은 적합을 보인다는 것이 시각적으로 확인된다.

그림 3.5 설명 — 도착 간격의 ACF와 클러스터링

그림 3.5는 interarrival time 자체의 ACF를 보여준다. 빠른 변화 다음에 빠른 변화가, 긴 정적 구간 다음에 긴 정적 구간이 이어지는 양(+)의 자기상관이 관측된다. 따라서 일정한 강도의 Poisson process는 실자료의 핵심 패턴을 놓친다.

이 절은 고빈도 데이터 분석에서 가장 중요한 출발점 중 하나를 다룬다. 거래 또는 호가 변화가 발생하는 시점이 등간격이 아니라, 불규칙한 점 과정의 실현이라는 점이다. 1초 단위 샘플에서 33%의 수익률이 0이라는 앞 절의 사실이 바로 이 불규칙성의 결과이다.

저자들은 bid 또는 ask 변화 시점을 \(T_i\)로 두고 interarrival time \(X_i = T_{i+1} - T_i\)를 분석한다. AAPL 2013년 7월 30일 기준의 핵심 통계는 다음과 같다.

AAPL Interarrival Time 핵심 통계 (2013년 7월 30일)
  • 평균(mean): 10.4 ms
  • 중앙값(median): 3 ms
  • 분포 형태: power-law, 매우 두터운 오른쪽 꼬리
  • Power-law 지수 추정 (95번째 백분위수 41 ms를 cutoff로): \(\hat{\alpha} = 3.13\)

평균(10.4 ms)이 중앙값(3 ms)보다 훨씬 크다는 사실 자체가 heavy tail의 직접적인 증거이다. 대다수의 interarrival time이 짧지만, 가끔 매우 긴 정적 구간이 존재하여 평균을 끌어올린다.

지수분포와의 비교. 지수분포(Poisson process의 기준점)와 비교하는 QQ-plot에서, interarrival times는 지수분포로부터 크게 벗어난다. 지수분포 QQ-plot에서 실제 데이터 점들이 직선보다 훨씬 위에 있는 오른쪽 꼬리 구간이 관찰된다. 이는 실제 interarrival time의 꼬리가 지수분포보다 훨씬 무겁다는 것을 의미하며, 무기억 성질(memoryless property)이 성립하지 않음을 직접적으로 보여준다. 반면 power-law distribution \(\mathbb{P}(X_i \geq x) = 1 - (k/x)^\alpha\)가 훨씬 잘 적합된다.

Clustering: 도착시간의 자기상관. interarrival times의 ACF는 강한 양(+)의 자기상관을 보인다. 이는 "변화가 클러스터를 이룬다"는 경험적 사실의 직접적 증거이다.

빠른 bid/ask 변화는 그 이후에도 빠른 변화를 낳고, 상대적으로 긴 정적 구간 역시 그 이후의 정적 구간으로 이어진다. 이는 단순 Poisson 과정의 무기억성과 완전히 상반되는 관찰이다.
왜 이것이 중요한가 — Order Arrival Intensity 모형으로의 연결

이 절은 이후 order arrival intensity 모형의 토대를 만든다. Market making이나 execution에서 도착률 \(\lambda\)를 어떻게 설정할 것인가가 핵심인데, 이 장은 그 전에 실제 \(\lambda\)가 상수일 리 없다는 경험적 증거를 제시한다. 균일한(homogeneous) Poisson 기준점은 실제 데이터를 설명하기에 지나치게 단순하다. Hawkes process(자기흥분 점 과정)나 doubly stochastic Poisson process(Cox process)가 clustering과 overdispersion을 더 잘 설명할 수 있다.

3.4 레이턴시와 틱 크기(Latency and Tick Size)

고빈도 거래에서 시간과 가격 모두 연속적 이상화(idealization)가 아니다. 레이턴시는 시간의 불연속성을, 틱 크기는 가격의 이산성을 각각 대표한다. 이 두 요소가 거래 전략의 실행 가능성과 수익성에 미치는 영향을 이 절에서 실증적으로 보여준다.

레이턴시(Latency)의 정의와 구성요소. 레이턴시는 주문정보가 생성·전송·수신·처리·확인되는 데 걸리는 총 지연이다. 이를 구성 요소별로 나누면: (i) market data latency, (ii) decision latency, (iii) order transmission latency, (iv) exchange processing latency, (v) confirmation latency 등으로 나눌 수 있다. 대표적 예로 시카고 CME 코로케이션 센터와 뉴저지 NASDAQ 처리센터 간 레이턴시는 광케이블 기준 6.7~7.5 ms, 마이크로파 기준 4.2~5.2 ms(맑은 날)로 추정된다. 자택에서 브로커를 통해 거래하는 투자자는 이보다 훨씬 큰 지연(100ms ~ 수 초)을 겪으며, 그동안 시장 조건이 크게 변할 수 있다.

레이턴시 \(\ell\) 동안 midprice가 \(dM_t = \sigma_{\text{loc}}\,dW_t\) 꼴로 국소적으로 움직인다면, 그 동안의 변동 표준편차는 \(\sigma_{\text{loc}}\sqrt{\ell}\)이다. 지연이 4배가 되면 슬리피지 스케일이 2배가 된다. 이는 레이턴시 감소에 대한 투자 수익이 점감하는 구조임을 시사한다.

Colocation(코로케이션)은 거래 시스템을 거래소 데이터센터에 물리적으로 배치해 거래소 matching engine과 직접 연결하는 방식이다. 코로케이션된 참여자들 사이에도 소프트웨어·하드웨어 설정에 따른 레이턴시 차이가 있다.

1분 레이턴시와 100 ms 레이턴시 비교

자산 변수 ΔX≠0 (%) Q1 Q2 Q3
ISNS (1분) Bid 4.2 −4.0 +1.0 +5.0
ISNS (1분) Midprice 6.7 −2.0 +0.5 +2.0
FARO (1분) Bid 48.6 −2.0 +1.0 +3.0
MENT (1분) Bid 44.2 −1.0 +1.0 +1.0
AAPL (100 ms) Bid 3.84 −3.0 −1.0 +3.0
AAPL (100 ms) Midprice 6.75 −1.5 +0.5 +1.5

Tables 3.3/3.4 요약: 레이턴시별 가격 변화 비율

이 표의 해석 방법은 다음과 같다. 예를 들어 ISNS에서 1분 레이턴시 기준으로 bid가 변화하는 경우가 4.2%에 불과하다는 것은, 1분 안에 bid가 바뀔 확률이 4.2%라는 뜻이다. 나머지 95.8%의 시간 동안은 bid가 그대로이다. FARO·MENT에서는 약 절반의 시간에서 bid가 변하는 것을 볼 수 있다. AAPL과 ORCL은 1분 간격이 비현실적으로 길어서 100 ms 단위로 분석했는데, 100 ms 당 bid 변화 비율이 3.84%이다.

틱 크기와 상대적 가격 변동 — 왜 주식마다 다른가

AAPL(~$500)과 ORCL(~$35) 모두 minimum tick이 1센트($0.01)이다. 그러나 1센트는 AAPL 기준 0.2 bps, ORCL 기준 2.5 bps에 해당한다. 따라서 틱 크기가 동일해도, 가격 수준이 높은 자산이 훨씬 더 잦은 가격 변화를 경험한다. 이는 모형화 시 상대적 틱 크기(relative tick size)를 반드시 고려해야 함을 의미한다. AAPL의 주식 분할(2014년 7:1) 이후 ~$100 수준에서의 1센트는 1 bps로, ORCL의 2.5 bps보다 오히려 작아진다. 틱 크기와 가격 수준의 관계는 시장 품질, 스프레드, 호가경쟁에 모두 영향을 준다.

3.5 가격 변화의 비마르코프적 성질(Non-Markovian Nature of Price Changes)

이 절은 단순한 "현재 가격만 알면 미래 분포가 결정된다"는 Markov 가정이 실제로는 잘 맞지 않음을 경험적으로 보여준다. 이것은 후속 장들의 상태변수 설계에 직접적인 함의를 가진다.

저자들은 AAPL 2013년 7월 30일 데이터에서 bid/ask 가격 변화가 발생할 때마다 기록하고, 현재 틱 방향이 다음 틱 방향을 예측하는지를 검토한다. 먼저 단순 1-step 전이 확률을 살펴본다.

단일 틱 변화의 경험적 전이확률

Ask 가격 전이 (1-step) Bid 가격 전이 (1-step)
t / t+1 Uptick (↑) Downtick (↓) t / t+1 Uptick (↑) Downtick (↓)
Uptick (↑) 43.0% 57.0% Uptick (↑) 36.5% 63.5%
Downtick (↓) 61.8% 38.2% Downtick (↓) 55.3% 44.7%

Table 3.5: 단일 가격 변화의 경험적 전이확률 (AAPL, 2013년 7월 30일)

이 표를 보면 가격 변화의 반전(reversal) 경향이 뚜렷하다. Ask 가격 상승(uptick) 이후 downtick이 57%, Ask 가격 하락 이후 uptick이 61.8%이다. 만약 틱 방향이 iid라면 각각 50:50이어야 한다. 이 편향이 3.2절에서 관찰된 1-lag 음의 자기상관의 경로 단위 설명이다.

이제 더 중요한 비Markov성의 증거를 보자. 네 가지 2-step 상태를 정의한다. A(↑↑), B(↑↓), C(↓↑), D(↓↓). 두 번의 연속 틱 변화 이력을 상태로 쓴다.

현재 상태 (t) Ask 다음 Uptick (t+1) Ask 다음 Downtick (t+1)
A(↑↑) — 연속 두 번 상승 54.4% 45.6%
B(↑↓) — 상승 후 하락 34.4% 65.6%
C(↓↑) — 하락 후 상승 70.0% 30.0%
D(↓↓) — 연속 두 번 하락 48.6% 51.4%

Table 3.7: 두 틱 이력을 상태로 한 Ask 가격 전이확률

이 표가 비Markov성의 핵심 증거이다. 상태 B(↑↓)에서는 다음이 downtick일 확률이 65.6%로 높다. 상태 C(↓↑)에서는 uptick이 70.0%이다. 만약 단순 1-step Markov라면, B와 C는 모두 "마지막 틱이 ↓ 또는 ↑"인 경우이다. 즉 B에서 마지막 변화는 ↓이고, C에서 마지막 변화도 ↑이다. 그런데 1-step Markov에서 B에서의 다음 uptick 확률은 C에서의 것과 달리 단지 "마지막 틱이 ↓ 또는 ↑"인가에 의해서만 결정되어야 한다. 그러나 B(↑↓, 마지막=↓)에서 다음 uptick 확률(34.4%)과 단순 1-step에서 ↓ 후 uptick 확률(61.8%)이 크게 다르다. 이는 그 이전 방향(↑)이 추가적인 정보를 제공한다는 것을 의미한다. 즉 price-only 1-step state는 충분하지 않다.

수학적 해석 — "상태 확장"의 필요성

이 절이 말하는 것은 "세상은 절대 Markov가 아니다"가 아니라, "price-only state representation은 충분하지 않다"로 읽어야 한다. 상태변수를 order book state, imbalance, last trade sign, elapsed time, venue state 등으로 충분히 augment하면 Markov 근사가 가능할 수 있다. AHFT의 제어모형에서 상태변수 선택이 왜 중요한지를 이 절이 이미 예고한다. 최적 제어 문제에서 상태공간을 어떻게 설정하는지가 해의 질을 결정하기 때문이다.

3.6 시장 분절(Market Fragmentation)

미국에서는 단일 거래소가 아니라 수십 개의 거래 venue가 동시에 운영된다. 2014년 10월 기준 미국에는 11개의 거래소와 약 45개의 대안 거래 장소(대부분 dark pool)가 있었으며, NASDAQ은 전체 거래의 약 20%를 차지했다. 따라서 "시장(market)"은 하나의 거래소가 아니라 다수 venue의 거래 집합으로 이해해야 한다.

저자들은 2013년 7월 30일 AAPL의 정규 거래시간(9:30~16:00) 동안 모든 venue의 데이터를 Consolidated Tape로 수집해 분석한다. 핵심 질문은: 각 venue의 best price가 전체 시장 NBBO(National Best Bid and Offer)와 일치하는 시간이 얼마나 되는가?

Exchange NBBO Bid 일치 (%) NBBO Ask 일치 (%)
NASDAQ 67.8 61.3
ARCA-NYSE 43.4 38.3
EDGX 34.5 41.0
BATS 18.8 15.7
EDGA 0.0 0.0

Table 3.8: 각 거래소의 NBBO 일치 비율 (AAPL, 2013년 7월 30일)

NASDAQ이 67.8%의 시간 동안 NBBO bid를 형성한다는 것은, NASDAQ이 전체 시장의 가격 발견(price discovery)에 가장 큰 역할을 한다는 의미이다. 그러나 나머지 32%의 시간 동안에는 다른 venue가 더 좋은 가격을 제공하고 있다. 이 불일치 구간에서 NASDAQ 호가는 "stale quote"가 되며, 빠른 트레이더는 NASDAQ의 stale quote를 hit하여 수익을 낼 수 있다.

체결 품질 분석 (Tables 3.9, 3.10)

거래소 NBBO 체결 (%) Spread 내부 체결 (%)
NASDAQ 39.8 57.5
NYSE-ARCA 43.3 54.4
BATS 34.8 64.2
EDGX 30.6 67.4

체결 품질: NBBO 체결 vs Spread 내부 체결 비율

spread 내부에서 체결되는 비율이 이렇게 높은 이유로는, spread 안에 posting된 hidden order(비표시 주문) 또는 특수 주문 유형(aggressive posting inside spread)이 활용되는 것이 가능한 설명이다. 일부 거래소는 mid-peg order 같은 특수 주문 유형을 제공해 spread 내부 체결을 가능하게 한다.

Reg NMS와 시장 분절의 역사적 배경

미국의 Reg NMS(Regulation National Market System, 2005년 도입)는 거래소 간 경쟁을 촉진하고 투자자를 보호하기 위한 규정이다. 특히 trade-through 금지(다른 venue에 더 좋은 가격이 있을 때 열등한 가격에 체결하는 것을 방지)를 규정한다. 이 규정이 현재의 다중 venue 구조를 낳은 핵심 배경이다. Reg NMS 이전에는 NYSE가 80% 이상의 점유율을 가졌지만, 이후 시장이 분절되면서 NASDAQ, BATS, EDGX 등 다수의 경쟁 venue가 등장했다. 시장 분절은 단지 "시장 수가 많다"가 아니라, 정보전파 속도, 유동성 분산, 체결가능성, 독점·경쟁 구조를 동시에 바꾼다.

3.7 페어 트레이딩 실증(Empirics of Pairs Trading)

페어 트레이딩 절의 시각자료는 “개별 가격을 그대로 예측하는 것”이 아니라 “선형 결합으로 만든 스프레드 혹은 공적분 요인이 평균회귀하는지”를 보는 것이 핵심이라는 점을 보여준다.
원문 그림 3.6
그림 3.6
그림 3.6. 2013년 11월 1일 INTC와 SMH의 평균 상대 중간가격(왼쪽)과 공적분 요인(co-integration factor, 오른쪽).
왼쪽 패널은 두 자산 가격이 함께 움직이는 모습을, 오른쪽 패널은 선형변환으로 얻은 공적분 요인이 평균 수준 주변에서 되돌아가는 모습을 보여준다. 점선은 평균회귀 수준, 점쇄선은 2표준편차 밴드를 뜻한다. 페어 트레이딩에서 중요한 것은 각 개별 자산의 방향 예측이 아니라, 이렇게 구성된 스프레드 혹은 요인이 평균으로 되돌아오느냐는 점이라는 사실을 시각적으로 보여주는 그림이다.
그림 3.6 설명 — INTC, SMH, 그리고 공적분 인자

그림 3.6의 왼쪽 패널은 INTC와 SMH의 가격경로를, 오른쪽 패널은 대각화 뒤 얻은 공적분 인자 \(\tilde S_{t,1}\)의 경로를 보여준다. 시각적으로도 \(\tilde S_{t,1}\)이 원 자산보다 훨씬 강한 평균회귀를 보이며, 바로 이 성질이 통계적 차익거래 신호의 원천이 된다.

대부분의 트레이더는 하나의 자산만 보지 않는다. 여러 자산 간 상호작용에서 정보를 추출하는 것이 핵심이며, 이는 공통 충격(common shocks)을 공유하는 자산 그룹에서 자연스럽게 발생한다. 저자들은 2013년 11월 1일 Intel(INTC)과 반도체 ETF(SMH, Merrill Lynch Semiconductor ETF)를 분석한다.

두 자산이 함께 움직이는 이유는 두 가지이다. 첫째 기계적(mechanical) 이유: ETF 보유 종목의 약 20%가 INTC 주식이다. 따라서 INTC 가격이 변하면 SMH의 순자산가치(NAV)도 자동으로 변한다. 둘째 경제적(economic) 이유: ETF는 반도체 산업을 대표하므로 반도체 산업에 영향을 주는 뉴스(공급망 이슈, 중국 무역 정책, 기술 수요 변화 등)에 두 자산이 함께 반응한다.

이론 모형 (식 3.4) — Vector OU 모형
$$dS_t = \kappa(\theta - S_t)\,dt + \sigma\,dW_t, \qquad \Sigma = \sigma\sigma'$$

여기서 \(S_t = [S_{t,\text{INTC}}, S_{t,\text{SMH}}]'\), \(\kappa\)는 일반(비대각) 평균회귀 행렬이다. Transitory(mean-reverting) 성분과 permanent(Brownian) 성분의 결합으로 생각할 수 있다. \(\kappa\)의 고유값이 평균회귀 속도를 결정하고, 대응하는 고유벡터가 평균회귀하는 방향(즉, 어떤 선형결합이 mean-reverting인가)을 결정한다.

대각화(Diagonalization). \(\kappa = U\tilde{\kappa}U^{-1}\)이고, \(\tilde{S}_t = U^{-1}S_t\)로 변환하면

$$d\tilde{S}_t = \tilde{\kappa}(\tilde{\theta} - \tilde{S}_t)\,dt + \tilde{\sigma}\,dW_t$$

여기서 \(\tilde{\kappa} = U^{-1}\kappa U\)는 대각 행렬이다. 각 좌표의 drift 복원 속도는 고유값 \(\kappa_i\)로 읽힌다.

변환의 엄밀성 확인

\(Y_t := U^{-1}S_t\)로 두면 \(U^{-1}\)가 상수 행렬이므로 Itô 보정항이 없다.

$$dY_t = U^{-1}dS_t = U^{-1}\kappa(\theta - S_t)dt + U^{-1}\sigma dW_t$$

\(S_t = UY_t\)를 대입하면

$$dY_t = U^{-1}KP(U^{-1}\theta - Y_t)dt + U^{-1}\sigma dW_t = \tilde{\kappa}(\tilde{\theta} - Y_t)dt + \tilde{\sigma}dW_t. \quad $$

엄밀성 주의. 변환 뒤의 잡음좌표가 꼭 서로 독립인 것은 아니다. \(\tilde{\sigma}\tilde{\sigma}^\top dt = U^{-1}\sigma\sigma^\top(U^{-1})^\top dt\)이므로, 이 행렬이 비대각일 수 있다. 따라서 "좌표가 완전히 분리된다"가 아니라, drift 구조가 고유방향으로 분해된다고 읽는 것이 정확하다.

추정 절차. 5초 간격으로 microprice를 샘플링해 VAR(Vector AutoRegression) 모형으로 추정한다.

$$\Delta S_t = A + B\,S_{t-1} + \varepsilon_t, \qquad S_t = [S_{t,\text{INTC}}, S_{t,\text{SMH}}]'$$
  A (상수) B (INTC) B (SMH)
ΔS INTC 0.011 0.997 0.002***
ΔS SMH 0.035 0.003 0.998***

Table 3.11: VAR 추정 결과 (*** 1% 유의수준)

이 결과에서 \(\kappa = I - B\)를 회복하면

$$\kappa = \begin{bmatrix} 0.003 & -0.002 \\ -0.003 & 0.002 \end{bmatrix}, \quad \theta = \begin{bmatrix} 24.307 \\ 40.914 \end{bmatrix}$$

대각화하면

$$\tilde{\kappa} \approx \begin{bmatrix} 0.0050 & 0 \\ 0 & 0.0007 \end{bmatrix}, \quad U^{-1} = \begin{bmatrix} 0.682 & -0.731 \\ 0.547 & 0.837 \end{bmatrix}$$

공적분 인자(Co-integration Factor)와 거래신호. \(\kappa_1 \approx 0.0050 > \kappa_2 \approx 0.0007\)이므로, \(\tilde{S}_{t,1}\)이 mean-reversion이 더 강하다. Half-life는

$$t_{1/2}^{(1)} = \frac{\log 2}{\kappa_1} = \frac{\log 2}{0.0050} \approx 138\text{ 초} \approx 2.3\text{ 분}$$ $$t_{1/2}^{(2)} = \frac{\log 2}{\kappa_2} = \frac{\log 2}{0.0007} \approx 990\text{ 초} \approx 16.5\text{ 분}$$

따라서 \(\tilde{S}_{t,1}\)이 훨씬 빠르게 mean-revert하므로 더 강한 거래신호가 된다. \(\tilde{S}_{t,1} = 0.682 \times S_{\text{INTC}} - 0.731 \times S_{\text{SMH}}\)라는 선형결합이 약 2.3분의 반감기를 갖고 평균으로 돌아온다는 의미이다.

개별 AR 자기회귀 검증.

  상수 Lag 1 Lag 2
\(r_{t,\text{INTC}}\) −0.000 −0.011 0.025
\(r_{t,\text{SMH}}\) −0.000 −0.057 0.014
\(r_{\tilde{S},1}\) −0.000 −0.195*** −0.079***
\(r_{\tilde{S},2}\) −0.000 0.013 0.044

Table 3.12: 개별 AR(n) 추정 결과 (*** 1% 유의수준)

공적분 인자 \(\tilde{S}_1\)의 lagged return 계수가 −0.195로 개별 자산(INTC: −0.011, SMH: −0.057)보다 훨씬 크고, 2-lag도 유의하다. 이것이 거래신호로서 \(\tilde{S}_1\)이 더 강한 이유이다. 개별 자산의 1-lag 자기상관은 미약하지만, 적절한 선형결합에서는 강한 자기상관이 나타난다.

단순 상관 vs 공적분 — 가장 중요한 개념적 구별

INTC와 SMH의 상관이 높다는 사실만으로는 spread가 mean-reverting인지 알 수 없다. 둘 다 함께 추세적으로 오르면 상관은 높아도 차이가 안정적이지 않을 수 있다. 공적분(cointegration)은 각 시계열이 비정상(nonstationary)일 수 있어도 특정 선형결합이 정상(stationary)임을 말한다. 이것이 pairs trading의 수학적 기반이다. Vector OU 모형(연속시간)과 VAR(1)(이산시간 추정)이 그 공통 이론 틀이다.

실전적 주의점 — 페어 트레이딩의 실패 원인

상관관계만 보고 pair를 잡으면 실패하기 쉽다. 그 이유를 구체적으로 열거하면: (i) Regime change: 공통 요인의 구조가 바뀌면 spread stationarity가 깨진다. (ii) Fundamental decoupling: INTC와 SMH에서 INTC가 AMD에 시장점유율을 잃기 시작하면 spread의 장기 수준 자체가 바뀐다. (iii) 거래비용: 작은 spread 수익에서 수수료, 숏 가능성(short availability), borrow fee를 빼면 남는 것이 없을 수 있다. (iv) Execution latency: 두 자산을 동시에 거래하려면 레이턴시가 충분히 낮아야 한다. (v) In-sample vs out-of-sample: 역사적 데이터에서 잘 맞는 pair가 미래에도 잘 작동하지 않을 수 있다.