Algorithmic and High-Frequency Trading — Chapter 8
Optimal Execution with Limit and Market Orders

PART A — 선수지식

1. 확률공간, $\sigma$-대수, 랜덤변수

정의 1.1

확률공간은 삼중쌍 $(\Omega,\mathcal F,\mathbb P)$이다. 여기서 $\Omega$는 표본공간, $\mathcal F$는 $\Omega$ 위의 $\sigma$-대수, $\mathbb P$는 $\mathcal F$ 위의 확률측도이다.

정의 1.2

집합족 $\mathcal F\subseteq 2^\Omega$가 $\sigma$-대수라는 것은 다음 세 조건을 만족하는 것이다.

$\Omega\in\mathcal F$.
$A\in\mathcal F$이면 $A^c\in\mathcal F$.
$A_1,A_2,\dots\in\mathcal F$이면 $\bigcup_{n=1}^\infty A_n\in\mathcal F$.

보조정리 1.3

$\sigma$-대수 $\mathcal F$는 $\varnothing$를 포함하고, 가산교집합에 대하여도 닫혀 있다.

증명

이 증명에서는 결론을 한 줄로 밀어붙이지 않고, 먼저 무엇을 보여야 하는지 분해한 다음 각 단계에서 어떤 정의와 성질을 쓰는지 순서대로 확인한다. 특히 식이 바뀌는 지점마다 그 변화가 선형성, 가법성, 조건부기대의 정의, 혹은 상태변수의 동역학에서 오는 것인지 분명히 적는다.

증명을 시작하기 전에 먼저 전략을 한 문장으로 적어 두자. 아래에서는 결론을 바로 쓰지 않고, 정의를 다시 펼친 뒤 각 등식이 왜 성립하는지 순서대로 확인한다.

먼저 $\varnothing\in\mathcal F$임을 보이자. 실제로 $\Omega\in\mathcal F$는 정의에 포함되어 있고, $\mathcal F$는 여집합에 대해 닫혀 있으므로 $\Omega$의 여집합도 반드시 $\mathcal F$에 속해야 한다. 그런데 $\Omega$의 여집합은 공집합이므로

\[\varnothing = \Omega^c \in \mathcal F.\]

이 한 줄에서 이미 공집합 포함성이 나온다.

이제 가산교집합에 대한 닫힘을 보이자. 증명하고 싶은 것은 다음이다. 임의의 가측집합열 $A_1,A_2,\dots\in\mathcal F$가 주어지면

\[\bigcap_{n=1}^{\infty} A_n \in \mathcal F.\]

그런데 $\sigma$-대수의 정의에는 가산합집합에 대한 닫힘만 직접 들어 있고, 가산교집합에 대한 닫힘은 직접 주어지지 않는다. 따라서 교집합을 합집합과 여집합으로 바꾸는 드모르간 법칙을 이용해야 한다.

각 $n$에 대해 $A_n\in\mathcal F$이므로 여집합 닫힘에 의해

\[A_n^c\in\mathcal F.\]

이제 $\sigma$-대수는 가산합집합에 대해 닫혀 있으므로

\[\bigcup_{n=1}^{\infty} A_n^c \in \mathcal F.\]

다시 한 번 여집합 닫힘을 적용하면

\[\left(\bigcup_{n=1}^{\infty} A_n^c\right)^c\in\mathcal F.\]

여기서 드모르간 법칙을 쓰면

\[\left(\bigcup_{n=1}^{\infty} A_n^c\right)^c = \bigcap_{n=1}^{\infty} (A_n^c)^c = \bigcap_{n=1}^{\infty} A_n.\]

따라서

\[\bigcap_{n=1}^{\infty} A_n\in\mathcal F.\]

를 얻는다.

정리하면, $\sigma$-대수의 세 공리 중 “여집합에 대한 닫힘”과 “가산합집합에 대한 닫힘”만 있으면, 공집합 포함성과 가산교집합에 대한 닫힘은 자동으로 따라온다. 이것이 보조정리의 내용이다. 증명 끝.

정의 1.4

함수 $X:\Omega\to\mathbb R$가 $\mathcal F$-가측이라는 것은 모든 Borel 집합 $B\subseteq\mathbb R$에 대하여

\[X^{-1}(B)\in\mathcal F\]

가 성립하는 것이다.

정의 1.5

확률변수 $X$가 적분가능하다는 것은

\[\mathbb E[|X|]<\infty\]

라는 뜻이다.

2. 라돈–니코딤 정리와 조건부기대의 존재

정리 2.1 (Hahn 분해 정리)

$(\Omega,\mathcal F)$ 위의 signed measure $\rho$가 주어졌다고 하자. 그러면 서로소인 두 가측집합 $P,N$이 존재하여

\[P\cup N=\Omega,\]

그리고 임의의 가측집합 $A\subseteq P$에 대하여 $\rho(A)\ge 0$, 임의의 가측집합 $B\subseteq N$에 대하여 $\rho(B)\le 0$가 성립한다.

증명

이제부터는 계산 결과만 적지 않고, 왜 그 계산을 시작해야 하는지와 각 항이 어디서 나오는지를 함께 설명한다. 중간에 사용되는 보조사실은 그냥 호출하지 않고, 필요한 범위 안에서 다시 적어 두어 논리의 끊김이 없도록 한다.

증명의 핵심 아이디어는 signed measure가 “가능한 한 크게 양의 값을 주는 영역”을 한쪽에 몰아 넣고, 그 보충집합에서는 더 이상 양의 질량이 남을 수 없음을 보이는 것이다.

우선

\[\alpha:=\sup\{\rho(A):A\in\mathcal F\}\]

를 둔다. $\rho$가 signed measure이고 유한한 전체 질량을 갖는 상황에서는 $\rho(A)$들이 $+\infty$로 발산하지 않으므로 이 상한은 잘 정의된다. 이제 상한의 정의에 따라 $\rho(A_n)\uparrow \alpha$가 되도록 가측집합열 $(A_n)$를 하나 고른다. 즉, 각 $A_n$은 “양의 질량을 거의 최대한 많이 담는 집합”이다.

이제 이 집합들을 전부 합쳐

\[P:=\bigcup_{n=1}^{\infty}A_n, \qquad N:=P^c\]

로 둔다. 우리가 보일 것은 $P$가 양의 부분, $N$이 음의 부분이라는 사실이다.

먼저 $\rho(P)=\alpha$임을 확인하자. 집합열

\[B_n:=\bigcup_{k=1}^{n}A_k\]

를 두면 $B_n\uparrow P$이고 각 $B_n$에 대해 $\rho(B_n)\le \alpha$이다. 한편 $A_n\subseteq B_n$이므로 $\rho(B_n)\ge \rho(A_n)$. 따라서

\[\alpha \ge \limsup_{n\to\infty}\rho(B_n) \ge \limsup_{n\to\infty}\rho(A_n) = \alpha.\]

즉 $\rho(B_n)\to\alpha$이다. 이제 signed measure의 연속성, 정확히는 증가하는 집합열에 대한 연속성을 사용하면

\[\rho(P)=\rho\Big(\bigcup_{n=1}^{\infty}B_n\Big)=\lim_{n\to\infty}\rho(B_n)=\alpha.\]

따라서 $P$는 실제로 최대 양의 질량을 담고 있는 집합이다.

다음으로 $P$ 안의 부분집합들은 모두 비음수 질량을 가져야 함을 보이자. 이를 위해 반대로 가정해 보자. 만약 어떤 가측집합 $A\subseteq P$가 있어서

\[\rho(A)<0\]

라면, $P\setminus A$는 여전히 가측이고

\[\rho(P\setminus A)=\rho(P)-\rho(A)\]

이다. 그런데 $\rho(A)<0$이므로 $-\rho(A)>0$, 따라서

\[\rho(P\setminus A)=\rho(P)-\rho(A)>\rho(P)=\alpha.\]

이 된다. 하지만 $\alpha$는 모든 가측집합에 대한 $\rho$값의 상한이었으므로, $\rho(P\setminus A)>\alpha$는 불가능하다. 모순이다. 따라서 모든 가측집합 $A\subseteq P$에 대해

\[\rho(A)\ge 0\]

가 성립한다.

이제 $N=P^c$의 부분집합들이 모두 비양수 질량을 가져야 함을 보이자. 역시 반대로 가정하자. 만약 어떤 가측집합 $B\subseteq N$가 있어서

\[\rho(B)>0\]

라면 $P\cap B=\varnothing$이고 $P\cup B$는 가측이므로, signed measure의 가법성에 의해

\[\rho(P\cup B)=\rho(P)+\rho(B)>\rho(P)=\alpha.\]

이 된다. 이것도 역시 $\alpha$가 상한이라는 사실과 모순이다. 따라서 모든 가측집합 $B\subseteq N$에 대해

\[\rho(B)\le 0\]

가 성립한다.

결국 $P\cup N=\Omega$, $P\cap N=\varnothing$이고, $P$의 모든 가측 부분집합에서는 $\rho$가 음수가 될 수 없고, $N$의 모든 가측 부분집합에서는 $\rho$가 양수가 될 수 없다. 이것이 바로 Hahn 분해이다. 증명 끝.

정리 2.2 (Radon–Nikodym 정리, 유한 양의 측도형)

$(\Omega,\mathcal F)$ 위의 두 유한측도 $\nu,\mu$가 있고 $\nu\ll\mu$라고 하자. 그러면 어떤 $\mathcal F$-가측 함수 $f\ge 0$가 존재하여 모든 $A\in\mathcal F$에 대해

\[\nu(A)=\int_A f\,d\mu\]

가 성립한다.

증명

증명의 흐름은 다음과 같다. 먼저 목표 식을 정확히 다시 써 두고, 그 다음 좌변과 우변을 연결하는 중간 단계를 하나씩 전개한다. 따라서 아래 계산에서는 생략 부호 없이 항의 이동, 적분의 분해, 조건부기대의 사용 이유를 모두 드러내겠다.

이 정리의 핵심은 “$\nu$를 $\mu$에 대해 밀도로 표현할 수 있는가?”라는 질문에 대해, 먼저 가능한 모든 하계 후보들을 모아 놓고 그 가운데 최대 후보를 만든 다음, 그 최대 후보가 실제로 $\nu$ 전체를 정확히 설명한다는 것을 보이는 것이다.

먼저 다음 집합을 정의한다.

\[\mathcal C:=\left\{g\ge 0\ \middle|\ g\text{는 가측이고 모든 }A\in\mathcal F\text{에 대하여 }\int_A g\,d\mu\le \nu(A)\right\}.\]

즉 $\mathcal C$는 $\nu$를 아래에서 지배하지 않는 비음수 가측함수들의 집합이다. $g\equiv 0$는 당연히 이 조건을 만족하므로 $\mathcal C\neq\varnothing$이다.

이제

\[\alpha:=\sup_{g\in\mathcal C}\int_\Omega g\,d\mu\]

를 둔다. 각 $g\in\mathcal C$에 대해 $\int_\Omega g\,d\mu\le \nu(\Omega)$이므로

\[0\le \alpha\le \nu(\Omega)<\infty.\]

따라서 $\alpha$는 유한하다.

상한의 정의에 의해 $g_n\in\mathcal C$를 골라

\[\int_\Omega g_n\,d\mu\uparrow \alpha\]

가 되게 하자. 이제 단순히 $g_n$을 그대로 쓰기보다 점wise 최대를 취해 단조증가하는 열로 만드는 것이 좋다. 그래서

\[f_n:=\max\{g_1,\dots,g_n\}\]

로 둔다. 그러면 $f_n\uparrow f:=\sup_n f_n$이다.

여기서 중요한 점은 $f_n$도 여전히 $\mathcal C$에 속한다는 사실이다. 이 부분을 생략하면 논리가 끊기므로 자세히 보자. 고정된 $n$과 $A\in\mathcal F$를 잡는다. 각 점 $\omega\in A$에서 $g_1(\omega),\dots,g_n(\omega)$ 중 최댓값을 주는 인덱스를 가장 작은 것부터 택해 $A$를 가측인 부분집합들로 분할할 수 있다. 예를 들어

\[A_1:=A\cap\{g_1=f_n\}, \qquad A_2:=A\cap\{g_2=f_n\}\setminus A_1, \qquad \dots\]

와 같이 두면 $A=\bigsqcup_{k=1}^n A_k$이고 각 $A_k$ 위에서는 $f_n=g_k$이다. 그러므로

\[\int_A f_n\,d\mu = \sum_{k=1}^{n}\int_{A_k} f_n\,d\mu = \sum_{k=1}^{n}\int_{A_k} g_k\,d\mu \le \sum_{k=1}^{n}\nu(A_k) = \nu(A).\]

따라서 $f_n\in\mathcal C$이다.

이제 $f_n\uparrow f$이고 각 $f_n\ge 0$이므로 단조수렴정리를 적용하면 모든 $A\in\mathcal F$에 대해

\[\int_A f\,d\mu = \lim_{n\to\infty}\int_A f_n\,d\mu \le \nu(A).\]

즉 $f\in\mathcal C$이고, 또

\[\int_\Omega f\,d\mu= \lim_{n\to\infty}\int_\Omega f_n\,d\mu =\alpha.\]

따라서 $f$는 실제로 최대 적분값을 달성하는 함수가 된다.

이제 $f$가 진짜 밀도인지 보이기 위해 잔여측도

\[\lambda(A):=\nu(A)-\int_A f\,d\mu\]

를 정의하자. 위에서 이미 $\int_A f\,d\mu\le \nu(A)$를 보였으므로 $\lambda$는 비음수 유한측도이다. 우리가 보여야 할 것은 $\lambda\equiv 0$라는 사실이다.

반대로 $\lambda\not\equiv 0$라고 가정하자. 그러면 어떤 가측집합 $B$에 대해

\[\lambda(B)>0\]

이다. 이제 각 $n\in\mathbb N$에 대해 signed measure

\[\rho_n(A):=\lambda(A)-\frac1n\mu(A)\]

를 생각하자. 만약 모든 $n$에 대해 모든 가측집합 $A$에서 $\rho_n(A)\le 0$가 성립한다면

\[\lambda(A)\le \frac1n\mu(A) \qquad \forall A\in\mathcal F,\ \forall n\in\mathbb N\]

이 된다. 여기서 고정된 $A$에 대해 $n\to\infty$를 보내면

\[\lambda(A)\le 0.\]

그런데 $\lambda$는 비음수 측도이므로 결국 $\lambda(A)=0$가 되어야 한다. 이는 모든 $A$에 대해 성립하므로 $\lambda\equiv 0$가 되는데, 이는 가정과 모순이다. 따라서 어떤 $n_0$와 어떤 가측집합에 대해서는

\[\rho_{n_0}(A)>0\]

가 된다.

이제 signed measure $\rho_{n_0}$에 Hahn 분해 정리를 적용한다. 그러면 어떤 가측집합 $P$가 존재하여 $P$의 모든 가측 부분집합 $A\subseteq P$에 대해

\[\rho_{n_0}(A)=\lambda(A)-\frac1{n_0}\mu(A)\ge 0\]

가 성립한다. 특히 $\rho_{n_0}$가 양의 값을 갖는 부분이 있으므로 $\mu(P)>0$인 부분도 얻을 수 있다.

이제

\[\tilde f:=f+\frac1{n_0}\mathbf 1_P\]

를 정의하자. 이 함수가 $\mathcal C$에 속함을 보이면 모순이 생긴다. 실제로 임의의 $A\in\mathcal F$에 대해

\[\int_A \tilde f\,d\mu = \int_A f\,d\mu+\frac1{n_0}\mu(A\cap P).\]

그런데 $A\cap P\subseteq P$이므로 위의 Hahn 분해 성질에서

\[\lambda(A\cap P)-\frac1{n_0}\mu(A\cap P)\ge 0\]

를 얻고, 즉

\[\frac1{n_0}\mu(A\cap P)\le \lambda(A\cap P).\]

따라서

\[\int_A \tilde f\,d\mu \le \int_A f\,d\mu+\lambda(A\cap P) \le \int_A f\,d\mu+\lambda(A) = \nu(A).\]

즉 $\tilde f\in\mathcal C$이다.

하지만 이제 전체적분을 계산하면

\[\int_\Omega \tilde f\,d\mu = \int_\Omega f\,d\mu+\frac1{n_0}\mu(P) = \alpha+\frac1{n_0}\mu(P) >\alpha.\]

이 된다. 이는 $\alpha$가 $\mathcal C$ 위에서의 상한이라는 정의와 정면으로 모순이다.

따라서 모순 가정 $\lambda\not\equiv 0$는 거짓이고, 결국 모든 $A\in\mathcal F$에 대해

\[\lambda(A)=0.\]

즉

\[\nu(A)=\int_A f\,d\mu \qquad \forall A\in\mathcal F.\]

이 된다. 따라서 원하는 Radon–Nikodym 밀도 $f=d\nu/d\mu$가 존재한다. 증명 끝.

정리 2.3 (조건부기대의 존재)

$X\in L^1(\Omega,\mathcal F,\mathbb P)$이고 $\mathcal G\subseteq\mathcal F$가 부분 $\sigma$-대수라 하자. 그러면 $\mathcal G$-가측이며 적분가능한 확률변수 $Y$가 존재하여 모든 $A\in\mathcal G$에 대하여

\[\int_A Y\,d\mathbb P=\int_A X\,d\mathbb P\]

가 성립한다. 이러한 $Y$를 $\mathbb E[X\mid\mathcal G]$라 쓴다.

증명

조건부기대의 존재는 결국 Radon–Nikodym 정리를 확률론에 맞게 다시 읽는 것이다. 다만 그 말을 한 줄로 쓰고 끝내면 핵심이 보이지 않는다. 실제로는 다음 세 단계를 거친다.

먼저 적분가능한 확률변수 $X$를 양의 부분과 음의 부분으로 분해한다.
그 양의 부분과 음의 부분이 각각 부분 $\sigma$-대수 $\mathcal G$ 위에서 유한 양의 측도를 만든다는 것을 확인한다.
그 측도들에 Radon–Nikodym 정리를 적용하여 밀도함수를 얻고, 다시 둘을 빼서 조건부기대를 만든다.

이제 한 줄씩 적어 보자. 우선

\[ X = X^+ - X^-, \qquad X^+ := \max\{X,0\}, \qquad X^- := \max\{-X,0\} \]

로 둔다. 그러면 거의 어디서나

\[ X^+ \ge 0, \qquad X^- \ge 0, \qquad X^+X^- = 0, \qquad |X| = X^+ + X^-. \]

또한 $X\in L^1$이므로

\[ \mathbb E[X^+] < \infty, \qquad \mathbb E[X^-] < \infty. \]

이 사실은 뒤에서 측도의 유한성을 보장하는 데 정확히 쓰인다.

이제 부분 $\sigma$-대수 $\mathcal G\subseteq\mathcal F$ 위에서 두 개의 집합함수를 정의한다.

\[ \nu_+(A) := \int_A X^+\,d\mathbb P, \qquad \nu_-(A) := \int_A X^-\,d\mathbb P, \qquad A\in\mathcal G. \]

먼저 이것들이 정말 측도인지 확인해야 한다. 비음수성은 $X^\pm\ge 0$에서 바로 나온다. 그리고 서로소인 $A_1,A_2,\dots\in\mathcal G$에 대해 적분의 가산가법성으로

\[ \nu_+\Big(\bigcup_{n=1}^{\infty} A_n\Big) = \int_{\cup_n A_n} X^+\,d\mathbb P = \sum_{n=1}^{\infty}\int_{A_n} X^+\,d\mathbb P = \sum_{n=1}^{\infty}\nu_+(A_n), \]

이고 $\nu_-$도 마찬가지다. 따라서 둘 다 $\mathcal G$ 위의 양의 측도이다.

또한 유한성은

\[ \nu_+(\Omega)=\int_{\Omega}X^+\,d\mathbb P=\mathbb E[X^+]<\infty, \qquad \nu_-(\Omega)=\mathbb E[X^-]<\infty \]

에서 따라온다. 그래서 $\nu_+$, $\nu_-$는 유한 양의 측도이다.

다음으로 절대연속성을 확인하자. 임의의 $A\in\mathcal G$에 대해 $\mathbb P(A)=0$이면, 영집합 위의 적분은 항상 0이므로

\[ \nu_+(A)=\int_A X^+\,d\mathbb P=0, \qquad \nu_-(A)=\int_A X^-\,d\mathbb P=0. \]

즉

\[ \nu_+ \ll \mathbb P|_{\mathcal G}, \qquad \nu_- \ll \mathbb P|_{\mathcal G}. \]

여기까지 오면 Radon–Nikodym 정리를 정확히 적용할 수 있다. 따라서 $\mathcal G$-가측 비음수 함수 $Y_+,Y_-$가 존재하여 모든 $A\in\mathcal G$에 대해

\[ \nu_+(A)=\int_A Y_+\,d\mathbb P, \qquad \nu_-(A)=\int_A Y_-\,d\mathbb P. \]

즉,

\[ \int_A X^+\,d\mathbb P=\int_A Y_+\,d\mathbb P, \qquad \int_A X^-\,d\mathbb P=\int_A Y_-\,d\mathbb P. \]

이제

\[ Y:=Y_+-Y_- \]

라고 두자. $Y_+,Y_-$가 모두 $\mathcal G$-가측이므로 $Y$도 $\mathcal G$-가측이다.

다음으로 $Y\in L^1$인지 확인한다. 먼저 $A=\Omega$를 위 등식에 넣으면

\[ \mathbb E[Y_+]=\int_{\Omega}Y_+\,d\mathbb P=\int_{\Omega}X^+\,d\mathbb P=\mathbb E[X^+], \]

그리고 같은 방식으로

\[ \mathbb E[Y_-]=\mathbb E[X^-]. \]

따라서

\[ \mathbb E[|Y|] \le \mathbb E[Y_+]+\mathbb E[Y_-] = \mathbb E[X^+]+\mathbb E[X^-] = \mathbb E[|X|] < \infty. \]

즉 $Y\in L^1$이다.

마지막으로 defining property를 확인하자. 임의의 $A\in\mathcal G$에 대해

\[ \int_A Y\,d\mathbb P = \int_A (Y_+-Y_-)\,d\mathbb P = \int_A Y_+\,d\mathbb P-\int_A Y_-\,d\mathbb P. \]

앞에서 얻은 Radon–Nikodym 표현을 대입하면

\[ \int_A Y\,d\mathbb P = \int_A X^+\,d\mathbb P-\int_A X^-\,d\mathbb P = \int_A (X^+-X^-)\,d\mathbb P = \int_A X\,d\mathbb P. \]

이것이 바로 조건부기대의 정의식이다. 따라서 $Y$는 $X$의 $\mathcal G$-조건부기대이다.

정리하면, 조건부기대의 존재는 전적으로 측도론적 사실이다. $X$가 적분가능하다는 가정은 $X^\pm$가 유한 측도를 만들게 하고, 부분 $\sigma$-대수 위에서의 절대연속성은 Radon–Nikodym 정리를 적용할 수 있게 만든다. 그 결과 얻어진 두 개의 밀도를 빼면 조건부기대가 나온다. 증명 끝.

정리 2.4 (유일성)

조건부기대는 거의확실히 유일하다. 즉 $Y_1,Y_2$가 둘 다 $\mathbb E[X\mid\mathcal G]$의 정의를 만족하면

\[Y_1=Y_2\qquad\text{a.s.}\]

이다.

증명

조건부기대의 유일성은 “정의를 만족하는 두 후보의 차이는 거의 surely 0이어야 한다”는 방식으로 보인다.

$Y_1$과 $Y_2$가 둘 다 $X$의 $\mathcal G$-조건부기대라고 하자. 그러면 두 함수는 모두 $\mathcal G$-가측이고 적분가능하며, 모든 $A\in\mathcal G$에 대해

\[\int_A Y_1\,d\mathbb P = \int_A X\,d\mathbb P = \int_A Y_2\,d\mathbb P.\]

따라서 차이

\[D:=Y_1-Y_2\]

를 정의하면 $D$는 $\mathcal G$-가측이고, 모든 $A\in\mathcal G$에 대해

\[\int_A D\,d\mathbb P = 0\]

를 만족한다.

이제 이 사실로부터 $D=0$ a.s.를 끌어내야 한다. 이를 위해 양의 부분과 음의 부분을 각각 없애면 된다. 먼저

\[A_+:=\{D>0\}\]

를 보자. $D$가 $\mathcal G$-가측이므로 $A_+\in\mathcal G$이다. 따라서 가정에 의해

\[\int_{A_+} D\,d\mathbb P = 0.\]

그런데 $A_+$ 위에서는 $D(\omega)>0$이므로 적분되는 함수가 음수가 아닌 것이 아니라 엄밀히 양수인 부분만 모은 것이다. 비음수 함수의 적분이 0이면 그 함수는 거의 어디서나 0이어야 하므로

\[D=0 \quad \text{a.s. on }A_+.\]

하지만 $A_+$의 정의상 $D>0$인 점들로 이루어져 있으므로, 이 결론은 결국

\[\mathbb P(A_+)=0\]

를 의미한다.

같은 방식으로

\[A_-:=\{D<0\}\]

를 보면 역시 $A_-\in\mathcal G$이다. 이제 직접 $D$를 적분하면 음수가 되므로 불편하다. 대신 $-D$를 보자. $A_-$ 위에서는 $-D>0$이므로

\[0= -\int_{A_-}D\,d\mathbb P = \int_{A_-}(-D)\,d\mathbb P.\]

따라서 다시 비음수 함수의 적분이 0이라는 논리로

\[\mathbb P(A_-)=0.\]

이제

\[\{D\neq 0\}=\{D>0\}\cup\{D<0\}=A_+\cup A_-\]

이므로

\[\mathbb P(D\neq 0)\le \mathbb P(A_+)+\mathbb P(A_-)=0.\]

즉

\[D=0\quad \text{a.s.}\]

이다. 다시 말해

\[Y_1=Y_2\quad \text{a.s.}\]

이므로 조건부기대는 거의 surely 유일하다. 증명 끝.

정리 2.5 (Pull-out property)

$X\in L^1$, $Z$가 bounded $\mathcal G$-가측이면

\[\mathbb E[ZX\mid\mathcal G]=Z\,\mathbb E[X\mid\mathcal G] \qquad\text{a.s.}\]

증명

이 성질은 $\mathcal G$-가측인 항은 조건부기대 바깥으로 꺼낼 수 있다는 사실이다. 그러나 “그냥 꺼낼 수 있다”고 쓰고 끝내면 안 되고, 실제로 정의를 만족하는지 하나씩 확인해야 한다.

먼저 우변

\[Z\,\mathbb E[X\mid\mathcal G]\]

가 조건부기대 후보가 되려면 두 가지를 확인해야 한다. 하나는 $\mathcal G$-가측성이고, 다른 하나는 적분가능성이다.

$Z$가 bounded $\mathcal G$-가측이고 $\mathbb E[X\mid\mathcal G]$도 $\mathcal G$-가측이므로 그 곱은 역시 $\mathcal G$-가측이다. 따라서 가측성은 문제가 없다.

다음으로 적분가능성을 보자. $Z$가 bounded이므로 어떤 상수 $C=\|Z\|_\infty<\infty$가 존재하여 거의 surely

\[|Z|\le C\]

이다. 따라서

\[|ZX|\le C|X|.\]

양변의 기댓값을 취하면

\[\mathbb E[|ZX|]\le C\,\mathbb E[|X|]<\infty.\]

즉 $ZX\in L^1$이다. 따라서 $\mathbb E[ZX\mid\mathcal G]$는 잘 정의된다.

이제

\[Y:=Z\,\mathbb E[X\mid\mathcal G]\]

가 정말로 $ZX$의 $\mathcal G$-조건부기대인지 보여야 한다. 조건부기대의 정의상 임의의 $A\in\mathcal G$에 대하여

\[\int_A Y\,d\mathbb P = \int_A ZX\,d\mathbb P\]

를 보이면 충분하다.

고정된 $A\in\mathcal G$를 잡자. 그러면 지시함수 $\mathbf 1_A$는 $\mathcal G$-가측이고, $Z$도 $\mathcal G$-가측이므로 $\mathbf 1_A Z$ 역시 bounded $\mathcal G$-가측이다. 따라서 조건부기대의 defining property를 $\mathbf 1_A Z$에 적용할 수 있다. 계산을 쓰면

\[\int_A Z\,\mathbb E[X\mid\mathcal G] \,d\mathbb P = \int_\Omega \mathbf 1_A Z\,\mathbb E[X\mid\mathcal G] \,d\mathbb P.\]

이제 $\mathbf 1_A Z$가 $\mathcal G$-가측 bounded 함수이므로,

\[\int_\Omega \mathbf 1_A Z\,\mathbb E[X\mid\mathcal G] \,d\mathbb P = \int_\Omega \mathbf 1_A ZX\,d\mathbb P.\]

다시 적분구간을 $A$로 쓰면

\[\int_\Omega \mathbf 1_A ZX\,d\mathbb P = \int_A ZX\,d\mathbb P.\]

따라서

\[\int_A Y\,d\mathbb P = \int_A ZX\,d\mathbb P \qquad \forall A\in\mathcal G.\]

즉 $Y$는 $ZX$의 $\mathcal G$-조건부기대 정의를 만족한다.

유일성에 의해

\[\mathbb E[ZX\mid\mathcal G]=Z\,\mathbb E[X\mid\mathcal G] \quad \text{a.s.}\]

가 된다. 증명 끝.

정리 2.6 (Tower property)

$\mathcal H\subseteq\mathcal G\subseteq\mathcal F$이고 $X\in L^1$이면

\[\mathbb E[\mathbb E[X\mid\mathcal G]\mid\mathcal H]=\mathbb E[X\mid\mathcal H] \qquad\text{a.s.}\]

증명

이 정리는 정보를 두 단계로 나누어 조건부기대를 취해도, 처음부터 더 작은 정보 $\mathcal H$에 대해 조건부기대한 것과 같다는 사실이다. 표기만 간단할 뿐, 실제 증명은 조건부기대의 정의를 정확히 두 번 쓰는 과정이다.

보일 식은

\[\mathbb E[\mathbb E[X\mid\mathcal G]\mid\mathcal H] = \mathbb E[X\mid\mathcal H], \qquad \mathcal H\subseteq\mathcal G.\]

이다.

먼저 왼쪽 항

\[Y:=\mathbb E[\mathbb E[X\mid\mathcal G]\mid\mathcal H]\]

는 조건부기대의 정의상 $\mathcal H$-가측이다. 따라서 $Y$가 $X$의 $\mathcal H$-조건부기대인지 확인하려면, 임의의 $A\in\mathcal H$에 대해

\[\int_A Y\,d\mathbb P = \int_A X\,d\mathbb P\]

를 보이면 충분하다.

이제 $A\in\mathcal H$를 임의로 잡자. $\mathcal H\subseteq\mathcal G$이므로 동시에 $A\in\mathcal G$이기도 하다. 이 점이 tower property의 핵심이다. 먼저 $Y$가 $\mathbb E[X\mid\mathcal G]$의 $\mathcal H$-조건부기대라는 사실을 쓰면

\[\int_A Y\,d\mathbb P = \int_A \mathbb E[X\mid\mathcal G] \,d\mathbb P.\]

그 다음 $A\in\mathcal G$라는 사실을 이용하여, $\mathbb E[X\mid\mathcal G]$가 $X$의 $\mathcal G$-조건부기대라는 정의를 적용하면

\[\int_A \mathbb E[X\mid\mathcal G] \,d\mathbb P = \int_A X\,d\mathbb P.\]

결국 두 식을 연결하면

\[\int_A Y\,d\mathbb P = \int_A X\,d\mathbb P \qquad \forall A\in\mathcal H.\]

즉 $Y$는 $X$의 $\mathcal H$-조건부기대 정의를 만족한다.

조건부기대의 유일성에 의해

\[Y=\mathbb E[X\mid\mathcal H] \quad \text{a.s.}\]

가 된다. 다시 쓰면

\[\mathbb E[\mathbb E[X\mid\mathcal G]\mid\mathcal H] = \mathbb E[X\mid\mathcal H] \quad \text{a.s.}\]

이다. 증명 끝.

정리 2.7 (조건부 Jensen 부등식)

$\varphi:\mathbb R\to\mathbb R$가 convex이고 $X,\varphi(X)\in L^1$이면

\[\varphi(\mathbb E[X\mid\mathcal G])\le \mathbb E[\varphi(X)\mid\mathcal G] \qquad\text{a.s.}\]

증명

조건부 Jensen 부등식의 본질은, convex 함수는 접선들의 상한으로 나타낼 수 있고, 조건부기대는 선형성이 있으므로 각 접선에 대해 부등식을 먼저 얻은 뒤 상한을 취하면 된다는 데 있다.

편의를 위해

\[Y:=\mathbb E[X\mid\mathcal G]\]

라고 쓰자. 목표는

\[\varphi(Y)\le \mathbb E[\varphi(X)\mid\mathcal G] \quad \text{a.s.}\]

를 보이는 것이다.

먼저 convex 함수 $\varphi$의 표준 표현을 사용한다. 실수축 위의 convex 함수는 적당한 affine 함수들의 상한으로 표현될 수 있다. 즉 countable한 계수쌍 $(a_n,b_n)_{n\ge 1}\subset\mathbb R^2$가 존재하여 모든 $x\in\mathbb R$에 대해

\[\varphi(x)=\sup_{n\ge 1}(a_nx+b_n)\]

이며, 특히 각 $n$에 대해

\[a_nx+b_n\le \varphi(x) \qquad \forall x\in\mathbb R\]

가 성립한다.

이제 임의의 $n$을 고정하자. 위 부등식을 확률변수 $X$에 대입하면 거의 surely

\[a_n X+b_n\le \varphi(X)\]

이다. 조건부기대는 단조성을 가지므로 양변에 $\mathcal G$-조건부기대를 취하면

\[\mathbb E[a_nX+b_n\mid\mathcal G] \le \mathbb E[\varphi(X)\mid\mathcal G].\]

그런데 조건부기대의 선형성과, 상수 및 $\mathcal G$-가측 항에 대한 취급을 이용하면

\[\mathbb E[a_nX+b_n\mid\mathcal G] = a_n\mathbb E[X\mid\mathcal G]+b_n = a_nY+b_n.\]

따라서 각 $n$마다

\[a_nY+b_n\le \mathbb E[\varphi(X)\mid\mathcal G].\]

가 성립한다.

이제 이 부등식은 모든 $n$에 대해 참이므로 좌변에 대해 상한을 취할 수 있다.

\[\sup_{n\ge 1}(a_nY+b_n) \le \mathbb E[\varphi(X)\mid\mathcal G].\]

그런데 $\varphi$의 affine minorant 표현에 의해 좌변은 바로 $\varphi(Y)$이다. 따라서

\[\varphi(Y) = \sup_{n\ge 1}(a_nY+b_n) \le \mathbb E[\varphi(X)\mid\mathcal G].\]

즉

\[\varphi(\mathbb E[X\mid\mathcal G]) \le \mathbb E[\varphi(X)\mid\mathcal G] \quad \text{a.s.}\]

가 된다.

정리의 직관은 단순하다. convex 함수는 평균을 취하면 내려가지 않고, 조건부기대는 “현재 정보 $\mathcal G$ 아래에서의 평균”이므로, 같은 논리가 조건부 버전으로 그대로 유지된다. 증명 끝.

정의 3.1

필트레이션 $(\mathcal F_t)_{t\ge 0}$은

\[s\le t \implies \mathcal F_s\subseteq \mathcal F_t\]

를 만족하는 $\sigma$-대수의 증가족이다.

정의 3.2

과정 $(X_t)_{t\ge 0}$가 $(\mathcal F_t)$-adapted라는 것은 각 $t$에 대하여 $X_t$가 $\mathcal F_t$-가측이라는 뜻이다.

정의 3.3

랜덤시간 $\tau:\Omega\to[0,\infty]$가 stopping time이라는 것은 모든 $t\ge 0$에 대해

\[\{\tau\le t\}\in\mathcal F_t\]

가 성립하는 것이다.

정의 3.4

적분가능한 adapted 과정 $(M_t)$가 martingale이라는 것은 모든 $0\le s\le t$에 대해

\[\mathbb E[M_t\mid\mathcal F_s]=M_s \qquad\text{a.s.}\]

를 만족하는 것이다. 부등호를 $\ge$, $\le$로 바꾸면 각각 submartingale, supermartingale이다.

정리 3.5 (단순 stopping time에 대한 optional sampling)

$(M_t)$가 martingale이고 stopping time $\tau$가 유한한 값 $t_1,\dots,t_n$만 취한다고 하자. 그러면

\[\mathbb E[M_T\mid\mathcal F_\tau]=M_\tau\]

가 bounded $T\ge \tau$에 대하여 성립하며, 특히

\[\mathbb E[M_\tau]=\mathbb E[M_0]\]

이다.

증명

$\tau$가 단순 stopping time이라는 말은 $\tau$가 유한한 개수의 값만 취한다는 뜻이다. 따라서 정지시점에서의 martingale 값을 각 시간값별로 분해한 뒤, 각 조각에서 usual martingale property를 적용하면 된다.

가정에 따라

\[\tau\in\{t_1,\dots,t_n\}, \qquad 0\le t_1<\cdots<t_n\le T.\]

따라서 정지된 확률변수 $M_\tau$는

\[M_\tau= \sum_{k=1}^{n} M_{t_k}\,\mathbf 1_{\{\tau=t_k\}}\]

로 쓸 수 있다. 이것은 단순히 “$\tau=t_k$인 경우에는 $M_\tau=M_{t_k}$”라는 사실을 분할합으로 적은 것이다.

이제 $A\in\mathcal F_\tau$를 임의로 잡자. 정지시점 $\tau$에 대한 $\sigma$-대수의 정의에 의해, 각 $k$에 대해

\[A\cap\{\tau=t_k\}\in\mathcal F_{t_k}.\]

이 점이 핵심이다. 즉 $\tau=t_k$인 층(layer) 위에서는 사건 $A$가 시각 $t_k$까지의 정보로 판별된다.

이제 $M$이 martingale이므로, $t_k\le T$에 대해

\[\mathbb E[M_T\mid\mathcal F_{t_k}] = M_{t_k}.\]

이를 집합 $A\cap\{\tau=t_k\}\in\mathcal F_{t_k}$에 대해 적분형으로 쓰면

\[\int_{A\cap\{\tau=t_k\}} M_T\,d\mathbb P = \int_{A\cap\{\tau=t_k\}} M_{t_k}\,d\mathbb P.\]

이 식을 $k=1,\dots,n$에 대해 전부 더하면

\[\sum_{k=1}^{n} \int_{A\cap\{\tau=t_k\}} M_T\,d\mathbb P = \sum_{k=1}^{n} \int_{A\cap\{\tau=t_k\}} M_{t_k}\,d\mathbb P.\]

좌변은 $A\cap\{\tau=t_k\}$들이 서로소이고 합이 $A$이므로

\[\sum_{k=1}^{n} \int_{A\cap\{\tau=t_k\}} M_T\,d\mathbb P = \int_A M_T\,d\mathbb P.\]

우변은 위의 분해식 $M_\tau=\sum_k M_{t_k}\mathbf 1_{\{\tau=t_k\}}$를 이용하면

\[\sum_{k=1}^{n} \int_{A\cap\{\tau=t_k\}} M_{t_k}\,d\mathbb P = \int_A M_\tau\,d\mathbb P.\]

따라서

\[\int_A M_T\,d\mathbb P = \int_A M_\tau\,d\mathbb P \qquad \forall A\in\mathcal F_\tau.\]

즉 $M_\tau$는 $M_T$의 $\mathcal F_\tau$-조건부기대 정의를 만족한다.

결론적으로

\[\mathbb E[M_T\mid\mathcal F_\tau]=M_\tau \quad \text{a.s.}\]

가 성립한다. 이것이 단순 stopping time에 대한 optional sampling이다. 증명 끝.

정리 3.6 (bounded stopping time에 대한 optional sampling)

$(M_t)$가 càdlàg martingale이고 $\tau\le T$가 bounded stopping time이면

\[\mathbb E[M_\tau]=\mathbb E[M_0].\]

증명

bounded stopping time의 경우 증명의 논리는 간단히 말하면 다음과 같다. 복잡한 정지시각을 직접 다루지 말고, 먼저 유한한 값만 취하는 단순 stopping time으로 위에서 근사한 뒤, 그 근사정리에서 극한을 보낸다. 그런데 이 말을 제대로 쓰려면 적어도 세 가지를 확인해야 한다.

근사한 $\tau_n$이 정말 stopping time인지,
$\tau_n\downarrow \tau$일 때 $M_{\tau_n}\to M_\tau$가 성립하는지,
기대값과 조건부기대에서 극한을 교환할 수 있는지.

이제 순서대로 쓰자. $\tau\le T$ almost surely라고 하자. 각 $n\in\mathbb N$에 대해 dyadic 근사

\[ \tau_n := 2^{-n}\big\lceil 2^n\tau\big\rceil \wedge T \]

를 정의한다. 이 정의는 $\tau$를 길이 $2^{-n}$인 격자 위의 오른쪽 끝점으로 올려 붙인 것이다. 따라서 각 $\tau_n$은

\[ \{0,2^{-n},2\cdot 2^{-n},\dots, T\} \]

같은 유한집합의 값만 취한다.

먼저 $\tau_n$이 stopping time인지 보이자. 임의의 $t\ge 0$에 대해 사건 $\{\tau_n\le t\}$는 어떤 격자점 $k2^{-n}$들이 $t$ 이하인지에 따라 유한합으로 표현된다. 더 직접적으로는, $\tau_n\le t$라는 것은 $\tau$가 적어도 $t$보다 크게 올림되지 않는다는 말과 같고, 결국 $\{\tau\le c_t\}$ 꼴의 사건들의 유한합으로 쓸 수 있다. 그런데 $\tau$는 stopping time이므로 이런 사건은 모두 $\mathcal F_t$에 속한다. 따라서 $\tau_n$은 stopping time이다. 게다가 유한한 값만 취하므로 단순 stopping time이다.

또한 정의에서 즉시

\[ \tau \le \tau_n \le T, \qquad \tau_n \downarrow \tau \]

가 성립한다. 즉 $\tau_n$은 $\tau$를 위에서 단조감소하며 근사한다.

각 $n$에 대해서는 이미 정리 3.5를 알고 있으므로

\[ \mathbb E[M_T\mid \mathcal F_{\tau_n}] = M_{\tau_n} \qquad \text{a.s.} \]

가 성립한다. 특히 기대값을 취하면

\[ \mathbb E[M_{\tau_n}] = \mathbb E[M_0]. \]

이제 $n\to\infty$를 보내고 싶다.

먼저 경로별 수렴을 보자. $M$이 càdlàg이고 $\tau_n\downarrow \tau$이므로 우연속성에 의해 거의 모든 $\omega$에 대해

\[ M_{\tau_n(\omega)}(\omega) \to M_{\tau(\omega)}(\omega). \]

이 부분은 생략하면 안 된다. 왜냐하면 stopping time의 근사에서 가장 먼저 확보해야 하는 것이 바로 샘플경로 수준의 수렴이기 때문이다.

다음으로 기대값 극한교환을 정당화하자. 보통 bounded stopping time에 대한 optional sampling 정리에서는 $M^T=(M_{t\wedge T})$가 균등적분가능하거나 적어도 $\{M_{\tau_n}\}_n$이 UI라는 가정을 함께 둔다. 이 경우 almost sure convergence와 UI를 결합하여

\[ \mathbb E[M_{\tau_n}] \to \mathbb E[M_\tau] \]

를 얻는다. 따라서 위의 항등식에서 극한을 보내면

\[ \mathbb E[M_\tau] = \lim_{n\to\infty} \mathbb E[M_{\tau_n}] = \mathbb E[M_0]. \]

즉 기대값 버전의 optional sampling이 나온다.

이제 조건부기대 형태까지 보이자. 목표는

\[ \mathbb E[M_T\mid \mathcal F_\tau] = M_\tau \]

를 증명하는 것이다. 조건부기대의 정의에 따라 임의의 $A\in\mathcal F_\tau$에 대해

\[ \int_A M_\tau\,d\mathbb P = \int_A M_T\,d\mathbb P \]

를 보이면 충분하다.

여기서 핵심은 $A\in\mathcal F_\tau$이면 $A\in\mathcal F_{\tau_n}$도 성립한다는 점이다. 왜냐하면 $\tau\le \tau_n$이므로 $\tau$ 시점까지 알고 있는 정보는 $\tau_n$ 시점까지의 정보에 포함되기 때문이다. 이를 사건 수준에서 쓰면, 임의의 $t$에 대해

\[ A\cap\{\tau_n\le t\} subseteq A\cap\{\tau\le t\} in \mathcal F_t, \]

와 같은 형태로 확인할 수 있다. 따라서 정리 3.5를 $\tau_n$에 적용하면

\[ \int_A M_{\tau_n}\,d\mathbb P = \int_A M_T\,d\mathbb P qquad (A\in\mathcal F_\tau\subseteq \mathcal F_{\tau_n}). \]

이제 $M_{\tau_n}\to M_\tau$ almost surely이고, 다시 UI 또는 지배수렴을 쓸 수 있으므로

\[ \int_A M_\tau\,d\mathbb P = \lim_{n\to\infty}\int_A M_{\tau_n}\,d\mathbb P = \int_A M_T\,d\mathbb P. \]

따라서 조건부기대의 정의에 의해

\[ \mathbb E[M_T\mid \mathcal F_\tau] = M_\tau \qquad \text{a.s.} \]

가 된다.

요약하면, bounded stopping time에 대한 optional sampling은 단순 stopping time에 대한 결과를 격자근사와 극한교환으로 확장한 것이다. 이 과정에서 빠질 수 없는 세 가지는 stopping time 근사, càdlàg에 의한 경로별 수렴, 그리고 UI를 통한 기대값 극한교환이다. 증명 끝.

정의 4.1

rate $\lambda>0$의 Poisson 과정 $(N_t)_{t\ge 0}$는 다음을 만족하는 counting process이다.

$N_0=0$.
증가량이 독립이다.
증가량이 정상적이다.
임의의 $s<t$에 대하여

\[N_t-N_s\sim \mathrm{Poisson}(\lambda(t-s)).\]

보조정리 4.2 (작은 시간 확률)

Poisson 과정에 대하여 $h\downarrow 0$일 때

\[\mathbb P(N_{t+h}-N_t=0)=1-\lambda h+o(h),\]

\[\mathbb P(N_{t+h}-N_t=1)=\lambda h+o(h),\]

\[\mathbb P(N_{t+h}-N_t\ge 2)=o(h).\]

증명

Poisson 과정의 미소시간 거동은 이후 generator 계산에서 반복적으로 쓰이므로, 여기서는 테일러 전개를 중간 단계까지 모두 적어 두는 것이 좋다.

정상증가량과 독립증가량에 의해 길이 $h$인 짧은 구간의 증가량은

\[N_{t+h}-N_t \sim \mathrm{Poisson}(\lambda h)\]

를 따른다. 따라서 Poisson 분포의 확률질량함수를 쓰면

\[\mathbb P(N_{t+h}-N_t=0)=e^{-\lambda h},\]

\[\mathbb P(N_{t+h}-N_t=1)=e^{-\lambda h}(\lambda h),\]

\[\mathbb P(N_{t+h}-N_t\ge 2) = 1-\mathbb P(N_{t+h}-N_t=0)-\mathbb P(N_{t+h}-N_t=1).\]

이제 각 항을 $h\downarrow 0$에서 전개하자. 지수함수의 테일러 전개에 의해

\[e^{-\lambda h}=1-\lambda h+\frac{\lambda^2h^2}{2}+O(h^3).\]

따라서 곧바로

\[\mathbb P(N_{t+h}-N_t=0) = 1-\lambda h+O(h^2) = 1-\lambda h+o(h).\]

가 된다.

다음으로 1회 점프 확률은

\[\mathbb P(N_{t+h}-N_t=1) = \lambda h\,e^{-\lambda h}\]

이므로 위 전개를 곱해 쓰면

\[\lambda h\,e^{-\lambda h} = \lambda h\left(1-\lambda h+\frac{\lambda^2h^2}{2}+O(h^3)\right) = \lambda h-\lambda^2h^2+O(h^3).\]

따라서

\[\mathbb P(N_{t+h}-N_t=1)=\lambda h+O(h^2)=\lambda h+o(h).\]

마지막으로 두 번 이상 점프할 확률은

\[\mathbb P(N_{t+h}-N_t\ge 2) = 1-e^{-\lambda h}-\lambda h e^{-\lambda h}.\]

앞의 두 전개를 대입하면

\[1- \left(1-\lambda h+\frac{\lambda^2h^2}{2}+O(h^3)\right) - \left(\lambda h-\lambda^2h^2+O(h^3)\right) = \frac{\lambda^2h^2}{2}+O(h^3).\]

즉

\[\mathbb P(N_{t+h}-N_t\ge 2)=O(h^2)=o(h).\]

정리하면 길이 $h$인 미소구간에서는

\[\mathbb P(0\text{회 점프})=1-\lambda h+o(h), \qquad \mathbb P(1\text{회 점프})=\lambda h+o(h), \qquad \mathbb P(2\text{회 이상 점프})=o(h).\]

즉 일차근사 수준에서는 “아무 일도 안 일어나거나 한 번 점프하는 경우”만 남고, 두 번 이상 점프하는 경우는 $h$에 비해 무시 가능하다. 증명 끝.

정리 4.3 (첫 도착시간의 분포)

\[T_1:=\inf\{t\ge 0:N_t\ge 1\}\]

로 두면

\[\mathbb P(T_1>t)=e^{-\lambda t},\]

즉

\[T_1\sim \mathrm{Exp}(\lambda).\]

증명

첫 도착시간 $T_1$의 분포를 구하려면, “첫 도착이 아직 일어나지 않았다”는 사건을 counting process의 언어로 다시 쓰면 된다.

정의상

\[T_1:=\inf\{t\ge 0:N_t\ge 1\}\]

이다. 따라서 사건 $\{T_1>t\}$는 시간 $t$까지 단 한 번의 점프도 일어나지 않았다는 뜻이다. 그런데 Poisson 과정은 점프할 때마다 $1$씩 증가하고 $N_0=0$이므로, 시간 $t$까지 점프가 한 번도 없다는 것은 곧

\[N_t=0\]

와 정확히 동치이다. 즉

\[\{T_1>t\}=\{N_t=0\}.\]

이제 $N_t\sim \mathrm{Poisson}(\lambda t)$를 쓰면

\[\mathbb P(T_1>t) = \mathbb P(N_t=0) = e^{-\lambda t}\frac{(\lambda t)^0}{0!} = e^{-\lambda t}.\]

이것은 지수분포 $\mathrm{Exp}(\lambda)$의 survival function과 정확히 같다. 실제로 지수분포 $T\sim\mathrm{Exp}(\lambda)$는

\[\mathbb P(T>t)=e^{-\lambda t},\qquad t\ge 0\]

를 만족하는 분포로 정의된다.

따라서

\[T_1\sim \mathrm{Exp}(\lambda).\]

즉 Poisson 과정의 첫 점프 대기시간은 지수분포를 따른다. 증명 끝.

정리 4.4 (memoryless property)

$T\sim \mathrm{Exp}(\lambda)$이면 임의의 $s,t\ge 0$에 대해

\[\mathbb P(T>s+t\mid T>s)=\mathbb P(T>t)=e^{-\lambda t}.\]

증명

지수분포의 memoryless property는 “이미 $s$만큼 기다렸다는 사실이 앞으로의 추가 대기시간 분포를 바꾸지 않는다”는 뜻이다. 이를 식으로 써서 한 줄씩 계산해 보자.

보이고 싶은 것은

\[\mathbb P(T>s+t\mid T>s)=\mathbb P(T>t)\]

이다. 여기서 $T\sim\mathrm{Exp}(\lambda)$라고 하자.

조건부확률의 정의에 의해, $\mathbb P(T>s)>0$이므로

\[\mathbb P(T>s+t\mid T>s) = \frac{\mathbb P(\{T>s+t\}\cap\{T>s\})}{\mathbb P(T>s)}.\]

그런데 $s+t>s$이므로 사건 포함관계 $\{T>s+t\}\subseteq\{T>s\}$가 성립한다. 따라서 교집합은 그냥 작은 쪽 사건 자체가 된다.

\[\{T>s+t\}\cap\{T>s\}=\{T>s+t\}.\]

그러므로

\[\mathbb P(T>s+t\mid T>s) = \frac{\mathbb P(T>s+t)}{\mathbb P(T>s)}.\]

이제 지수분포의 survival function을 대입하면

\[\mathbb P(T>s+t\mid T>s) = \frac{e^{-\lambda(s+t)}}{e^{-\lambda s}}.\]

분자 지수를 분리하면

\[e^{-\lambda(s+t)}=e^{-\lambda s}e^{-\lambda t}\]

이므로,

\[\frac{e^{-\lambda(s+t)}}{e^{-\lambda s}} = \frac{e^{-\lambda s}e^{-\lambda t}}{e^{-\lambda s}} = e^{-\lambda t}.\]

마지막으로 이것은 다시

\[e^{-\lambda t}=\mathbb P(T>t)\]

이다. 따라서

\[\mathbb P(T>s+t\mid T>s)=\mathbb P(T>t).\]

즉 이미 $s$만큼 기다렸다는 사실이 앞으로의 대기시간 분포를 전혀 바꾸지 않는다. 이것이 memoryless property이다. 증명 끝.

정리 4.5 (inter-arrival times의 i.i.d. 성질)

도착시각을

\[T_n:=\inf\{t\ge 0:N_t\ge n\},\qquad n\ge 1\]

이라 하고

\[S_n:=T_n-T_{n-1},\qquad T_0:=0\]

라 두면 $(S_n)_{n\ge 1}$은 서로 독립이고 모두 $\mathrm{Exp}(\lambda)$ 분포를 따른다.

증명

Poisson 과정의 점프 간격들이 i.i.d. $\mathrm{Exp}(\lambda)$라는 사실은 “정상증가량”과 “독립증가량”의 결합 결과이다. 이 두 성질이 정확히 어디에 쓰이는지 드러내면서 증명하자.

먼저 첫 간격은

\[S_1:=T_1\]

이다. 정리 4.3에서 이미

\[S_1\sim \mathrm{Exp}(\lambda)\]

임을 보였다.

이제 $n\ge 1$에 대해 $(n+1)$번째 간격

\[S_{n+1}:=T_{n+1}-T_n\]

의 분포를 보자. 고정된 $t\ge 0$에 대해 사건

\[\{S_{n+1}>t\} = \{T_{n+1}-T_n>t\}\]

는 “시각 $T_n$ 이후 길이 $t$ 동안 새로운 점프가 없다”는 뜻이다. 이는 counting process 언어로 쓰면

\[\{N_{T_n+t}-N_{T_n}=0\}\]

와 같다.

이제 중요한 점은 $T_n$이 랜덤시간이라는 사실에도 불구하고, Poisson 과정은 independent increments를 가지므로 $T_n$ 이후의 증가량이 과거 정보와 독립이고, stationary increments 때문에 길이 $t$만 중요하다는 것이다. 따라서 조건부로 보면

\[\mathbb P(S_{n+1}>t\mid \mathcal F_{T_n}) = \mathbb P(N_{T_n+t}-N_{T_n}=0\mid \mathcal F_{T_n}) = \mathbb P(N_t=0) = e^{-\lambda t}.\]

오른쪽이 $\mathcal F_{T_n}$-와 무관한 상수이므로, 이것은 두 가지를 동시에 의미한다.

첫째, $S_{n+1}$의 조건부 survival function이 $e^{-\lambda t}$이므로

\[S_{n+1}\sim \mathrm{Exp}(\lambda).\]

둘째, 조건부분포가 과거 $\mathcal F_{T_n}$에 의존하지 않으므로 $S_{n+1}$은 $\mathcal F_{T_n}$와 독립이다. 특히 이전 간격들 $S_1,\dots,S_n$은 모두 $\mathcal F_{T_n}$-가측이므로 $S_{n+1}$은 $(S_1,\dots,S_n)$과 독립이다.

이 논리를 귀납적으로 반복하면 모든 $n$에 대해 $S_n$이 같은 지수분포 $\mathrm{Exp}(\lambda)$를 따르고, 새 간격 $S_{n+1}$은 과거 간격 전체와 독립임을 얻는다. 따라서

\[S_1,S_2,\dots\]

는 서로 독립이고 동일한 $\mathrm{Exp}(\lambda)$ 분포를 갖는다.

즉 inter-arrival times는 i.i.d. exponential이다. 증명 끝.

정리 4.6 (compensated Poisson martingale)

\[M_t:=N_t-\lambda t\]

로 두면 $(M_t)_{t\ge 0}$는 Poisson 과정의 자연 필트레이션 $(\mathcal F_t^N)$에 대한 martingale이다.

증명

이 정리는 포아송 과정에서 가장 기본적인 보정(compensation)을 보여 준다. 포아송 과정 $N_t$는 평균적으로 속도 $\lambda$로 증가한다. 따라서 그 평균 drift $\lambda t$를 빼면 남는 부분은 “예상 밖의 변동”만 남아야 하고, 바로 그 잔차가 martingale이 된다. 이를 식으로 확인하자.

정의한 과정은

\[ M_t := N_t - \lambda t \]

이다. martingale임을 보이려면 세 항목을 차례로 확인하면 된다.

$M_t$가 자연 여과 $\mathcal F_t^N:=\sigma(N_s:0\le s\le t)$에 대해 adapted인지,
$M_t\in L^1$인지,
$0\le s\le t$에 대해 $\mathbb E[M_t\mid \mathcal F_s^N]=M_s$인지.

첫 번째는 즉시 끝난다. $N_t$는 자신의 자연 여과에 대해 adapted이고, $\lambda t$는 결정론적 함수이므로 $M_t$도 adapted이다.

두 번째는 적분가능성이다. 포아송 분포의 평균이 곧 모수라는 사실을 쓰면

\[ N_t \sim \mathrm{Poisson}(\lambda t) \qquad\Longrightarrow\qquad \mathbb E[N_t]=\lambda t. \]

따라서 삼각부등식으로

\[ \mathbb E[|M_t|] = \mathbb E[|N_t-\lambda t|] \le \mathbb E[N_t] + \lambda t = 2\lambda t < \infty. \]

즉 $M_t\in L^1$이다.

이제 핵심인 martingale property를 보이자. $0\le s\le t$를 고정하고 $M_t$를 $s$시점 기준으로 분해한다.

\[ M_t = N_t-\lambda t = (N_s-\lambda s) + (N_t-N_s) - \lambda(t-s) = M_s + (N_t-N_s) - \lambda(t-s). \]

여기서 양변에 $\mathcal F_s^N$-조건부기대를 취하면

\[ \mathbb E[M_t\mid \mathcal F_s^N] = M_s + \mathbb E[N_t-N_s\mid \mathcal F_s^N] - \lambda(t-s). \]

이제 포아송 과정의 독립증가량 성질을 정확히 사용한다. 증가량 $N_t-N_s$는 과거 정보 $\mathcal F_s^N$와 독립이다. 따라서

\[ \mathbb E[N_t-N_s\mid \mathcal F_s^N] = \mathbb E[N_t-N_s]. \]

또한 정상증가량 때문에

\[ N_t-N_s \sim \mathrm{Poisson}(\lambda(t-s)), \]

그러므로 그 평균은

\[ \mathbb E[N_t-N_s] = \lambda(t-s). \]

이를 위 식에 대입하면

\[ \mathbb E[M_t\mid \mathcal F_s^N] = M_s + \lambda(t-s)-\lambda(t-s) = M_s. \]

원하는 martingale 등식이 나왔다.

같은 계산을 조금 다른 시각에서 다시 써 보면,

\[ \mathbb E[N_t\mid \mathcal F_s^N] = N_s + \lambda(t-s) \]

가 먼저 나오고, 양변에서 $\lambda t$를 빼면

\[ \mathbb E[N_t-\lambda t\mid \mathcal F_s^N] = N_s + \lambda(t-s) - \lambda t = N_s-\lambda s. \]

즉

\[ \mathbb E[M_t\mid \mathcal F_s^N]=M_s. \]

같은 결론이 다시 확인된다.

정리하면, 포아송 과정은 점프할 때마다 1씩 증가하지만 그 평균 증가율은 정확히 $\lambda$이다. 그래서 결정론적 누적평균 $\lambda t$를 빼면 남는 과정은 예측 가능한 drift가 사라진 순수 fluctuation이 되고, 그 결과 martingale이 된다. 이후 counting process의 compensator를 정의할 때도 바로 이 구조가 반복된다. 증명 끝.

정의 4.7

counting process $N$의 compensator가 절대연속형

\[A_t=\int_0^t \lambda_s\,ds\]

이고

\[N_t-A_t\]

가 martingale이면 $\lambda_t$를 $N$의 intensity라고 한다.

정리 4.8

정의 4.7의 가정하에서

\[N_t-\int_0^t \lambda_s\,ds\]

는 martingale이다.

증명

정의 4.7에서 이미 intensity $\lambda_t$의 핵심 성질을 “compensator를 빼면 martingale이 된다”는 형태로 채택했다면, 이 정리는 사실상 그 정의를 수식으로 다시 적은 것이다. 다만 왜 이것이 자연스러운지 한 번 풀어서 적어 두자.

counting process $N$의 intensity가 $\lambda_t$라는 말은 미소시간 수준에서

\[\mathbb P(dN_t=1\mid \mathcal F_{t^-})=\lambda_t\,dt+o(dt), \qquad \mathbb P(dN_t\ge 2\mid \mathcal F_{t^-})=o(dt)\]

라는 직관을 가진다. 즉 $dt$ 동안 평균적으로 $\lambda_t dt$만큼 점프가 일어날 것으로 예상된다는 뜻이다.

이 직관을 적분하면 시간 $[0,t]$ 동안의 누적 예측 점프 수는

\[\int_0^t \lambda_s\,ds\]

가 된다. 따라서 실제 counting process $N_t$에서 이 예측 누적량을 빼면, 더 이상 체계적인 drift가 남지 않아야 한다. 이것이 바로 compensated process

\[M_t:=N_t-\int_0^t\lambda_s\,ds\]

를 정의하는 이유이다.

정의 4.7의 엄밀한 내용이 바로 이 $M_t$가 martingale이라는 것이다. 따라서 결론

\[N_t-\int_0^t\lambda_s\,ds\]

가 martingale이라는 사실은 추가 계산 없이 정의에서 곧바로 따라온다.

요약하면, intensity는 “미래 점프의 순간적 조건부 평균속도”이고, compensator는 그 평균속도를 시간에 따라 누적한 값이다. 실제 경로에서 compensator를 빼면 예측 가능한 부분이 제거되고 martingale만 남는다. 증명 끝.

정의 5.1

상태과정 $Y_t$와 제어 $u$에 대하여 충분히 매끄러운 시험함수 $f$의 generator를

\[\mathcal L^u f(y) := \lim_{h\downarrow 0} \frac{\mathbb E_y^u[f(Y_{t+h})-f(Y_t)]}{h}\]

로 정의한다.

정리 5.2 (순수 counting liquidation의 generator)

한 번의 체결마다 $\Delta$주가 팔리고 상태가

\[(x,q)\longmapsto (x+(s+\delta)\Delta,\ q-\Delta)\]

로 점프한다고 하자. intensity가 $\lambda(\delta)$이면

\[\mathcal L^\delta f(x,q) = \lambda(\delta)\Big(f(x+(s+\delta)\Delta,q-\Delta)-f(x,q)\Big).\]

증명

generator 계산의 핵심은 짧은 시간 $h$ 동안 일어날 수 있는 사건을 경우별로 분해하고, 각 경우의 기여를 일차항까지 정확히 모으는 것이다.

현재 상태를 $(x,q)$라고 하자. 짧은 시간 $[t,t+h]$ 동안 지정가 주문이 체결되는 counting process의 intensity를 $\lambda(\delta)$라고 쓰자. 그러면 보조정리 4.2에 의해 이 짧은 구간에서 가능한 경우는 사실상 세 가지다.

점프가 전혀 일어나지 않음,
정확히 한 번 점프가 일어남,
두 번 이상 점프가 일어남.

각 경우의 확률은

\[\mathbb P(0\text{회 점프})=1-\lambda(\delta)h+o(h),\]

\[\mathbb P(1\text{회 점프})=\lambda(\delta)h+o(h),\]

\[\mathbb P(\ge 2\text{회 점프})=o(h)\]

이다.

이제 시험함수 $f$에 대해 조건부기댓값

\[\mathbb E[f(X_{t+h},Q_{t+h})\mid X_t=x,Q_t=q]\]

을 경우분해하자.

점프가 없으면 상태는 변하지 않으므로 기여는

\[f(x,q)\cdot\big(1-\lambda(\delta)h+o(h)\big)\]

이다.

정확히 한 번 점프가 일어나면, 현금은 체결가격만큼 증가하고 재고는 한 단위 감소한다. 이 노트의 표기에서는 jump 후 상태가

\[(x+s+\delta,\ q-1)\]

또는 일반화된 단위 $\Delta$를 쓰면 $(x+(s+\delta)\Delta,q-\Delta)$가 된다. 현재 정리의 서술을 따라 단위 1 버전으로 적으면 그 기여는

\[f(x+s+\delta,q-1)\cdot\big(\lambda(\delta)h+o(h)\big)\]

이다.

두 번 이상 점프가 일어나는 경우는 확률 자체가 $o(h)$이다. $f$가 적당히 bounded이거나 적어도 국소적으로 잘 behaved하다고 하면 이 경우 전체 기여는

\[o(h)\]

로 묶을 수 있다.

따라서 전체 기대값은

\[\mathbb E[f(X_{t+h},Q_{t+h})\mid X_t=x,Q_t=q] = f(x,q)(1-\lambda(\delta)h) +f(x+s+\delta,q-1)\lambda(\delta)h +o(h).\]

이제 양변에서 $f(x,q)$를 빼고 $h$로 나누면

\[\frac{\mathbb E[f(X_{t+h},Q_{t+h})-f(x,q)\mid X_t=x,Q_t=q]}{h} = \lambda(\delta)\big(f(x+s+\delta,q-1)-f(x,q)\big)+\frac{o(h)}{h}.\]

$h\downarrow 0$를 보내면 $o(h)/h\to 0$이므로 generator는

\[\mathcal L^\delta f(x,q) = \lambda(\delta)\big(f(x+s+\delta,q-1)-f(x,q)\big)\]

가 된다.

이 식은 아주 직관적이다. “점프율 $\lambda(\delta)$” 곱하기 “점프가 일어났을 때 함수값 변화량”이 generator가 된다. 연속부분이 없고 순수 점프만 있는 경우에는 generator가 정확히 이 구조를 가진다. 증명 끝.

정리 5.3 (diffusion + counting jump의 generator)

상태가

\[dS_t=\mu(t,S_t)\,dt+\sigma(t,S_t)\,dW_t,\]

\[dQ_t=-\Delta\,dN_t, \qquad dX_t=(S_t+\delta_t)\Delta\,dN_t\]

를 따르고 $N$의 intensity가 $\lambda(\delta_t)$라 하자. 그러면 $f=f(t,x,q,s)\in C^{1,0,0,2}$에 대하여

\[\mathcal L^\delta f = \partial_t f+\mu \partial_s f+\frac12\sigma^2\partial_{ss}f + \lambda(\delta)\Big(f(t,x+(s+\delta)\Delta,q-\Delta,s)-f(t,x,q,s)\Big).\]

증명

이 정리는 연속적인 Brownian 움직임과 불연속적인 counting jump가 함께 있을 때 generator가 어떻게 두 부분의 합으로 분해되는지를 보여준다. 계산은 “점프가 없는 경우의 diffusion 전개”와 “점프가 있는 경우의 jump 기여”를 따로 계산해서 합치는 방식으로 진행된다.

현재 상태를 $(t,x,q,s)$라고 하자. 시험함수 $f=f(t,x,q,s)$는 충분히 매끄럽다고 가정한다. generator의 정의에 따라 계산해야 할 것은

\[\mathcal L^\delta f(t,x,q,s) = \lim_{h\downarrow 0} \frac{\mathbb E\big[f(t+h,X_{t+h},Q_{t+h},S_{t+h})-f(t,x,q,s)\big]}{h}.\]

짧은 시간 $[t,t+h]$ 동안의 상태변화를 보자. Brownian 부분 때문에 $S$는 연속적으로 움직이고, counting jump가 일어나면 $(X,Q)$가 점프한다. 보조정리 4.2에 의해 일차근사 수준에서 두 번 이상 점프가 일어날 확률은 $o(h)$이므로 무시할 수 있다.

먼저 jump가 일어나지 않는 경우를 보자. 이 경우 $X$와 $Q$는 그대로이고 $S$만 diffusion에 따라 움직인다. 즉

\[X_{t+h}=x, \qquad Q_{t+h}=q, \qquad S_{t+h}=s+\mu h+\sigma (W_{t+h}-W_t)\]

라고 하자. 이 경우 $f$에 대해 Itô–Taylor 전개를 적용하면 기대값의 일차항은

\[\partial_t f(t,x,q,s)h +\mu\,\partial_s f(t,x,q,s)h +\frac12\sigma^2\partial_{ss}f(t,x,q,s)h\]

이다. 즉 jump가 없을 때의 조건부기여는

\[f(t,x,q,s) + \Big(\partial_t f+\mu f_s+\tfrac12\sigma^2 f_{ss}\Big)(t,x,q,s)h +o(h).\]

이다.

이제 jump가 정확히 한 번 일어나는 경우를 보자. 그 확률은

\[\lambda(\delta)h+o(h)\]

이다. 한 번 체결되면 현금은 체결가격만큼 증가하고 inventory는 감소하며, Brownian 변동은 일차근사에서는 jump항과 곱해져 $o(h)$ 수준이므로 무시된다. 따라서 jump 직후의 상태는

\[(x+s+\delta,\ q-1,\ s)\]

로 볼 수 있고, 이 경우의 함수값은

\[f(t,x+s+\delta,q-1,s)\]

이다. 따라서 jump 경우의 기대기여는

\[\lambda(\delta)h\,f(t,x+s+\delta,q-1,s)+o(h).\]

반면 jump가 없을 확률은 $1-\lambda(\delta)h+o(h)$이므로, diffusion 경우의 기여를 확률까지 곱하면

\[\big(1-\lambda(\delta)h\big) \left[ f(t,x,q,s) + \Big(\partial_t f+\mu f_s+\tfrac12\sigma^2 f_{ss}\Big)h \right] +o(h).\]

여기서 $\lambda(\delta)h$와 diffusion 일차항 $h$의 곱은 $h^2$이므로 $o(h)$에 흡수된다. 따라서 정리하면

\[\mathbb E[f(t+h,X_{t+h},Q_{t+h},S_{t+h})] = f(t,x,q,s) + \Big(\partial_t f+\mu f_s+\tfrac12\sigma^2 f_{ss}\Big)h\]

\[\qquad + \lambda(\delta)h\Big(f(t,x+s+\delta,q-1,s)-f(t,x,q,s)\Big) +o(h).\]

이제 양변에서 $f(t,x,q,s)$를 빼고 $h$로 나눈 뒤 $h\downarrow 0$를 보내면

\[\mathcal L^\delta f = \partial_t f+\mu f_s+\frac12\sigma^2 f_{ss} + \lambda(\delta)\Big(f(t,x+s+\delta,q-1,s)-f(t,x,q,s)\Big).\]

즉 generator는 “연속 Itô 부분”과 “점프 변화량에 intensity를 곱한 부분”의 합으로 주어진다.

이 구조는 이후 HJB를 세울 때 그대로 들어간다. diffusion이 있으면 미분항이 생기고, jump가 있으면 함수값 차이 항이 추가된다. 증명 끝.

정리 5.4 (Dynkin 공식의 점프형)

위의 mixed jump-diffusion 상태과정 $Y$와 generator $\mathcal L^u$에 대하여 충분히 매끄러운 $f$에 대해

\[M_t^f := f(t,Y_t)-f(0,Y_0)-\int_0^t (\mathcal L^u f)(s,Y_s)\,ds\]

는 martingale이다.

증명

Dynkin 공식은 generator가 왜 중요한지를 가장 직접적으로 보여 주는 정리다. generator $\mathcal L^u$는 한 마디로 말해 아주 짧은 시간 동안 함수값의 기대변화율이다. 점프가 있는 경우에도 이 해석은 그대로 유지되지만, Itô 공식에 점프 보정항이 추가되므로 그 부분을 끝까지 전개해서 확인해야 한다.

상태과정을 $Y_t=(X_t,Q_t,S_t)$라고 쓰고, 시험함수 $f=f(t,x,q,s)$가 시간에 대해 $C^1$, 연속 상태변수에 대해 적어도 필요한 만큼 매끄럽다고 하자. 여기서 $X_t,Q_t$는 점프를 통해 움직이고, $S_t$는 확산을 따른다고 생각하자. 예를 들어

\[ dS_t = \mu(t,Y_t,u_t)\,dt + \sigma(t,Y_t,u_t)\,dW_t \]

이고, counting jump가 일어날 때 상태는

\[ Y_{t-} \longmapsto Y_{t-}+\Gamma(t,Y_{t-},u_t) \]

처럼 바뀐다고 하자. 점프 횟수는 counting process $N_t$가 세어 준다.

이제 jump-diffusion에 대한 Itô 공식을 쓰면

\[ df(t,Y_t) = \partial_t f(t,Y_{t-})\,dt + f_s(t,Y_{t-})\,dS_t + \frac12 f_{ss}(t,Y_{t-})\,d\langle S\rangle_t + \Delta f(t,Y_t), \]

여기서

\[ \Delta f(t,Y_t) := f(t,Y_t)-f(t,Y_{t-}) \]

는 점프가 실제로 일어났을 때 함수값이 얼마나 뛰는지를 뜻한다. 점프가 없으면 이 항은 0이다.

점프항을 더 구체적으로 쓰자. $Y_t$는 $N_t$가 점프할 때만 불연속이므로

\[ \Delta f(t,Y_t) = \big[f(t,Y_{t-}+\Gamma(t,Y_{t-},u_t)) - f(t,Y_{t-})\big] \, dN_t. \]

이 식에서 $dN_t$는 “그 순간 점프가 있었는가”를 나타내는 지시자 역할을 한다.

또한 확산항에서는

\[ dS_t = \mu\,dt + \sigma\,dW_t, \qquad d\langle S\rangle_t = \sigma^2\,dt \]

이므로 Itô 공식은

\[ df(t,Y_t) = \Big(\partial_t f + \mu f_s + \tfrac12 \sigma^2 f_{ss}\Big)(t,Y_{t-})\,dt + \sigma f_s(t,Y_{t-})\,dW_t + \big[f(t,Y_{t-}+\Gamma)-f(t,Y_{t-})\big]dN_t \]

가 된다.

이제 counting process를 drift와 martingale 부분으로 분해한다. intensity가 $\lambda_t=\lambda(t,Y_{t-},u_t)$이면 compensated process

\[ \widetilde N_t := N_t - \int_0^t \lambda_s\,ds \]

는 martingale이고,

\[ dN_t = \lambda_t\,dt + d\widetilde N_t. \]

따라서 점프항은

\[ \big[f(t,Y_{t-}+\Gamma)-f(t,Y_{t-})\big]dN_t \]

\[ = \lambda_t\big[f(t,Y_{t-}+\Gamma)-f(t,Y_{t-})\big]dt + \big[f(t,Y_{t-}+\Gamma)-f(t,Y_{t-})\big]d\widetilde N_t. \]

이를 Itô 공식에 대입하면 drift 부분이 한데 모여

\[ df(t,Y_t) = (\mathcal L^u f)(t,Y_{t-})\,dt + \sigma f_s(t,Y_{t-})\,dW_t + \big[f(t,Y_{t-}+\Gamma)-f(t,Y_{t-})\big]d\widetilde N_t, \]

여기서 generator는 정확히

\[ (\mathcal L^u f)(t,y) = \partial_t f(t,y) + \mu(t,y,u) f_s(t,y) + \frac12\sigma^2(t,y,u) f_{ss}(t,y) + \lambda(t,y,u)\big(f(t,y+\Gamma(t,y,u))-f(t,y)\big) \]

이다.

이제 $0$부터 $t$까지 적분하면

\[ f(t,Y_t)-f(0,Y_0) = \int_0^t (\mathcal L^u f)(s,Y_{s-})\,ds + \int_0^t \sigma f_s(s,Y_{s-})\,dW_s + \int_0^t \big[f(s,Y_{s-}+\Gamma)-f(s,Y_{s-})\big]d\widetilde N_s. \]

오른쪽 마지막 두 항은 적절한 적분가능성 가정 아래 martingale이다. 따라서

\[ M_t^f := f(t,Y_t)-f(0,Y_0)-\int_0^t (\mathcal L^u f)(s,Y_s)\,ds \]

는 martingale이 된다.

여기서 주의할 점은, drift 항으로 남는 것은 오직 generator뿐이라는 것이다. 브라운운동 적분항은 평균 0의 martingale이고, compensated counting 적분항도 평균 0의 martingale이므로 기대값을 취하면 모두 사라진다. 그 결과

\[ \mathbb E[f(t,Y_t)] = f(0,Y_0) + \mathbb E\Big[\int_0^t (\mathcal L^u f)(s,Y_s)\,ds\Big] \]

를 얻는다. 이것이 Dynkin 공식의 적분형 표현이다.

즉 generator는 단순한 형식적 기호가 아니라, 함수값 기대변화의 실제 drift를 모아 놓은 연산자다. 이후 DPP에서 HJB를 유도할 때도 바로 이 공식이 핵심 연결고리가 된다. 증명 끝.

정의 6.1

가용 제어 집합을 $\mathcal A_t$라 하고 running reward $r$, terminal reward $g$가 주어졌다고 하자. 그러면 가치함수를

\[V(t,y) := \sup_{u\in\mathcal A_t} \mathbb E_{t,y}^u\left[ \int_t^T r(s,Y_s,u_s)\,ds+g(Y_T) \right]\]

로 정의한다.

정리 6.2 (DPP)

제어 집합이 시간 $t+h$에서의 이어붙이기(concatenation)에 대해 안정적이고, 각 시점에서 $\varepsilon$-최적 제어를 선택할 수 있다고 하자. 그러면 작은 $h>0$에 대하여

\[V(t,y) = \sup_{u\in\mathcal A_t} \mathbb E_{t,y}^u\left[ \int_t^{t+h} r(s,Y_s,u_s)\,ds + V(t+h,Y_{t+h}) \right].\]

증명

DPP(dynamic programming principle)는 Bellman 원리를 수식으로 적은 것이다. 말로 쓰면 다음 한 문장이다. 지금부터 최적화하든, 아주 짧은 초기 구간만 먼저 결정한 뒤 남은 문제를 다시 최적으로 풀든 결과는 같아야 한다. 그러나 이 문장을 엄밀하게 쓰려면 두 방향의 부등식을 따로 보여야 한다.

가치함수를

\[ V(t,y) := \sup_{u\in\mathcal A_{t}} \mathbb E_{t,y}^u\Big[ \int_t^T r(s,Y_s,u_s)\,ds + g(Y_T) \Big] \]

라고 하자. 이제 임의의 $h>0$에 대해 중간시점 $t+h$를 끼워 넣고, DPP가

\[ V(t,y) = \sup_{u\in\mathcal A_t}\mathbb E_{t,y}^u\Big[ \int_t^{t+h} r(s,Y_s,u_s)\,ds + V(t+h,Y_{t+h}) \Big] \]

형태임을 보일 것이다. 아래에서는 $t+h\le T$라고 하자.

1단계: $\le$ 방향

먼저 임의의 admissible control $u$를 하나 고정한다. 이 제어를 전구간 $[t,T]$에서 사용했을 때의 성과는

\[ J(t,y;u) = \mathbb E_{t,y}^u\Big[ \int_t^T r(s,Y_s,u_s)\,ds + g(Y_T) \Big]. \]

이 적분을 $[t,t+h]$와 $[t+h,T]$로 나누면

\[ J(t,y;u) = \mathbb E_{t,y}^u\Big[ \int_t^{t+h} r(s,Y_s,u_s)\,ds + \int_{t+h}^T r(s,Y_s,u_s)\,ds + g(Y_T) \Big]. \]

조건부기대를 $\mathcal F_{t+h}$에 대해 한 번 더 취하면 tower property로

\[ J(t,y;u) = \mathbb E_{t,y}^u\Big[ \int_t^{t+h} r(s,Y_s,u_s)\,ds + \mathbb E\Big[ \int_{t+h}^T r(s,Y_s,u_s)\,ds + g(Y_T) \Big|\mathcal F_{t+h}\Big] \Big]. \]

그런데 내부 조건부기댓값은 “시점 $t+h$에서 상태 $Y_{t+h}$를 출발점으로 하여, 이후에 제어 $u$의 꼬리부분을 사용했을 때의 성과”이다. 가치함수의 정의에 의해, 어떤 특정한 꼬리제어를 사용한 성과는 최적값보다 클 수 없으므로

\[ \mathbb E\Big[ \int_{t+h}^T r(s,Y_s,u_s)\,ds + g(Y_T) \Big|\mathcal F_{t+h}\Big] \le V(t+h,Y_{t+h}). \]

따라서

\[ J(t,y;u) \le \mathbb E_{t,y}^u\Big[ \int_t^{t+h} r(s,Y_s,u_s)\,ds + V(t+h,Y_{t+h}) \Big]. \]

이 부등식은 임의의 $u$에 대해 성립하므로 supremum을 취하면

\[ V(t,y) \le \sup_{u\in\mathcal A_t} \mathbb E_{t,y}^u\Big[ \int_t^{t+h} r(s,Y_s,u_s)\,ds + V(t+h,Y_{t+h}) \Big]. \]

즉 첫 번째 방향이 끝난다.

2단계: $\ge$ 방향

이번에는 반대방향이다. 여기서 핵심은 거의 최적인 꼬리제어를 이어 붙이는 concatenation이다.

임의의 $\varepsilon>0$를 택하자. 가치함수의 정의상, 시점 $t+h$의 임의의 상태 $z$에 대해

\[ V(t+h,z) \le J(t+h,z;u^{\varepsilon,z}) + \varepsilon \]

를 만족하는 $\varepsilon$-최적 제어 $u^{\varepsilon,z}$를 잡을 수 있다. 이제 초기 구간 $[t,t+h]$에서 쓸 제어 $u^0$를 하나 고정하고, 시점 $t+h$에 도달한 실제 상태 $Y_{t+h}$를 보고 그 이후에는 $u^{\varepsilon,Y_{t+h}}$를 사용한다고 하자. 이렇게 만들어진 이어붙인 제어를 $\widehat u^\varepsilon$라고 부르자.

그러면 $\widehat u^\varepsilon$ 아래의 성과는

\[ J(t,y;\widehat u^\varepsilon) = \mathbb E_{t,y}^{\widehat u^\varepsilon}\Big[ \int_t^{t+h} r(s,Y_s,u_s^0)\,ds + \int_{t+h}^T r(s,Y_s,\widehat u_s^\varepsilon)\,ds + g(Y_T) \Big]. \]

다시 조건부기대를 취하면

\[ J(t,y;\widehat u^\varepsilon) = \mathbb E_{t,y}^{\widehat u^\varepsilon}\Big[ \int_t^{t+h} r(s,Y_s,u_s^0)\,ds + J(t+h,Y_{t+h};u^{\varepsilon,Y_{t+h}}) \Big]. \]

$u^{\varepsilon,Y_{t+h}}$가 $\varepsilon$-최적이므로

\[ J(t+h,Y_{t+h};u^{\varepsilon,Y_{t+h}}) \ge V(t+h,Y_{t+h}) - \varepsilon. \]

따라서

\[ J(t,y;\widehat u^\varepsilon) \ge \mathbb E_{t,y}^{\widehat u^\varepsilon}\Big[ \int_t^{t+h} r(s,Y_s,u_s^0)\,ds + V(t+h,Y_{t+h}) \Big] - \varepsilon. \]

그런데 왼쪽은 어떤 admissible control의 성과이므로 가치함수보다 클 수 없다. 즉

\[ V(t,y) \ge J(t,y;\widehat u^\varepsilon). \]

결과적으로

\[ V(t,y) \ge \mathbb E_{t,y}^{\widehat u^\varepsilon}\Big[ \int_t^{t+h} r(s,Y_s,u_s^0)\,ds + V(t+h,Y_{t+h}) \Big] - \varepsilon. \]

이제 초기 제어 $u^0$는 임의였으므로 supremum을 취하면

\[ V(t,y) \ge \sup_{u\in\mathcal A_t} \mathbb E_{t,y}^{u}\Big[ \int_t^{t+h} r(s,Y_s,u_s)\,ds + V(t+h,Y_{t+h}) \Big] - \varepsilon. \]

마지막으로 $\varepsilon\downarrow 0$를 보내면

\[ V(t,y) \ge \sup_{u\in\mathcal A_t} \mathbb E_{t,y}^{u}\Big[ \int_t^{t+h} r(s,Y_s,u_s)\,ds + V(t+h,Y_{t+h}) \Big]. \]

반대방향도 끝났다.

3단계: 결론

두 부등식을 합치면

\[ V(t,y) = \sup_{u\in\mathcal A_t} \mathbb E_{t,y}^{u}\Big[ \int_t^{t+h} r(s,Y_s,u_s)\,ds + V(t+h,Y_{t+h}) \Big] \]

를 얻는다.

이 식이 중요한 이유는, 전체 구간의 최적화 문제가 길이 $h$의 짧은 문제와 남은 문제의 최적가치로 분해되기 때문이다. 이후 HJB는 바로 이 등식을 $h\downarrow 0$로 보내어 얻는다. 증명 끝.

정리 6.3 (DPP에서 HJB의 유도)

$V$가 충분히 매끄럽다고 가정하자. 그러면 DPP로부터

\[0=\sup_u\{r(t,y,u)+\mathcal L^uV(t,y)\}\]

가 도출된다. terminal condition은

\[V(T,y)=g(y)\]

이다.

증명

HJB는 DPP를 미소시간 수준에서 읽어 낸 미분형 방정식이다. 따라서 증명은 “DPP를 쓴 다음, 길이 $h$인 짧은 구간에서 일어나는 변화량을 1차까지 전개하고, 마지막에 $h\downarrow 0$를 보낸다”는 흐름으로 진행된다.

DPP에 의해

\[ V(t,y) = \sup_u \mathbb E_{t,y}^u\Big[ \int_t^{t+h} r(s,Y_s,u_s)\,ds + V(t+h,Y_{t+h}) \Big] \]

가 성립한다. 양변에서 $V(t,y)$를 빼면

\[ 0 = \sup_u \mathbb E_{t,y}^u\Big[ \int_t^{t+h} r(s,Y_s,u_s)\,ds + V(t+h,Y_{t+h}) - V(t,y) \Big]. \]

이제 오른쪽 안의 두 부분을 따로 전개한다.

먼저 running reward 적분은 $h$가 작을 때

\[ \int_t^{t+h} r(s,Y_s,u_s)\,ds = r(t,y,u)h + o(h) \]

가 된다. 이 식은 $r$의 연속성과 $Y_s\to y$를 이용한 표준적인 1차 근사다. 좀 더 풀어 쓰면,

\[ \int_t^{t+h} r(s,Y_s,u_s)\,ds = \int_t^{t+h}\big(r(t,y,u) + [r(s,Y_s,u_s)-r(t,y,u)]\big)ds \]

이므로

\[ = r(t,y,u)h + \int_t^{t+h}[r(s,Y_s,u_s)-r(t,y,u)]ds, \]

마지막 적분항은 연속성 때문에 $o(h)$가 된다.

다음으로 가치함수의 증분항을 보자. Dynkin 공식을 시험함수 $V$ 자체에 적용하면

\[ \mathbb E_{t,y}^u[V(t+h,Y_{t+h})-V(t,y)] = \mathbb E_{t,y}^u\Big[\int_t^{t+h}(\partial_t V + \mathcal L^u V)(s,Y_s)\,ds\Big]. \]

$V$가 충분히 매끄럽고 $Y_s\to y$라고 가정하면, 적분 안의 함수도 $s=t$에서의 값으로 1차 근사할 수 있으므로

\[ \mathbb E_{t,y}^u[V(t+h,Y_{t+h})-V(t,y)] = (\partial_t V + \mathcal L^u V)(t,y)h + o(h). \]

이 식이 바로 generator를 쓰는 이유다. generator는 미소시간 기대변화율을 한 번에 표현해 준다.

이제 두 전개식을 DPP 차분식에 대입하면

\[ 0 = \sup_u\Big\{ \big[r(t,y,u)+\partial_t V(t,y)+ (\mathcal L^uV)(t,y)\big]h + o(h) \Big\}. \]

$h>0$로 나누면

\[ 0 = \sup_u\Big\{ r(t,y,u)+\partial_t V(t,y)+ (\mathcal L^uV)(t,y) + \frac{o(h)}{h} \Big\}. \]

이제 $h\downarrow 0$를 보내면 $o(h)/h\to 0$이므로

\[ 0 = \sup_u\Big\{ r(t,y,u)+\partial_t V(t,y)+ (\mathcal L^uV)(t,y) \Big\}. \]

즉,

\[ \partial_t V(t,y) + \sup_u\{ (\mathcal L^uV)(t,y)+r(t,y,u)\}=0 \]

를 얻는다. 이것이 HJB 방정식이다.

이제 terminal condition을 보자. 만기 $t=T$에서는 더 이상 running reward를 쌓을 시간이 없으므로 가치함수는 단지 terminal payoff와 같아야 한다. 따라서

\[ V(T,y)=g(y). \]

이것이 종단조건이다.

정리하면, DPP는 전역적 최적화 원리이고, HJB는 그 원리를 시간폭 $h$를 0으로 보내어 얻은 국소적 방정식이다. 둘을 연결하는 핵심 도구가 generator와 Dynkin 공식이다. 증명 끝.

정리 7.1

$v(t,y)$가 충분히 매끄럽고 terminal condition

\[v(T,y)=g(y)\]

을 만족한다고 하자. 또한 모든 admissible control $u$에 대하여

\[r(t,y,u)+(\mathcal L^u v)(t,y)\le 0\]

가 성립한다고 하자. 그러면 모든 admissible control $u$에 대해

\[v(t,y)\ge \mathbb E_{t,y}^u\left[ \int_t^T r(s,Y_s,u_s)\,ds+g(Y_T) \right].\]

나아가 어떤 admissible control $u^\ast$가 거의 모든 $(t,y)$에서

\[r(t,y,u^\ast)+(\mathcal L^{u^\ast}v)(t,y)=0\]

를 만족하면 $u^\ast$는 최적이고 $v=V$이다.

증명

이 정리는 verification theorem이다. 이름은 단순하지만 의미는 매우 크다. HJB를 직접 풀어서 나온 매끄러운 후보함수 $v$가 있을 때, 그것이 정말 가치함수인지 확인하는 절차를 제공하기 때문이다. 논리는 다음 두 문장으로 요약된다.

모든 제어 $u$에 대해 $v$가 HJB의 초해(super-solution)이면 $v$는 실제 가치함수의 상계가 된다.
어떤 제어 $u^\ast$에서 그 초해부등식이 등호가 되면, 그 제어는 최적이고 $v$는 실제 가치함수와 일치한다.

이를 식으로 증명하자. 고정된 admissible control $u$에 대해

\[ Z_s := v(s,Y_s) + \int_t^s r(\ell,Y_\ell,u_\ell)\,d\ell, \qquad t\le s\le T \]

를 정의한다. 이 과정을 택한 이유는, “현재 가치 + 이미 쌓은 보상”이 시간이 지나면서 어떻게 변하는지를 보고 싶기 때문이다.

Dynkin 공식을 $v$에 적용하면

\[ v(s,Y_s)-v(t,Y_t)-\int_t^s (\partial_t v + \mathcal L^u v)(\ell,Y_\ell)\,d\ell \]

는 martingale이다. 따라서 어떤 martingale $M_s$가 존재하여

\[ v(s,Y_s)-v(t,Y_t) = \int_t^s (\partial_t v + \mathcal L^u v)(\ell,Y_\ell)\,d\ell + M_s-M_t \]

라고 쓸 수 있다. 여기에 $\int_t^s r(\ell,Y_\ell,u_\ell)d\ell$를 더하면

\[ Z_s-Z_t = \int_t^s \big(\partial_t v + \mathcal L^u v + r\big)(\ell,Y_\ell,u_\ell)\,d\ell + M_s-M_t. \]

이제 가정이 등장한다. 모든 admissible control $u$에 대해

\[ r(t,y,u)+ (\mathcal L^u v)(t,y) \le 0 \]

라고 썼다면, 시간미분까지 포함한 표준 HJB 형태에서는

\[ \partial_t v + \mathcal L^u v + r \le 0 \]

로 이해한다. 따라서 위 적분항은 거의 surely 비양수이다. 그러므로 조건부기대를 취하면 martingale 증가분의 기대값은 0이 되어

\[ \mathbb E[Z_s\mid \mathcal F_t] \le Z_t. \]

즉 $Z$는 supermartingale이다.

이제 $s=T$를 넣자. terminal condition $v(T,y)=g(y)$에 의해

\[ Z_T = g(Y_T) + \int_t^T r(\ell,Y_\ell,u_\ell)\,d\ell. \]

그리고 $Z$가 supermartingale이므로

\[ \mathbb E[Z_T\mid \mathcal F_t] \le Z_t = v(t,Y_t). \]

출발상태가 $Y_t=y$인 경우를 쓰면

\[ \mathbb E_{t,y}^u\Big[ \int_t^T r(\ell,Y_\ell,u_\ell)\,d\ell + g(Y_T) \Big] \le v(t,y). \]

이 부등식은 임의의 admissible control $u$에 대해 성립하므로 supremum을 취하면

\[ V(t,y) = \sup_u \mathbb E_{t,y}^u\Big[ \int_t^T r(\ell,Y_\ell,u_\ell)\,d\ell + g(Y_T) \Big] \le v(t,y). \]

즉 $v$는 가치함수의 상계이다.

이제 두 번째 부분을 보자. 어떤 admissible control $u^\ast$가 있어서 거의 모든 점에서

\[ \partial_t v + \mathcal L^{u^\ast}v + r(t,y,u^\ast)=0 \]

를 만족한다고 하자. 그러면 위에서 얻은 $Z_s-Z_t$ 식의 drift 적분항이 완전히 사라져

\[ Z_s-Z_t = M_s-M_t \]

가 된다. 즉 $Z$는 더 이상 supermartingale이 아니라 martingale이다. 따라서

\[ \mathbb E[Z_T\mid \mathcal F_t] = Z_t. \]

똑같이 $s=T$와 terminal condition을 대입하면

\[ v(t,y) = \mathbb E_{t,y}^{u^\ast}\Big[ \int_t^T r(\ell,Y_\ell,u_\ell^\ast)\,d\ell + g(Y_T) \Big]. \]

그런데 왼쪽은 이미 $V\le v$를 알고 있고, 오른쪽은 특정 제어 $u^\ast$의 성과이므로 항상 $\le V$이다. 따라서

\[ v(t,y) \le V(t,y) \le v(t,y). \]

즉

\[ v(t,y)=V(t,y) \]

이고, 동시에 $u^\ast$는 이 값을 실제로 달성하므로 최적제어이다.

정리하면 verification theorem은 “후보함수 $v$를 찾는 일”과 “그 후보가 진짜인지 확인하는 일”을 분리해 준다. HJB를 만족하는 매끄러운 후보를 얻은 뒤, 위와 같은 martingale/supermartingale 계산을 하면 그것이 곧 가치함수인지 판정할 수 있다. 증명 끝.

정의 8.1

위험회피계수 $\gamma>0$에 대한 지수효용함수는

\[U(x):=-e^{-\gamma x}\]

이다.

정리 8.2

$U$는 증가함수이며 concave 함수이다.

증명

증명은 미분을 직접 계산하면 끝나지만, 왜 그 미분이 증가성과 오목성을 뜻하는지도 함께 적어 두는 것이 좋다.

주어진 효용함수는

\[U(x)=-e^{-\gamma x},\qquad \gamma>0\]

이다. 먼저 1차 도함수를 계산하면, 체인룰에 의해

\[U'(x) = -\frac{d}{dx}\big(e^{-\gamma x}\big) = -\big(-\gamma e^{-\gamma x}\big) = \gamma e^{-\gamma x}.\]

여기서 $\gamma>0$이고 지수함수 $e^{-\gamma x}>0$는 모든 $x$에 대해 양수이므로

\[U'(x)=\gamma e^{-\gamma x}>0 \qquad \forall x\in\mathbb R.\]

1차 도함수가 항상 양수라는 것은 $U$가 전구간에서 단조증가함수를 뜻한다.

다음으로 2차 도함수를 계산하면

\[U''(x) = \frac{d}{dx}\big(\gamma e^{-\gamma x}\big) = \gamma(-\gamma)e^{-\gamma x} = -\gamma^2 e^{-\gamma x}.\]

다시 $\gamma^2>0$이고 $e^{-\gamma x}>0$이므로

\[U''(x)=-\gamma^2 e^{-\gamma x}<0 \qquad \forall x\in\mathbb R.\]

2차 도함수가 항상 음수라는 것은 $U$가 strict concavity를 가진다는 뜻이다.

따라서 지수효용함수 $U(x)=-e^{-\gamma x}$는 증가하고 오목하다. 증명 끝.

정리 8.3

모든 상수 $c\in\mathbb R$에 대하여

\[U(x+c)=e^{-\gamma c}U(x)\]

가 성립한다.

증명

지수효용의 가장 중요한 대수적 성질은 부(wealth)에 상수를 더하면 효용이 단순한 배수로 바뀐다는 점이다. 이 성질이 value function에서 현금항과 상태항을 분리할 수 있게 만든다.

직접 계산하자. 임의의 상수 $c$에 대해

\[U(x+c) = -e^{-\gamma(x+c)}.\]

지수법칙 $e^{a+b}=e^ae^b$를 쓰면

\[-e^{-\gamma(x+c)} = -e^{-\gamma x}e^{-\gamma c}.\]

곱셈의 순서를 바꾸면

\[-e^{-\gamma x}e^{-\gamma c} = e^{-\gamma c}(-e^{-\gamma x}).\]

그런데 괄호 안은 정확히 $U(x)$이므로

\[U(x+c)=e^{-\gamma c}U(x).\]

이 식은 모든 $x,c$에 대해 성립한다.

즉 지수효용은 평행이동에 대해 multiplicative factor만 생긴다. 이 성질 때문에 현금 $x$가 붙은 문제에서 $x$를 factor로 분리하는 ansatz가 가능해진다. 증명 끝.

정리 8.4 (jump 후 비율 계산)

가치함수가

\[V(t,x,q,s)= -\exp\big(-\gamma(x+qs+h(t,q,s))\big)\]

형태를 가진다고 하자. 한 번 체결되면 상태가

\[(x,q,s)\longmapsto (x+(s+\delta)\Delta,\ q-\Delta,\ s)\]

로 바뀐다. 이때 jump 후 값 $V^{\mathrm{fill}}$에 대하여

\[\frac{V^{\mathrm{fill}}}{V(t,x,q,s)} = \exp\Big(-\gamma\big[\Delta\delta+h(t,q-\Delta,s)-h(t,q,s)\big]\Big)\]

가 성립한다.

증명

이 계산은 지수효용 ansatz를 HJB에 대입할 때 핵심적으로 쓰인다. jump 후 value를 현재 value로 나눈 비율이 깔끔하게 단순화되기 때문이다.

가정에 따라 가치함수는

\[V(t,x,q,s)= -\exp\big(-\gamma(x+qs+h(t,q,s))\big)\]

형태이다. 한 번 체결이 일어나면 상태는

\[(x,q,s) \longmapsto (x+(s+\delta)\Delta,\ q-\Delta,\ s)\]

로 바뀐다. 따라서 jump 후 value는 정의에 의해

\[V^{\mathrm{fill}} = V\big(t,x+(s+\delta)\Delta,q-\Delta,s\big)\]

이다.

이제 ansatz를 그대로 대입하자.

\[V^{\mathrm{fill}} = -\exp\Big(-\gamma\big[x+(s+\delta)\Delta+(q-\Delta)s+h(t,q-\Delta,s)\big]\Big).\]

지수 안의 괄호를 정리하는 것이 핵심이다. 괄호 내부를 한 줄씩 전개하면

\[x+(s+\delta)\Delta+(q-\Delta)s+h(t,q-\Delta,s)\]

\[= x+s\Delta+\delta\Delta+qs-\Delta s+h(t,q-\Delta,s)\]

\[= x+qs+\Delta\delta+h(t,q-\Delta,s).\]

여기서 $+s\Delta$와 $-\Delta s$가 정확히 상쇄된다는 점이 중요하다. 따라서

\[V^{\mathrm{fill}} = -\exp\Big(-\gamma\big[x+qs+\Delta\delta+h(t,q-\Delta,s)\big]\Big).\]

한편 현재 value는

\[V(t,x,q,s)= -\exp\big(-\gamma(x+qs+h(t,q,s))\big).\]

이제 비율을 취하면 앞의 마이너스 부호는 상쇄되고,

\[\frac{V^{\mathrm{fill}}}{V(t,x,q,s)} = \exp\Big(-\gamma\big[x+qs+\Delta\delta+h(t,q-\Delta,s)\big] +\gamma\big[x+qs+h(t,q,s)\big]\Big).\]

지수 안에서 $x+qs$가 소거되므로

\[\frac{V^{\mathrm{fill}}}{V(t,x,q,s)} = \exp\Big(-\gamma\big[\Delta\delta+h(t,q-\Delta,s)-h(t,q,s)\big]\Big).\]

즉 원하는 식

\[\frac{V^{\mathrm{fill}}}{V(t,x,q,s)} = \exp\Big(-\gamma\big[\Delta\delta+h(t,q-\Delta,s)-h(t,q,s)\big]\Big)\]

를 얻는다.

이 비율식의 의미는 명확하다. 체결로 인해 달라지는 것은 현재 현금수준 $x$나 mark-to-market 항 $qs$ 자체가 아니라, “한 단위 매도 프리미엄 $\Delta\delta$”와 “재고가 줄어든 뒤 continuation value 변화”뿐이라는 것이다. 증명 끝.

가정 9.1

상태는 $(X_t,Q_t,S_t)$이고 제어는 quote offset $\delta_t$이다. 동학은

\[dQ_t=-\Delta\,dN_t, \qquad dX_t=(S_t+\delta_t)\Delta\,dN_t,\]

\[dS_t=\mu\,dt+\sigma\,dW_t, \qquad \text{intensity of }N_t=\lambda(\delta_t)\]

이다.

terminal payoff를

\[X_T+Q_T(S_T-\alpha Q_T)\]

로 둔다.

정리 9.2 (가치함수의 HJB)

가치함수를

\[V(t,x,q,s) = \sup_\delta \mathbb E_{t,x,q,s}\big[X_T+Q_T(S_T-\alpha Q_T)\big]\]

로 두면 HJB는

\[0= \partial_tV+\mu V_s+\frac12\sigma^2V_{ss} + \sup_\delta \lambda(\delta)\Big( V(t,x+(s+\delta)\Delta,q-\Delta,s)-V(t,x,q,s) \Big)\]

이고 terminal condition은

\[V(T,x,q,s)=x+q(s-\alpha q)\]

이다.

증명

이 정리는 일반 HJB 공식을 현재 문제의 generator에 구체적으로 대입한 것이다. 계산 자체는 짧지만, 어떤 항이 어디서 나오는지 분명히 적어 두어야 한다.

현재 문제에서는 running reward가 따로 없고 $r\equiv 0$이다. 따라서 정리 6.3의 일반 HJB

\[0= \sup_\delta\{\partial_tV+(\mathcal L^\delta V)+r\}\]

는 곧

\[0= \sup_\delta\{\partial_tV+(\mathcal L^\delta V)\}\]

로 단순화된다.

이제 정리 5.3에서 계산한 jump-diffusion generator를 그대로 대입하자. midprice가

\[dS_t=\mu\,dt+\sigma\,dW_t\]

를 따르고, 체결 intensity가 $\lambda(\delta)$일 때 generator는

\[(\mathcal L^\delta V)(t,x,q,s) = \mu V_s(t,x,q,s) +\frac12\sigma^2V_{ss}(t,x,q,s)\]

\[\qquad + \lambda(\delta) \Big( V(t,x+(s+\delta)\Delta,q-\Delta,s)-V(t,x,q,s) \Big)\]

이다. 여기에 시간미분 $\partial_tV$를 더하면

\[0 = \sup_\delta\Bigg\{ \partial_tV +\mu V_s +\frac12\sigma^2V_{ss}\]

\[\qquad +\lambda(\delta) \Big( V(t,x+(s+\delta)\Delta,q-\Delta,s)-V(t,x,q,s) \Big) \Bigg\}.\]

즉 원하는 HJB를 얻는다.

terminal condition은 만기에서 남은 inventory를 충격비용과 함께 청산하는 payoff에서 읽는다. 예를 들어

\[V(T,x,q,s)=x+q(s-\alpha q)\]

같은 형태가 된다.

핵심은 이 HJB가 “연속가격변동에 의한 가치변화”와 “한 번 체결될 때 가치점프의 기대기여”를 동시에 반영한다는 점이다. 증명 끝.

정리 9.3 (선형 ansatz의 축약)

다음과 같은 ansatz를 두자.

\[V(t,x,q,s)=x+qs+h(t,q).\]

그러면 $h$는

\[0=h_t(t,q)+\mu q+\sup_\delta \lambda(\delta)\Big(\Delta\delta+h(t,q-\Delta)-h(t,q)\Big)\]

를 만족하고 terminal condition은

\[h(T,q)=-\alpha q^2\]

이다.

증명

이 정리의 목적은 4변수 가치함수 $V(t,x,q,s)$를 재고와 시간만의 함수 $h(t,q)$로 줄이는 것이다. 이 축약이 왜 가능한지, 그리고 대입했을 때 정확히 어떤 항들이 어떻게 소거되는지를 한 줄씩 확인하자.

가정하는 ansatz는

\[ V(t,x,q,s)=x+qs+h(t,q) \]

이다. 이 식은 세 부분으로 해석할 수 있다.

$x$ : 이미 확보한 현금,
$qs$ : 남은 재고를 현재 midprice $s$로 평가한 mark-to-market 가치,
$h(t,q)$ : 앞으로 최적으로 집행함으로써 추가로 얻는 초과가치.

먼저 terminal condition을 계산하자. 만기 payoff가

\[ V(T,x,q,s)=x+q(s-\alpha q) \]

이면 우변을 전개해서

\[ V(T,x,q,s)=x+qs-\alpha q^2 \]

를 얻는다. 한편 ansatz에 $t=T$를 넣으면

\[ V(T,x,q,s)=x+qs+h(T,q). \]

두 식의 $x+qs$를 비교하면 곧바로

\[ h(T,q)=-\alpha q^2 \]

가 나온다.

이제 HJB 안으로 들어가는 미분항을 계산하자. $x$는 시간과 무관하고, $qs$에서 시간에 직접 의존하는 것은 없으므로

\[ \partial_t V = h_t(t,q). \]

또한 $s$에 대한 1차 미분은

\[ V_s = q, \]

왜냐하면 $x$와 $h(t,q)$는 $s$와 무관하고 $qs$만 남기 때문이다. 다시 한 번 미분하면

\[ V_{ss}=0. \]

이 결과는 중요하다. value function이 $s$에 대해 선형이기 때문에 Brownian 부분에서 감마항이 사라진다.

다음은 jump 항이다. 체결이 일어나면 한 번에 $\Delta$주가 팔린다고 하자. 그러면 상태는

\[ (x,q,s) \longmapsto (x+(s+\delta)\Delta,\ q-\Delta,\ s) \]

로 바뀐다. 이 점에서의 가치함수는

\[ V\big(t,x+(s+\delta)\Delta,q-\Delta,s\big) \]

\[ = \big(x+(s+\delta)\Delta\big) + (q-\Delta)s + h(t,q-\Delta). \]

이제 괄호를 모두 풀어 쓰자.

\[ = x + s\Delta + \delta\Delta + qs - \Delta s + h(t,q-\Delta). \]

여기서 $s\Delta$와 $-\Delta s$는 서로 정확히 상쇄된다. 따라서 남는 것은

\[ = x + qs + \Delta\delta + h(t,q-\Delta). \]

현재 가치함수

\[ V(t,x,q,s)=x+qs+h(t,q) \]

를 빼면 jump 차이는

\[ V\big(t,x+(s+\delta)\Delta,q-\Delta,s\big)-V(t,x,q,s) \]

\[ = \Delta\delta + h(t,q-\Delta)-h(t,q). \]

여기서 핵심은 현금 증가 중 $s\Delta$와 mark-to-market 감소분 $-\Delta s$가 소거되어, 체결 프리미엄 $\Delta\delta$와 continuation value의 차이만 남는다는 점이다.

이제 이 결과를 HJB에 대입한다. 일반형이

\[ 0= \partial_tV + \mu V_s + \sup_\delta \lambda(\delta)\big(V^{\mathrm{fill}}-V\big) \]

라면, 방금 계산한 항들을 넣어서

\[ 0 = h_t(t,q) + \mu q + \sup_\delta \lambda(\delta)\Big(\Delta\delta+h(t,q-\Delta)-h(t,q)\Big) \]

를 얻는다.

이 식은 더 이상 $x$에도, $s$에도 의존하지 않는다. 즉 원래 4변수 문제였던 HJB가 $(t,q)$만의 문제로 축약되었다. 그 이유는 ansatz를 넣었을 때 가격수준 $s$와 관련된 선형항이 정확히 정리되었기 때문이다.

정리하면, 이 선형 ansatz는 단순한 계산 편의가 아니라 모델 구조와 정확히 맞아떨어지는 선택이다. 현금은 선형으로 누적되고, 재고의 mark-to-market 가치도 $qs$ 꼴로 선형이며, 체결이 일어날 때 $s$와 관련된 변화가 서로 상쇄되기 때문에 남는 자유도는 $h(t,q)$ 하나뿐이다. 증명 끝.

정리 9.4 (지수형 intensity 아래의 interior optimizer)

\[\lambda(\delta)=Ae^{-k\delta}\]

라고 하자. 정리 9.3의 HJB에서

\[C(t,q):=h(t,q-\Delta)-h(t,q)\]

라고 두면, 최적화 문제는

\[\sup_\delta Ae^{-k\delta}(\Delta\delta+C)\]

가 되고 interior critical point는

\[\delta^\ast(t,q)=\frac1k-\frac{C(t,q)}{\Delta} = \frac1k-\frac{h(t,q-\Delta)-h(t,q)}{\Delta}\]

이다.

증명

최적 posting depth를 구하는 문제는 결국 한 변수 함수

\[F(\delta):=Ae^{-k\delta}(\Delta\delta+C)\]

를 최대화하는 미분문제로 귀착된다. 여기서 $Ae^{-k\delta}$는 체결강도, $\Delta\delta+C$는 체결될 경우 얻는 한계가치이다.

먼저 1차 도함수를 계산하자. 곱의 미분법을 적용하면

\[F'(\delta) = A\Big((e^{-k\delta})'(\Delta\delta+C)+e^{-k\delta}(\Delta\delta+C)'\Big).\]

각 미분항은

\[(e^{-k\delta})'=-ke^{-k\delta}, \qquad (\Delta\delta+C)'=\Delta\]

이므로,

\[F'(\delta) = A\Big((-k)e^{-k\delta}(\Delta\delta+C)+e^{-k\delta}\Delta\Big).\]

공통인수 $Ae^{-k\delta}$를 묶으면

\[F'(\delta)=Ae^{-k\delta}\Big(\Delta-k(\Delta\delta+C)\Big).\]

내부 최적점은 $F'(\delta)=0$을 만족해야 하므로, $A>0$이고 $e^{-k\delta}>0$는 항상 양수라는 사실을 이용하면 실질적으로 풀어야 할 식은

\[\Delta-k(\Delta\delta+C)=0\]

이다. 이를 $\delta$에 대해 풀면

\[\Delta=k\Delta\delta+kC,\]

\[k\Delta\delta=\Delta-kC,\]

\[\delta^\ast= rac{\Delta-kC}{k\Delta} = \frac1k-\frac{C}{\Delta}.\]

이것이 후보 최적점이다.

이 점이 실제로 최대점인지 2차 도함수로 확인하자. 위의 1차 도함수를 다시 미분하면

\[F''(\delta) = A(-k)e^{-k\delta}\Big(\Delta-k(\Delta\delta+C)\Big) + Ae^{-k\delta}(-k\Delta).\]

특히 $\delta=\delta^\ast$에서는 첫 번째 괄호가 0이므로

\[F''(\delta^\ast)=Ae^{-k\delta^\ast}(-k\Delta).\]

보통 문제 설정에서 $A>0,k>0,\Delta>0$이므로

\[F''(\delta^\ast)<0.\]

따라서 $\delta^\ast$는 local maximum이고, 이 함수의 형태상 global maximum이 된다.

즉 지수형 intensity 하에서 interior optimizer는

\[\delta^\ast=\frac1k-\frac{C}{\Delta}\]

이다. 첫 항 $1/k$는 순수한 정태적 체결강도-스프레드 trade-off를 나타내고, 두 번째 항 $C/\Delta$는 continuation value의 보정항이다. 증명 끝.

가정 10.1

terminal wealth를

\[W_T:=X_T+Q_T(S_T-\alpha Q_T)\]

로 두고 가치함수를

\[V(t,x,q,s) = \sup_\delta \mathbb E_{t,x,q,s}\big[-e^{-\gamma W_T}\big]\]

로 둔다.

정리 10.2 (지수효용 HJB)

Brownian 부분을 생략한 순수 counting 버전에서 HJB는

\[0= \partial_tV+\sup_\delta \lambda(\delta)\big(V^{\mathrm{fill}}-V\big)\]

이고, ansatz

\[V(t,x,q,s)= -\exp\big(-\gamma(x+qs+h(t,q))\big)\]

를 대입하면 $h$는

\[0 = h_t -\frac1\gamma \sup_\delta \lambda(\delta)\left( e^{-\gamma[\Delta\delta+h(t,q-\Delta)-h(t,q)]}-1 \right)\]

를 만족한다. terminal condition은

\[h(T,q)=-\alpha q^2\]

이다.

증명

지수효용의 핵심 장점은 현금과 가격의 선형조합이 지수 안에 들어가 있을 때, jump 후 value와 현재 value의 비율이 깔끔하게 떨어진다는 점이다. 이 정리에서는 바로 그 구조를 이용해 HJB를 $h(t,q)$에 대한 방정식으로 축약한다.

출발점은 순수 counting 버전의 HJB

\[ 0= \partial_t V + \sup_\delta \lambda(\delta)\big(V^{\mathrm{fill}}-V\big) \]

이다. 여기서 ansatz를

\[ V(t,x,q,s) = -\exp\big(-\gamma(x+qs+h(t,q))\big) \]

로 둔다. 이제 각 항을 직접 계산한다.

먼저 시간미분이다. 지수함수의 chain rule을 적용하면

\[ \partial_t V = -\exp\big(-\gamma(x+qs+h(t,q))\big)\cdot\big(-\gamma h_t(t,q)\big). \]

즉

\[ \partial_t V = -\gamma h_t(t,q)\,V. \]

이 식을 확인할 때 부호를 조심해야 한다. $V$ 앞에 이미 마이너스가 있고, 지수의 미분에서 다시 $-\gamma h_t$가 나오므로 결과가 위와 같이 정리된다.

다음으로 체결 후 가치 $V^{\mathrm{fill}}$를 계산하자. 한 번 체결되면 상태는

\[ (x,q,s) \longmapsto (x+(s+\delta)\Delta,\ q-\Delta,\ s) \]

가 되므로

\[ V^{\mathrm{fill}} = -\exp\Big(-\gamma\big(x+(s+\delta)\Delta + (q-\Delta)s + h(t,q-\Delta)\big)\Big). \]

이제 지수 안을 정리한다.

\[ x+(s+\delta)\Delta + (q-\Delta)s + h(t,q-\Delta) \]

\[ = x + s\Delta + \delta\Delta + qs - \Delta s + h(t,q-\Delta) = x + qs + \Delta\delta + h(t,q-\Delta). \]

따라서

\[ V^{\mathrm{fill}} = -\exp\Big(-\gamma\big(x+qs+\Delta\delta+h(t,q-\Delta)\big)\Big). \]

여기서 현재 value

\[ V(t,x,q,s)= -\exp\big(-\gamma(x+qs+h(t,q))\big) \]

를 인수로 뽑아내면

\[ V^{\mathrm{fill}} = V\cdot \exp\Big(-\gamma\big[\Delta\delta+h(t,q-\Delta)-h(t,q)\big]\Big). \]

따라서 jump 차이는

\[ V^{\mathrm{fill}}-V = V\left(\exp\Big(-\gamma\big[\Delta\delta+h(t,q-\Delta)-h(t,q)\big]\Big)-1\right). \]

이제 이 두 결과를 HJB에 대입한다.

\[ 0 = -\gamma h_t V + \sup_\delta \lambda(\delta) V\left(\exp\Big(-\gamma\big[\Delta\delta+h(t,q-\Delta)-h(t,q)\big]\Big)-1\right). \]

오른쪽 두 항 모두에 $V$가 공통인수로 들어 있다. 그리고 지수함수는 결코 0이 되지 않으므로 $V$도 0이 아니다. 따라서 $V$로 나눌 수 있다. 그러면

\[ 0 = -\gamma h_t + \sup_\delta \lambda(\delta) \left(\exp\Big(-\gamma\big[\Delta\delta+h(t,q-\Delta)-h(t,q)\big]\Big)-1\right). \]

이제 양변을 $-\gamma$로 나누면

\[ 0 = h_t - \frac1\gamma \sup_\delta \lambda(\delta) \left(\exp\Big(-\gamma\big[\Delta\delta+h(t,q-\Delta)-h(t,q)\big]\Big)-1\right). \]

원하는 축약식이 나왔다.

마지막으로 terminal condition을 보자. 만기 payoff가

\[ V(T,x,q,s)= -\exp\big(-\gamma(x+q(s-\alpha q))\big) \]

라면 이를 전개하면

\[ V(T,x,q,s)= -\exp\big(-\gamma(x+qs-\alpha q^2)\big). \]

한편 ansatz의 $t=T$ 형태는

\[ V(T,x,q,s)= -\exp\big(-\gamma(x+qs+h(T,q))\big). \]

지수함수의 내부를 비교하면

\[ h(T,q)=-\alpha q^2 \]

를 얻는다.

정리하면, 지수효용 ansatz는 현금과 가격수준이 지수 안에서 factorization되도록 만들어 주고, 그 결과 HJB 전체가 재고 변수 $q$에 대한 비선형 차분-ODE로 떨어진다. 이후 최적 깊이 도출과 running-penalty 문제와의 대응도 바로 이 축약식 위에서 이루어진다. 증명 끝.

정의 11.1

시장가 즉시실행 연산자를

\[\mathcal M V(t,x,q,s) := \sup_{\xi\in[0,q]} V(t,x+\xi(s-c(\xi)),q-\xi,s)\]

로 정의한다. 여기서 $c(\xi)$는 시장가 실행비용이다.

정리 11.2 (QVI 형태)

지정가 주문의 continuation dynamics와 시장가 즉시실행이 동시에 허용되면 가치함수 $V$는 형식적으로

\[\max\left\{ \partial_tV+\mu V_s+\frac12\sigma^2V_{ss} +\sup_\delta \lambda(\delta)\big(V^{\mathrm{fill}}-V\big), \ \mathcal MV-V \right\}=0\]

를 만족한다.

증명

지정가 주문만 허용될 때는 매 순간의 선택이 “어느 깊이 $\delta$에 게시할 것인가” 하나뿐이므로 HJB가 나온다. 그러나 시장가 주문까지 허용되면 선택지가 두 종류가 된다.

기다리기(continuation): 지금은 시장가 주문을 내지 않고, 지정가 주문의 깊이만 선택하여 다음 순간까지 문제를 계속한다.
즉시개입(intervention): 지금 당장 시장가 주문을 내어 상태를 순간적으로 바꾼다.

최적가치는 이 두 선택 가운데 더 좋은 것을 택해야 하므로, 자연스럽게 HJB가 아니라 QVI가 나온다. 이제 이 논리를 짧은 시간 구간 $[t,t+h]$에서 한 줄씩 적어 보자.

1단계: continuation 값을 계산한다

현재 상태를 $(x,q,s)$라고 하자. 만약 지금 시장가 주문을 보내지 않고 continuation을 택하면, 길이 $h$의 짧은 구간 동안에는 기존의 jump-diffusion dynamics가 그대로 작동한다. 따라서 DPP에 의해 continuation 값은 형식적으로

\[ \mathbb E\Big[ V(t+h,Y_{t+h}) \Big] \]

를 1차까지 전개한 결과로 주어진다. generator 계산을 쓰면 그 1차 항은

\[ \partial_t V + \mu V_s + \frac12\sigma^2 V_{ss} + \sup_\delta \lambda(\delta)(V^{\mathrm{fill}}-V) \]

가 된다.

여기서 각 항의 의미는 분명하다.

$\partial_tV$ : 시간이 흐르며 가치함수가 직접 변하는 부분,
$\mu V_s + \tfrac12\sigma^2V_{ss}$ : 중간가격 확산이 만드는 연속 drift,
$\sup_\delta$ : 지정가 주문 깊이를 선택하는 최적화,
$\lambda(\delta)(V^{\mathrm{fill}}-V)$ : 체결이 일어났을 때 상태가 점프하면서 가치가 바뀌는 효과.

즉 continuation 영역에서는 value function이 이 generator 식을 따라 진화해야 한다.

2단계: 즉시 시장가 주문을 냈을 때의 값을 계산한다

이번에는 지금 당장 시장가 주문을 보내는 경우를 생각하자. 예를 들어 $\xi$단위의 매도 시장가 주문을 실행하면, 스프레드를 건너 최우선 매수호가에서 체결되므로 현금은 대략

\[ x \longmapsto x + \xi(s-c(\xi)) \]

로 변하고, 재고는

\[ q \longmapsto q-\xi \]

로 감소한다. 따라서 즉시개입 뒤의 가치는

\[ V\big(t, x+\xi(s-c(\xi)), q-\xi, s\big) \]

가 된다.

이때 가능한 시장가 주문량 $\xi$까지 최적화한 연산자를 impulse operator라 하고

\[ \mathcal M V(t,x,q,s) := \sup_{\xi\in\mathcal I(x,q,s)} V\big(t, x+\xi(s-c(\xi)), q-\xi, s\big) \]

로 정의하자. 그러면 “지금 즉시 시장가 주문을 내는 선택”의 가치는 $\mathcal M V$ 하나로 압축된다.

3단계: 두 선택을 비교하여 최적조건을 쓴다

최적가치는 continuation과 intervention 중 더 큰 값을 선택해야 한다. 따라서 아주 짧은 시간 후의 값 비교를 통해 형식적으로 다음 두 조건이 동시에 성립해야 한다.

continuation이 최적인 영역에서는 즉시개입이 더 좋을 수 없어야 하므로

\[ \mathcal M V - V \le 0. \]

intervention을 하지 않는다면, value function은 continuation generator 식을 만족해야 하므로

\[ \partial_t V + \mu V_s + \frac12\sigma^2 V_{ss} + \sup_\delta \lambda(\delta)(V^{\mathrm{fill}}-V) =0. \]

이 두 조건을 한 줄의 식으로 묶으면 바로

\[ \max\left\{ \partial_t V + \mu V_s + \frac12\sigma^2 V_{ss} + \sup_\delta \lambda(\delta)(V^{\mathrm{fill}}-V), \ \mathcal M V - V \right\}=0 \]

가 된다.

왜 하필 $\max\{\cdot,\cdot\}=0$ 꼴인지도 분명히 해야 한다. 만약 continuation 부분이 양수이면, 기다리기만 해도 현재값이 과소평가되었다는 뜻이어서 최적일 수 없다. 반대로 $\mathcal M V - V>0$이면 지금 즉시 시장가 주문을 내는 편이 더 좋다는 뜻이므로 현재 상태를 유지하는 것이 최적일 수 없다. 최적해에서는 두 선택 중 더 유리한 쪽이 정확히 현재가치를 결정해야 하고, 그 조건을 가장 간결하게 적은 것이 위의 QVI다.

정리하면, QVI는 HJB에 impulse comparison 조건이 추가된 방정식이다. continuation region에서는 HJB가 활성화되고, intervention region에서는 $V=\mathcal M V$가 활성화된다. 두 영역의 경계가 바로 시장가 주문을 실행하는 최적 시점과 상태를 결정한다. 증명 끝.

가정 12.1

목표 재고경로 $q_t^\ast$와 penalty 계수 $\eta>0$를 두고 running reward를

\[r(t,q)=-\eta(q-q_t^\ast)^2\]

로 둔다.

정리 12.2

가치함수를

\[V(t,y) = \sup_u \mathbb E\left[ \int_t^T -\eta(Q_s-q_s^\ast)^2\,ds+g(Y_T) \right]\]

로 두면 HJB는

\[0= \partial_tV+\sup_u\{\mathcal L^uV-\eta(q-q_t^\ast)^2\}\]

이다. 시장가 즉시행동까지 허용되면 형식적으로

\[\max\left\{ \partial_tV+\sup_\delta\big(\mathcal L^\delta V-\eta(q-q_t^\ast)^2\big), \ \mathcal MV-V \right\}=0\]

가 된다.

증명

이 정리는 기존의 inventory penalty 문제에서 페널티의 중심만 0이 아니라 외생적으로 주어진 목표 스케줄 $q_t^\ast$로 옮기면, HJB와 QVI가 어떻게 바뀌는지를 보여 준다. 계산 자체는 어렵지 않지만, 무엇이 바뀌고 무엇이 그대로 남는지를 분명히 적는 것이 중요하다.

가치함수는

\[ V(t,y) = \sup_u \mathbb E\left[ \int_t^T -\eta(Q_s-q_s^\ast)^2\,ds + g(Y_T) \right] \]

로 정의된다. 여기서 running reward는 이전의 $-\eta Q_s^2$가 아니라

\[ r(s,Y_s,u_s)= -\eta(Q_s-q_s^\ast)^2 \]

라는 점만 다르다. 즉 “재고를 0으로 빨리 보내고 싶다”는 문제에서 “재고를 목표경로 $q_s^\ast$에 가깝게 유지하고 싶다”는 문제로 바뀐 것이다.

먼저 시장가 즉시개입이 없고 순수 continuation 제어만 있는 경우를 보자. 일반 HJB 정리에 따르면 가치함수는

\[ 0= \partial_t V + \sup_u\{\mathcal L^u V + r(t,y,u)\} \]

를 만족한다. 여기에 지금의 running reward

\[ r(t,y,u)= -\eta(q-q_t^\ast)^2 \]

를 그대로 대입하면

\[ 0 = \partial_t V + \sup_u\{\mathcal L^u V - \eta(q-q_t^\ast)^2\}. \]

이것이 첫 번째 식이다.

이 식을 보면 구조적으로 바뀐 것은 오직 페널티항뿐이다. generator $\mathcal L^u$의 형태나 제어 최적화의 구조는 전혀 바뀌지 않는다. 다시 말해, 문제의 동역학은 그대로이고 목적함수에서 “어느 재고를 선호하느냐”만 바뀐 것이다.

이제 시장가 즉시행동까지 허용하자. 그러면 정리 11.2와 완전히 같은 논리로 continuation과 intervention의 두 선택을 비교해야 한다. continuation을 선택하면 infinitesimal value는

\[ \partial_t V + \sup_\delta\big(\mathcal L^\delta V - \eta(q-q_t^\ast)^2\big) \]

가 되고, 지금 즉시 시장가 주문을 내는 선택은 impulse operator $\mathcal M V$로 요약된다. 따라서 현재 상태에서 최적가치는 두 선택 중 더 큰 것을 택해야 하므로

\[ \max\left\{ \partial_t V + \sup_\delta\big(\mathcal L^\delta V - \eta(q-q_t^\ast)^2\big), \ \mathcal M V - V \right\}=0 \]

를 얻는다.

이 식을 조금 더 해석해 보자. 만약 $q$가 목표 $q_t^\ast$보다 너무 크면 페널티항

\[ -\eta(q-q_t^\ast)^2 \]

가 크게 음수가 되므로, HJB/QVI는 더 공격적인 매도를 선호하게 만든다. 반대로 현재 재고가 이미 목표보다 작다면, 추가 매도는 오히려 목표에서 멀어지는 방향이므로 전략은 덜 공격적으로 변한다. 즉 target-tracking 문제는 단순 청산문제를 시간의존 기준선 위에서 다시 읽은 것이라고 볼 수 있다.

경계조건과 종단조건도 같은 방식으로 해석된다. 종단조건은 언제나 terminal liquidation payoff로 결정되고, 만약 재고 0 상태가 absorbing이면 그 위에서는 더 이상 거래가 없으므로 그에 맞는 경계조건을 그대로 둔다. 바뀌는 것은 오직 running penalty의 중심이 $0$에서 $q_t^\ast$로 이동한다는 점이다.

결론적으로 target schedule 문제가 새로운 것처럼 보여도, 수학적으로는 기존 HJB/QVI 구조에 시간의존 추적오차 항만 삽입한 형태다. 따라서 앞선 장들에서 developed한 generator, DPP, HJB, QVI, verification 도구들을 거의 그대로 다시 사용할 수 있다. 증명 끝.

정의 13.1

비선형 방정식

\[F(t,y,u,Du,D^2u)=0\]

에 대하여 upper semicontinuous 함수 $u$가 viscosity subsolution이라는 것은 임의의 $\varphi\in C^{1,2}$와 점 $(t_0,y_0)$에 대해 $u-\varphi$가 $(t_0,y_0)$에서 국소최대일 때

\[F(t_0,y_0,u(t_0,y_0),D\varphi(t_0,y_0),D^2\varphi(t_0,y_0))\le 0\]

가 성립하는 것이다.

lower semicontinuous 함수 $u$가 viscosity supersolution이라는 것은 $u-\varphi$가 $(t_0,y_0)$에서 국소최소일 때

\[F(t_0,y_0,u(t_0,y_0),D\varphi(t_0,y_0),D^2\varphi(t_0,y_0))\ge 0\]

가 성립하는 것이다.

둘 다 만족하면 viscosity solution이라 한다.

14. 자주 사용하는 계산식

보조정리 14.1

지수형 intensity $\lambda(\delta)=Ae^{-k\delta}$와 선형 보수 $\Delta\delta+C$가 있을 때

\[\sup_\delta Ae^{-k\delta}(\Delta\delta+C)\]

의 내부 최적점은

\[\delta^\ast=\frac1k-\frac C\Delta\]

이다.

증명

이 보조정리는 정리 9.4의 계산을 특수한 기호로 다시 적은 것이다. 다만 여기서는 결과만 인용하지 않고, 왜 같은 식이 나오는지 다시 한 번 직접 계산하자.

최대화하려는 함수는

\[F(\delta)=Ae^{-k\delta}(\Delta\delta+C)\]

이다. 여기서 $A>0$, $k>0$, $\Delta>0$라고 하자. 1차 도함수를 계산하면 곱의 미분법으로

\[F'(\delta) = A\Big((-k)e^{-k\delta}(\Delta\delta+C)+e^{-k\delta}\Delta\Big)\]

이고, 공통인수 $Ae^{-k\delta}$를 묶으면

\[F'(\delta)=Ae^{-k\delta}\big(\Delta-k(\Delta\delta+C)\big).\]

여기서 $A>0$, $e^{-k\delta}>0$이므로 내부 최적점은

\[\Delta-k(\Delta\delta+C)=0\]

을 푸는 것과 같다. 정리하면

\[k\Delta\delta=\Delta-kC, \qquad \delta^\ast=\frac{\Delta-kC}{k\Delta} =\frac1k-\frac C\Delta.\]

이제 최대점 여부를 확인하려면 2차 도함수를 보거나, 함수가 “증가하다가 감소하는” 구조임을 보면 된다. 정리 9.4와 동일하게

\[F''(\delta^\ast)=Ae^{-k\delta^\ast}(-k\Delta)<0\]

이므로 $\delta^\ast$는 최대점이다.

따라서

\[\sup_\delta Ae^{-k\delta}(\Delta\delta+C)\]

의 내부 최적점은

\[\delta^\ast=\frac1k-\frac C\Delta\]

이다. 증명 끝.

보조정리 14.2

jump-diffusion generator의 연속부분은

\[\mu f_s+\frac12\sigma^2 f_{ss}\]

이고 jump부분은

\[\lambda(\delta)\big(f(\text{jump 후 상태})-f(\text{현재 상태})\big)\]

이다.

증명

jump-diffusion generator의 구조는 정리 5.3에서 이미 계산했지만, 여기서는 그 결론을 다시 한 번 성분별로 읽어 보자.

상태가 연속부분과 점프부분을 동시에 가진다고 하자. 예를 들어 가격변수 $S_t$가

\[dS_t=\mu\,dt+\sigma\,dW_t\]

를 따르고, 별도의 counting process가 intensity $\lambda(\delta)$로 점프를 발생시킨다고 하자. 시험함수 $f$에 대한 generator는 정의상 미소시간 기대변화율

\[\mathcal L^\delta f = \lim_{h\downarrow 0}\frac{\mathbb E[f(Y_{t+h})-f(Y_t)]}{h}\]

이다.

연속부분만 생각하면 Itô 공식에서 drift와 quadratic variation 항이 남으므로 기여는

\[\mu f_s+\frac12\sigma^2 f_{ss}\]

가 된다. 이것이 generator의 연속부분이다.

한편 점프부분은 미소시간 $h$ 동안 확률 $\lambda(\delta)h+o(h)$로 한 번 점프가 일어나고, 점프가 일어나면 함수값이 “jump 후 상태의 함수값 - 현재 상태의 함수값”만큼 변한다. 따라서 일차근사 기여는

\[\lambda(\delta) \big(f(\text{jump 후 상태})-f(\text{현재 상태})\big)\]

이다.

결국 두 성분을 더하면 generator는

\[\mathcal L^\delta f = \mu f_s+\frac12\sigma^2 f_{ss} + \lambda(\delta)\big(f(\text{jump 후 상태})-f(\text{현재 상태})\big)\]

가 된다. 즉 보조정리의 진술은 정리 5.3의 성분분해를 다시 쓴 것이다. 증명 끝.

Part B — AHFT Chapter 8 본문

8. 지정가 주문과 시장가 주문을 이용한 최적 집행

8.1 서론

앞의 두 장에서는 시장가 주문(MO, market order)만을 사용하는 집행 전략에 초점을 맞추었다. 시장가 주문을 보내는 장점 중 하나는 체결이 보장된다는 점이다. 그러나 체결가격은 일반적으로 스프레드가 0이 아니고, 또 주문이 호가창을 여러 단계까지 먹어 들어갈 수 있기 때문에 중간가격(midprice)보다 불리하다.

실무에서는 에이전트가 지정가 주문(LO, limit order) 역시 사용한다. 지정가 주문이 체결되면 유동성을 가져가는 데 따른 수수료를 부담하지 않고, 시장충격 비용도 직접적으로 발생시키지 않으므로, 보통 그 체결가격은 중간가격보다 유리하다. 반면, 상대 주문이 실제로 도착하여 내 주문을 체결해 줄 것이라는 보장은 없다.

이 장에서는 이러한 문제를 반영하여, 에이전트가 지정가 주문만 사용하거나, 혹은 지정가 주문과 시장가 주문을 함께 사용하는 경우의 최적 집행 문제를 다룬다. Section 8.2와 Section 8.3에서는 에이전트가 지정가 주문만 사용할 수 있다. Section 8.4에서는 지정가 주문과 시장가 주문을 모두 사용할 수 있고, Section 8.5에서는 지정가 주문과 시장가 주문을 이용하여 주어진 집행 스케줄을 추적하는 문제를 다룬다.

이 장 전체에서 에이전트가 포지션을 청산하기 위해 지정가 주문을 낼 때는, 매 순간 일정 고정 수량(예를 들어 평균 시장가 주문 크기의 일정 비율, 혹은 10주 같은 고정 수량)의 매도 지정가 주문을

\[ S_t + \delta_t \]

라는 가격에 게시한다고 가정한다. 여기서 $S_t$는 중간가격이고, $\delta_t$는 에이전트가 시장에 유동성을 공급하는 대가로 요구하는 프리미엄(depth, premium) 이다. $\delta$가 클수록 더 높은 프리미엄을 요구하는 것이지만, 그만큼 다른 참가자의 주문이 도착해 호가창을 그 깊이까지 먹고 들어와 내 주문을 체결할 확률은 낮아진다.

에이전트의 전략은 빠른 취소-재게시(post-and-cancel) 에 의존한다. 즉, 매 순간마다 에이전트는 시장상황을 다시 평가하고, 호가창에 남아 있는 기존 지정가 주문을 취소한 뒤, 새로운 최적 깊이에 다시 지정가 주문을 게시한다. 이를 위해서는 호가가 오래되어(stale quote) 호가창에 남아 있지 않도록 하고, 새 정보를 매우 빠르게 처리할 수 있도록 하는 소프트웨어, 하드웨어, 그리고 거래소와의 접속 환경이 필요하다.

어떤 깊이 $\delta$에 지정가 주문을 게시했을 때, 시장가 주문이 도착했다는 조건하에서 그 주문이 실제로 체결될 확률을 체결확률(fill probability) 이라고 하고, 이를 함수 $P(\delta)$로 표기한다. 당연히 $P$는 감소함수여야 한다. 또한 이 함수는 장중에 계속 변하고, 현재 호가창의 상태에도 민감하다.

이를 보기 위해 Figure 8.1의 왼쪽 패널을 생각하자. 여기에는 블록(block) 형태의 호가창이 그려져 있고, 동시에 (i) $\delta=10$에 게시된 지정가 주문(점선), (ii) 거래량 700인 시장가 주문이 매도호가를 들어올리는 깊이(진한 초록색 영역), (iii) 거래량 1,500인 시장가 주문이 매도 지정가 주문을 들어올리는 깊이(진한 초록색과 연한 초록색 영역)가 표시되어 있다. 지정가 주문이 중간가격에서 더 멀리, 즉 더 깊은 곳에 게시될수록, 그 가격 수준까지 호가창을 걸어 올라오는(walk the book) 충분히 큰 시장가 주문이 도착할 가능성은 더 작아진다. 따라서 체결확률은 $\delta$가 증가할수록 감소한다.

만약 개별 시장가 주문의 거래량을 $V$라고 하고, $V$가 평균 77을 갖는 지수분포를 따른다고 가정하자. 또한 호가창이 높이 $A$를 갖는 블록형태라고 하자. 즉, 가격 $S+\delta$에서 게시된 물량이 최대 가격 수준 $S+\bar\delta$까지 일정한 상수 $A$라고 가정하자. 그러면 체결확률은 지수형태가 된다. 정확히는, 거래량 $V$인 시장가 주문이 도착했다는 조건하에서, 깊이 $\delta$에 놓여 있던 매도 지정가 주문이 들어올려질 확률은

\[ \mathbb P(\text{depth }\delta\text{ 에 게시된 주문이 체결}) = \mathbb P(V>A\delta) = \exp\!\left\{-\frac{\delta}{77/A}\right\}. \]

책에서는 이를 간단히

\[ P(\delta)=e^{-\kappa \delta} \tag{8.1} \]

와 같은 지수형 체결확률로 모델링한다. 원칙적으로는 거듭제곱법칙(power law) 형태의 체결확률도 사용할 수 있지만, 분석을 일관되고 자기완결적으로 유지하기 위해 이 장 전체에서는 지수형 체결확률을 사용한다.

8.2 지정가 주문만을 사용하는 청산

6장과 7장에서는 에이전트가 시장가 주문만 사용하여 집행하는 최적 문제를 다루었다. 이번 절에서는 에이전트가 지정가 주문만 게시한다. 문제의 기본 구조는 6장과 유사하지만, 이제는 에이전트 자신의 재고뿐 아니라, 다른 트레이더들의 시장가 주문 도착도 함께 추적해야 한다. 왜냐하면 바로 그 주문이 에이전트의 매도 지정가 주문을 실제로 체결시킬 수 있기 때문이다.

모형의 구성요소와 기호를 정리하면 다음과 같다.

$N$ : 에이전트가 청산하려는 총 주식 수
$T$ : 청산 프로그램이 끝나는 최종 시점
$S=(S_t)_{0\le t\le T}$ : 자산의 중간가격 과정이며

\[ S_t=S_0+\sigma W_t,\qquad \sigma>0, \]

여기서 $W=(W_t)_{0\le t\le T}$는 표준 브라운운동이다.

$\delta=(\delta_t)_{0\le t\le T}$ : 에이전트가 매도 지정가 주문을 게시하는 깊이. 즉, 시점 $t$에서 가격 $S_t+\delta_t$에 지정가 주문을 게시한다.
$M=(M_t)_{0\le t\le T}$ : 다른 트레이더들의 매수 시장가 주문 도착 수를 나타내는 포아송 과정이며, 강도는 $\lambda$이다.
$N=(N_t)_{0\le t\le T}$ : 실제로 에이전트의 매도 지정가 주문을 들어올린 시장가 주문의 수를 나타내는 제어된 counting process.

\[ P(\delta)=e^{-\kappa \delta},\qquad \kappa>0, \]

: 매수 시장가 주문이 도착했을 때 에이전트의 지정가 주문이 실제로 체결될 조건부 확률.

$X=(X_t)_{0\le t\le T}$ : 현금과정이며

\[ dX_t=(S_t+\delta_t)\,dN_t. \tag{8.2} \]

$Q_t=N-N_t$ : 아직 청산되지 않은 재고.

주의할 점은, $N$이 점프하면 반드시 $M$도 점프하지만, $M$이 점프한다고 해서 항상 $N$이 점프하는 것은 아니라는 점이다. 즉, 시장가 주문이 도착해도 그 주문의 규모가 충분히 크지 않으면 에이전트가 게시한 깊이까지 호가창을 먹고 들어오지 못하므로 체결이 발생하지 않는다. 조건부로 보면, 매수 시장가 주문이 도착했을 때 $N$이 점프할 확률은 $P(\delta_t)=e^{-\kappa \delta_t}$이다. 따라서 $N$은 일반적인 의미의 단순 포아송과정이 아니고, 에이전트가 게시한 깊이에 반응하는 제어된 counting process이다.

또한 6장과 7장의 설정과 달리, 여기서는 주문이 체결되면 에이전트는 중간가격보다 더 좋은 가격을 받는다.

문제가 놓이는 여과 $\mathbb F$는 $S$, $N$, $M$이 생성하는 자연 여과라고 하자. 그리고 에이전트의 깊이 선택, 즉 전략 $\delta$는 $\mathbb F$-예측가능(process)하다고 가정하며, 특히 좌연속 우극한(càglàd 혹은 predictable) 특성을 갖는다.

에이전트의 최적화 문제

에이전트는 $N$주를 청산하여 얻는 수익을 극대화하고자 하지만, 동시에 시점 $T$까지 대부분, 가능하면 전부를 팔기를 원한다. 만약 거래기간이 끝났을 때 아직 재고가 남아 있다면, 그 남은 물량은 시장가 주문으로 강제 청산해야 하고, 이 경우 중간가격보다 불리한 가격을 받는다. 6장에서 논의했듯이, 시장가 주문에 대한 선형 충격함수는 시장충격의 1차 근사로 합리적이다. 따라서 에이전트의 최적화 문제는 다음과 같다.

\[ H(x,S)=\sup_{\delta\in\mathcal A} \mathbb E\Big[ X_\tau+Q_\tau\big(S_\tau-\alpha Q_\tau\big) \,\big|\,X_{0^-}=x,\ S_0=S,\ Q_{0^-}=N \Big], \tag{8.3} \]

여기서 $\alpha\ge 0$는 최종 청산 페널티(시장가 주문의 선형 충격 계수)이고, 허용전략집합 $\mathcal A$는 아래로 유계인 깊이 전략들로 이루어진다. 또한 정지시각

\[ \tau=T\wedge \min\{t:Q_t=0\} \]

는 거래기간의 종료시점 $T$와 재고가 처음 0이 되는 시점 중 더 이른 시점이다. 재고가 0이 되면 더 이상 거래할 필요가 없기 때문이다.

이에 대응하는 가치함수는

\[ H(t,x,S,q)= \sup_{\delta\in\mathcal A} \mathbb E_{t,x,S,q}\Big[X_\tau+Q_\tau\big(S_\tau-\alpha Q_\tau\big)\Big] \tag{8.4} \]

이다. 여기서 $\mathbb E_{t,x,S,q}[\cdot]$는 $X_{t^-}=x$, $S_t=S$, $Q_{t^-}=q$를 조건으로 하는 조건부기댓값이다.

이 설정에서는 에이전트가 중간 시점의 재고 보유 자체를 벌점화하지는 않는다. 즉, Section 6.5에서처럼 running inventory penalty를 넣지 않는다. 물론 그러한 항을 추가할 수도 있으며, 책에서는 이를 연습문제로 남겨 두었다.

결과로 얻어지는 동적계획방정식(DPE)

동적계획원리(DPP)는 가치함수가 다음 동적계획방정식(DPE)을 만족할 것임을 시사한다.

\[ \partial_t H +\frac12\sigma^2\partial_{SS}H +\sup_{\delta}\Big\{\lambda e^{-\kappa\delta} \big[H(t,x+(S+\delta),S,q-1)-H(t,x,S,q)\big]\Big\}=0, \]

경계조건과 종단조건은

\[ H(t,x,S,0)=x, \]

\[ H(T,x,S,q)=x+q(S-\alpha q) \]

이다.

이 문제는 상태변수가 점프하므로, 결과적으로 얻어지는 방정식은 비선형 PDE가 아니라 비선형 편미분 적분-차분방정식(PIDE) 의 형태를 띤다. 각 항의 의미는 다음과 같다.

$\partial_{SS}$ 항은 중간가격을 움직이는 브라운운동의 생성자(generator)에 해당한다.
supremum은 에이전트가 매도 지정가 주문을 어느 깊이에 둘지를 선택할 수 있음을 반영한다.
$\lambda e^{-\kappa\delta}$는 다른 시장참가자들의 매수 시장가 주문 중에서, 에이전트가 게시한 가격 $S+\delta$까지 실제로 들어와 주문을 체결시키는 도착률이다.
점프차분항

\[ H(t,x+(S+\delta),S,q-1)-H(t,x,S,q) \]

은 에이전트의 지정가 주문이 체결되었을 때 가치함수가 얼마나 변하는지를 뜻한다. 이때 현금은 $S+\delta$만큼 증가하고, 재고는 1 감소한다.

$t=T$에서의 종단조건은 그 시점까지 축적된 현금에 더하여, 남아 있는 재고를 중간가격보다 불리한 가격 $S-\alpha q$ 에 시장가로 청산한 가치를 뜻한다. 반면 $q=0$에서의 경계조건은, 이미 재고가 모두 소진되었으므로 청산가치는 더 이상 없고 현금 $x$만을 들고 시장을 떠난다는 의미다.

이 종단조건과 경계조건은 가치함수에 대해 다음과 같은 ansatz를 자연스럽게 시사한다.

\[ H(t,x,S,q)=x+qS+h(t,q), \tag{8.5} \]

여기서 $h(t,q)$는 아직 미정인 함수이다. 이 ansatz는 세 부분으로 이루어진다.

첫째 항 $x$는 이미 축적된 현금,
둘째 항 $qS$는 남은 재고를 중간가격으로 평가한 장부가치(mark-to-market value),
셋째 항 $h(t,q)$는 앞으로 남은 재고를 최적으로 청산함으로써 추가로 얻게 되는 초과가치

를 뜻한다.

이 ansatz를 위 DPE에 대입하면, $h(t,q)$는 다음의 비선형 연립 ODE를 만족한다.

\[ \begin{cases} \displaystyle \partial_t h(t,q)+ \sup_{\delta}\Big\{\lambda e^{-\kappa\delta} \big[\delta+h(t,q-1)-h(t,q)\big]\Big\}=0, & q\ge 1,\\[1.2ex] h(t,0)=0,\\ h(T,q)=-\alpha q^2. \end{cases} \tag{8.6} \]

최적 깊이는 supremum 내부를 $\delta$에 대해 미분하여 일차조건(FOC)을 잡으면 얻을 수 있다.

\[ 0=\partial_\delta\Big\{\lambda e^{-\kappa\delta} \big[\delta+h(t,q-1)-h(t,q)\big]\Big\} \]

이므로,

\[ 0= \lambda e^{-\kappa\delta} \Big(1-\kappa[\delta+h(t,q-1)-h(t,q)]\Big). \]

따라서 피드백 제어형태의 최적 깊이는

\[ \delta^*(t,q)=\frac1\kappa+h(t,q)-h(t,q-1) \tag{8.7} \]

가 된다.

이 식은 매우 흥미로운 해석을 갖는다. 먼저 첫 번째 항 $1/\kappa$는 한 주를 즉시 팔고 중간가격으로 평가했을 때의 정태적 기대이익 극대화에서 나온다. 실제로 한 주를 $S+\delta$에 판 뒤 기준가격을 $S$로 보면 이익은 $\delta$이고, 체결확률이 $P(\delta)=e^{-\kappa\delta}$이므로 정태적 기대이익은

\[ \delta P(\delta)=\delta e^{-\kappa\delta} \]

이다. 이를 최대로 만드는 $\delta$가 바로 $1/\kappa$이다.

반면 차이항

\[ h(t,q)-h(t,q-1) \]

은 에이전트가 미래에 최적으로 행동한다는 점을 반영하여, 이 정태적 최적화를 수정하는 동적 보정항이다. 이는 예약가격(reservation price)으로 해석할 수도 있다. 즉, 추가부 $p$가 있어야

\[ H(t,x+p,S,q-1)=H(t,x,S,q) \]

가 되는데, 바로 이 값이 자산 1단위를 매도하더라도 가치함수가 변하지 않도록 요구하는 최소 추가부이다.

직관적으로 $\delta^*(t,q)$는 $q$에 대해 감소해야 한다. 재고가 많을수록 빨리 처분해야 하므로, 더 높은 프리미엄을 고집하기보다 중간가격 가까이에 주문을 두어 체결확률을 높이려 하기 때문이다. 물론 $q$가 매우 크면 최적 깊이가 음수가 될 수도 있다. 그 경우 해가 더 이상 재무적으로 자연스럽지 않을 수 있으며, 원래는 $\delta\ge 0$ 제약을 명시적으로 넣은 constrained problem을 풀어야 한다. 다만 순진한 해석으로는, 최적 깊이가 음수라는 것은 에이전트가 차라리 시장가 주문을 써야 할 정도로 급하다는 신호라고 볼 수 있다. 이 문제는 Section 8.4에서 본격적으로 다룬다.

이제 (8.7)을 (8.6)에 대입하면, $h(t,q)$는 다음의 비선형 연립 ODE를 만족한다.

\[ \partial_t h(t,q)+\frac{\lambda}{\kappa e} \exp\!\left\{-\kappa\big[h(t,q)-h(t,q-1)\big]\right\}=0. \tag{8.8} \]

여기서 종단조건과 경계조건은 여전히 (8.6)과 동일하다.

이 연립 ODE는 다음 치환으로 정확히 풀린다.

\[ h(t,q)=\frac1\kappa\log w(t,q). \]

그러면

\[ \exp\!\left\{-\kappa[h(t,q)-h(t,q-1)]\right\} =\frac{w(t,q-1)}{w(t,q)} \]

이므로, $w(t,q)$는 다음의 선형 연립 ODE를 만족한다.

\[ \partial_t w(t,q)+\frac{\lambda}{e}w(t,q-1)=0, \tag{8.9} \]

그리고 종단조건과 경계조건은

\[ w(T,q)=e^{-\kappa\alpha q^2}, \qquad w(t,0)=1 \]

이 된다.

DPE의 해법

DPE는 결국 (8.9)의 연립 ODE로 환원되며, 이는 정확히 풀 수 있다. 책의 결과는 다음과 같다.

\[ w(t,q)=\sum_{n=0}^{q}\frac1{n!} \left(\frac{\lambda}{e}(T-t)\right)^n \exp\!\big(-\kappa\alpha(q-n)^2\big). \tag{8.10} \]

따라서 $h(t,q)=\frac1\kappa\log w(t,q)$이고, 이를 (8.7)에 대입하면 최적 깊이는

\[ \delta^*(t,q) =\frac1\kappa +\frac1\kappa \log\! \frac{\sum_{n=0}^{q}\frac1{n!}\left(\frac{\lambda}{e}(T-t)\right)^n e^{-\kappa\alpha(q-n)^2}} {\sum_{n=0}^{q-1}\frac1{n!}\left(\frac{\lambda}{e}(T-t)\right)^n e^{-\kappa\alpha(q-1-n)^2}}. \tag{8.11} \]

이 최적 깊이는 임의의 모수값에 대해 시간에 따라 감소하고, 재고 $q$가 커질수록 감소한다. 반면 시장가 주문의 도착률 $\lambda$가 커질수록 더 깊게 게시할 유인이 생긴다. 그 직관은 명확하다. 시장가 주문이 더 자주 도착하면, 에이전트는 약간 더 깊은 가격에 주문을 두어도 실제 체결률을 충분히 유지할 수 있으면서, 한 번 체결될 때 더 많은 프리미엄을 벌 수 있다.

Figure 8.2는 여러 재고수준과 페널티 $\alpha$에 대해 최적 깊이를 시간의 함수로 그린 것이다. 여기서는 매수 시장가 주문이 분당 50회의 속도로 도착하고, 에이전트는 평균 시장거래량의 10%에 해당하는 $N=5$주를 청산하려 한다. 그림에서 다음 사실을 확인할 수 있다.

재고가 클수록 깊이는 작다. 재고가 많으면 더 빨리 처분해야 하므로 작은 프리미엄만 받고서라도 체결확률을 높이려 한다. 그래야 만기 전에 청산을 끝내고, 마지막에 시장가 주문으로 스프레드를 건너며 터미널 페널티를 내는 상황을 피할 수 있다. 반대로 재고가 작으면, 설령 끝에서 시장가로 일부 청산하더라도 부담이 크지 않으므로 더 깊게 게시하면서 높은 프리미엄을 노릴 수 있다.
재고가 고정되어 있어도 시간이 갈수록 깊이는 감소한다. 만기가 가까워질수록 재고를 들고 있는 것이 더 불편해지기 때문이다.
터미널 페널티 $\alpha$가 커질수록 깊이는 더 작아진다. 청산 실패 비용이 커지므로 더 적극적으로, 더 낮은 가격개선만으로도 거래하려 하기 때문이다. $\alpha$나 $q$가 충분히 크면 최적 깊이가 음수가 될 수도 있는데, 이는 지정가만 허용하는 현재 설정에서는 해석상 한계가 있다. 실제로는 그런 상황에서 시장가 주문 사용을 고려해야 한다.
만기에서 멀수록 깊이는 계속 증가한다. 현재 목적함수는 터미널 재고만 벌점화하므로, 만기에서 충분히 멀면 재고를 지금 당장 줄여야 할 유인이 약하다. 반면 거래 전 구간에 걸쳐 재고 보유를 벌점화하면, 전략은 만기에서 멀리 떨어진 구간에서는 점근적으로 일정한 형태를 띠게 된다.

만기로부터 충분히 멀리 떨어져 있을 때, 즉 $\tau:=T-t\gg 1$이면 위 로그식에 나타나는 비율은 지배항만 남겨 다음과 같이 근사된다.

\[ \frac{w(t,q)}{w(t,q-1)} =\frac{\frac1{q!}\left(\frac{\lambda}{e}\tau\right)^q +\frac1{(q-1)!}\left(\frac{\lambda}{e}\tau\right)^{q-1}e^{-\kappa\alpha} +O(\tau^{q-2})} {\frac1{(q-1)!}\left(\frac{\lambda}{e}\tau\right)^{q-1}+O(\tau^{q-2})} =\frac{\lambda}{eq}\tau+e^{-\kappa\alpha}+O(\tau^{-1}). \]

따라서 만기에서 멀리 떨어진 영역에서는 최적 깊이가 대략

\[ \delta^*(t,q) =\frac1\kappa \log\!\left(\frac{\lambda}{eq}(T-t)+e^{-\kappa\alpha}+O((T-t)^{-1})\right) \]

처럼 로그 형태로 증가한다. 이 식은 최적 깊이가 도착률 $\lambda$에는 증가하고, 재고 $q$, 시간 압박, 체결확률 민감도 $\kappa$, 터미널 페널티 $\alpha$에는 감소한다는 사실을 보여 준다.

수치 실험

이 절에서는 최적 집행 전략의 동학을 보기 위해 시뮬레이션을 수행한다. 기본 파라미터는 다음과 같다.

\[ T=60\text{ sec}, \qquad \lambda=50/\text{min}, \qquad \kappa=100\;\$^{-1}, \qquad \alpha=0.001\;\$/\text{share}, \]

\[ S_0=\$30.00, \qquad \sigma=0.01\;\$/\sqrt{\text{sec}}, \qquad N=5. \]

즉, 에이전트는 이 시간구간 동안 시장 전체 거래량의 약 10%를 거래한다.

Figure 8.3은 세 개의 표본경로에 대해 (a) 중간가격, (b) 최적 깊이, (c) 재고경로, (d) 평균 주당 체결가격을 보여 준다. 평균 주당 체결가격은

\[ \frac{X_t}{N-q_t} \]

로 계산된다. 또한 비교기준으로 많이 쓰이는 TWAP

\[ A_{\mathrm{TWAP}}=\frac1T\int_0^T S_u\,du \]

도 함께 표시한다.

재고경로를 보면 어떤 경로에서는 청산이 조기에 모두 끝나고(파란색, 초록색), 어떤 경로에서는 끝 시점에 남은 재고를 시장가 주문으로 마무리해야 한다(빨간색). 이와 함께 깊이경로를 보면, 지정가 주문이 체결되자마자 에이전트는 다시 깊이를 더 크게 올려 게시하고, 반대로 오랫동안 체결이 안 되면 중간가격 쪽으로 점점 더 가깝게 게시한다는 사실을 확인할 수 있다.

평균 주당 체결가격 패널에서는 알고리즘 전략(실선)이 TWAP(점선)보다 유리함을 볼 수 있다. 핵심 이유는 에이전트가 대부분의 거래를 지정가 주문으로 수행하여 중간가격 대비 추가 프리미엄을 벌기 때문이다. 다만 빨간 경로처럼 만기 전에 청산을 다 끝내지 못한 경우에는 마지막에 시장가 주문을 써야 하므로, 그동안 지정가 주문으로 벌어들인 프리미엄의 일부를 잃게 된다.

Figure 8.4의 왼쪽 패널은 10,000개 경로에 대해 만기에서 사용된 시장가 주문 수의 히스토그램을 보여 준다. 대부분의 경로에서는 만기 시장가 청산이 거의 필요하지 않음을 알 수 있다. 오른쪽 패널은 같은 10,000개 경로에 대한 재고 heat-map이며, 점선은 시점별 평균 재고이다. 평균 재고는 거의 선형적으로 줄어들며, 만기에서 아주 약간 양(+)의 값을 남긴다.

Figure 8.5는 알고리즘의 주당 체결가격과 TWAP의 차이에 대한 히스토그램을 보여 주며, 알고리즘이 제공하는 비용절감 효과를 시각적으로 나타낸다.

8.3 지수효용 극대화자의 청산

앞 절에서는 에이전트가 매도대금의 불확실성 자체에는 무관심하고, 단순히 $N$주를 팔아서 얻는 기대 수익을 최대화한다고 보았다. 그러나 더 현실적인 설정은 에이전트가 재고를 보유하는 것 자체에 위험을 느끼는 경우이다. Exercise E.8.4는 에이전트가 running inventory penalty를 포함하면 성과기준이 바뀌며, $\phi=0$인 경우에 비해 초기에 더 공격적으로, 그리고 만기 가까이에서는 상대적으로 덜 공격적으로 행동하게 됨을 보여 준다. 이렇게 하면 총 매도대금의 분포와 재고 감소 속도를 함께 통제할 수 있다.

하지만 어떤 에이전트는 단순한 재고 벌점이 아니라, 매도대금의 불확실성 자체를 직접 벌점화하고 싶어할 수 있다. 여기서는 에이전트가 지수효용(exponential utility) 을 사용하면, 적절한 상수조정과 모수 재스케일링 아래에서, 이전 절의 running inventory penalty 문제와 같은 전략이 나온다는 점을 보인다.

지수효용

\[ u(x)=-e^{-\gamma x} \]

를 사용하는 에이전트를 생각하자. 이때 성과기준은

\[ H_0(t,x,S,q) =\mathbb E_{t,x,S,q}\Big[-\exp\{-\gamma(X_\tau+Q_\tau(S_\tau-\alpha Q_\tau))\}\Big] \]

이고, 이에 대한 가치함수는

\[ H(t,x,S,q)=\sup_{\delta\in\mathcal A}H_0(t,x,S,q) \]

이다. 통상적인 논리를 따르면, 이 가치함수는 다음 DPE를 만족해야 한다.

\[ \partial_t H+\frac12\sigma^2\partial_{SS}H +\sup_{\delta}\Big\{\lambda e^{-\kappa\delta} \big[H(t,x+(S+\delta),S,q-1)-H(t,x,S,q)\big]\Big\}=0, \tag{8.12} \]

그리고 종단조건과 경계조건은

\[ H(T,x,S,q)=-e^{-\gamma(x+q(S-\alpha q))}, \qquad H(t,x,S,0)=-e^{-\gamma x} \]

이다.

책의 ansatz는

\[ H(t,x,S,q)=-e^{-\gamma(x+qS+h(t,q))} \tag{8.13} \]

이다. 이를 대입하면 $h(t,q)$는 다음 방정식을 만족한다.

\[ \partial_t h(t,q)-\frac12\sigma^2\gamma q^2 +\sup_{\delta}\left\{ \frac{\lambda}{\gamma}e^{-\kappa\delta} \Big(1-e^{-\gamma(\delta+h(t,q-1)-h(t,q))}\Big) \right\}=0, \tag{8.14} \]

종단조건과 경계조건은

\[ h(T,q)=-\alpha q^2, \qquad h(t,0)=0 \]

이다.

이 ansatz의 해석은 (8.5)와 같다. 즉, 지수효용의 지수 안에는

누적현금,
남은 재고의 mark-to-market 장부가치,
남은 재고를 최적으로 청산하여 얻는 추가 효용가치 $h(t,q)$

가 함께 들어 있다.

만약 위험회피도 $\gamma\to 0$의 극한을 취하면,

\[ \frac1\gamma\Big(1-e^{-\gamma z}\Big)\to z \]

이므로, $h$는 다음 PDE를 만족하게 된다.

\[ \partial_t h(t,q) +\sup_{\delta}\Big\{\lambda e^{-\kappa\delta} \big[\delta+h(t,q-1)-h(t,q)\big]\Big\}=0, \tag{8.15} \]

즉, 바로 이전 절의 선형효용 문제로 돌아간다.

이제 일반적인 $\gamma>0$의 경우로 돌아가자. 일차조건을 사용하면, 최적 깊이는 피드백형태로

\[ \delta_t^* =\frac1\gamma\log\!\left(1+\frac{\gamma}{\kappa}\right) +\big[h(t,q)-h(t,q-1)\big] \tag{8.16} \]

가 된다.

이 식은 이전 절의 (8.7)과 매우 유사하지만, 기준 수준(base level)이

\[ \frac1\gamma\log\!\left(1+\frac{\gamma}{\kappa}\right) \]

로 바뀐다. 이는 위험회피 편향(risk-aversion bias)로 이해할 수 있다. 실제로 $\gamma\to 0$이면

\[ \frac1\gamma\log\!\left(1+\frac{\gamma}{\kappa}\right)\to \frac1\kappa \]

이므로, 이전 절 결과가 회복된다. 또한 이 기준수준은, 한 번 지정가로 팔고 곧바로 중간가격으로 다시 사는 round-trip에 대해 효용을 최대화한 결과로도 해석할 수 있다.

(8.16)을 (8.14)에 대입하면, $h$는 다음 비선형 연립 ODE를 만족한다.

\[ \partial_t h(t,q)-\frac12\sigma^2\gamma q^2 + \frac{\lambda}{\gamma+\kappa} \left(1+\frac{\gamma}{\kappa}\right)^{-\kappa/\gamma} \exp\!\left\{-\kappa\big[h(t,q)-h(t,q-1)\big]\right\}=0. \tag{8.17} \]

여기서 $\gamma\to 0$이면 계수는

\[ \frac{\lambda}{\kappa e} \]

로 수렴하므로, 다시 (8.8)의 계수가 회복된다.

한편 running inventory penalty가 들어간 모형에서 가치함수를

\[ G(t,x,S,q)=x+qS+g(t,q) \]

라고 쓰면, $g$는 다음의 연립 ODE를 만족한다.

\[ \partial_t g(t,q)-\phi q^2 +\frac{\lambda_0}{\kappa_0 e} \exp\!\left\{-\kappa_0\big[g(t,q)-g(t,q-1)\big]\right\}=0, \]

그리고 최적전략은

\[ \delta_t^{0,*}=\frac1{\kappa_0}+g(t,q)-g(t,q-1) \]

이다. 따라서

\[ \phi=\frac12\sigma^2\gamma, \qquad \kappa_0=\kappa, \qquad \frac{\lambda_0}{\kappa_0 e} = \frac{\lambda}{\gamma+\kappa} \left(1+\frac{\gamma}{\kappa}\right)^{-\kappa/\gamma} \]

로 두면 $h(t,q)=g(t,q)$가 되고, 전략은

\[ \delta_t^*= \delta_t^{0,*} +\frac1\gamma\log\!\left(1+\frac{\gamma}{\kappa}\right)-\frac1\kappa \tag{8.18} \]

의 관계를 만족한다. 즉, 적절한 모수 재조정 아래 지수효용 극대화자의 최적전략은 running inventory penalty를 가진 에이전트의 전략과 상수 이동만큼 차이나는 동일한 형태가 된다.

추가로 가치함수도 서로 연결된다. $h(t,q)=g(t,q)$이므로,

\[ G(t,x,S,q)=-\frac1\gamma\log\big(-H(t,x,S,q)\big) \]

로 쓸 수 있다. 다시 원래의 제어문제로 쓰면,

\[ \sup_{\delta\in\mathcal A} \mathbb E^{0}_{t,x,S,q} \left[ X_T+Q_T(S_T-\alpha Q_T)-\phi\int_t^T Q_u^2\,du \right] =-\frac1\gamma\log\! \left( -\sup_{\delta\in\mathcal A} \mathbb E_{t,x,S,q} \Big[-e^{-\gamma(X_T+Q_T(S_T-\alpha Q_T))}\Big] \right), \tag{8.19} \]

여기서 $\mathbb E^0$는 재조정된 도착률 $\lambda_0$ 아래의 기댓값이다. 즉, 지수효용 문제와 running penalty 문제는 보다 일반적인 대응관계의 한 특수한 예다.

8.4 지정가 주문과 시장가 주문을 함께 사용하는 청산

앞의 두 절에서는 에이전트가 지정가 주문만 게시한다고 가정했다. 그리고 재고가 고정되어 있을 때, 만기가 가까워질수록 더 공격적으로, 즉 더 작은 깊이에 지정가 주문을 게시한다는 사실을 보였다. 이제는 여기에 더해 시장가 주문도 허용한다.

만약 에이전트가 스케줄에 비해 많이 뒤처졌고, 만기가 가까운데도 아직 청산해야 할 재고가 많이 남아 있다면, 전략을 목표궤도로 되돌리기 위해 시장가 주문을 사용할 유인이 생긴다. 따라서 이제 문제는 최적의 연속제어(지정가 깊이 선택)와 함께, 어느 시점들에서 시장가 주문을 실행할지에 대한 최적 정지시각들의 열도 함께 찾아야 한다.

에이전트의 최적화 문제

이를 형식화하기 위해서는 이제 다른 트레이더들의 시장가 주문, 에이전트가 게시한 지정가 주문의 체결, 그리고 에이전트 자신의 시장가 주문을 모두 추적해야 한다. 새로 추가되는 과정과 현금과정의 수정은 다음과 같다.

$M=(M_t)_{0\le t\le T}$ : 에이전트 자신의 시장가 주문 수를 나타내는 counting process.
이에 대응하는 증가하는 정지시각열은

\[ \mathcal T=\{T_k:k=1,\dots,K\},\qquad K\le N, \]

로 쓴다. 즉,

\[ M_t=\sum_{k=1}^K \mathbf 1_{\{T_k\le t\}}. \]

에이전트는 최대 $N$번까지 시장가 주문을 낼 수 있다.

$\ell$ : half-spread, 즉 최우선 매도호가와 최우선 매수호가 사이 거리의 절반.
현금과정은 이제

\[ dX_t=(S_t+\delta_t)\,dN_t+(S_t-\ell)\,dM_t \]

를 만족한다.

첫 번째 항은 에이전트의 지정가 주문이 체결될 때 현금이 증가하는 부분이고, 두 번째 항은 에이전트가 직접 매도 시장가 주문을 실행할 때의 현금 증가분이다. 에이전트가 매도 시장가 주문을 쓰면 스프레드를 건너 최우선 매수호가에서 체결되므로, 1단위당 수취가격은 중간가격에서 half-spread를 뺀 $S_t-\ell$이다. 또한 이 절에서는 에이전트가 실행하는 시장가 주문의 크기가 충분히 작아서 추가로 호가창을 먹어 들어가지는 않는다고 가정한다.

이번에는 에이전트가 전략 내내 재고 보유를 불편하게 여긴다고 가정한다. 따라서 Section 8.2와 달리 running inventory penalty 를 성과기준에 넣는다. 이는 Section 6.5의 식 (6.20)과 같은 종류의 urgency penalty이다. 구체적으로 성과기준은

\[ H^{(\mathcal T,\delta)}(t,x,S,q) =\mathbb E_{t,x,S,q}\left[ X_\tau^{\mathcal T,\delta} +Q_\tau^{\mathcal T,\delta}S_\tau -\mathcal E\big(Q_\tau^{\mathcal T,\delta}\big) -\phi\int_t^{\tau}\big(Q_u^{\mathcal T,\delta}\big)^2du \right], \tag{8.20} \]

이고, 최종 청산비용은

\[ \mathcal E(q)=q(\ell+\alpha q) \]

이다.

즉, 끝 시점에 남은 재고를 청산할 때는 단순히 선형 충격 $\alpha q$만이 아니라, half-spread $\ell$도 함께 지불해야 한다. 왜냐하면 만기에서 남은 재고를 시장가 주문으로 전부 처리해야 하므로, 스프레드를 건너고 호가창도 걸어 들어가야 하기 때문이다. 따라서 재고는 지정가 체결이 일어날 때도, 시장가 주문을 스스로 실행할 때도 줄어든다.

허용전략집합 $\mathcal A$는 이제 $\mathbb F$-정지시각열과 $\mathbb F$-예측가능한 깊이전략을 동시에 포함한다. 이에 대한 가치함수는

\[ H(t,x,S,q)=\sup_{(\mathcal T,\delta)\in\mathcal A} H^{(\mathcal T,\delta)}(t,x,S,q) \]

이다.

결과로 얻어지는 QVI

이제 DPP는 보통의 비선형 PDE가 아니라 quasi-variational inequality (QVI) 를 준다.

\[ \max\Bigg\{ \partial_t H+\frac12\sigma^2\partial_{SS}H-\phi q^2 +\sup_{\delta}\lambda e^{-\kappa\delta} \big[H(t,x+(S+\delta),S,q-1)-H(t,x,S,q)\big], \]

\[ \hspace{5em} H(t,x+(S-\ell),S,q-1)-H(t,x,S,q) \Bigg\}=0, \tag{8.21} \]

경계조건과 종단조건은

\[ H(t,x,S,0)=x, \qquad H(T,x,S,q)=x+qS-\mathcal E(q) \]

이다.

이 식의 해석은 다음과 같다.

바깥쪽의 max 연산자는 에이전트가 지금 지정가 주문을 계속 게시할지(continuation region) 아니면 즉시 시장가 주문을 실행할지(stopping region) 를 비교한다.
continuation 쪽 항 안에서는
- $\partial_{SS}$가 중간가격 브라운운동의 생성자 역할을 하고,
- $-\phi q^2$가 running inventory penalty를 나타내며,
- supremum은 게시 깊이 선택권을 반영하고,
- $\lambda e^{-\kappa\delta}$는 내 지정가 주문을 실제로 체결시키는 외부 시장가 주문의 유효 도착률이며,
- 차분항은 지정가 체결 시 현금은 $S+\delta$만큼 늘고 재고는 1 줄어드는 효과를 나타낸다.
max의 두 번째 항

\[ H(t,x+(S-\ell),S,q-1)-H(t,x,S,q) \]

은 지금 당장 시장가 주문을 실행했을 때의 가치증가를 의미한다.

마찬가지로 종단조건과 경계조건을 보면, 가치함수에 대해

\[ H(t,x,S,q)=x+qS+h(t,q) \]

라는 ansatz를 쓰는 것이 자연스럽다. 대입하면 $h(t,q)$는 훨씬 단순한 QVI를 만족한다.

\[ \max\Bigg\{ \partial_t h(t,q)-\phi q^2 +\sup_{\delta}\lambda e^{-\kappa\delta} \big[\delta+h(t,q-1)-h(t,q)\big], \]

\[ \hspace{5em} -\ell+h(t,q-1)-h(t,q) \Bigg\}=0, \qquad q=1,\dots,N, \tag{8.22a} \]

\[ h(T,q)=-\mathcal E(q), \tag{8.22b} \]

\[ h(t,0)=0. \tag{8.22c} \]

우선 continuation 부분의 supremum에 집중하면, Section 8.2와 똑같은 계산으로 최적 게시 깊이는

\[ \delta^*(t,q)=\frac1\kappa+h(t,q)-h(t,q-1) \tag{8.23} \]

이 된다. 형식상으로는 지정가만 허용한 경우와 완전히 동일하지만, 여기서 들어가는 $h(t,q)$ 자체는 QVI를 풀어서 얻어야 하므로 실제 전략은 달라진다.

한편 시장가 주문을 실행할 최적 시점도 간단한 피드백 조건으로 쓸 수 있다. (8.22a)에서 시장가 주문을 실행하는 임계시각 $T_q$는

\[ h(T_q,q-1)-h(T_q,q)=\ell \tag{8.24} \]

을 만족하는 시점이다. 즉, 재고를 한 단위 줄였을 때 가치함수의 증가가 half-spread $\ell$와 같아지는 순간이 바로 시장가 주문을 실행하는 시점이다. 이를 이용하면 최적 지정가 깊이에 대해

\[ \delta^*(t,q)\ge \frac1\kappa-\ell \]

라는 단순한 하한도 얻는다. 따라서 만약 전략이 항상 $\delta\ge 0$이어야 한다면, 적어도

\[ \ell<\frac1\kappa \]

같은 조건이 필요하다.

(8.23)을 QVI에 대입하면, $h(t,q)$는 다음을 만족한다.

\[ \max\Bigg\{ \partial_t h(t,q)-\phi q^2 +\frac{\lambda}{\kappa e} \exp\!\left\{-\kappa\big[h(t,q)-h(t,q-1)\big]\right\}, \ -\ell+h(t,q-1)-h(t,q) \Bigg\}=0. \tag{8.25} \]

만기에서는 에이전트가 남은 재고를 주당 $\ell+\alpha q$의 비용을 지불하며 강제 청산해야 한다. 하지만 만기 직전 순간에 시장가 주문을 실행하면, 주당 비용은 $\ell$만 내면 된다. 따라서 남은 재고를 만기까지 들고 가는 것은 결코 최적이 아니다. 이 때문에 해의 왼쪽극한은 종단조건과 달라지며,

\[ h(T^-,q)=-q\ell, \qquad q>0 \]

가 된다. 이러한 현상을 흔히 face-lifting 이라고 부른다.

이제 다시 다음 변환을 도입하자.

\[ h(t,q)=\frac1\kappa\log w(t,q). \]

그러면 $w(t,q)$는 다음의 연립 QVI를 만족한다.

\[ \max\Bigg\{ \partial_t w(t,q)-\kappa\phi q^2w(t,q)+\frac{\lambda}{e}w(t,q-1), \ e^{-\kappa\ell}w(t,q-1)-w(t,q) \Bigg\}=0, \tag{8.26a} \]

종단조건과 경계조건은

\[ w(T,q)=e^{-\kappa\mathcal E(q)}, \qquad w(t,0)=1, \qquad q=1,\dots,N. \tag{8.26b} \]

이다.

이 연립방정식의 직관은 간단하다. 먼저 $q=0$에서 $w(t,0)=1$을 알고, 이를 사용해 $w(t,1)$을 푼다. 그 다음 $w(t,1)$이 $w(t,2)$의 식에 들어가고, 다시 그것이 $w(t,3)$에 들어가는 식으로 순차적으로 올라간다.

DPE의 해법

이제 먼저 해석해를 어떻게 구성하는지를 보여 준 뒤, 이후에는 explicit finite-difference scheme으로 수치구현을 생각한다.

$q=1$인 경우

$q=1$이면 $w(t,0)=1$이므로, $w(t,1)$은

\[ \max\Big\{ \partial_t w(t,1)-\kappa\phi w(t,1)+\frac{\lambda}{e}, \ e^{-\kappa\ell}-w(t,1) \Big\}=0, \tag{8.27a} \]

\[ w(T,1)=e^{-\kappa(\ell+\alpha)}. \tag{8.27b} \]

을 만족한다. 위에서 설명한 것처럼 만기 직전에는 모든 양의 재고에 대해 시장가 주문을 실행하는 것이 최적이므로,

\[ w(T^-,q)=e^{-\kappa q\ell} \]

이다. 이제 continuation region에서의 ODE

\[ \partial_t g_1(t)-\kappa\phi g_1(t)+\frac{\lambda}{e}=0, \qquad g_1(T^-)=e^{-\kappa\ell} \]

의 해는

\[ g_1(t)=e^{-\kappa\ell}e^{-\kappa\phi(T-t)} +\frac{\lambda}{\kappa\phi e}\Big(1-e^{-\kappa\phi(T-t)}\Big) \tag{8.28} \]

이다.

따라서 이 QVI의 해는 모수의 상대적 크기에 따라 두 가지 거동을 보인다.

첫째,

\[ \frac{\lambda}{\kappa\phi e}\ge e^{-\kappa\ell} \qquad\Longleftrightarrow\qquad \phi\le \frac{\lambda e^{\kappa\ell-1}}{\kappa} \]

이면 모든 $t\in(0,T)$에 대해 $g_1(t)\ge e^{-\kappa\ell}$이다. 즉 continuation value가 immediate execution value보다 크므로,

\[ w(t,1)=g_1(t)\mathbf 1_{\{t<T\}}+e^{-\kappa(\ell+\alpha)}\mathbf 1_{\{t=T\}} \]

가 되고, 만기 직전 순간을 제외하면 시장가 주문을 실행하지 않는다. 이때 최적 지정가 깊이는

\[ \delta^*(t,1)=\frac1\kappa+\frac1\kappa\log g_1(t) \]

이며, 만기가 가까워질수록 점점 좁아진다.

둘째,

\[ \frac{\lambda}{\kappa\phi e}< e^{-\kappa\ell} \]

이면 모든 $t\in(0,T)$에 대해 $g_1(t)<e^{-\kappa\ell}$이다. 즉 continuation value가 execution value보다 항상 작으므로,

\[ w(t,1)=e^{-\kappa\ell}\mathbf 1_{\{t<T\}}+e^{-\kappa(\ell+\alpha)}\mathbf 1_{\{t=T\}} \]

가 되고, 언제나 즉시 시장가 주문을 실행하는 것이 최적이다. 재무적 직관은 분명하다. running penalty가 충분히 작으면 기다리면서 지정가 주문 체결을 노릴 수 있지만, penalty가 너무 크면 기다릴 이유가 사라져 즉시 시장가 주문을 내는 편이 낫다.

$q=2$인 경우

$q=2$이면 문제는 더 풍부한 구조를 갖는다. 이 경우 QVI는

\[ \max\Big\{ \partial_t w(t,2)-4\kappa\phi w(t,2)+\frac{\lambda}{e}w(t,1), \ e^{-\kappa\ell}w(t,1)-w(t,2) \Big\}=0, \]

\[ w(T,2)=e^{-2\kappa(\ell+2\alpha)} \]

이 된다.

앞 절과 마찬가지로, 명시적인 종단조건은 존재하지만 실제 최적전략은 만기 직전 한 단위의 시장가 주문을 실행하도록 만들므로, 종단조건은 face-lift되어

\[ w(T^-,2)=e^{-\kappa\ell}w(T^-,1)=e^{-2\kappa\ell} \]

가 된다.

이제 $q=1$일 때 continuation이 최적인 경우, 즉 low penalty regime을 생각하자. 이 경우 어떤 임계시각 $T_2$까지는 지정가 주문을 게시하고, 그 시점에서 시장가 주문을 실행하게 된다. 이 $T_2$는 $w(t,2)$가 immediate execution value

\[ w(t,2)=e^{-\kappa\ell}w(t,1) \]

에서 떨어져 나오는 시점이며, 연속성과 미분연속성을 요구하여 결정된다.

continuation region에서의 방정식을 $t=T_2$에서 쓰면

\[ 0= \partial_t w(T_2,2)-4\kappa\phi w(T_2,2)+\frac{\lambda}{e}w(T_2,1). \]

그런데 경계에서 $w(T_2,2)=e^{-\kappa\ell}w(T_2,1)$이고, 또 $q=1$ continuation region에서는

\[ \partial_t w(t,1)=\kappa\phi w(t,1)-\frac{\lambda}{e} \]

이므로, 이를 대입하면 결국 $T_2$는

\[ \big(\lambda-3\kappa\phi e^{-\kappa\ell}\big)w(T_2,1)=\lambda e^{-2\kappa\ell} \tag{8.29} \]

을 만족하는 시점이 된다.

이 식은 $w(t,1)=g_1(t)$를 사용하면 명시적으로도, 또는 수치적인 zero finder를 통해서도 풀 수 있다. 또한 이번에도 모수의 크기에 따라 두 경우가 생긴다.

어떤 파라미터 영역에서는 (8.29)의 해가 존재하므로, $q=2$를 보유한 에이전트는 $[0,T_2)$ 동안 지정가 주문을 게시하다가, 시각 $T_2$에서 즉시 시장가 주문을 실행한다.
반대로 running penalty가 너무 크면 (8.29)의 해가 존재하지 않으며, 이 경우에는 지정가 주문을 전혀 게시하지 않고 즉시 시장가 주문을 실행하는 것이 최적이다.

직관은 동일하다. penalty가 너무 크면 기다리며 체결을 기대할 이유가 없고, 반대로 penalty가 충분히 작으면 일정 시점까지는 patience를 가지고 지정가 주문을 게시하다가, 임계시각이 오면 시장가 주문으로 전략을 따라잡는다.

$\phi<(\lambda e^{\kappa\ell-1})/(3\kappa)$ 같은 low penalty 영역에 있다고 가정하면, $T_2$ 이후의 continuation equation을 뒤로 적분하여 $w(t,2)$를 구할 수 있고, 그에 따라 최적 깊이도

\[ \delta^*(t,2)=\frac1\kappa+\frac1\kappa\log\frac{w(t,2)}{w(t,1)} \]

로 주어진다.

일반적인 $q$에 대해서도 같은 절차를 재귀적으로 반복하면, 각 재고수준마다 시장가 주문을 실행할 최적시점들과 지정가 주문의 최적 깊이를 얻을 수 있다. 다만 공식은 빠르게 복잡해지므로, 책은 이후 수치적 접근을 취한다.

수치 실험

이 절에서는 explicit finite-difference scheme을 이용하여 최적전략을 계산한다. 파라미터는 다음과 같다.

\[ T=1\text{ min}, \qquad N=10, \qquad \lambda=50/\text{min}, \qquad \kappa=100, \]

\[ S_0=\$30.00, \qquad \sigma=\$0.01, \qquad \ell=0.005, \qquad \alpha=0.001, \]

즉, 에이전트는 이 구간 동안 전체 시장거래량의 약 20%를 거래한다. running penalty 파라미터 $\phi$는 전략에 미치는 영향을 보기 위해 여러 값으로 바꿔 본다.

Figure 8.6은 최적 지정가 깊이와, 언제 시장가 주문을 실행해야 하는지를 보여 준다. 비교를 위해 TWAP 스케줄도 함께 그려져 있다. 앞과 마찬가지로 최적 깊이는 재고와 시간에 대해 감소한다. 즉, 남은 재고가 많거나 만기가 가까울수록 에이전트는 더 공격적으로, 중간가격 가까이에 지정가 주문을 둔다.

오른쪽 패널의 점들은 시장가 주문을 실행해야 하는 시점을 뜻한다. 해석은 다음과 같다. 어떤 시각에서 에이전트의 재고가 그 시점 점의 오른쪽 영역에 해당하면, 즉시 시장가 주문을 실행해야 한다. 그 이전 구간에서는 왼쪽 패널에 표시된 최적 깊이로 지정가 주문을 게시한다. 예를 들어 $\phi=10^{-4}$일 때, 초기 시점 $t=0$에서 에이전트는 재고 10주 중 4주를 즉시 시장가 주문으로 처리하여 재고를 6까지 줄인다. 그 다음에는 깊이 약 0.007에 지정가 주문을 게시하고, 시간이 흐르면서 약 0.005까지 서서히 낮춘다. 그 사이 시장가 주문이 도착하여 체결되면 재고가 줄어들고, 만약 약 40초까지도 체결되지 않으면 다시 시장가 주문을 실행하여 재고를 5로 떨어뜨린다. 이후에도 같은 방식이 반복된다.

추가로 전략의 동적인 형태를 보기 위해 $\phi=10^{-4}$로 두고 시뮬레이션을 수행하면, Figure 8.7에서 세 개의 표본경로에 대한 중간가격, 깊이, 재고, 주당 비용을 볼 수 있다. 재고 패널의 파란 점은 시장가 주문을 실행한 시점이다. 모든 시나리오에서 초기에는 4번의 시장가 주문이 즉시 실행되며, 이후에는 지정가 주문이 체결되거나 시장가 주문을 실행할 때마다 최적 깊이가 위로 점프한 뒤 다시 시간에 따라 감소한다.

마지막으로 Figure 8.8의 왼쪽 패널은 10,000개 경로에서의 재고 heat-map과 평균 재고를 보여 준다. 모든 경로에서 초기에 4번의 시장가 주문이 실행되므로 재고가 즉시 $Q_0=6$으로 떨어지고, 그 이후에는 지정가 주문의 깊이를 조절하며 천천히 남은 재고를 줄여 나간다. 대부분의 시나리오에서는 만기 직전에 재고 1주 혹은 0주를 들고 있다. 만약 만기 직전에 재고가 남아 있으면, 에이전트는 시장가 주문을 연속으로 실행하여 종단시점에 도달하기 전에 전량을 청산한다. 이렇게 해야 만기에서 호가창을 걸어 들어가며 발생하는 터미널 페널티를 피할 수 있다.

Figure 8.8의 오른쪽 패널은 $\phi$를 변화시켰을 때의 risk-reward 관계를 보여 준다. 도착가격 대비 손익(P&L)을

\[ R=X_T-Q_T(S_T-\ell-\alpha Q_T) \]

로 정의하면, $\phi$를 증가시킬수록

수익의 표준편차는 감소하고,
평균 P&L도 함께 감소한다.

극한적으로는 P&L이 $-0.005$로 수렴하는데, 이는 여기서 사용한 half-spread $\ell$과 같다. 즉, penalty가 매우 크면 에이전트는 거의 즉시 모든 물량을 시장가 주문으로 던지게 되고, 그 결과 half-spread 비용을 그대로 부담하게 된다.

8.5 지정가 주문과 시장가 주문을 이용한 스케줄 추적 청산

앞 절들에서는 에이전트가 $N$주를 청산하면서, 재고가 0에서 벗어나는 것을

\[ \phi\int_t^T Q_u^2\,du \]

같은 running inventory penalty로 벌점화하는 문제를 다루었다. 이 항은 에이전트가 재고를 빨리 없애고 싶어하는 urgency, 혹은 어느 한 시점에 재고를 많이 들고 있는 것에 대한 불편함을 나타낸다. 다시 말해, 그 전략은 사실상 모든 시점에서 목표 재고를 0으로 두는 스케줄 을 추적하는 것으로 해석할 수 있다.

하지만 어떤 에이전트는 단순히 0을 목표로 하는 대신, 특정한 목표 재고 스케줄 $q_t$ 를 추적하고 싶어할 수 있다. 예를 들어 TWAP가 암시하는 inventory schedule을 따르고 싶을 수도 있고, 6장에서 연속거래모형으로 얻었던 어떤 결정론적 스케줄을 기준으로 삼고 싶을 수도 있다.

이를 위해 에이전트가 추적하고자 하는 결정론적 스케줄을 $q_t$라고 하자. 그러면 이전 절의 running penalty

\[ \phi\int_t^T Q_u^2\,du \]

를 다음으로 바꾸면 된다.

\[ \phi\int_t^T (Q_u-q_u)^2\,du. \]

이렇게 하면 전략이 목표스케줄 $q_t$에서 벗어날수록 벌점을 받게 된다. 벌점의 세기는 여전히 $\phi$가 결정한다. 물론 $q_t\equiv 0$으로 두면, 이는 바로 이전 절의 running inventory penalty 문제로 돌아간다.

책은 연습문제로 남기지만, 성과기준에서 위 교체를 하고 ansatz를 여전히

\[ H(t,x,S,q)=x+qS+h(t,q) \]

로 두면, 최적전략은 여전히

\[ \delta^*= \frac1\kappa+h(t,q)-h(t,q-1) \]

형태가 되고, 시장가 주문 실행시각 $T_q$는

\[ h(T_q,q-1)-h(T_q,q)=\ell \]

을 만족하게 된다. 또한 $h$는 이전 절의 QVI를 다음과 같이 바꾼 방정식을 만족한다.

\[ \max\Bigg\{ \partial_t h(t,q)-\phi(q-q_t)^2 +\frac{\lambda}{\kappa e} \exp\!\left\{-\kappa\big[h(t,q)-h(t,q-1)\big]\right\}, \ -\ell+h(t,q-1)-h(t,q) \Bigg\}=0, \tag{8.29} \]

종단조건과 경계조건은

\[ h(T,q)=-\mathcal E(q), \qquad h(t,0)=-\phi\int_t^T q_u^2\,du \]

이다.

이전과 똑같이

\[ h(t,q)=\frac1\kappa\log w(t,q) \]

라는 변환을 쓰면, $w(t,q)$는 다음 QVI를 만족한다.

\[ \max\Bigg\{ \big(\partial_t-\kappa\phi(q-q_t)^2\big)w(t,q)+\frac{\lambda}{e}w(t,q-1), \ e^{-\kappa\ell}w(t,q-1)-w(t,q) \Bigg\}=0, \]

종단조건과 경계조건은

\[ w(T,q)=e^{-\kappa\mathcal E(q)}, \qquad w(t,0)=\exp\!\left(-\kappa\phi\int_t^T q_u^2\,du\right) \]

이다.

수치 실험

이 QVI 역시 앞 절처럼 해석적으로 풀 수 있지만, 여기서는 수치적으로 풀어 전략의 특징을 본다. 사용하는 파라미터는 다음과 같다.

\[ T=60\text{ sec}, \qquad S_0=\$30.00, \qquad N=10, \qquad \lambda=50/\text{min}, \]

\[ \sigma=\$0.01, \qquad \ell=0.005, \qquad \kappa=100, \qquad \alpha=0.001, \qquad \phi=10^{-3}. \]

목표스케줄 $q_t$는 Section 6.5에서 temporary impact와 permanent impact를 가진 연속 Almgren–Chriss(AC) 청산 스케줄로 둔다. 책의 식 (6.30)을 다시 쓰면

\[ q_t= \frac{e^{\zeta (T-t)}-e^{-\zeta (T-t)}}{e^{\zeta T}-e^{-\zeta T}}\,N, \]

여기서

\[ \zeta=\sqrt{\frac{\phi}{k}}, \qquad \text{그리고} \qquad \alpha-\frac12 b+\gamma k\phi, \ \alpha-\frac12 b-\gamma k\phi \]

와 같은 6장의 파라미터가 사용된다. 수치실험에서는

\[ T=60\text{ sec}, \qquad N=10, \qquad k=0.001, \qquad \phi=10^{-5}, \qquad b=0, \qquad \alpha=+\infty \]

를 쓴다.

Figure 8.9는 네 가지를 보여 준다.

좌상단: 각 시점과 재고수준에서의 최적 지정가 깊이
우상단: 각 재고수준에서 시장가 주문을 실행해야 하는 시점
좌하단: 10,000회 시뮬레이션에 대한 재고 heat-map
우하단: 전략 전체 동안 실행된 시장가 주문 횟수의 히스토그램

이 그림에서 몇 가지 전형적 특징이 드러난다.

첫째, 시간이 흐를수록 지정가 주문은 점점 중간가격 가까이에 게시된다. 에이전트는 시간이 부족해질수록 목표스케줄을 맞추기 위해 더 공격적으로 변한다. 반대로 현재 재고가 목표보다 앞서 있는 상태라면, 더 깊게 게시해서 추가 수익을 노릴 수 있다.

둘째, 시장가 주문을 실행하는 시점은 최적 지정가 깊이가 하한

\[ \delta^*=\frac1\kappa-\ell \]

에 닿는 순간들과 연결된다.

셋째, 시장가 주문 실행시점(파란 점)은 목표스케줄이 급격히 변하는 구간에서는 그 스케줄을 비교적 밀접하게 따르지만, 목표가 완만하게 변하는 구간에서는 어느 정도의 slack을 허용한다. 이 slack은 벌점 $\phi$를 더 키우면 줄일 수 있다.

시뮬레이션에서 에이전트는 평균적으로 약 4.36회의 시장가 주문만 실행한다. 이는 청산해야 하는 총재고 $N=10$보다 상당히 적다. 이들 시장가 주문의 대부분은 목표스케줄이 빠르게 바뀌는 초기 10초 안에 집중되어 나타난다. heat-map에서는 시장가 주문이 실행되는 각 stopping time마다 재고가 아래로 점프한다. 마지막으로, 대부분의 경로에서는 만기 직전까지 재고 1단위를 들고 있게 된다.

'Financial Engineering > ALGORITHMIC AND HIGH-FREQUENCY TRADING' 카테고리의 다른 글

Chapter 10. Market Making (0)	2026.03.22
9 (1)	2026.03.22
Chapter 7. Optimal Execution with Continuous Trading II (0)	2026.03.22
Chapter 6. Optimal Execution with Continuous Trading I (0)	2026.03.22
Chapter 5. Stochastic Optimal Control and Stopping (0)	2026.03.22

8

Algorithmic and High-Frequency Trading — Chapter 8Optimal Execution with Limit and Market Orders

PART A — 선수지식

1. 확률공간, \(\sigma\)-대수, 랜덤변수

정의 1.1

정의 1.2

보조정리 1.3

증명

정의 1.4

정의 1.5

2. 라돈–니코딤 정리와 조건부기대의 존재

정리 2.1 (Hahn 분해 정리)

증명

정리 2.2 (Radon–Nikodym 정리, 유한 양의 측도형)

증명

정리 2.3 (조건부기대의 존재)

증명

정리 2.4 (유일성)

증명

정리 2.5 (Pull-out property)

증명

정리 2.6 (Tower property)

증명

정리 2.7 (조건부 Jensen 부등식)

증명

정의 3.1

정의 3.2

정의 3.3

정의 3.4

정리 3.5 (단순 stopping time에 대한 optional sampling)

증명

정리 3.6 (bounded stopping time에 대한 optional sampling)

증명

정의 4.1

보조정리 4.2 (작은 시간 확률)

증명

정리 4.3 (첫 도착시간의 분포)

증명

정리 4.4 (memoryless property)

증명

정리 4.5 (inter-arrival times의 i.i.d. 성질)

증명

정리 4.6 (compensated Poisson martingale)

증명

정의 4.7

정리 4.8

증명

정의 5.1

정리 5.2 (순수 counting liquidation의 generator)

증명

정리 5.3 (diffusion + counting jump의 generator)

증명

정리 5.4 (Dynkin 공식의 점프형)

증명

정의 6.1

정리 6.2 (DPP)

증명

1단계: \(\le\) 방향

2단계: \(\ge\) 방향

3단계: 결론

정리 6.3 (DPP에서 HJB의 유도)

증명

정리 7.1

증명

정의 8.1

정리 8.2

증명

정리 8.3

증명

정리 8.4 (jump 후 비율 계산)

증명

가정 9.1

정리 9.2 (가치함수의 HJB)

증명

정리 9.3 (선형 ansatz의 축약)

증명

정리 9.4 (지수형 intensity 아래의 interior optimizer)

증명

가정 10.1

정리 10.2 (지수효용 HJB)

Algorithmic and High-Frequency Trading — Chapter 8
Optimal Execution with Limit and Market Orders