Algorithmic and High-Frequency Trading — Chapter 5
Stochastic Optimal Control and Stopping
문서 구성
이 문서는 Part A — 선수지식과 Part B — Chapter 5 본문으로 구성되어 있다. Part A에는 5장을 정확하게 이해하는 데 필요한 해석학, 측도론, 조건부기대, 마팅게일, 균등적분가능성, 브라운 운동, Itô 적분, 확률미분방정식, 측도변환, Girsanov 정리, Feynman–Kac, stopping/control 검증 논리까지 포함했다. Part B에는 원문 Chapter 5의 핵심 구조를 빠짐없이 따라가되, 문장과 수식의 역할을 훨씬 더 서술형으로 풀어 적었다.
Part A — 선수지식
1. 해석학과 최적화의 최소 골격
1.1 Supremum, essential supremum, admissible set
확률제어에서 가장 자주 등장하는 기호는 \(\sup\)이다. 제어 \(u\)를 바꿀 수 있을 때 우리는 가능한 모든 성과지표 중 최대값을 찾는다. 그런데 확률공간 위의 제어문제에서는 점별 최대보다 거의 확실한 의미의 최소 상계가 더 자연스럽다. 그래서 \(L^0\)나 조건부 가치함수에서는 essential supremum이 중요하다. 직관적으로는 확률 \(0\)인 예외집합을 무시하고도 성립하는 가장 작은 상계다.
정의
집합 \(A\subset\mathbb{R}\)의 상한 \(\sup A\)는 \(a\le s\) for all \(a\in A\)이고, 다른 모든 상계 \(u\)에 대해 \(s\le u\)를 만족하는 \(s\)다.
확률변수족 \(\mathcal{X}\)의 essential supremum \(\operatorname{ess\,sup}\mathcal{X}\)는 모든 \(X\in\mathcal{X}\)에 대해 \(X\le Y\) a.s. 이고, 이 성질을 만족하는 다른 \(Z\)에 대해 \(Y\le Z\) a.s. 인 확률변수 \(Y\)다.
또한 제어문제의 \(\mathcal{A}_{t,T}\)는 단순히 “아무 함수나 넣는 집합”이 아니라, 보통 예측가능성, 적분가능성, self-financing 조건, 혹은 비음수/유계성 제약을 만족하는 허용 제어집합이다. DPP와 HJB는 이 admissible set 위에서만 의미가 있다.
1.2 완비성, Cauchy, Grönwall
SDE 존재와 유일성, Picard iteration, 모멘트 추정은 결국 적절한 함수공간에서 코시수열을 만든 뒤 그 극한이 실제 해임을 보여주는 구조다. 이때 핵심은 완비성이다. 그리고 반복차이의 적분부등식을 닫는 데는 거의 예외 없이 Grönwall lemma가 사용된다.
정리 (Grönwall)
비음수 함수 \(g\)가
를 만족하면
증명
보조함수 \(G(t):=a+b\int_0^t g(s)\,ds\)를 두면 \(g(t)\le G(t)\), \(G'(t)=bg(t)\le bG(t)\)다. 따라서
즉 \(e^{-bt}G(t)\)는 감소하므로 \(G(t)\le G(0)e^{bt}=ae^{bt}\). 마지막으로 \(g(t)\le G(t)\)이므로 \(g(t)\le ae^{bt}\)다. ∎
2. 측도론, 절대연속성, Radon–Nikodým 정리
2.1 \(\sigma\)-대수와 측도
\((\Omega,\mathcal{F},\mathbb{P})\)는 확률공간이다. \(\mathcal{F}\)는 사건들의 \(\sigma\)-대수이고, \(\mathbb{P}\)는 \(\mathcal{F}\) 위의 확률측도다. 부분 \(\sigma\)-대수 \(\mathcal{G}\subseteq\mathcal{F}\)는 “덜 많은 정보”를 나타낸다. 조건부기대는 바로 이 부분정보에 대해 적분을 다시 표현하는 장치다.
정의 (절대연속성)
두 측도 \(\nu,\mu\)가 같은 측정공간 \((\Omega,\mathcal{F})\) 위에 있고, \(\mu(A)=0\Rightarrow \nu(A)=0\)가 모든 \(A\in\mathcal{F}\)에 대해 성립하면 \(\nu\ll\mu\)라고 쓴다.
2.2 Radon–Nikodým 정리
조건부기대, 밀도과정, 측도변환은 모두 하나의 공통 구조를 갖는다. 어떤 선형 functional 또는 다른 측도 \(\nu\)를, 기준측도 \(\mu\)에 대한 적분 형태로 다시 쓰는 것이다. 이 재표현을 가능하게 하는 정리가 바로 Radon–Nikodým 정리다. Chapter 5에서는 \(\frac{d\mathbb Q}{d\mathbb P}\), \(Z_t\), \(\mathbb E[X\mid\mathcal G]\)를 모두 이 정리의 서로 다른 얼굴로 본다.
정의 (signed measure, Hahn 분해, total variation)
signed measure \(\lambda\)는 countable additivity를 만족하지만 음수 값도 허용하는 집합함수다. \(P,N\in\mathcal F\)가 \(P\cup N=\Omega\), \(P\cap N=\varnothing\) 이고 모든 \(A\subset P\)에서는 \(\lambda(A)\ge 0\), 모든 \(A\subset N\)에서는 \(\lambda(A)\le 0\)이면 \((P,N)\)을 Hahn 분해라 한다. Jordan 분해는 \(\lambda=\lambda^+-\lambda^-\) 꼴의 두 양의 측도 표현이고, total variation은 \(|\lambda|=\lambda^++\lambda^-\)다.
정리 (Radon–Nikodým)
\((\Omega,\mathcal F)\) 위의 \(\sigma\)-유한 측도 \(\mu,\nu\)가 \(\nu\ll \mu\)를 만족한다고 하자. 그러면 어떤 \(\mathcal F\)-가측 함수 \(f\ge 0\)가 존재하여 모든 \(A\in\mathcal F\)에 대해
가 성립한다. 이 \(f\)는 \(\mu\)-a.s. 유일하며 \(\frac{d\nu}{d\mu}\)로 쓴다.
증명
1단계: 유한측도 경우를 먼저 증명한다. 집합
를 둔다. \(g\equiv 0\in\mathcal C\)이므로 공집합이 아니다. 또한 \(g,h\in\mathcal C\)이면 \(g\vee h\in\mathcal C\)다. 실제로 \(B:=\{g\ge h\}\)라 두면 임의의 \(A\in\mathcal F\)에 대해
2단계: 최대화 함수 \(h\)를 만든다. \(\alpha:=\sup_{g\in\mathcal C}\int g\,d\mu\)라 두고 \(\int g_n\,d\mu\uparrow \alpha\)인 수열 \(g_n\in\mathcal C\)를 택한다. \(h_n:=g_1\vee\cdots\vee g_n\)라 두면 \(h_n\in\mathcal C\), \(h_n\uparrow h\) for some measurable \(h\ge 0\). 단조수렴정리에 의해 모든 \(A\in\mathcal F\)에 대해
따라서 \(h\in\mathcal C\)이고 \(\int h\,d\mu=\alpha\)다.
3단계: 잔차측도 \(\lambda:=\nu-h\mu\)가 0임을 보인다. \(h\in\mathcal C\)이므로 \(\lambda(A)\ge 0\) for all \(A\). \(\lambda\not\equiv 0\)라 하자. 그러면 어떤 \(B\in\mathcal F\)에 대해 \(\lambda(B)>0\). 또한 \(\nu\ll\mu\)이므로 \(\mu(B)=0\)이면 \(\nu(B)=0\)이어서 \(\lambda(B)=0\)가 되어 모순이다. 그러므로 \(\mu(B)>0\)다.
이제 \(\varepsilon:=\lambda(B)/(2\mu(B))>0\)를 택한다. 그러면
또한 \(A\subset B^c\)이면 변함이 없고, 일반 \(A\)는 \(A=(A\cap B)\cup(A\cap B^c)\)로 나누면
따라서 \(h+\varepsilon\mathbf 1_B\in\mathcal C\). 그런데
이므로 \(\int h\,d\mu=\alpha\)의 최대성과 모순이다. 따라서 \(\lambda\equiv 0\), 즉 \(\nu(A)=\int_A h\,d\mu\).
4단계: 유일성. \(f,g\ge 0\)가 모두 같은 역할을 한다고 하자. \(A:=\{f>g\}\in\mathcal F\)에 대해
\(A\) 위에서는 \(f-g>0\)이므로 \(\mu(A)=0\). 마찬가지로 \(\{g>f\}\)도 \(\mu\)-영집합이므로 \(f=g\) \(\mu\)-a.s. 다.
5단계: \(\sigma\)-유한 경우. \(\Omega=\bigcup_n E_n\) with \(\mu(E_n)<\infty\), \(\nu(E_n)<\infty\)가 되도록 \(E_n\)을 잡고 각 \(E_n\)에서 위 논증을 적용하여 \(f_n\)을 얻는다. \(E_n\cap E_m\)에서의 유일성 때문에 \(f_n=f_m\) \(\mu\)-a.s. 이므로 이들을 붙여 전공간에서의 \(f\)를 정의할 수 있다. 그러면 모든 \(A\in\mathcal F\)에 대해 \(\nu(A)=\int_A f\,d\mu\). ∎
조건부기대의 존재, \(\frac{d\mathbb Q}{d\mathbb P}\)의 존재, 그리고 밀도과정 \(Z_t\)의 정의는 모두 이 정리 위에 선다. Chapter 5를 공부할 때 RN 정리를 한 번만 쓰는 것이 아니라, 거의 모든 기대값 재작성의 배후에서 쓰고 있다고 보는 편이 정확하다.
3. 조건부기대와 Bayes 규칙
조건부기대는 “부분정보 \(\mathcal G\)”에 대해 적분값을 보존하면서 \(X\)를 다시 쓰는 장치다. stochastic control에서는 현재까지 관측된 정보에 대해 미래 보상을 압축하는 연산이고, DPP의 반복기대값 계산은 전부 조건부기대 위에서 돌아간다.
정의 (부분정보, 제한측도, 조건부기대의 문제 설정)
\(\mathcal G\subseteq\mathcal F\)를 부분 \(\sigma\)-대수라 하자. \(X\in L^1(\Omega,\mathcal F,\mathbb P)\)일 때 \(\mathcal G\)-가측 확률변수 \(Y\)가 모든 \(A\in\mathcal G\)에 대해
를 만족하면 \(Y\)를 \(\mathbb E[X\mid\mathcal G]\)라 부른다. 여기서 우변은 \(\mathcal G\) 위의 signed measure \(A\mapsto \int_A X\,d\mathbb P\)이고, 좌변은 이를 기준측도 \(\mathbb P|_{\mathcal G}\)에 대한 밀도로 다시 쓴 것이다.
정리 (조건부기대의 존재와 유일성)
\(X\in L^1\)이면 \(\mathbb E[X\mid\mathcal G]\)가 존재하고 \(\mathbb P\)-a.s. 유일하다.
증명
1단계: 비음수 \(X\)의 경우. \(\mathcal G\) 위에서
를 정의하면 \(\nu\)는 양의 측도다. 또한 \(\mathbb P(A)=0\)이면 \(\nu(A)=0\)이므로 \(\nu\ll \mathbb P|_{\mathcal G}\). 따라서 RN 정리에 의해 어떤 \(\mathcal G\)-가측 \(Y\ge 0\)가 존재하여 \(\nu(A)=\int_A Y\,d\mathbb P\)가 모든 \(A\in\mathcal G\)에 대해 성립한다. 이것이 \(\mathbb E[X\mid\mathcal G]\)다.
2단계: 일반 \(X\in L^1\). \(X=X^+-X^-\), \(X^\pm\ge 0\), \(X^\pm\in L^1\)로 쓴다. 1단계로 \(Y^\pm:=\mathbb E[X^\pm\mid\mathcal G]\)가 존재한다. \(Y:=Y^+-Y^-\)라 두면 \(Y\)는 \(\mathcal G\)-가측이며, 임의의 \(A\in\mathcal G\)에 대해
3단계: 유일성. \(Y,Z\)가 둘 다 조건부기대라고 하자. \(D:=Y-Z\)는 \(\mathcal G\)-가측이고 모든 \(A\in\mathcal G\)에 대해 \(\int_A D\,d\mathbb P=0\). 이제 \(A_+:=\{D>0\}\in\mathcal G\)라 두면
그런데 적분함수 \(D\)는 \(A_+\)에서 양수이므로 \(\mathbb P(A_+)=0\). 동일하게 \(A_-:=\{D<0\}\)도 \(\mathbb P(A_-)=0\). 따라서 \(D=0\) a.s., 즉 \(Y=Z\) a.s. ∎
정의 (조건부기대의 네 가지 핵심 성질이 의미하는 것)
선형성은 보상의 분해를 허용하고, tower property는 DPP의 반복 압축을 가능하게 하며, pull-out property는 현재 알려진 정보를 기대값 밖으로 빼낼 수 있게 하고, 독립성은 새로운 정보가 없을 때 기대값이 현재정보에 의존하지 않음을 뜻한다.
정리 (선형성, pull-out, tower, Jensen)
증명
선형성. 좌변 후보 \(Y:=a\mathbb E[X\mid\mathcal G]+b\mathbb E[Y\mid\mathcal G]\)는 \(\mathcal G\)-가측이다. 임의의 \(A\in\mathcal G\)에 대해
조건부기대의 유일성으로 결론이 따른다.
Pull-out. \(Z\)가 bounded \(\mathcal G\)-가측이라고 하자. 먼저 단순함수 \(Z=\sum_i c_i\mathbf 1_{A_i}\)의 경우 임의의 \(A\in\mathcal G\)에 대해
bounded measurable \(Z\)는 단순함수로 균등근사되므로 일반 경우도 얻어진다.
Tower property. \(Y:=\mathbb E[X\mid\mathcal G]\)라 두자. \(Y\)는 \(L^1\)이고 \(\mathcal G\)-가측이다. 임의의 \(A\in\mathcal H\subseteq\mathcal G\)에 대해
따라서 \(\mathbb E[Y\mid\mathcal H]\)는 \(X\)의 \(\mathcal H\)-조건부기대와 동일하다.
Jensen. convex \(\varphi\)에 대해 각 \(\omega\)마다 \(\varphi(y)\ge \varphi(x)+a(x)(y-x)\) 꼴의 supporting line가 존재한다. \(x=\mathbb E[X\mid\mathcal G]\)를 대입하면
\(\mathcal G\)-조건부기대를 취하면 마지막 항은 pull-out과 \(\mathbb E[X-\mathbb E[X\mid\mathcal G]\mid\mathcal G]=0\)에 의해 사라져 원하는 부등식이 나온다. ∎
정의 (Bayes 공식에 필요한 밀도과정)
\(\mathbb Q\ll\mathbb P\)이고 \(L:=\frac{d\mathbb Q}{d\mathbb P}\in L^1(\mathbb P)\)라 하자. \(\mathcal F_t\)에 대해
를 밀도과정이라 부른다. \(Z\)는 \(\mathbb P\)-마팅게일이고, \(A\in\mathcal F_t\)에 대해 \(\mathbb Q(A)=\mathbb E^{\mathbb P}[Z_t\mathbf 1_A]\)를 만족한다.
정리 (Bayes 공식)
\(X\in L^1(\mathbb Q)\), \(\mathcal F_t\subseteq\mathcal F_T\), \(Z_t>0\) a.s. 라면
증명
1단계: 후보가 \(\mathcal F_t\)-가측임을 확인한다. \(Y:=Z_t^{-1}\mathbb E^{\mathbb P}[Z_T X\mid\mathcal F_t]\)는 \(\mathcal F_t\)-가측이다. \(Z_t>0\) a.s. 이므로 나눗셈도 문제가 없다.
2단계: 조건부기대의 적분식 확인. 임의의 \(A\in\mathcal F_t\)에 대해
세 번째 등호는 \(A\in\mathcal F_t\)에서 \(L\) 대신 \(Z_t\)를 써도 되기 때문이다. 실제로 \(A\in\mathcal F_t\)이면 \(\int_A L\,d\mathbb P=\int_A Z_t\,d\mathbb P\).
3단계: 유일성 적용. 이제 \(Y\)는 \(\mathcal F_t\)-가측이고 \(\mathbb Q\)-적분식도 만족하므로 정의에 의해 \(Y=\mathbb E^{\mathbb Q}[X\mid\mathcal F_t]\). ∎
이 공식은 Part A의 다른 모든 결과와 연결된다. RN 정리로 밀도를 만들고, 조건부기대로 시점 \(t\)의 밀도과정을 만들며, Bayes 공식으로 새 측도 아래의 조건부기대를 원래 측도 아래 계산으로 되돌린다. Girsanov 정리의 계산은 결국 이 공식을 매개로 완성된다.
4. 마팅게일, 정지과정, Optional Sampling
optimal stopping과 DPP를 엄밀하게 다루려면 “미래의 임의 시각 \(\tau\)”에서 관측한 값을 현재 정보로 끌어오는 연산이 정당해야 한다. 그 최소 골격이 마팅게일, 정지시간, 정지과정, optional sampling이다. 이 부분을 대충 넘기면 Chapter 5의 stopping 문제는 전부 형식논리로만 남는다.
정의 (적응과정, 마팅게일, 정지시간, 정지과정)
\((\mathcal F_t)\)에 대해 \(M_t\)가 각 \(t\)에서 \(\mathcal F_t\)-가측이면 적응과정이라 한다. \(M\in L^1\)이고 모든 \(s\le t\)에 대해 \(\mathbb E[M_t\mid\mathcal F_s]=M_s\)이면 마팅게일, \(\ge M_s\)이면 서브마팅게일, \(\le M_s\)이면 슈퍼마팅게일이다. \(\tau\)가 각 \(t\)에 대해 \(\{\tau\le t\}\in\mathcal F_t\)를 만족하면 정지시간이고, \(M_t^\tau:=M_{t\wedge \tau}\)를 정지과정이라 한다.
정리 (정지과정은 다시 마팅게일이다)
\(M\)이 마팅게일이고 \(\tau\)가 정지시간이면 \(M^\tau\)도 마팅게일이다.
증명
1단계: 적응성과 적분가능성. \(t\wedge\tau\le t\)이므로 \(M_{t\wedge\tau}\)는 \(\mathcal F_t\)-가측이다. 또한 \(M_t^\tau\)는 \(M_t\)와 \(M_\tau\)의 절단으로 표현되어 적분가능하다.
2단계: 이산시간 계산. \(n\in\mathbb N\)이라 하자. 사건 \(\{\tau\le n\}\in\mathcal F_n\), \(\{\tau>n\}\in\mathcal F_n\)이고
따라서
3단계: 연속시간. 연속시간에서는 dyadic time grid로 근사한 \(\tau_n\downarrow \tau\)를 취하고 각 \(M^{\tau_n}\)에 대해 이산시간 결과를 적용한다. 적절한 우월가측성 또는 국소화 조건 아래 \(M_{t\wedge\tau_n}\to M_{t\wedge\tau}\)와 DCT를 통해 극한을 보내면 결론이 성립한다. ∎
정리 (bounded stopping time에 대한 Optional Sampling)
\(M\)이 마팅게일이고 \(\sigma\le \tau\le T\)가 bounded stopping time이면
증명
1단계: 단순 정지시간 경우. 먼저 \(\sigma,\tau\)가 유한한 값 \(t_0<t_1<\cdots<t_m\)만 갖는다고 하자. \(\tau=\sum_k t_k\mathbf 1_{\{\tau=t_k\}}\)이므로
임의의 \(A\in\mathcal F_\sigma\)에 대해
그런데 \(\{\tau=t_k\}\cap A\in\mathcal F_{t_k}\)이고 \(\sigma\le \tau\)이므로 tower property를 반복하면 각 항이 \( \mathbb E[M_\sigma\mathbf 1_{\{\tau=t_k\}}\mathbf 1_A]\)와 같아진다. 합치면 \(\mathbb E[M_\tau\mathbf 1_A]=\mathbb E[M_\sigma\mathbf 1_A]\).
2단계: 일반 bounded stopping time의 근사. dyadic approximation
를 취하면 \(\sigma_n,\tau_n\)은 단순 정지시간이고 \(\sigma_n\downarrow \sigma\), \(\tau_n\downarrow \tau\). 각 \(n\)에 대해 이미 증명한 결과로
3단계: 극한 통과. bounded stopping time 조건 아래 \(|M_{\tau_n}|\)는 적절히 적분가능하고 \(M\)의 경로연속성 또는 cadlag 성질로 \(M_{\tau_n}\to M_\tau\), \(M_{\sigma_n}\to M_\sigma\) a.s. 이다. DCT와 \(\mathcal F_\sigma\subseteq \mathcal F_{\sigma_n}\)를 이용하면 \(\mathbb E[M_\tau\mid\mathcal F_\sigma]=M_\sigma\). ∎
5. 균등적분가능성과 수렴정리
OST의 진짜 난점은 “\(\tau\wedge n\)”에 대한 결과를 \(\tau\)로 보내는 마지막 극한이다. 여기서 필요한 것이 tail mass가 균일하게 사라진다는 조건, 즉 균등적분가능성이다. 사용자가 요구한 appendix 연결을 충족하려면 이 부분을 명확히 써야 한다.
정의 (Uniform Integrability)
확률변수족 \(\mathcal X\subset L^1\)가 균등적분가능하다는 것은
를 만족함을 뜻한다. 같은 말로, 임의의 \(\varepsilon>0\)에 대해 어떤 \(K\)가 존재하여 모든 \(X\in\mathcal X\)에 대해 \(\mathbb E[|X|\mathbf 1_{\{|X|>K\}}]<\varepsilon\).
정리 (적분가능 함수의 절대연속성)
\(f\in L^1\)이면 임의의 \(\varepsilon>0\)에 대해 어떤 \(\delta>0\)가 존재하여 \(\mathbb P(A)<\delta\)이면
가 성립한다.
증명
적분을 \(|f|>M\)와 \(|f|\le M\) 영역으로 나눈다.
\(f\in L^1\)이므로 \(M\)을 크게 잡아 첫 항을 \(\varepsilon/2\)보다 작게 만들 수 있다. 둘째 항은
이므로 \(\delta:=\varepsilon/(2M)\)를 택하면 \(\mathbb P(A)<\delta\Rightarrow \int_A|f|\,d\mathbb P<\varepsilon\). ∎
정리 (\(L^1\) 수렴이면 UI)
\(X_n\to X\) in \(L^1\)이면 \(\{X_n:n\ge 1\}\cup\{X\}\)는 균등적분가능하다.
증명
\(\varepsilon>0\)를 고정한다. \(L^1\) 수렴에 의해 어떤 \(N\)이 존재하여 \(n\ge N\)이면 \(\mathbb E|X_n-X|<\varepsilon/3\). 또한 \(X\in L^1\)이므로 충분히 큰 \(K\)에 대해 \(\mathbb E[|X|\mathbf 1_{\{|X|>K/2\}}]<\varepsilon/3\). 이제 \(|X_n|>K\)이면 \(|X|>K/2\) 또는 \(|X_n-X|>K/2\)이므로
보다 단순하게는
마지막 항은 \(\mathbb E|X_n-X|\)로 제어된다. 따라서 \(n\ge N\)이면 전체가 \(\varepsilon\)보다 작다. 유한한 \(n<N\)은 각각 적분가능하므로 같은 \(K\)를 더 크게 잡아 동시에 제어할 수 있다. ∎
정리 (Vitali: 확률수렴 + UI \(\Rightarrow L^1\) 수렴)
\(X_n\to X\) in probability 이고 \(\{X_n\}\)이 UI이면 \(X\in L^1\)이며 \(X_n\to X\) in \(L^1\).
증명
1단계: \(X\in L^1\). UI는 \(\sup_n \mathbb E|X_n|<\infty\)를 함의한다. 확률수렴하는 부분수열을 거의확실수렴 부분수열로 바꾸고 Fatou를 적용하면 \(\mathbb E|X|\le \liminf \mathbb E|X_{n_k}|<\infty\).
2단계: truncation. 임의의 \(\varepsilon>0\)에 대해 UI로 어떤 \(K\)가 존재하여
이제
3단계: bounded part 처리. 첫 항은 \(2K\)로 지배되고, 확률수렴에서 나온 부분수열 거의확실수렴과 DCT를 통해 기대값이 0으로 간다. 두 꼬리항은 각각 \(\varepsilon\) 이하. 따라서 \(\limsup_n \mathbb E|X_n-X|\le 2\varepsilon\). \(\varepsilon\)가 임의이므로 \(L^1\) 수렴이 성립한다. ∎
정리 (UI 마팅게일 수렴)
UI 마팅게일 \(M_t\)가 a.s. \(M_\infty\)로 수렴하면
증명
UI와 a.s. 수렴이 있으므로 바로 앞 Vitali 정리를 \(X_n=M_{t_n}\), \(X=M_\infty\)에 적용해 \(L^1\) 수렴을 얻는다. 이제 \(A\in\mathcal F_t\)를 고정하면 \(s\ge t\)에 대해 마팅게일 성질로 \(\mathbb E[M_s\mathbf 1_A]=\mathbb E[M_t\mathbf 1_A]\). \(s\to\infty\)를 보내면 \(L^1\) 수렴 때문에 \(\mathbb E[M_\infty\mathbf 1_A]=\mathbb E[M_t\mathbf 1_A]\). 이는 조건부기대의 정의 그 자체이므로 \(\mathbb E[M_\infty\mid\mathcal F_t]=M_t\). ∎
6. 브라운 운동, Itô 적분, Itô isometry, Itô 공식
정의 (표준 브라운 운동)
\((W_t)_{0\le t\le T}\)가 \(W_0=0\) a.s., 독립증분, 정상증분 \(W_t-W_s\sim N(0,t-s)\), 경로연속성을 가지면 표준 브라운 운동이다.
Itô 적분
제곱적분가능한 적응과정 \(g\)에 대해
정리 (Itô isometry)
단순과정에서 교차항의 기대값이 독립성과 평균 0으로 사라짐을 먼저 보이고, 일반 \(L^2\) 과정은 단순과정 근사와 완비성으로 확장한다. 이 정리는 stochastic integral의 well-definedness, martingale 성질, SDE 해의 \(L^2\) 추정에 모두 들어간다. ∎
정리 (Itô 적분은 마팅게일)
\(M_t=\int_0^t g_s\,dW_s\)라 두면 \(M\)은 마팅게일이다.
증명은 단순과정에 대해 increments의 평균이 0이라는 사실을 이용해 \(\mathbb{E}[M_t-M_s\mid\mathcal{F}_s]=0\)를 보인 뒤, \(L^2\)-근사로 일반 경우에 넘긴다. ∎
정리 (Itô 공식, 1차원)
\(dX_t=b_t\,dt+\sigma_t\,dW_t\), \(f\in C^{1,2}\)이면
이 공식을 벡터확산 \(dX_t=b(t,X_t,u_t)\,dt+\sigma(t,X_t,u_t)\,dW_t\)에 적용하면 생성자 \(\mathcal{L}^u\)가 나타난다.
7. SDE 존재와 유일성, 모멘트 추정
기본 SDE
정리 (global Lipschitz와 linear growth 아래 strong solution의 존재와 유일성)
\(b,\sigma\)가 \(x\)에 대해 global Lipschitz이고 linear growth를 만족하면 강해가 존재하고 경로별 유일하다.
증명은 Picard iteration \(X^{(0)}_t=x\),
를 정의한 뒤 Itô isometry와 BDG, Grönwall로 \(\mathbb{E}\sup_{s\le T}|X_s^{(n+1)}-X_s^{(n)}|^2\)가 기하급수적으로 줄어드는 코시성을 보인다. 극한은 연속적응과정이며 방정식을 만족한다. 두 해의 차이에도 같은 추정을 적용하면 유일성이 나온다. ∎
정리 (2차 모멘트 추정)
linear growth 조건 아래
증명은 삼각부등식, Cauchy–Schwarz, BDG, 성장조건을 차례로 적용한 후 Grönwall로 닫는다. 이 추정은 DPP에서 stopping time localization을 할 때 stochastic integral의 기대값을 0으로 처리할 수 있는 충분조건을 제공한다. ∎
8. Poisson 과정, counting process, 보상점프와 보상마팅게일
정의
강도 \(\lambda_t\)를 가진 counting process \(N_t\)는 작은 시간구간에서
를 만족하는 점프과정이다. 보상과정
는 마팅게일이다.
증명
보상과정 \(\widetilde N_t:=N_t-\int_0^t\lambda_s\,ds\)를 둔다. \(0\le s\le t\)에 대해
이므로, \(\mathcal{F}_s\)에 대한 조건부기대값을 취하면
강도과정의 정의에 의해 작은 \(\Delta\downarrow0\)에 대해
가 성립한다. 따라서 조건부 평균증분은
이를 구간 \([s,t]\)에 대해 누적하면
가 된다. 결국
즉 \(\mathbb{E}[\widetilde N_t\mid\mathcal{F}_s]=\widetilde N_s\)이므로 \(\widetilde N\)은 마팅게일이다. 적분가능성은 \(\mathbb{E}[N_t]=\mathbb{E}\int_0^t\lambda_r\,dr<\infty\)에서 바로 따른다. ∎
9. 뉴메레르, 측도변환, Girsanov 정리
9.1 뉴메레르와 numeraire derivative
사용자가 명시적으로 요구한 numeraire derivative는 “어떤 현금흐름을 특정 기준자산 단위로 본 가치”다. 이것은 단순한 표기 장난이 아니라 drift를 지우고 martingale 구조를 드러내는 핵심 재표현이다.
정의 (뉴메레르와 numeraire derivative)
항상 양수인 거래가능 자산 \(N_t\)를 뉴메레르라 한다. 자산 또는 포트폴리오 가치 \(V_t\)를 \(N_t\)로 나눈 비율
를 \(N\)-표시 가치, 또는 numeraire derivative라 부른다. 페이오프 \(H_T\)를 \(N_T\)로 나눈 값이 새 측도 아래 조건부기대로 표현되면 그 순간 drift가 사라지고 martingale pricing이 드러난다.
정리 (뉴메레르 변경 공식)
돈시장계좌 \(B_t\) 아래 위험중립측도 \(\mathbb Q\)가 있고, 양의 뉴메레르 \(N_t\)에 대해
가 \(\mathbb Q\)-마팅게일이라 하자. 그러면
로 정의된 측도 \(\mathbb Q^N\) 아래 \(V_t/N_t\)는 적절한 자산 \(V\)에 대해 마팅게일이며, 특히
증명
1단계: 기존 위험중립 표현. 위험중립측도 \(\mathbb Q\) 아래
양변을 \(N_t\)로 나누면
2단계: Bayes 공식 적용. \(\Lambda_t=(B_t^{-1}N_t)/(B_0^{-1}N_0)\)를 사용하면
\(\Lambda_T/N_T=(B_T^{-1})/(B_0^{-1}N_0)\), \(1/\Lambda_t=(B_0^{-1}N_0)/(B_t^{-1}N_t)\)이므로 상수를 정리하면
3단계: 마팅게일성. 마지막 식의 우변은 \(\mathbb Q^N\)-조건부기대이므로 \(V_t/N_t\)는 \(\mathbb Q^N\)-마팅게일이다. ∎
9.2 밀도과정과 측도변환
정의 (밀도과정)
\(\mathbb Q\ll\mathbb P\)이고 \(L=\frac{d\mathbb Q}{d\mathbb P}\in L^1(\mathbb P)\)라 하자. 그러면
를 시점 \(t\)의 밀도과정이라 한다. \(Z\)는 \(\mathbb P\)-마팅게일이고, \(A\in\mathcal F_t\)에 대해 \(\mathbb Q(A)=\mathbb E^{\mathbb P}[Z_t\mathbf 1_A]\)를 만족한다.
9.3 Girsanov 정리
정의 (Doléans exponential과 Novikov 조건)
예측가능 과정 \(\theta\)에 대해
를 지수국소마팅게일이라 한다. Novikov 조건은
이다. 이 조건은 \(Z_t\)가 단순 국소마팅게일이 아니라 진짜 마팅게일이 되도록 보장한다.
정리 (Girsanov)
\(W\)가 \(\mathbb P\)-브라운 운동이고 \(\theta\)가 위 Novikov 조건을 만족한다고 하자. \(Z_t\)를 위와 같이 정의하고 \(\frac{d\mathbb Q}{d\mathbb P}\big|_{\mathcal F_T}=Z_T\)로 놓으면
는 \(\mathbb Q\)-브라운 운동이다.
증명
1단계: 지수과정의 SDE. \(M_t:=-\int_0^t\theta_s\,dW_s\)라 두면 \(\langle M\rangle_t=\int_0^t\theta_s^2\,ds\). Itô 공식을 \(e^{x-y/2}\)에 적용하면
따라서 \(Z\)는 양의 국소마팅게일이다.
2단계: Novikov로 true martingale 확보. Novikov 조건에 의해 \(\mathbb E^{\mathbb P}[Z_T]=1\). 따라서
는 확률측도를 정의한다.
3단계: 새 과정의 \(\mathbb Q\)-국소마팅게일성. \(0\le s\le t\le T\), \(A\in\mathcal F_s\)라 하자. 적분 by parts로
여기서 \(dW_t^{\mathbb Q}=dW_t+\theta_tdt\), \(dZ_t=-Z_t\theta_t dW_t\), 그리고
따라서 \(dt\)-항이 상쇄되어
즉 \(Z_tW_t^{\mathbb Q}\)는 \(\mathbb P\)-국소마팅게일이다. Bayes 공식을 쓰면 \(W^{\mathbb Q}\)는 \(\mathbb Q\)-국소마팅게일이다.
4단계: 이차변동 계산. 유한변동 항 \(\int_0^t\theta_sds\)는 이차변동에 기여하지 않으므로
5단계: Lévy 특성으로 브라운 운동 판정. \(W^{\mathbb Q}\)는 연속 \(\mathbb Q\)-국소마팅게일이고 이차변동이 \(t\)다. Lévy의 특성정리에 의해 이것은 \(\mathbb Q\)-브라운 운동이다. ∎
이 정리는 Chapter 5의 제어방정식 자체보다 더 뒤 장의 가격결정과 강하게 연결되지만, 사용자가 요구한 appendix 보강 항목에 정확히 대응한다. drift를 바꾸어도 브라운 운동 구조를 유지할 수 있다는 사실이 있어야 numeraire change, risk-neutral pricing, forward measure 전환이 수학적으로 폐합된다.
10. Feynman–Kac, generator, verification의 논리
Chapter 5에서 PDE를 써서 value function을 구하겠다고 말하려면 최소한 두 가지를 알아야 한다. 첫째, generator가 무엇인지. 둘째, candidate 해에 Itô 공식을 적용했을 때 왜 그것이 실제 기대값과 연결되는지. 이 연결고리가 Feynman–Kac와 verification이다.
정의 (generator)
확산과정
에 대해 충분히 매끄러운 함수 \(h\)에 대한 generator는
로 정의한다. 시간이 고정된 미소구간에서 기대값의 1차 변화율이 바로 \((\partial_t+\mathcal L_t)h\)다.
정리 (Dynkin 공식)
적절한 stopping time \(\tau\)와 충분히 매끄러운 \(h\)에 대해
증명
Itô 공식에 의해
마지막 확률적분은 적절한 적분가능성 아래 평균이 0이므로 기대값을 취하면 공식이 바로 나온다. ∎
정리 (Feynman–Kac)
\(h\in C^{1,2}\)가
를 만족하면
가 성립한다.
증명
할인인자
를 두고 \(Y_t:=\Gamma_t h(t,X_t)\)에 Itô 공식을 적용한다. \(\Gamma\)는 유한변동 과정이므로 교차이차변동은 없다. 따라서
PDE를 대입하면
이를 \(t\)부터 \(T\)까지 적분하면
경계조건 \(h(T,X_T)=G(X_T)\)를 넣고 기대값을 취하면 확률적분의 평균이 0이므로 원하는 표현이 나온다. ∎
정리 (verification의 추상 형태)
candidate 함수 \(h\)가 terminal condition과 HJB를 만족하고, 모든 admissible control \(u\)에 대해 필요한 적분가능성 조건이 성립한다고 하자. 그러면 모든 \(u\)에 대해 \(h\ge H^u\). 또한 어떤 admissible feedback control \(u^*\)가 HJB의 \(\sup\)를 점wise로 달성하면 \(h=H^{u^*}=H\).
증명
임의의 \(u\)에 대해
를 둔다. Itô 공식으로
HJB에 의해 \(\partial_sh+\mathcal L^u h+F(\cdot,u)\le 0\)이므로 \(M\)은 슈퍼마팅게일이다. 따라서
종단조건 \(h(T,\cdot)=G\)를 대입하면 \(h(t,x)\ge H^u(t,x)\). 이제 \(u^*\)가 HJB의 \(\sup\)를 달성하면 drift가 정확히 0이 되어 \(M\)은 마팅게일이므로 위 부등식이 등식이 된다. 따라서 \(h=H^{u^*}\). 마지막으로 \(H=\sup_u H^u\)이므로 \(h=H\). ∎
Part B — Chapter 5 Stochastic Optimal Control and Stopping
Part B 편집 원칙
이 절은 원문 Chapter 5의 순서를 유지하되, 각 정리 앞에 필요한 수학적 정의를 먼저 두고, 모든 핵심 식을 중간 단계 없이 전개하여 다시 적었다. 특히 DPP, HJB, verification, counting process 제어, optimal stopping의 variational inequality, 그리고 stopping과 control의 결합에서 나오는 QVI를 각각 독립된 정리로 세우고 증명을 서술형으로 끝까지 밀어 넣었다.
5.1 서론
확률제어 문제는 한 문장으로 요약하면 다음과 같다. 확률적으로 움직이는 시스템 \(X\)가 있고, 우리가 선택하는 제어 \(u\)가 그 동학을 바꾼다. 이때 미래의 누적 보상과 만기 보상을 가장 크게 만드는 제어를 찾는 것이 목적이다. 여기서 어려움은 두 겹이다. 첫째, \(u\)가 현재 한 번만 영향을 미치는 것이 아니라 이후의 확률법칙 전체를 바꾼다. 둘째, 값함수 \(H\)는 “지금의 상태 \((t,x)\)에서 출발했을 때 앞으로 얻을 수 있는 최대 기대보상”이므로, 미래의 최적행동을 이미 내부에 품고 있다. 그래서 현재의 의사결정과 미래의 최적결정이 서로 얽힌다.
이 얽힘을 푸는 첫 번째 장치가 Dynamic Programming Principle이고, 두 번째 장치가 그 무한소 버전인 Dynamic Programming Equation, 즉 HJB 방정식이다. 정지시점 선택이 개입하면 선형 PDE가 아니라 obstacle problem이 되고, 제어와 정지가 함께 나타나면 quasi-variational inequality가 된다. Chapter 5의 전체 구조는 결국 이 세 문장으로 정리된다.
5.2 금융에서의 제어문제 예시
5.2.1 Merton 문제
고전적인 Merton 문제에서는 투자자가 무위험자산과 위험자산 사이의 배분을 시점마다 조절한다. 제어는 “위험자산에 몇 달러를 넣을 것인가”이고, 상태는 투자자의 부 \(X_t\)와 필요하다면 위험자산 가격 \(S_t\)다. 여기서 제어는 drift 항을 바꾸고, 따라서 미래 부의 분포 전체를 바꾼다. 말하자면 제어는 단순한 현재 행동이 아니라 미래 효용의 법칙을 재설계하는 변수다.
정의 (Merton 동학)
무위험금리 \(r\), 위험자산 기대수익률 \(\mu\), 변동성 \(\sigma\)가 주어져 있다고 하자. 위험자산에 투자된 달러금액을 \(\pi_t\)라 하면
목표는 효용함수 \(U\)에 대해 \(\sup_{\pi}\mathbb E[U(X_T)]\)를 구하는 것이다.
5.2.2 최적 청산 문제
최적 청산에서는 투자자가 보유한 재고를 시간 안에 줄여야 한다. 제어는 매도속도 혹은 주문방식이고, 상태는 재고와 현금, 때로는 중간가격이다. 재고가 남아 있으면 terminal penalty가 붙고, 빠르게 팔면 일시적 시장충격이 커진다. 따라서 “빨리 팔수록 좋다”도 아니고 “천천히 팔수록 좋다”도 아니다. 제어는 비용과 리스크 사이의 균형을 만든다.
5.2.3 지정가 주문 배치
지정가 주문 전략에서는 제어가 주문의 깊이 \(u_t\)가 된다. 더 깊게 두면 체결당 이익은 커지지만 체결확률은 낮아진다. 이때 counting process의 intensity가 제어에 의해 달라지므로, 확산제어보다 jump control이 자연스럽다. Chapter 10 이후의 시장조성 문제들은 바로 이 장의 jump-control 도구 위에서 전개된다.
5.3 확산과정에 대한 제어
정의 (제어된 확산과 값함수)
허용제어집합 \(\mathcal A_{t,T}\)의 각 \(u=(u_s)_{t\le s\le T}\)에 대해 상태과정 \(X^u\)가
를 만족한다고 하자. running reward를 \(F\), terminal reward를 \(G\)라 하면 time-indexed performance criterion과 값함수를
로 정의한다. 여기서 \(\mathbb E_{t,x}\)는 \(X_t^u=x\) 조건부 기대값을 뜻한다.
Figure 5.1 DPP의 핵심은 현재 시점 \(t\)에서 미래의 임의 정지시점 \(\tau\)까지 제어된 경로를 먼저 따라간 뒤, \(\tau\) 이후의 남은 최적문제를 값함수 \(H(\tau,X_\tau^u)\)로 다시 압축하는 데 있다.
5.3.1 Dynamic Programming Principle
정의 (중간 정지시점에서의 분해)
\(\tau\)를 \(t\le \tau\le T\)를 만족하는 정지시간이라 하자. admissible control \(u\)를 \([t,\tau]\) 구간에서 먼저 실행한 뒤 \(\tau\) 이후에는 새로 최적화된 제어를 붙이는 과정을 pasting이라 부른다. DPP는 바로 이 pasting 안정성을 수식화한 것이다.
정리 5.1 (확산제어의 DPP)
위 정의 아래, 임의의 \((t,x)\in[0,T]\times\mathbb R^n\)와 임의의 정지시간 \(\tau\le T\)에 대해
가 성립한다.
증명
1단계: 성과함수를 \(\tau\)에서 자른다. 임의의 admissible control \(u\in\mathcal A_{t,T}\)를 잡으면
적분구간을 \([t,\tau]\)와 \([\tau,T]\)로 나누면
2단계: 반복기대값을 적용한다. \(\mathcal F_\tau\)에 대한 조건부기대를 취하면 tower property로
Markov 제어 문제에서는 \(\tau\) 이후의 조건부 기대값이 현재의 상태 \(X_\tau^u\)와 이후 사용되는 제어 \(u|_{[\tau,T]}\)만으로 결정되므로
따라서
3단계: \(H^u(\tau,X_\tau^u)\le H(\tau,X_\tau^u)\)로부터 상계 부등식을 만든다. 값함수 \(H\)는 같은 시작점에서 가능한 모든 제어 중 supremum이므로
이를 (5.11)에 대입하면
이제 좌변에서 \(u\)에 대해 supremum을 취하면
4단계: 반대 방향 부등식을 만든다. 이제 임의의 \(\varepsilon>0\)를 고정한다. 값함수의 정의에 의해 \((\tau,\xi)\)에서 \(\varepsilon\)-최적 제어 \(v^\varepsilon\)를 선택할 수 있어서
가 성립한다고 하자. \(\xi=X_\tau^u\)를 대입하고, \([t,\tau]\)에서는 원래 제어 \(u\), \((\tau,T]\)에서는 \(v^\varepsilon\)를 쓰는 pasted control \(\tilde u\)를 정의하면 admissibility에 의해 \(\tilde u\in\mathcal A_{t,T}\)다. 그러면
그런데 \(H(t,x)\)는 모든 admissible control의 supremum이므로 \(H(t,x)\ge H^{\tilde u}(t,x)\)다. 따라서
이 부등식은 모든 \(u\)와 모든 \(\varepsilon>0\)에 대해 성립하므로, 먼저 \(u\)에 대해 supremum을 취하고 다음에 \(\varepsilon\downarrow0\)을 보내면
5단계: 두 부등식을 합친다. (5.12)와 (5.15)를 결합하면 원하는 등식 (5.16)을 얻는다.
5.3.2 Dynamic Programming Equation / HJB
Figure 5.2 HJB는 DPP를 아주 짧은 시간구간으로 줄였을 때 얻어지는 무한소 방정식이다. \(\tau\)를 작은 시간 \(h\) 또는 작은 공 \(B_\varepsilon(x)\)의 최초 이탈시점으로 택하면 국소적 Itô 전개가 가능해진다.
정의 (국소화 정지시간과 생성자)
작은 \(h,\varepsilon>0\)에 대해
라 두자. 또한 충분히 매끄러운 함수 \(\varphi\in C^{1,2}\)에 대해 제어 \(u\) 아래 생성자를
로 정의한다.
정리 (확산제어의 HJB 방정식)
값함수 \(H\in C^{1,2}([0,T]\times\mathbb R^n)\)라 가정하면 \(H\)는
를 만족한다.
증명
1단계: DPP의 우변을 짧은 시간으로 줄인다. 임의의 상수제어 \(v\)를 \([t,\tau_{h,\varepsilon}]\)에서 사용한다. 정리 5.1의 하방향 부등식을 적용하면
2단계: Itô 공식을 \(H(s,X_s^v)\)에 적용한다. 국소화된 구간에서는 \(X_s^v\)가 \(\varepsilon\)-공 안에 있으므로 도함수들이 bounded라고 볼 수 있다. 따라서
마지막 확률적분은 적분가능한 martingale increment이므로 기대값이 0이다. 따라서 위 식을 DPP 부등식에 넣으면
3단계: \(h\downarrow0\) 극한을 취한다. \(\tau_{h,\varepsilon}=t+h\)가 될 확률이 \(h\downarrow0\)에서 1로 가고, integrand는 continuity 때문에 \((t,x)\)에서의 값으로 수렴한다. 따라서 평균값정리와 dominated convergence를 적용하면
이 부등식은 임의의 \(v\)에 대해 성립하므로
4단계: 반대 부등식을 얻는다. 이제 \(u^\ast\)가 최적 피드백 제어라 가정하자. DPP 등식 자체를 \(u^\ast\)에 대해 쓰면
위와 동일한 Itô 계산을 하면 이번에는 부등식이 아니라 등식이 남는다.
\(h\downarrow0\) 극한을 취하면
따라서
5단계: 등식을 얻는다. (A)와 (B)를 합치면 원하는 HJB 등식이 나온다. 마지막 terminal condition은 \(t=T\)에서 적분항이 사라져
이기 때문에 성립한다.
5.3.3 Verification
정의 (후보값함수와 후보최적제어)
\(\psi\in C^{1,2}\)가 HJB의 supersolution 조건을 만족하고, 어떤 measurable selector \(u^\ast(t,x)\)가 pointwise maximum을 달성한다고 하자. verification의 목적은 \(\psi\)가 실제 값함수인지, \(u^\ast\)가 실제 최적제어인지 확인하는 것이다.
정리 5.2 (Verification)
\(\psi\in C^{1,2}([0,T]\times\mathbb R^n)\)가 모든 admissible Markov control \(u\)에 대해
를 만족한다고 하자. 그러면 모든 \((t,x)\)에 대해 \(\psi(t,x)\ge H(t,x)\)다. 또한 measurable selector \(u^\ast\)가 존재하여
를 만족하고, 그때의 상태방정식이 유일한 strong solution을 가지며 \(u^\ast\)가 admissible이면 \(\psi=H\)이고 \(u^\ast\)는 최적제어다.
증명
1단계: 임의 제어 아래 \(\psi\)의 drift가 음수임을 적분한다. 임의의 admissible Markov control \(u\)를 택하고 그에 대응하는 해 \(X^u\)를 생각하자. Itô 공식으로
여기에 \(\int_t^s F(r,X_r^u,u_r)\,dr\)를 더하면
가정에 의해 drift는 \(\le 0\)이다. 따라서 기대값을 취하면
2단계: terminal inequality를 사용한다. \(\psi(T,\cdot)\ge G(\cdot)\)이므로
좌변은 정확히 \(H^u(t,x)\)이므로 \(H^u(t,x)\le \psi(t,x)\)가 모든 \(u\)에 대해 성립한다. supremum을 취하면
3단계: 후보 최적제어 \(u^\ast\)에 대해 등호를 만든다. 이번에는 \(u^\ast\)를 대입한다. 가정에 의해
그러므로 위의 Itô 계산에서 drift 항이 정확히 0이 되어
이미 2단계에서 \(H(t,x)\le\psi(t,x)\)였고, 동시에 \(H(t,x)\ge H^{u^\ast}(t,x)=\psi(t,x)\)이므로 결국
따라서 \(u^\ast\)는 최적이다.
Merton 문제에 HJB를 적용하면
이제 위의 일반이론을 가장 고전적인 예제에 꽂아 넣는다. 효용이 만기효용 하나뿐이면 running reward \(F\)는 0이고 terminal reward는 \(G(x)=U(x)\)다. 그러면 값함수는
가 된다. 상태는 \((X_t,S_t)\)이고 생성자는
따라서 HJB는
이제 \(\pi\)가 들어 있는 부분만 모으면
\(H_{xx}<0\)라고 가정하면 \(\Phi\)는 \(\pi\)에 대한 엄밀한 concave quadratic이다. 따라서 1차 조건은 충분조건이며
즉 최적제어는
원문에서처럼 terminal utility가 \(s\)에 의존하지 않으므로 \(H(t,x,s)=h(t,x)\)를 가정하면 \(H_s=H_{ss}=H_{xs}=0\)가 되고 HJB는
다시 1차 조건을 적용하면
지수효용 \(U(x)=-e^{-\gamma x}\)를 쓰면 \(h(t,x)=-a(t)e^{-\gamma x\beta(t)}\) 형태를 넣어 explicit solution을 얻을 수 있다. \(h_x=-\gamma\beta h\), \(h_{xx}=\gamma^2\beta^2 h\)이므로
또 \(\beta(T)=1\)이고 PDE에 ansatz를 대입하면 \(\beta'(t)+r\beta(t)=0\), \(a'(t)-\frac12\lambda^2 a(t)=0\), \(\lambda:=\frac{\mu-r}{\sigma}\)를 얻는다. 따라서
즉 지수효용에서는 절대위험회피도가 상수라서 최적 달러투자액이 wealth \(x\)와 무관하게 시간의 deterministic function이 된다.
5.4 Counting process에 대한 제어
정의 (제어된 counting process 문제)
카운팅과정 \(N^u\)가 intensity \(\lambda(t,N_{t-}^u,u_t)\)를 갖는 제어된 Cox process라 하자. 보상된 과정
가 martingale이 되도록 admissibility를 가정한다. 시간-상태 값을 \((t,n)\)로 두면
5.4.1 DPP for counting processes
정의 (점프 문제의 pasting)
확산문제와 완전히 같은 아이디어가 적용되지만, 상태변화가 연속적이지 않고 한 번 도착할 때마다 \(n\mapsto n+1\)로 점프한다는 점만 다르다. 그럼에도 \(\tau\) 이전 제어와 \(\tau\) 이후 \(\varepsilon\)-최적제어를 이어 붙이는 pasting 구조는 동일하다.
정리 5.3 (counting process 제어의 DPP)
임의의 정지시간 \(\tau\le T\)에 대해
가 성립한다.
증명
증명의 뼈대는 정리 5.1과 같으므로, 점프구조 때문에 달라지는 계산만 명시한다. 임의의 \(u\)에 대해
tower property를 적용하면
마코프성과 strong Markov 성질 때문에 내부 조건부기대는 \((\tau,N_\tau^u)\)에서 시작한 같은 형태의 성과함수 \(H^u(\tau,N_\tau^u)\)와 같다. 따라서
이제 \(H^u(\tau,N_\tau^u)\le H(\tau,N_\tau^u)\)를 써서 위에서처럼 상계 부등식을 만들고, \(\tau\) 이후 \(\varepsilon\)-최적제어를 이어 붙이는 pasted control을 사용해 하계 부등식을 만든다. 계산은 기호만 \(X\)에서 \(N\)으로 바뀔 뿐 완전히 동일하며, 결국 양쪽 부등식이 결합되어 (5.31)이 성립한다.
5.4.2 HJB for pure jump control
정의 (점프 생성자)
함수 \(h(t,n)\)에 대한 점프 생성자를
로 둔다. 이것은 “단위시간 동안 기대되는 증가율”이다. 실제로 점프가 없으면 변화가 0이고, 한 번 점프하면 \(h(t,n+1)-h(t,n)\)만큼 변하며, 그 점프가 일어날 순간강도가 \(\lambda\)이기 때문이다.
정리 (counting process 제어의 HJB)
값함수 \(H\)가 충분히 매끄럽다고 가정하면
가 성립한다.
증명
짧은 시간 정지규칙 \(\tau_h=t+h\)를 사용하고, 그 구간에서 상수제어 \(v\)를 적용한다. 정리 5.3의 하방향 부등식으로부터
점프 Itô 공식으로
여기서 \(dN_s^v=d\widetilde N_s^v+\lambda(s,N_{s-}^v,v)\,ds\)를 대입하면
보상된 적분항은 martingale increment이므로 기대값이 0이다. 따라서
이를 \(h\)로 나누고 \(h\downarrow0\)을 보내면
임의의 \(v\)에 대해 성립하므로 sup를 취해 한쪽 부등식을 얻는다. 반대쪽은 최적제어 \(u^\ast\)로 같은 계산을 반복하면 된다. terminal condition은 확산 문제와 똑같이 적분구간이 길이 0으로 수축해서 나온다.
5.4.3 Combined diffusion and jumps
정의 (jump-diffusion 제어문제)
이제 \(X^u\in\mathbb R^m\)가
를 따른다고 하자. counting process는 \(p\)차원일 수 있고, 각 성분은 intensity \(\lambda_j(t,X_t^u,u_t)\)를 가진다. 성과함수는
정리 5.4 (jump-diffusion 제어의 DPP와 HJB)
임의의 정지시간 \(\tau\le T\)에 대해
가 성립하고, 충분한 정칙성 아래 값함수는
와 \(H(T,x)=G(x)\)를 만족한다.
증명
DPP 부분은 정리 5.1과 5.3을 합친 것에 불과하다. 확산 경로와 점프 경로를 동시에 가진다고 해서 tower property 자체가 달라지지 않기 때문이다. 핵심은 무한소 전개다. \(C^{1,2}\) 함수 \(\varphi\)에 대해 jump-diffusion Itô 공식을 쓰면
여기서 각 \(dN_t^{u,j}\)를 \(d\widetilde N_t^{u,j}+\lambda_j\,dt\)로 분해하면 drift가 정확히
로 정리된다. 이후의 DPP→무한소 극한→sup 취하기→최적제어에 대한 반대 부등식 확보라는 논리는 앞선 두 정리와 완전히 동일하다. 단지 생성자에 확산항과 점프항이 동시에 들어갈 뿐이다.
예시: round-trip trade 최적화
한 번의 round-trip에서 매수는 시장가로 수행되어 절반 스프레드 \(\Delta/2\)를 지불하고, 이후 매도 지정가를 midprice보다 \(u\)만큼 위에 놓아 체결되면 \(u-\Delta/2\)의 이익을 얻는다고 하자. 체결 도착강도가 \(A e^{-\kappa u}\)이면, wealth 증가식은
이고 값함수 \(H(t,x,n)=x+g(t)\)를 가정하면 HJB는
최적 \(u\)는 목적함수 \(\phi(u):=A e^{-\kappa u}(u-\Delta/2)\)를 미분하여
또 \(\phi''(u^\ast)=-\kappa A e^{-\kappa u^\ast}<0\)이므로 최대점이다. 따라서
결국
5.5 Optimal stopping
정의 (최적정지 문제)
확률과정 \(X\)가 주어져 있고, 정지시간 \(\tau\in\mathcal T_{t,T}\)를 고르는 문제를 생각하자. 성과함수와 값함수는
즉 지금 멈출지, 더 기다릴지를 결정하는 문제다.
Figure 5.3 continuation region에서는 더 기다리는 편이 즉시 행사보다 낫고, stopping region에서는 즉시 정지가 최적이다. 자유경계는 이 둘을 가르는 경계이며 값함수와 함께 동시에 풀려야 한다.
정의 (정지영역과 계속영역)
정지영역과 계속영역을 각각
로 둔다. \(\mathcal S\)에서는 지금 멈춰도 이미 값함수와 즉시보상이 일치하므로 정지가 최적이고, \(\mathcal C\)에서는 기다릴 여지가 남아 있다.
5.5.1 DPP for stopping
정리 5.5 (optimal stopping의 DPP)
임의의 정지시간 \(\theta\le T\)에 대해
가 성립한다.
증명
1단계: 임의의 \(\tau\)를 \(\{\tau<\theta\}\)와 \(\{\tau\ge\theta\}\)로 분해한다.
\(\{\tau\ge\theta\}\)에서는 \(\theta\) 이후 남은 문제를 새로 시작한 stopping problem으로 볼 수 있다. 따라서 strong Markov property와 tower property로
2단계: 상계 부등식. 위 결과를 합치면 모든 \(\tau\)에 대해
좌변에서 \(\tau\)에 대해 supremum을 취하면
3단계: 반대 부등식. 이번에는 \(\varepsilon>0\)를 고정하고, \(\theta\) 이후의 문제에서 \(\varepsilon\)-최적 정지시간 \(\rho^\varepsilon\in\mathcal T_{\theta,T}\)를 택하자. 즉
이제 새로운 정지시간을
로 정의하면 이는 admissible stopping time이다. 그러면
좌변은 \(H(t,x)\) 이하이므로
모든 \(\tau\)에 대해 성립하므로 supremum을 취하고 \(\varepsilon\downarrow0\)을 보내면 반대 부등식을 얻는다.
5.5.2 Variational inequality
정리 5.6 (optimal stopping의 variational inequality)
\(H\in C^{1,2}\), \(G\) 연속이라 가정하면 \(H\)는 영역 \(D=[0,T]\times\mathbb R^m\)에서
를 만족한다.
증명
1단계: 먼저 \(\max\{\partial_tH+\mathcal L H,\;G-H\}\le 0\)를 보인다. 즉시정지 \(\tau=t\)는 admissible이므로
따라서 \(G-H\le 0\)다. 이제 \((t_0,x_0)\in D\)를 고정하고
를 택한다. 정리 5.5에서 \(\theta=\theta_h\), \(\tau=\theta_h\)를 대입하면
Itô 공식을 적용하면
여기서 \(M\)은 적절한 martingale이다. 기대값을 취하면 martingale 차분의 평균이 0이므로
\(h\downarrow0\)을 보내면
즉 \(\max\{\partial_tH+\mathcal L H,\;G-H\}\le 0\)가 성립한다.
2단계: 이제 반대 부등식 \(\max\{\partial_tH+\mathcal L H,\;G-H\}\ge 0\)를 모순법으로 보인다. 반대로 어떤 \((t_0,x_0)\)에서
라고 하자. 연속성 때문에 작은 원통영역 \(D_h=[t_0,t_0+h]\times B_h(x_0)\)와 \(\delta>0\)를 택해
가 되도록 할 수 있다. 여기서
는 \(H\)를 위에서 살짝 눌러주는 함수다. 또한 경계에서는 \(\eta:=\max_{\partial D_h}(H-\phi_\varepsilon)<0\)이다.
3단계: 경계 탈출시점까지의 정지문제를 생각한다. \(\theta:=\inf\{t>t_0:(t,X_t)\notin D_h\}\)라 두고 임의의 stopping time \(\tau\in\mathcal T_{t_0,T}\)에 대해 \(\psi:=\tau\wedge \theta\)를 잡는다. Itô 공식으로
따라서
그런데 \(\psi=\tau<\theta\)이면 아직 \(D_h\) 내부이므로 \(H\ge G+\delta\), \(\psi=\theta\)이면 경계에서 \(\phi_\varepsilon\ge H-\eta\)가 된다. 이를 이용하면
즉
\(\delta>0\), \(-\eta>0\)이므로 우변은 정리 5.5의 DPP 우변보다 항상 엄격히 크다. 이는 \(H\)가 그 supremum과 같아야 한다는 정리 5.5와 모순이다. 따라서 (C)는 불가능하다.
4단계: 결론. 이미 1단계에서 \(\max\le 0\), 3단계 모순법에서 \(\max\ge 0\)를 얻었으므로 결국
가 성립한다.
5.6 Control과 stopping의 결합
정의 (combined stopping-control problem)
제어 \(u\)와 정지시간 \(\tau\)를 동시에 최적화하는 문제를 생각하자. jump-diffusion 상태과정 \(X^u\)가 주어졌을 때
문제의 핵심은 “아직 계속할 것인가”와 “계속한다면 어떻게 제어할 것인가”를 동시에 결정해야 한다는 점이다.
5.6.1 DPP for stopping and control
정리 5.7 (stopping-control의 DPP)
임의의 정지시간 \(\theta\le T\)에 대해
가 성립한다.
증명
증명은 정리 5.1과 정리 5.5를 합친 것이다. 임의의 \((u,\tau)\)에 대해 \(\{\tau<\theta\}\)에서는 이미 보상 \(G(X_\tau^u)\)를 받았고, \(\{\tau\ge\theta\}\)에서는 \(\theta\) 시점까지 제어 \(u\)가 상태를 \(X_\theta^u\)로 밀어 놓은 후에, 남은 문제는 그 상태에서 다시 시작하는 combined problem이 된다. 따라서 tower property와 strong Markov property로
좌변에서 \((u,\tau)\)에 대한 supremum을 취하면 한쪽 부등식을 얻는다. 반대 부등식은 \(\theta\) 이후 상태 \(X_\theta^u\)에서 \(\varepsilon\)-최적 쌍 \((u^\varepsilon,\tau^\varepsilon)\)을 선택하여 \([t,\theta]\)의 원래 제어와 이후의 \(\varepsilon\)-최적제어를 붙이고, 정지시간도 \(\tau\mathbf1_{\{\tau<\theta\}}+\tau^\varepsilon\mathbf1_{\{\tau\ge\theta\}}\)로 붙이면 얻어진다. 세부계산은 stopping만 있을 때와 control만 있을 때의 pasted construction을 동시에 적용하면 된다.
5.6.2 QVI
정리 5.8 (stopping-control의 QVI)
값함수 \(H\in C^{1,2}\), \(G\) 연속이라 가정하면 \(H\)는
를 만족한다.
증명
1단계: 즉시정지로부터 \(G-H\le 0\). combined problem에서도 \(\tau=t\)는 admissible이므로
2단계: 계속한다면 제어형 HJB 부등식이 나온다. 작은 국소정지시간 \(\theta_h\)를 택하고 \([t,\theta_h]\)에서 상수제어 \(v\)를 사용하며 정지는 하지 않는 전략을 생각하자. 정리 5.7의 DPP에서 \(\tau\ge\theta_h\)가 되도록 선택하면
Itô 공식을 적용하고 기대값을 취한 뒤 \(h\downarrow0\)을 보내면
이 부등식은 임의의 \(v\)에 대해 성립하므로
따라서 이미
를 얻었다.
3단계: 반대 부등식을 모순법으로 보인다. 반대로 어떤 \((t_0,x_0)\)에서
라 하자. 연속성 때문에 작은 원통영역 \(D_h\)와 \(\delta>0\)가 존재하여 그 안에서 \(H\ge G+\delta\)이고
이제 measurable selector 정리에 의해 각 점에서 거의 최대를 주는 제어 \(\hat u(t,x)\)를 선택할 수 있어서
가 되게 할 수 있다.
4단계: 경계이탈시점까지 \(\hat u\)를 사용한다. \(\theta:=\inf\{s>t_0:(s,X_s^{\hat u})\notin D_h\}\)라 두자. 정리 5.7에서 임의의 정지시간 \(\tau\)에 대해
한편 Itô 공식과 (E)로부터
\(\{\tau<\theta\}\)에서는 아직 \(D_h\) 내부이므로 \(H\ge G+\delta\), \(\{\tau\ge\theta\}\)에서는 그대로 \(H(\theta,X_\theta^{\hat u})\)가 남는다. 따라서 (G)는
를 준다. 이는 DPP 식 (F)의 우변보다 항상 엄격히 큰 하한을 만들어 모순이다. 따라서 (D)는 불가능하다.
5단계: 결론. 2단계에서 \(\max\le0\), 4단계 모순법으로 \(\max\ge0\)를 얻었으므로 QVI가 성립한다.
이 장의 핵심은 제어문제와 정지문제가 각각 DPP → 무한소 방정식으로 내려간다는 사실, 그리고 둘이 결합되면 HJB와 obstacle structure가 한 식 안에서 동시에 나타난다는 점이다. 뒤 장들에서 limit order, market order, inventory, adverse selection, pair spread, order imbalance가 추가되어도 수학적 골격은 이 장의 DPP, HJB, variational inequality, QVI를 벗어나지 않는다.
Appendix 연동 보강
A. \(\tau\wedge n\) 절단과 OST 사용 습관
정의 (\(\tau_n:=\tau\wedge n\))
임의의 stopping time \(\tau\)에 대해 \(\tau_n:=\tau\wedge n\)은 bounded stopping time이다. OST를 직접 \(\tau\)에 적용하기 어렵다면 항상 먼저 \(\tau_n\)에 적용한 뒤 \(n\to\infty\)를 보내는 것이 가장 안전하다.
정리 (bounded stopping time에 대한 optional sampling)
\(M\)이 마팅게일이고 \(\sigma\le\tau\le T\)가 bounded stopping time이면
증명
Part A 4절에서 이미 일반형을 증명했다. Appendix에서 다시 강조할 점은, 실제 계산에서는 거의 항상 \(\tau_n\)부터 시작해야 한다는 것이다. 즉 \(\mathbb E[M_{\tau_n}]=\mathbb E[M_0]\)를 먼저 얻고, 그 뒤 \(M_{\tau_n}\to M_\tau\)를 어떤 수렴정리로 기대값 밖으로 꺼낼 수 있는지 점검한다. 바로 그 점검을 위해 UI가 등장한다. ∎
B. UI 마팅게일과 극한교환
정리 (UI 마팅게일의 \(L^1\) 수렴과 재표현)
UI 마팅게일 \(M_t\)가 a.s. \(M_\infty\)로 수렴하면
증명
Vitali 정리에 의해 a.s. 수렴과 UI는 곧 \(L^1\) 수렴을 준다. 이어서 임의의 \(A\in\mathcal F_t\)에 대해
이고, \(s\to\infty\)를 보내면 \(L^1\) 수렴 때문에
따라서 조건부기대의 정의로 \(\mathbb E[M_\infty\mid\mathcal F_t]=M_t\). ∎
'Financial Engineering > ALGORITHMIC AND HIGH-FREQUENCY TRADING' 카테고리의 다른 글
| Chapter 7. Optimal Execution with Continuous Trading II (0) | 2026.03.22 |
|---|---|
| Chapter 6. Optimal Execution with Continuous Trading I (0) | 2026.03.22 |
| Chapter 4. Empirical and Statistical Evidence: Activity and Market Quality (0) | 2026.03.22 |
| Chapter 3. Empirical and Statistical Evidence: Prices and Returns (0) | 2026.03.22 |
| Chapter 2. A Primer on the Microstructure of Financial Markets (0) | 2026.03.22 |