【应用数学】动态最优化(3):离散动态规划与二次规划

200727本篇是应用数学之动态最优化理论的笔记,欢迎各位交流!今天是第三部分:离散动态规划与二次规划

本篇关于动态最优化的综合学习笔记。主要包括了离散与连续时间动态规划、连续时间最优控制与变分法等主题。本章仅给出在解决实际应用问题时的基本计算方法,对于数学上更进一步深入可以参考Stokey和Lucas(1989)。

目录

  • 3. 动态规划与二次规划
    • 3.1 动态规划
      • 3.1.1 确定性离散动态规划
      • 3.1.2 随机动态规划
    • 3.2 二次规划
      • 3.2.1 确定性最优线性调节器
      • 3.2.2 随机线性二次规划

3. 动态规划与二次规划

3.1 动态规划

3.1.1 确定性离散动态规划

对于无限期问题
max ⁡ ∑ t = 0 ∞ β t r ( x t , u t ) s . t . u t = h ( x t ) x t + 1 = g ( x t , u t ) \max \sum_{t=0}^{\infty} \beta^{t} r\left(x_{t}, u_{t}\right)\\ s.t. u_{t}=h\left(x_{t}\right)\\ \quad \quad x_{t+1}=g\left(x_{t}, u_{t}\right) maxt=0βtr(xt,ut)s.t.ut=h(xt)xt+1=g(xt,ut)

定义值函数为

v ( x 0 ) = max ⁡ { u t } t = 0 ∞ ∑ t = 0 ∞ β t r ( x t , u t ) v\left(x_{0}\right)=\max _{\left\{u_{t}\right\}_{t=0}^{\infty}} \sum_{t=0}^{\infty} \beta^{t} r\left(x_{t}, u_{t}\right) v(x0)={ut}t=0maxt=0βtr(xt,ut)

则贝尔曼方程为
v ( x ) = max ⁡ u { r ( x , u ) + β v [ g ( x , u ) ] } v(x)=\max _{u}\{r(x, u)+\beta v[g(x, u)]\} v(x)=umax{r(x,u)+βv[g(x,u)]}

此时对控制变量 u u u求导得到一阶条件,对状态变量 x x x求导得到包络定理,亦称为Benveniste-Scheinkman方程:
r u ( x , u ) + β v ′ [ g ( x , u ) ] g u ( x , u ) = 0 v ′ ( x ) = r x ( x , u ) + β v ′ [ g ( x , u ) ] g x ( x , u ) = 0 r_{u}(x, u)+\beta v^{\prime}[g(x, u)] g_{u}(x, u)=0\\ v^{\prime}(x)=r_{x}(x, u)+\beta v^{\prime}[g(x, u)] g_{x}(x, u)=0 ru(x,u)+βv[g(x,u)]gu(x,u)=0v(x)=rx(x,u)+βv[g(x,u)]gx(x,u)=0

综合以上两条件,得到欧拉方程,其中第二个方程为横截条件。
r u ( x t , x t + 1 ) + β r x ( x t + 1 , x t + 2 ) = 0 lim ⁡ t → ∞ β t r x ( x t , x t + 1 ) x t = 0 r_{u}\left(x_{t}, x_{t+1}\right)+\beta r_{x}\left(x_{t+1}, x_{t+2}\right)=0\\ \lim _{t \rightarrow \infty} \beta^{t} r_{x}\left(x_{t}, x_{t+1}\right) x_{t}=0 ru(xt,xt+1)+βrx(xt+1,xt+2)=0tlimβtrx(xt,xt+1)xt=0

3.1.2 随机动态规划

对于问题
max ⁡ E 0 ∑ t = 0 ∞ β t r ( x t , u t ) s . t . x t + 1 = g ( x t , u t , ε t + 1 ) \max \quad E_{0} \sum_{t=0}^{\infty} \beta^{t} r\left(x_{t}, u_{t}\right)\\ s.t. \quad x_{t+1}=g\left(x_{t}, u_{t}, \varepsilon_{t+1}\right) maxE0t=0βtr(xt,ut)s.t.xt+1=g(xt,ut,εt+1)
则贝尔曼方程为
v ( x ) = max ⁡ u { r ( x , u ) + β E [ v ( g ( x , u , ε ) ) ∣ x ] } v(x)=\max _{u}\{r(x, u)+\beta E[v(g(x, u, \varepsilon)) \mid x]\} v(x)=umax{r(x,u)+βE[v(g(x,u,ε))x]}

此方程右端问题的一阶必要条件
r u ( x , u ) + β E [ g u ( x , u , ε ) v ′ [ g ( x , u , ε ) ] ∣ x ] = 0 E [ v ( g ( x , u , ε ) ) ∣ x ] } = ∫ v [ g ( x , u , ε ) ] d F ( ε ) r_{u}(x, u)+\beta E\left[g_{u}(x, u, \varepsilon) v^{\prime}[g(x, u, \varepsilon)] \mid x\right]=0\\ E[v(g(x, u, \varepsilon)) \mid x]\}=\int v[g(x, u, \varepsilon)] \mathrm{d} F(\varepsilon) ru(x,u)+βE[gu(x,u,ε)v[g(x,u,ε)]x]=0E[v(g(x,u,ε))x]}=v[g(x,u,ε)]dF(ε)
可依一阶条件和包络定理得随机欧拉方程
r u ( x , u ) + β E [ g u ( x , u , ε ) r x ( x ~ , u ~ ) ∣ x ] = 0 r_{u}(x, u)+\beta E\left[g_{u}(x, u, \varepsilon) r_{x}(\tilde{x}, \tilde{u}) \mid x\right]=0 ru(x,u)+βE[gu(x,u,ε)rx(x~,u~)x]=0

3.2 二次规划

3.2.1 确定性最优线性调节器

  1. 不带贴现的最优线性调节器:

    优化问题

max ⁡ ∑ t = 0 ∞ { x t ′ R x t + u t ′ Q u t } s . t . x t + 1 = A x t + B u t \max \sum_{t=0}^{\infty}\left\{x_{t}^{\prime} R x_{t}+u_{t}^{\prime} Q u_{t}\right\}\\ s.t. x_{t+1}=A x_{t}+B u_{t} maxt=0{xtRxt+utQut}s.t.xt+1=Axt+But

其中 R R R 为半负定对称矩阵, Q Q Q 为负定对称矩阵。
− x ′ P x = max ⁡ u { − x ′ R x − u ′ Q u − ( A x + B u ) ′ P ( A x + B u ) } -x^{\prime} P x =\max _{u}\left\{-x^{\prime} R x-u^{\prime} Q u-(A x+B u)^{\prime} P(A x+B u)\right\} xPx=umax{xRxuQu(Ax+Bu)P(Ax+Bu)}
有一阶条件
 F.O.C.  ( Q + B ′ P B ) u = − B ′ P A x ⇒ u = − ( Q + B ′ P B ) − 1 B ′ P A x ⇒ P = R + A ′ P A − A ′ P B ( Q + B ′ P B ) − 1 B ′ P A \begin{aligned} &\text { F.O.C. } \quad\left(Q+B^{\prime} P B\right) u=-B^{\prime} P A x \\ & \Rightarrow u=-\left(Q+B^{\prime} P B\right)^{-1} B^{\prime} P A x \\ & \Rightarrow P=R+A^{\prime} P A-A^{\prime} P B\left(Q+B^{\prime} P B\right)^{-1} B^{\prime} P A \end{aligned}  F.O.C. (Q+BPB)u=BPAxu=(Q+BPB)1BPAxP=R+APAAPB(Q+BPB)1BPA

一般使用值函数迭代算法求解。
P j + 1 = R + A ′ P j A − A ′ P j B ( Q + B ′ P j B ) − 1 B ′ P j A F j + 1 = ( Q + B ′ P j B ) − 1 B ′ P j A x P_{j+1}=R+A^{\prime} P_{j} A-A^{\prime} P_{j} B\left(Q+B^{\prime} P_{j} B\right)^{-1} B^{\prime} P_{j} A\\ F_{j+1}=\left(Q+B^{\prime} P_{j} B\right)^{-1} B^{\prime} P_{j} A x Pj+1=R+APjAAPjB(Q+BPjB)1BPjAFj+1=(Q+BPjB)1BPjAx

  1. 带贴现的最优线性调节器

max ⁡ − ∑ t = 0 ∞ β t { x t ′ R x t + u t ′ Q u t } s . t . x t + 1 = A x t + B u t \max -\sum_{t=0}^{\infty}\beta^t\left\{x_{t}^{\prime} R x_{t}+u_{t}^{\prime} Q u_{t}\right\}\\ s.t. x_{t+1}=A x_{t}+B u_{t} maxt=0βt{xtRxt+utQut}s.t.xt+1=Axt+But

则改使用如下的值函数迭代算法
P j + 1 = R + β A ′ P j A − β 2 A ′ P j B ( Q + β B ′ P j B ) − 1 B ′ P j A F j + 1 = β ( Q + β B ′ P j B ) − 1 B ′ P j A x P_{j+1}=R+\beta A^{\prime} P_{j} A-\beta^2A^{\prime} P_{j} B\left(Q+\beta B^{\prime} P_{j} B\right)^{-1} B^{\prime} P_{j} A\\ F_{j+1}=\beta \left(Q+\beta B^{\prime} P_{j} B\right)^{-1} B^{\prime} P_{j} A x Pj+1=R+βAPjAβ2APjB(Q+βBPjB)1BPjAFj+1=β(Q+βBPjB)1BPjAx

3.2.2 随机线性二次规划

优化问题为
max ⁡ E 0 ∑ t = 0 ∞ β t { x t ′ R x t + u t ′ Q u t } s . t . x t + 1 = A x t + B u t + ε t + 1 E t ε t ε t ′ = Σ \max \quad E_{0} \sum_{t=0}^{\infty} \beta^{t}\left\{x_{t}^{\prime} R x_{t}+u_{t}^{\prime} Q u_{t}\right\}\\ s.t. \quad x_{t+1}=A x_{t}+B u_{t}+\varepsilon_{t+1}\\ E_t\varepsilon_t\varepsilon_t^\prime = \Sigma maxE0t=0βt{xtRxt+utQut}s.t.xt+1=Axt+But+εt+1Etεtεt=Σ
P P P 满足代数黎卡提方程且
v ( x ) = x ′ P x + d d = β 1 − β tr ⁡ ( P Σ ) F = β ( Q + β B ′ P ′ B ) − 1 B ′ P A v(x)=x^{\prime} P x+d\\ d=\frac{\beta}{1-\beta} \operatorname{tr}(P \Sigma)\\ F=\beta\left(Q+\beta B^{\prime} P^{\prime} B\right)^{-1} B^{\prime} P A v(x)=xPx+dd=1ββtr(PΣ)F=β(Q+βBPB)1BPA
定理(确定性等价原理): 求解随机线性问题的反馈法则和相应确定性的问题得到的反馈问题是恒等的。

你可能感兴趣的:(统计学习)