自适应动态规划学习笔记(2)

@[toc]自适应动态规划学习笔记(2)
第二天

动态规划的基本原则是贝尔曼的最优性原则,简单描述为:
多级决策过程的最优策略,不论其初始状态和初始决策如何,当把其中任何一级和状态作为初始级和初始状态时,其剩余的决策对此也必定是一个最优策略

An optimal (control) policy has the property that no matter what previous decisions have been, the remaining decisions must constitute an optimal policy with regard to the state resulting from those previous decisions.*

 举个例子,假如一个多级决策过程为 A → B → C → D A\rightarrow B\rightarrow C\rightarrow D ABCD,从 A A A D D D的最优策略为 { u ( 0 ) , u ( 1 ) , u ( 2 ) } \lbrace u(0),u(1),u(2)\rbrace { u(0),u(1),u(2)},那么对于以 B B B为初态的决策过程 B → C → D B\rightarrow C\rightarrow D BCD来说 { u ( 1 ) , u ( 2 ) } \lbrace u(1),u(2)\rbrace { u(1),u(2)}必定是最优策略。证明略。
 言归正传,假设从所有 k + 1 k+1 k+1时刻可能到达的状态 x k + 1 x_{k+1} xk+1开始,到最终状态的最优代价 J ∗ ( x k + 1 ) J^*(x_k+1) J(xk+1)已经计算得出,并且已经找到了从 k + 1 k+1 k+1时刻到最终状态的最优控制序列。需要注意的是,这个最优控制序列是取决于状态 x k + 1 x_{k+1} xk+1的,当最优控制序列 ( u k + 1 ∗ , u k + 2 ∗ , ⋯   ) (u^*_{k+1},u^*_{k+2},\cdots) (uk+1,uk+2,)作用与以 x k + 1 x_{k+1} xk+1为初始状态的系统时,如果在 k k k时刻施加一个任意的控制 u k u_k uk,从 k + 1 k+1 k+1时刻开始的控制采用上述的最优控制序列,那么代价可以由如下公式给出:
U ( x k , u k ) + γ U ( x k + 1 , u k + 1 ∗ ) + γ 2 U ( x k + 2 , u k + 2 ∗ ) + ⋯ = U ( x k , u k ) + γ J x k + 1 ∗ U(x_k,u_k)+\gamma U(x_{k+1},u^*_{k+1})+\gamma^2U(x_{k+2},u^*_{k+2})+\cdots=U(x_k,u_k)+\gamma J^*_{x_k+1} U(xk,uk)+γU(xk+1,uk+1)+γ2U(xk+2,uk+2)+=U(xk,uk)+γJxk+1
其中 x k x_k xk是系统在 k k k时刻的状态,显然 x k + 1 x_{k+1} xk+1可以由 x k x_k xk和第一天的系统方程(1) x k + 1 = F ( x k , u k ) x_{k+1} = F(x_k,u_k) xk+1

你可能感兴趣的:(自适应动态规划学习笔记(2))