ADP中PI和VI的算法实现

一. 深度强化学习PI算法(与自动控制系统相结合)

ADP中PI和VI的算法实现_第1张图片

1.1 训练初始的Actor(根据状态做出决策)

        使用了一个神经网络来做actor

        重要的一点是要训练这个actor,如何训练呢?请看接下来的操作

        要明确训练的目的根据状态做出决策(这就意味着Actor网络的输入是状态,输出是决策控制输入)。

而训练需要数据集,因此,接下来就是要想法设法构建数据集,这离不开形如 状态--决策 一一对应的标签 。

        首先,已知离散系统如下

x_{k+1} = Ax_{k} + Bu_{k}

你可能感兴趣的:(ADP,动态规划)