基于近端策略优化的Proximal Policy Optimization(PPO)的无人机姿态控制系统的研究——详细版

1.问题描述:

 基于近端策略优化的Proximal Policy Optimization(PPO)的无人机姿态控制系统的研究——详细版_第1张图片

        PPO算法是由OpenAI提出的,该算法是一种全新的策略梯度(Policy Gradient)算法,但是传统的策略梯度算法受到步长影响较大,而且很难选择出最优的步长参数,如果训练过程中,新策略和旧策略之间的差异过大将影响最终的学校效果。针对这个问题,PPO算法提出了一种新的目标函数,其可以通过多个训练步骤进行小批量的更新,从而解决了传统策略梯度算法中的步长选择问题。

    基于近端策略优化的Proximal Policy Optimization(PPO)的无人机姿态控制系统的研究——详细版_第2张图片

       其将无人机环境所产生的信号作为学习系统的动作的评价指标,其结构上由工作环境W和智能体A两个部分构成。其中智能体A由策略单元P,输入单元I以及强化单元R三个部分构成。其工作模式主要是根据输入单元在感知环境状态之后,做出一个反馈动作并作用到环境中,环境给出一个强化信号,将这个强化后的信号转换为智能体A的输入信号,并经过强化模块将智能体A的新的动作给学习单元࿰

你可能感兴趣的:(★MATLAB算法仿真经验,近端策略优化,PPO,深度强化学习,无人机姿态控制,人工智能)