VREP——无人机路径规划(按键控制、行人跟踪、DQN调参)

2020.07.01更新  历史新突破:loss收敛,reward收敛

问题:智能体在训练后期只执行一个动作,也就是在不同的输入状态下,神经网络的参数、输出结果固定不变了。

我尝试的方法:

0、将输入进行归一化。img/255.0

1、将cnn的卷积核调整合适。因为输入图像是64*64的大小,而行人在相机视野里只占很小的一部分。但是我关注的不是图像的细节,而是行人在无人机的哪个方向,所以卷积核应该稍微大一点。(将3*3,stride=1调整为6*6,8*8,stride=2)

VREP——无人机路径规划(按键控制、行人跟踪、DQN调参)_第1张图片

2、参数初始化。一般权重参数0.01均方差,0均值的高斯分布是万能的,不行就试更大的。偏差参数全0即可。

3、将relu激活函数换成了leaky_relu。relu梯度消失的问题。

4、增加神经网络深度。增加两层全连接层。

5、调整随机explore的概率。在之前的训练中,1000step左右loss就下降到0.5以内了,所以随机探索的概率是这样的:<200steps  rate=0.9,保证有足够多的随机探索状态;  200-1000 由0.9下降到0.15;>1000steps  rate保持0.15。

6、把value和advantage去了,化繁为简。

VREP——无人机路径规划(按键控制、行人跟踪、DQN调参)_第2张图片 原始版本网络参数

 

VREP——无人机路径规划(按键控制、行人跟踪、DQN调参)_第3张图片 新版本网络参数

 结果展示:

无人机跟踪行人

 

VREP——无人机路径规划(按键控制、行人跟踪、DQN调参)_第4张图片 最后保持在0.15左右
VREP——无人机路径规划(按键控制、行人跟踪、DQN调参)_第5张图片 reward其实设计的不好,就是-distance

 

cnn和全连接层参数: 

VREP——无人机路径规划(按键控制、行人跟踪、DQN调参)_第6张图片

 

VREP——无人机路径规划(按键控制、行人跟踪、DQN调参)_第7张图片

 

2020.06.30更新

经过好几个版本的修改,在6.25版本的前5000步,loss有了下降趋势。但是5000后又上升了我去

VREP——无人机路径规划(按键控制、行人跟踪、DQN调参)_第8张图片

 

VREP——无人机路径规划(按键控制、行人跟踪、DQN调参)_第9张图片

 reward惨不忍睹:

VREP——无人机路径规划(按键控制、行人跟踪、DQN调参)_第10张图片

2020.06.12更新

1、键盘控制无人机运动并保存图像、位置信息(Python)

code:https://download.csdn.net/download/weixin_40820983/12517149

未通过审核!有毒吧,怎么违规了?需要请留言。

功能:

1、键盘 w s a d up down left right 八个按键控制无人机 向前 向后 向左 向右 上升 下降 左旋 右旋 \

2、记录与行人的距离、动作序号、图像

3、有前置摄像、下置摄像两个场景

VREP——无人机路径规划(按键控制、行人跟踪、DQN调参)_第11张图片

VREP——无人机路径规划(按键控制、行人跟踪、DQN调参)_第12张图片

 

 2、前置摄像opencv行人识别

代码:https://download.csdn.net/download/weixin_40820983/12517235

功能:将图像中的行人标出

缺点:模糊的、不完整的不能识别

VREP——无人机路径规划(按键控制、行人跟踪、DQN调参)_第13张图片VREP——无人机路径规划(按键控制、行人跟踪、DQN调参)_第14张图片VREP——无人机路径规划(按键控制、行人跟踪、DQN调参)_第15张图片VREP——无人机路径规划(按键控制、行人跟踪、DQN调参)_第16张图片

3、DRQN训练无人机跟踪行人

代码:还在修改还在跑,仿真太慢了我去。等这一版跑完了就上传资源。

结果:上一阶段,前置摄像头的结果不太理想,我认为很大的原因是摄像头容易看不到行人。所以换了下置摄像头,

先放一个150局的结果图,reward有上升趋势,loss不收敛。继续改吧。

VREP——无人机路径规划(按键控制、行人跟踪、DQN调参)_第17张图片

 

VREP——无人机路径规划(按键控制、行人跟踪、DQN调参)_第18张图片

 (内容不多,但是真的花了很多时间去研究vrep怎么用。仔细想想好像对提高能力和找工作没什用,但是感兴趣就坚持吧,毕竟找一个别人搭好的环境去跑别人写好的代码也没什么意思)

 

 

 

 

你可能感兴趣的:(强化学习)