读论文Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning

这篇论文是飞飞出品,你知道的,imageNet的光环。论文主要是通过深度增强学习让机器人在房间里面找东西。

那么对于基于DRL的算法,确实存在论文指出的的缺点:1、对目标的泛化能力比较弱;2、数据的低效性,无法从模拟环境转移到真实世界(deepmind在今年发表了一篇论文,用transfer learning的办法实现从模拟环境到真实环境)。

论文号称有了四个方面的改进:

1、收敛更快

2、具备泛化目标和场景

3、仅仅进行finetuning就能把网络应用于实际世界

4、end to end

为了达到这些目的,他们首先是开发了一个高质量的3D效果的模拟环境 The House Of inteRactions

(AI2-THOR):

1、有即插即用的架构,方便各种环境的组合。能够支持运动和物体在外力作用相应变化。结合了unity3D物理引擎和深度学习框架。

2、通过物理引擎渲染的图片进入深度学习框架中,而深度学习的框架可以根据视觉输入发出控制命令,把命令传递给物理引擎。物理引擎和学习框架是直接通讯的。

3、虚拟环境的物体和实际环境中要尽可能的细节一致

4、创建基于室内卧室、客厅、厨房和卫生间32个不同的场景,平均每个场景容纳了68个物体

(看起来真是不错,等开源)

算法Target-driven Visual Navigation in Indoor Scenes主要思路:

1、问题和目标

最少的步骤让机器人走到目标图片所在的场景。记住一点:算法最后建立的模型能够让agent通过2D的照片学习到3D环境中的行动。

2、问题的构想

论文认为,我们之前利用drl解决问题,都是一点点学会规则,其实从某种意义上来说,就是把目标硬编码在网络参数中,所以,论文采用的办法是把目标作为输入引人网络,而不是硬编码到网络参数中。所以,算法提出的网络是把state和target goal都当成输入,这样就泛化了目标,解决了更换目标就要重新训练网络的问题。即使即使目标没有被训练过,也能使用

3、搭建环境

动作空间:四个动作输出,前进、后退、左转、右转。在实际环境中,输出增加了高斯噪声

步长N(0,0.01),角度N(0,1.0)

观察和目标:

观察和目标都是基于agent的第一视角的RGB相机拍摄的

奖赏设置:

到达目标,10分的奖励,为了鼓励最短路径,每过一段时间给予-0.01的惩罚

4、Model:

因为增加了目标输入,策略函数就变成了这样:

读论文Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning_第1张图片

g是goal。(这是整篇论文中唯一出现的公式,感觉不是在看DRL的论文,呵呵)

对于网络来说,输入是两张图片,一个是当前的state,另外一个是目标。网络的任务是搜索state和goal之间的空间联系,也就是说必须有地理空间的各个照片和空间联系,所以所有环境的的信息是要保留在网络中的。论文应用了一个深度siamese网络,来完成state到整个环境的映射,从图4中可以看出来,我没怎么看明白,于是找了论文中列出来的参考论文,Yannlecun大牛的,网络架构如下:

读论文Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning_第2张图片

看这个图应该能对所谓深度siamese网络加深了解。

5、训练

采用了A3C的算法,主要是考虑异步并行。

6、网络架构:


读论文Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning_第3张图片

网络的最底层是利用imagenet预先训练好的ResNet-50,基于224*224*3的输入产生2048维的输出,采用4桢连续的图像作为状态输入,额外的goal的图像也是同样处理。ResNet-50的参数在后面的训练中是freezed的。两个输出最后合并成512维的向量,然后流经场景层,(这部分算法是没有给出的,大家可以自己考虑,我理解还是图像差别比较),最后输出agent的动作。

上一张更形象的图

读论文Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning_第4张图片

论文的主要算法就是这些了,后面的主要是一些测试数据,比较部分就不提了。论文还做了一个测试,就是利用真实的机器人来验证他们的想法。实验证明基于模拟环境测试的网络可以让真实的机器人收敛速度快44%。

读论文Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning_第5张图片

个人感觉:论文提出的那些问题确实是最主要的问题,而且也很宏大,但是论文本身提出的解决方案,还是有一些trick的(当然我的水平还是无法企及的,不要被我的看法误导)。我觉得模拟环境值得期待,从模拟环境到真实机器人的探索也是一个亮点。

你可能感兴趣的:(读论文Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning)