LearningHand-Eye Coordination for Robotic Grasping with Deep Learning and Large-ScaleData Collection

DeepMind 物体抓取
LearningHand-Eye Coordination for Robotic Grasping with Deep Learning and Large-ScaleData Collection_第1张图片

文章的出发点就是一个,看看收集巨量数据能否训练出不错的效果。于是他们构建了个很大的神经网络来训练,但是没有使用RL,而使用CEM。
LearningHand-Eye Coordination for Robotic Grasping with Deep Learning and Large-ScaleData Collection_第2张图片

输入当前帧和初始帧,然后输入Motor Command,输出则是捡取物体的成功概率。这个和一般的做法很不一样,一般policy是输出动作。而这个则是输出成功概率,某种程度上讲,这是一个value network而不是policy network。我想可能的一个原因是做这个实验的时候A3C还没出来,当时还是DQN的时代,要不然就用A3C呀。事实上之后Sergey Levine团队确实改用DRL做了。那么他为了训练这个网络,需要sample出motor command,这里就是使用CEM来采样,效果当然会比随机采样来的好。
这篇文章的思路其实比较简单,关键是训练成本非常高,非Google没有这样的资源去实验这个事情。那么实验出来效果确实还很不错,这其实就是验证了deep learning的有效性。之后Google的paper也再没有使用上面这样的网络结构了。

你可能感兴趣的:(Paper,Reading,人工智能,深度学习,神经网络)