名文共赏:ICRA2019最佳论文

Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks

文章结构

    • 项目简介
    • 核心亮点
    • 模型架构
    • 控制器设计
    • 实验验证
    • 结论和展望

本文根据个人在seminar课上的论文分享汇报整理而成,仅供相关方向研究者或爱好者学习参考,不做任何商业用途。图片来自于论文,如有侵权,请联系删除。

很多研究机器人的同行应该读过这篇文章,或听闻过这篇获ICRA2019最佳论文的文章。文章由李飞飞的高徒朱玉可领衔完成,该文章分两版,其中第一版是被ICRA录用的,第二版是第一版的完善,完成了第一版中提出的未来的工作,可见其团队的用心。下面我们就来“欣赏”这篇美文吧,不得不说,获奖的论文包括英语用词都非常地讲究,强烈建议英语论文不知如何写的小伙伴去读读原文。

项目简介

文章在开头举了一个非常贴近生活的例子——拿钥匙启动汽车,来启发人们触觉和视觉在人生活中的重要性。那对于模仿人类的机器人而言,这两种感觉在控制机器人时同样重要,但对人类轻而易举的动作,对机器人而言却困难重重。首先是非结构化的环境,其次是两种(多种)模态的输入信号的融合问题,最后是控制器如何设计,控制算法如何部署保证实时性的问题。这里就使用了Kuka的机器人来完成一个钉钉子的任务,通过这个任务来检验所提方法的可行性即鲁棒性。
名文共赏:ICRA2019最佳论文_第1张图片
通过以下这幅图就能更直观地看出机械臂控制实验的三个步骤:抵达、对齐、插入。
z轴方向(竖直方向)上的力传感器能实时输出其对盒子输出的压力,我们可以清楚地看到当机械臂初次触碰到盒子以及进行钉子插入时其施加的力达到了一个峰值。当钉子滑入空洞内,力度也随之减小。

名文共赏:ICRA2019最佳论文_第2张图片

核心亮点

名文共赏:ICRA2019最佳论文_第3张图片
这是我对其文献综述部分的一个概括,我用一张图来表示先前方法的不足之处——有些考虑到了使用多模态数据,却只能针对特定任务,无法适应多变的外部环境;有些基于学习的方法,能够习得应对环境的变化的方法,可是训练这些神经网络模型需要海量的数据,而如何获得这些标注数据又是一个很令人头疼的问题。由此,作者提出一种多模态表征学习的方法(Multimodal Representation Learning),该方法不仅能融合异构的传感器数据,同时还能进行学习,帮助机器人判断外界环境的变化带来的影响。

模型架构

该神经网络模型采用了自监督学习方法,即采用特征表征的方法作为输入,从输入中提取内部自然互相关联的特征作为表示,这就避免了人工标注的繁重任务。我们通过图片来依次分析。(图片截选自论文的演示视频)
名文共赏:ICRA2019最佳论文_第4张图片
这个端到端的自监督学习框架采用了三种截然不同的输入信号(改进版中又引入了第四种输入:深度信息):RGB图、力矩和本体感知,这个本体感知有点玄乎,应该是和机械臂系统相关的对外界的感知,比如位置,移动速度之类的一些信号。对于视觉的反馈,编码器采用了一个6层的类似FlowNet的卷积神经网络来编码1281283的彩色图片信号;对于触觉反馈,用了一个5层的卷积层将力矩信号转换为64维的向量。而对于本体感知,则采用2层的多层感知器,同样也产生一个32维的向量。这三个被压缩的向量在经过一个2层的多层感知器后,融合成了一个128x1的特征表征向量。
名文共赏:ICRA2019最佳论文_第5张图片
接下来就是自监督预测模型大显神通的时候了。模型在加入了与动作相关联的信息之后负责两方面的预测:1)由动作引起的光流;2)下一时刻是否会接触。同时,不同的信号还得考虑对齐的问题,因为不同传感器采样频率并不一致,你不能用这一时刻的力矩去匹配上一帧看到的图像。因此,模型还顺带判断表征是否对准。除光流外,另外两者判断结果均为0或1。
名文共赏:ICRA2019最佳论文_第6张图片

控制器设计

对于控制策略学习和控制器设计,这里使用了无模型强化学习(TRPO),因为对接触交互和多接触方案进行建模会导致复杂的优化问题。 此外,通过使用无模型的RL,也无需构建精确的动力学模型。
控制策略网络是一个2层多层感知器(MLP),它以128维多模态表征为输入,并在机器人末端执行器产生3D位移。 为了有效地训练策略,他们在策略学习期间冻结了表征模型参数。 然后,控制器将获取末端执行器的位移并将直接转矩命令输出到机器人。
名文共赏:ICRA2019最佳论文_第7张图片
控制器由三个部分组成:轨迹生成,阻抗控制和操作空间控制。 考虑到安全性和合规性,选择了电动机控制策略作为直接转矩控制。 此外,由于缺乏精确的位置,这种方法使机器人更容易在盒子的表面上滑动。 通过利用已知的机器人运动学和动力学模型,我们可以利用动态一致的操作空间公式,根据笛卡尔空间加速度来计算关节扭矩。

实验验证

实验首先是在仿真模拟环境中进行,随后迁移部署至真实的机器人上。在实验开始前,先回答三个问题,以此捋清实验的目的:
1)为何要用到所有模态的输入而不是其中一部分?
2)在真正的机器人上进行控制策略学习是否具有所学的表征能力?
3)习得的表征网络是否对于任务的变化有较强的泛化能力并能从干扰中恢复过来?
之后的实验围绕这几个思路展开。对于第一个问题,实验者设计了对照实验,即将某一个影响因子剔除,看其对实验产生的影响;第二和第三个问题则是通过不同的孔径形状来验证的,具体如下。
名文共赏:ICRA2019最佳论文_第8张图片
从该图显而易见的获得的第一个结论便是视觉和触觉均对任务的成功完成起到了重要的作用,但是谁的权重更大一些呢?从绿色的线和粉色的线对比可以看出视觉所起的作用要更大一些,这也符合人的常识,是闭着眼睛找钥匙孔容易成功,还是看着孔的大概位置发力把钥匙插进孔里容易成功呢。
为了增加实验的可靠性,他们采用3D打印制造出一批形状各异的“钥匙”,如下图所示。名文共赏:ICRA2019最佳论文_第9张图片
之后,他们分别做了三组实验:1)钉子形状、表征和控制策略均对应,2)表征和学习策略相同(例如都是三角形),实际钉子却是五边形,3)钉子形状和控制策略相同,表征不同。实验结果如下所示:名文共赏:ICRA2019最佳论文_第10张图片
从第4、5根柱子可以看出,在没有学习相应控制策略的情况下,仍能获得60%左右的成功率;而最后两根柱子则揭示了虽然表征不同,但策略相同的情况下成功率会得到大幅提升。
实验还验证了在外部干扰的情况下实验是否能够成功进行。这些可以在视频中进一步看到,论文里只是一笔带过。

结论和展望

该技术研究了在时间一致的多传感器数据上联合推理对丰富接触操作任务的价值。为了实现高效的真实机器人训练,提出了一种新模型,将不同的传感器输入编码成一个紧凑的多模态表示。该研究对紧间隙销钉插入任务的实验表明,它们需要视觉和触觉的多模态反馈。进一步证明了多模态表征可以很好地转移到钉子插入的新任务实例中。而在第一版展望中提到的future work之一加入深度信息则已经在第二版实现了。

参考链接:
论文第一版
论文第二版
演示视频

你可能感兴趣的:(Robotics)