2020-08-18 01:10:41
作者 | 蒋宝尚
编辑 | 陈大鑫
在机器人技术中,虽然我们已经在视觉和触觉方面取得了巨大的进步,但是对声音的研究一直稍有欠缺。
近日,来自卡内基梅隆大学的研究员们,首次对声音和机器人动作之间的相互作用进行了大规模研究。
具体而言,他们开发了一款名为 Tilt-Bot的机器人,能够通过倾斜托盘研究物体运动和声音之间关系,准确率接近80。另外,研究成果以论文的形式发表在《机器人学:科学与系统》 (Robotics: Science and Systems) 上。
https://arxiv.org/pdf/2007.01851.pdf
项目github地址:
https://github.com/Dhiraj100892/swoosh
Tilt-Bot本质上是个托盘机器人,由多个关节的机械臂、托盘和固定装置组成,托盘四周有边框,上面贴着用于记录物体撞击的声波捕捉装置。
图注:运动中的物体和声音数据收集
如上图所示,托盘的正上方还固定了一个摄像头,用于捕捉物体运动轨迹,后期再与声音变化相匹配。
实验时,研究人员会把不同的物体放到托盘中,机械臂随后开始向前后左右倾斜,托盘中的物体也随之移动。
如果倾斜过大,物体就会撞到边框并发出响声,撞击力度越大,捕捉到的声波波峰也就越高。
因此,受过训练的机器人只需要分析物体滑动和撞击的声音记录,就可以区分不同物体。另外,作者在论文中提到,即使同是金属质地的螺丝刀和扳手也可以成功分辨,总体成功率接近 80%。
值得一提的是,作者在实验过程中,根据收集的信息还创建了包含60个物体,15,000个交互(碰撞等)的声音-动作-视觉数据集。数据收集过程如下动图所示:
另外,在论文中作者也给出了在实验中得到的三个观察:1、声音是完成细粒度物体检测任务的神器;2、声音是行动的指示器;3、从声音可以推断出物体的物理属性。
其中,第一个观察意味着:仅仅根据一个物体发出的声音,一个AI学习模型就可以从60个物体中以79.2%的准确率识别该物体;第二个观察意味着,通过声音,AI学习模型就可以预测外力对该物体施加了什么动作;第三个观察意味着,通过声音可以测试物体隐含的物理特性。
以上三个观察,作者用了三种研究方法进行证明。
1 研究方法
为了理解和研究声音与动作的协同作用,卡内基梅陇大学的研究人员重点研究了三大类学习任务:1、细粒度分类(或实例识别);2、逆向模型学习;3、下游正向模型学习(downstream forward-model learnin)。
其中,在细粒度识别任务中,一般是用视觉图像作为输入来完成的。在作者的论文中,主要是以音频作为输入研究“声音”中包含什么样的信息。
具体而言,对于作者TiltBot数据集中的60个物体,作者先创建一个包含80%数据的训练集和一个包含20%数据的测试集。
然后,作者训练一个简单的CNN,只把音频信息作为输入,并输出产生声音的对象的实例标签。这个架构类似于下图☟
经过测试,模型能够达到76.1%的分类准确率。另外,为了进一步了解声音给能够提供哪些信息,作者研究了“声音”模型的常见分类错误,总的来说有两种情况:第一,同一物体的颜色无法识别;第二,当声音很小,例如物体只是稍动一下,物体的信息就会被掩盖掉,也会造成分类失败。如下图所示:
图注:两类分类错误
在逆学习模型的任务中,主要解决“物体动作识别”任务。另外,此模型研究的是声音是否包含有关行为、动作的因果信息。
在问题设置中,模型将物体交互(物体碰撞等动作)之前和之后的观测作为输入,具体而言交互之前物体的图像,以及交互期间产生的声音,模型输出的是交互期间的动作。由于逆模型学习可以在以前未见过的物体上进行测试,因此作者在论文中提到,此模型不仅可以在训练中测试音频特征的泛化,而且还可以在新对象上测试音频特征的泛化。
在前面两个问题中,我们已经看到声音确实包含细粒度实例和动作的因果关系的信息。但是用什么样的损失函数训练适用于多个下游任务的音频嵌入呢?
一种方法是在Tilt-Bot数据上训练实例识别任务上的嵌入,而另一种选择是在逆模型任务上进行训练。这两个任务都编码不同形式的信息,其中分类编码对象的可识别属性,反向模型编码对象的物理属性。
但是,作者从多任务学习的工作中得到了启发,训练了一种联合嵌入,可以同时对分类和动作信息进行编码。
另外,作者在论文中还提到,理解音频嵌入中包含的信息还有一种方法,即给定输入对象实例的前三个最近(最相似)的对象实例。例如,将长螺丝刀与长蝴蝶刀相匹配;将黄色物体与其他颜色物体相匹配。如下图的TSN特征图所示,进一步证明了相似的物体是如何接近的,而物理上不同的物体是如何相距较远的。
在下游正向模型学习任务中,主要研究是否可以在与对象进行物理交互之前使用声音来提取该对象的物理属性。此灵感来自于最近关于环境探测交互的工作:实现真正的策略之前,需要使用探测交互来理解潜在的因素。
而在卡内基梅隆大学的这项工作中,具体是通过把探测交互产生的声音,用作表示对象的潜在参数。
2 总结
卡内基梅隆大学的“听音辨物”工作主要有三个贡献:
第一,创建了最大的声音-动作-视觉机器人数据集;
第二,证明了可以使用声音进行细粒度的物体识别;
第三,证明了声音是动作的指示器。