本文对香港大学、中山大学和深睿医学人工智能实验室的ICCV2019的论文进行了解读。
该文提出了一种基于运动注意的视频聚焦目标检测方法(MGA),在DAVIS和FBMS数据集上分别提高了4和8个百分点。
背景介绍
一个重要的目标检测问题需要预测每个图片或视频帧的两级像素级分割结果,以表示图片中的重要或前景对象。
在计算机视觉和图形应用中,这个问题通常被用作预处理步骤。
随着深度学习技术的发展,图像中重要目标的检测方法得到了广泛的研究,视频中重要目标的检测需要进一步的探索。
为了解决视频中的重要目标检测问题,本文作者进行了如下观察:
首先,视频对象的显著性由其外观和运动决定突出物体的运动通常也是显著的,并且显著运动的区域很可能是突出物体;
第二,物体的运动包含空间相干信息,运动状态相似的相邻区域很可能属于同一物体或背景;
第三,运动信息的空间一致性有助于分离物体和背景背景外观可以包括不同纹理的多个区域,并且对象可以包括不同外观的内部边缘和组件,这使得分割困难。表征运动的光流图像相对“干净”(图1b),它可以更好地捕捉一些物体的边界,并成为分割重要物体的机会。
目前的方法主要是通过循环神经网络来聚合多个视频帧的卷积特征,或者利用光流和失真来对齐不同帧的特征,而不需要端到端的学习来捕获和利用光流中的显著运动。
作者提出了一系列的运动注意模块来模拟有意义的运动如何结合外观信息来影响对象的显著性作者还提出了一种双分支网络来放置上述注意模块,实现视频显著目标的检测。
运动引导注意机制
为了建立有效运动如何结合外观信息影响对象显著性的模型,将外观信息抽象为三维外观特征张量(可以是某个ReLU隐藏层的输出),将有效运动抽象为二维运动显著性图形(如乙状结肠隐藏层的输出)或三维运动特征张量。
首先考虑最简单的情况,如何利用二维运动显著性图来“聚焦”三维外观特征的重要位置。
一种直观的朴素模型是将运动显著图和外观特征逐点相乘,以增强外观特征中运动显著区域的响应。然而,这种朴素模型的缺点是运动显著性图中的零元素“抑制”了外观特征不明显或不稳定的区域,导致对象分割不完整。
针对该模型的不足,提出了一种模型1:利用残差结构,逐点加入加权外观特征和初始外观特征,补充外观信息的误差抑制,使后续的神经网络层有机会勾勒出完整的对象。
让我们考虑如何使用三维运动特征来关注外观特征一个简单的解决方案是模拟模型1,模型1乘以外观特征。区别在于,使用1x1卷积来对齐运动特征和外观特征的形状,从而获得模型2。
模型2可以被视为使用三维权重同时实现空间和通道注意的机制然而,由于运动特征是从信息量相对“稀疏”、缺少纹理信息和语义复杂的光流图像中提取的,因此基于这些特征,信道关注可能引入额外噪声或导致过拟合的外观特征。
另一种方法是运动特征仅用于空间注意,即首先使用1x1卷积和乙状结肠从运动特征预测运动显著性图,并执行类似于模型的操作,从而获得模型3。
最后,在模型二和模型三的基础上,考虑如何实现合理的渠道关注,提出了模型四。
模型四首先使用运动特征对外观特征进行空间注意通过全局平均池得到“空间注意”后的外观特征,得到一个一维向量,该向量可以表示显著运动区域的外观特征。
由于物体的运动和静止部分具有相对统一的外观特性(如颜色、纹理和语义)。基于上述运动区域的外观特征向量预测出的一维通道注意权值可以有效地改善目标静止部分的相应属性或帮助分割完整对象的通道的响应。
模型四的末端保留了剩余结构,避免了单元零点抑制的问题。
运动引导注意力网络(MGAnet)
接下来,作者提出了一种运动引导注意网络(MGAnet),它用于提取上述的外观特征、运动特征和运动显著性地图,另一方面结合之前的一系列运动注意模块形成完整的视频是一种重要的目标检测方法。
MGAnet是一个基于DeepLab-V3+的双分支网络目前,许多视频分割方法也采用双分支结构,但主要是在每个分支的末端,mganet以多层密集的方式连接两个分支。
mganet由以rgb图像为输入的外观分支、以光流可视化为输入的运动分支和连接这两个分支的六个注意模块mga-{0-5}组成。外观分支的编码器可以是ResNet-101或ResNet-50,运动分支的编码器可以是ResNet-34或ResNet-18,通过不同的组合可以达到SOTA的性能。
mga-{0-5}可以看作是部署注意模块的“时隙”,其中mga-5只能使用模型1(运动信息是二维显著图),mga-0到mga-4可以采用模型2-3-1中的4个,通常是同一类型。
实验结果
下面报告了几个主要的实验。第一个实验将MGA与现有的视频和图像显著对象检测方法在三个数据集戴维斯、FBMS和VISAL上进行了比较。
其中visal不划分训练集进行模型训练,能更好地反映模型的泛化能力。
与6个视频模型和11个图片模型相比,MGA在所有3个数据集上表现最好,分别获得4、8和1个百分点的最大似然函数。
第二个实验验证了网络结构的有效性在语义分割方面,作者尝试对单个分支分别进行训练和测试,其中独立的外观分支与SOTA模型DeepLab-V3+等价;
作者还试图仅保留编码器部分(MGA-E)或解码器部分(MGA-D)的注意模块实验结果表明,双分支结构有效地利用了运动信息,优于任何单分支网络。
注意模块部署在编码器侧和解码器侧,两者都可以在编码器和解码器处实现,以获得最佳性能。
第三个实验验证了四个运动注意模块的有效性三种简单的特征融合方法,包括位乘、位加和沿信道的级联,被用作基线方法。
在表3中,“E-”表示在编码器侧部署,“D-”表示在解码器侧部署实验结果表明,四个注意模块均优于基线法。
其中,较复杂的模型IV(MGA-TMC)略优于模型2(MGA-T)和模型3(MGA-TM)。
总结
作者利用运动的空间相干性和注意机制来模拟运动对物体显著性的影响,提出了一种简单而准确的双分支网络。
与基于循环神经网络的方法不同,该方法利用很小时间窗内的时间上下文(即相邻帧的光流)来实现SOTA性能。
相关论文源码下载地址:关注“图像算法”微信公众号 回复“MGA”