论文信息:《RDFNet: RGB-D Multi-level Residual Feature Fusion for Indoor Semantic Segmentation》——2017年
这篇论文关注于使用RGB-D数据,是对RGB-D的数据进行语义分割的。在使用RGB-D数据的多级室内语义分割中,已经表明将深度特征结合到RGB特征中有助于提高分割精度。然而,先前的研究尚未充分利用多模态特征融合(换句话说,就是把RGB图和深度图连接起来的方式)的潜力,例如,简单地连接RGB和深度特征或平均RGB和深度分数图。
这篇论文提出了一种新的网络,将残差学习的核心思想扩展到RGB-D语义分割。此网络通过包含多模态特征融合模块和多级特征细化模块,能够有效地捕获多级RGB-D CNN特征。主要使用了NYUDv2和SUN RGB-D这两个RGB-D数据集。
将所有像素分配到不同语义类的语义分割是视觉场景理解的基本任务。 在过去,基于条件随机场(CRF)的语义分割使用传统的手工制作的视觉特征进行了广泛的研究。 最近,深度卷积神经网络(DCNN)在图像分类任务中取得了巨大成功。然而,由于具有严重遮挡的复杂和各种对象配置,室内语义分割仍然是最具挑战性的问题之一。(对于实验来说,可以选择简单场景,无遮挡的存在,这也算解决了某种问题)
随着商用RGB-D传感器(如Microsoft Kinect )的推出,利用从深度信息中提取的特征有助于减少识别物体的不确定性。深度特征可以描述在仅RGB特征中可能遗漏的3D几何信息。要从RGB和深度数据中提取有用的特征,开发一种融合两种模态的有效方法至关重要。已经有许多尝试以不同方式利用深度信息进行语义分割。
以前,大多数方法设计了手工制作的深度特征(手工制作的意思,就是类似于特征点,就是用数学的方法计算出来的),并构建了各种模型来对每个区域或像素进行分类。相比之下,最近的方法采用DCNN,其成功地从低级基元中学习信息性RGB特征以用于高级语义。 由于RGB-D语义分割的主要问题是如何有效地提取和融合深度特征以及颜色特征,已经提出了各种方法来利用DCNN来整合深度信息的能力。关于具体有哪些方法,在这里就不进行赘述了。(此论文目前是精确度最高的算法)
RefineNet的网络的出现,对RGB-D图的语义分割是里程碑式的。RefineNet利用跳过连接的残差学习,可以在训练过程中轻松地反向传播梯度。 RefineNet中的多级功能通过短距离和长距离残差值连接进行连接,因此可以进行有效训练并合并到高分辨率特征图中。
受到这项工作的启发,本篇论文提出了一种新颖的RGB-D融合网络(RDFNet),它将残差学习的核心思想扩展到RGB-D语义分割。网络结构组成如下图(图一):
图1 RDFNet的结构图,该网络通过一个名为MMFNet的模块将多模态功能融合在一起,并通过一系列RefineNet模块优化融合
本篇论文的主要贡献可归纳如下:
1.提出了一种网络,通过将残差学习的核心思想扩展到RGBD语义分割,在非常深的网络中有效地提取和融合多级RGB-D特征。
2.多模态特征融合模块通过跳过连接充分利用残差学习,在单个GPU上实现有辨别力的RGB-D特征的高效端到端训练。
3.此论文的RGB-D语义分割网络优于现有方法,并在两个公共RGB-D数据集NYUDv2和SUN RGB-D上实现了最先进的性能。
多级剩余特征融合:
这篇论文首先回顾最近提出的RefineNet架构(RefineNet: Multipath refinement networks for high-resolution semantic segmentation.可以单独拿来进行分析),该架构通过使用剩余连接在RGB语义分段方面取得了巨大成功。 然后,论文描述了扩展RefineNet的网络,以有效地训练提取和融合多层RGB和深度特征的方法,用于室内语义分割。
RefineNet(简单介绍):
最近,ResNet 在图像识别方面表现出色。 使用ResNet进行语义分割的最简单方法是用密集预测层替换单个标签预测层。但是,它输出的预测在每个空间维度上比原始图像小32倍。 为了解决这一限制,RefineNet通过称为RefineNet的子构建块(图2),通过合并低级特征,迭代地改进了更高级别的特性:
图2 左:用于语义分割的网络架构,右:RefineNet块的详细图表
RefineNet通过跳过连接和先前改进的功能将每个多级ResNet功能作为输入。然后,通过一系列子组件对这些特征进行细化和融合:残余卷积单元,多分辨率融合和链式残差池(图3);残余卷积单元(RCU)是一种自适应卷积集,可对训练后的ResNet权重进行精细调整以进行语义分割。多分辨率融合块将多路径输入融合到更高分辨率的特征图中。块中的一个卷积用于输入自适应,其与特征通道的数量匹配并且适当地重新缩放特征值以用于求和。链式残差池(CRP)的目的是编码来自大区域的上下文信息。该块由一系列多个池组成,每个池由一个最大池层和一个卷积层组成。池化操作具有将可以从附近位置访问的大激活值扩展为上下文特征的效果。附加卷积层学习合并特征的重要性,合并特征通过残余连接融合到原始特征。在RefineNet的末尾有一个额外的RCU,可以在融合的特征映射上使用非线性操作。
图3 RefineNet中子模块的详细信息
本论文的MMFNet的详细组件如图4所示。本论文的特征融合块包含与RefineNet中相同的组件,但具有不同的输入,所需的操作略有不同。鉴于RGB和深度ResNet功能,我们的MMFNet首先通过一个卷积减少每个特征的尺寸,以促进有效的训练,同时减少参数的爆炸。然后,每个功能都通过两个RCU和一个卷积,如在RefineNet中。 MMFNet中的RCU与RefineNet中的RCU的目的存在一定的差异。我们的MMFNet中的RCU需要执行一些专门用于模态融合的非线性变换。不同模态中的两个特征互补组合以通过操作相互改进,其中RefineNet中的特征主要是通过采用具有更高分辨率的更低级别特征来改进粗略的更高级别特征。 MMFNet中的后续附加卷积对于以不同模态自适应地融合特征以及适当地重新缩放特征值以进行求和是至关重要的。由于颜色特征通常具有比用于语义分割的深度特征更好的辨别力,因此块中的求和融合主要用于学习补充或残留深度特征,其可以改善RGB特征以区分混淆模式。每个模态特征的重要性可以通过RCU之后的卷积中的可学习参数来控制。
图4 本论文的多模态特征融合(MMF)网络图。
实验结果:
本论文通过综合实验评估该网络。 使用两个公开可用的RGBD数据集:NYUDv2 和SUN RGB-D 。 对于评估,报告了三种类型的度量(像素精度,平均准确度和平均交叉联合(IoU)),广泛用于衡量语义分割的性能。 如前所述,使用从深度图计算的HHA编码作为深度模态输入。
(定量结果在此不做表示,具体可参考论文,此处只展示定性结果)
图5 与RefineNet相比,该RDFNet的定性结果。 从左到右为每个例子:图像,基本事实,RefineNet和本论文网络的结果。 请注意,深度特征有助于区分可能仅与颜色特征混淆的区域,例如,具有类似床(a)的图案的枕头,具有均匀图案的门(b,e),具有明显几何区别的天花板(c) ,垂直表面法线(d,f)的柜台,低照度的柜子(g),反射其他颜色图案的镜子(a,b),地板上的地垫(h)和桌子的顶面(c,i)。 最后显示了一个失败的案例(j)。
结论:
本论文提出了一种新颖的网络,它充分利用跳过连接的残差学习来提取有效的多模态CNN特征进行语义分割。 残余架构有助于在单个GPU上对非常深的RGB-D CNN功能进行有效的端到端训练。 该论文的MMFNet表明,最近的多级特征细化架构可以有效地扩展,以利用不同模态的特征,同时保留跳过连接的优势。 实验表明,所提出的网络优于现有方法,分别为NYUDv2和SUN RGB-D室内数据集获得了50.1%和47.7%的最新平均IoU。