原文地址
时间:2019CVPR
为了解决复杂场景下的目标检测问题,本文设计了一个CapSal模型,它包括两个子网络:Image Captioning Network(ICN)和Local-Global Perception Network(LGPN),ICN将生成的caption的embedding编码来获得显著物体的语义信息。
当前显著物体检测网络的局限性是仅仅使用像素级的mask来训练,而没有高层的语义信息指导,因此本文使用image captioning来作为显著物体检测的辅助,在前人的工作中,体现了显著性检测对于image caption的重要性,因此本文作出了作出了假设:image caption可以辅助显著目标检测。
模型的整体结构如图所示
模型主要由两部分组成,第一部分是一个Image Captioning Network(ICN)和一个Local-Global Perception Network(LGPN),分别用来生成caption和显著预测。ICN是CNN+LSTM的结构,以图片为输入,生成一个caption。为了从caption中得到对象级别的语义信息,我们使用了LSTM的隐藏向量来编码每个生成词的特征。因为不是每个词都对应显著对象,我们提出了文本attention机制来加权每个词,然后caption embedded feature 向量就可以从LSTM隐藏状态的加权池化中得到。
另一部分LGPN,它融合caption embedded vector和multi-contextual视觉特征来进行显著对象检测。它由三部分组成:Local Perception Module(LPM),Global Perception Module(GPM)和一个Fusion Module(FM)。在LPM中,caption embedded vector和局部的视觉特征融合来寻找目标的细节,GPM中使用更global的context来全面估计显著区域,LPM和GPM用来检测不同尺寸的目标,它们的显著图最终被FM融合来生成最终的显著图,LPM和GPM都使用了ICN给的caption embedded feature,ICN和LGPN在训练过程中共同优化。
为了训练和评估我们的模型,我们提出了一个新的显著数据集COCO-CapSal,其中包括了显著图表现和caption标签,图像是从MSCOCO数据集中得到的,每幅图中有多个复杂场景下的显著对象,共计80类
本文贡献
我们使用ResNet101作为特征提取器,将最后的平均层和全连接层移除,对一张 W × H W\times H W×H的图片,我们使用Resnet101的Res2_x到Res5_x之间的特征,即 F = { f i } i = 2 5 F=\{f_i\}_{i=2}^5 F={fi}i=25的 W / 2 i × H / 2 i W/2^i\times H/2^i W/2i×H/2i的图片,深层特征包括更高层次语义的信息,浅层特征包括了对象空间上的边界信息,为了更好地融合它们,我们使用了一种top-down的方法
其中W和b是卷积核参数,Up是上采样操作
我们使用CNN+LSTM来进行image captioning,输入图像特征是 f 5 f_5 f5,然后用 T T T步的隐藏状态来表示生成词的embedding。因为不是每个m词都一样重要,因此我们提出了Textual Attention(TA)机制来精炼信息,具体是使用两层全连接网络来计算attention分数
caption embedded vector最终计算为
上下文信息为显著对象检测提供了帮助,更大的上下文帮助捕捉更全局的显著区域,小的上下文帮助精炼一些显著区域的细节,我们提出的LGPN将caption embedded vector和多个上下文的视觉特征融合来进行显著预测,包括三个部分LPM,GPM和FM,细节如上图所示。
LPM使用Mask-RCNN实现,Mask-RCNN首先使用Region Proposal Network来生成一系列候选RoI,然后两个平行的网络来同事进行bounding box recognition和object mask segmentation
我们使用Mask RCNN为每个candidate生成显著概率和目标的mask,我们将Mask-RCNN建立在Feature Pyramid Network(FPN)上,特别的,我们使用RPN和RoIAlign来融合不同尺度的特征从而生成candidate box { B i } i = 1 N b \{B_i\}_{i=1}^{N_b} {Bi}i=1Nb及其对应的特征图 { f B , i } i = 1 N b \{f_{B,i}\}^{N_b}_{i=1} {fB,i}i=1Nb,按以下方式融合caption embedded vector c c c和bounding box context f ^ B , i \hat{f}_{B,i} f^B,i
然后进过两个全连接层后生成一个saliency probability和box regression,然后bounding box的类别得分比threshold大的化就被选作salient candidate
我们使用 P 2 P_2 P2作为visual representation,
本文开创性的一反常态,利用image caption辅助显著对象检测,分别使用LPM和GPM结合caption embedded vector和图片特征,获得局部和全局的saliency map,最后用FM加以融合,取得了比较好的效果