论文阅读Soft Proposal Networks for weekly-supervised object localization


论文:Soft Proposal Networks for Weakly Supervised Object Localization

1.摘要

弱监督的目标检测相对较为困难,因为只有image labels可以提供,在训练的过程中没有bounding boxes,本文是第一次将弱监督Object proposals集成在一个end-to-end的CNN里,文中定义了一个Soft proposal(SP)的模块,可以插入到CNN的任意一层,而且几乎是时间cost-free!(比RPN快10倍)称这个网络的名字叫soft proposal networks(SPNs)。基于深度feature maps逐渐迭代而进化的object proposal,然后再投影回feature map上,最后整体优化网络参数。SPN学习更好的object-centric fliters,发觉更多可区分的视觉特征,抑制背景的干扰,提高分类和定位的精度。
论文阅读Soft Proposal Networks for weekly-supervised object localization_第1张图片
关于Object proposal的生成,从最开始的pipelined frameworks 到后来的unified frameworks,大大的提高了检测的速度。但是unified frameworks仍然不能用到弱监督目标检测中,因为弱监督训练中只存在image-level labels(即存不存在某个物体类别),为了解决这个问题,一些传统的方法就是基于多示例学习(MIL),从一个bag中(一个image 有很多proposals)选择一个实例(一个Proposal)来减小分类误差,然而这种piplined proposal and classfication 方法是次优的,两个步骤无法一起优化。
作者的启发来自与这篇文章,认为CNN可以被看做是object detectors,他们的feature map可以加起来生成Class Activation Map(CAM)。但是没有先验知识的目标区域在训练时,一般的CNN会被共存模式(co-occurrence)和噪声背景所误导。
论文阅读Soft Proposal Networks for weekly-supervised object localization_第2张图片
这里的soft有三重含义:

  1. 对于每个receptive field只是预测出Objectness score,而不是提取出大量的物质的Proposal boxes
  2. proposal 和 feature map的激活值以一种概率结合在一起,避免设定阈值硬性的砍掉
  3. proposal随着CNN filters的更新而逐渐迭代

2.1 Object Proposal

传统的SS和EB的选择方式会选择出大量冗余的proposals。RPN使用CNN的特征进行选择,实现了end-to-end的方式,但是RPN的成功是建立在CNN的定位能力,训练出的好的模型依赖于精确地标注和定位,比如bounding boxes,所以这种方式会限制弱监督学习的能力。
论文阅读Soft Proposal Networks for weekly-supervised object localization_第3张图片
本文的SPN只使用image-level annotations。所谓的Soft proposal是一种objectness confidence map而不是实际的Boxes。
查了一下什么是objectness map:

objectness measure(普通物体检测,即任意类别)相当于一个针对所有类别的目标检测,它量化了一副图像窗口中包含任何目标的可能性,展示了目标位置的分布

2.2 Soft proposal network

SPN的学习阶段分为两个过程,Soft Proposal Generation和Soft Proposal couping。前者通过在感受野的graph propagation,点亮潜在的object locations。后者集成feature map和生成的Proposal map ,通过迭代的Proposal生成,耦合,激活……,形成了若监督学习的端对端的过程。

2.2.1 Soft Proposal generation

定义proposal map MR M ∈ R 是一个由SP模块生成的objectness map
论文阅读Soft Proposal Networks for weekly-supervised object localization_第4张图片
假如一个SPmodule插入到了第l层卷积层中,令 UlRK×N×N U l ∈ R K × N × N 为第l层的feature map。在feature map每个位置(i,j)的K个通道上特征向量 uli,j=Ul,i,jRK u i , j l = U ⋅ , i , j l ∈ R K M M 表示要生成的proposal map,处理的时候把它reshape成一个 N2 N 2 的向量,初始化为 1N2 1 N 2 G G 表示一个全连接的有向图,通过连接 Ul U l 上的得每个点得到。 DRN2,N2 D ∈ R N 2 , N 2 是权重矩阵,其中 DiN+j,pN+q D i N + j , p N + q 表示点(i,j)到点(p,q)的边上的权重。
要计算权重矩阵有两个方面可以考虑:
4. 来自相同类别的物体的图像区域的特征具有相似性
5. 邻近区域具有语义相关性
这个Objectness confidence反应的是一种结合了特征差异(feature difference)和空间距离(spatial distance)的不相关性。 DiN+j,pN+q=||uli,julpq||L(ip,jq) D i N + j , p N + q ′ = | | u i , j l − u p q l | | ⋅ L ( i − p , j − q ) ,其中 L(a,b)=exp(a2+b22ϵ) L ( a , b ) = e x p ( − a 2 + b 2 2 ϵ )

random walk算法,一种数学统计模型,他由一连串的轨迹组成,其中每一次过程都是随机的。它能用来表示不规则的变动形式,如同一个人酒后乱步,所形成的随机过程记录。1905年,由卡尔·皮尔逊首次提出。
通常,我们可以假设随机漫步是以马尔可夫链马可夫过程的形式出现,但是比较复杂的随机漫步则不一定以这种形式出现。在某些限制条件下,会出现一些比较特殊的模式,如醉汉走路(drunkard’s walk)或莱维飞行(Lévy flight)。
论文阅读Soft Proposal Networks for weekly-supervised object localization_第5张图片

本文中使用了一个图传播算法random walk,该算法将那些和背景差异较大的点累加式的算出objectness confidence。每个节点接受来自于inbound directed edges的置信度,然后沿着outbound directed edges扩散出去。random walk过程可以看做是马尔科夫链。如上图所示,传播通过globally objectness flow,这样不仅能收集局部物体证据还能抑制噪音区域。M通过相乘权重矩阵D来更新

MD×M M ← D × M
上面的过程是 特征向量中心性方法的一个变种,输出的是proposal map来显示特征图上每个点的objectness confidence。

eigenvctor centrality,特征向量中心性,国内资料较少,以下来自维基百科
Eigenvector centrality is a measure of the influence of a node in a network. It assigns relative scores to all nodes in the network based on the concept that connections to high-scoring nodes contribute more to the score of the node in question than equal connections to low-scoring nodes. Google’s PageRank is a variant of the Eigenvector centrality measure.[11] Another closely related centrality measure is Katz centrality.

由于权重矩阵D依赖于特征图U,而U依赖于第l层的卷积核W。上面的方程重写为

MD(Ul(Wl))×M M ← D ( U l ( W l ) ) × M
,大约在10次迭代后,上式就趋于一个稳定状态,然后转换成2维就是proposal map。

2.2.2 soft proposal couping

耦合的特征 VRN×N V ∈ R N × N 是proposal map M和对应的特征图U的Hadamard prodect(element-wise product点积)

Vk=Ulk(Wl)M,k=1,2,,K, V k = U k l ( W l ) ∘ M , k = 1 , 2 , … , K ,
。V前向的预测分数y,然后根据image labels预测出错误。
反传的过程中,梯度主要有M分担:
Wl=Wl+ΔW(M) W l = W l + Δ W ( M )
ΔW(M)=ηEWl(M) Δ W ( M ) = − η ∂ E ∂ W l ( M )

算法如下:
论文阅读Soft Proposal Networks for weekly-supervised object localization_第6张图片

2.2.3 Weakly Supervised Activation

在前向SPN中,proposal map M是由插入在第L个卷积层的SP模块产生。对应的特征图 Ul U l 如下计算

Ulj=(iSjUl1iWlij+nlj)M U j l = ( ∑ i ∈ S j U i l − 1 ∗ W i j l + n j l ) ∘ M
,其中 Sj S j 是输入图片集.
论文阅读Soft Proposal Networks for weekly-supervised object localization_第7张图片
说明了proposal map M不仅仅点亮具有信息的区域,而且还是值得学习的区域。
论文阅读Soft Proposal Networks for weekly-supervised object localization_第8张图片
在若监督目标检测定位中,计算出每个类别c的response map Rc=kwk,cU^kM R c = ∑ k w k , c ⋅ U ^ k ∘ M ,其中 U^k U ^ k 是最后一个卷积层的的第k个特征图, wk,c w k , c 是全连接层中连接第c个输出点和第k个特征向量的权重值。
论文阅读Soft Proposal Networks for weekly-supervised object localization_第9张图片

实验结果

可以看出速度要明显由于SS和EB,而且性能也不差
论文阅读Soft Proposal Networks for weekly-supervised object localization_第10张图片
下图可以看出SPN对于小目标的框定好于SS和EB
论文阅读Soft Proposal Networks for weekly-supervised object localization_第11张图片
就算每个类别的定位精确度,公式是 Acc=HitsHits+Misses A c c = H i t s H i t s + M i s s e s
论文阅读Soft Proposal Networks for weekly-supervised object localization_第12张图片
下图展示的训练过程中是在没有object-level annotations的情况下,本文可以如下方法定位:比较每个reponse map与ground truth labels,转换为2位图,以平均值为阈值,放大到原图像的大小,在前景像素上用最紧贴的框框住作为预测的标定框。
论文阅读Soft Proposal Networks for weekly-supervised object localization_第13张图片
论文阅读Soft Proposal Networks for weekly-supervised object localization_第14张图片

你可能感兴趣的:(论文阅读)