CVPR2019 FickleNet的简单解读

FickleNet: Weakly and Semi-supervised Semantic Image Segmentation using Stochastic Inference的笔记

  • 摘要
    • 摘要的摘要
    • 先上图
      • 吐槽
      • 参考文献

摘要

摘要的摘要

在弱监督图像语义分割中,大部分基于图像级标签的方法利用从分类器网络获得的位置图(个人称之为注意力图),但是这些图只能关注到目标中小部分区分度高的部位而且无法精确捕捉边界。FickleNet探索了由一般的深度神经网络产生的特征图上位置的多种组合方式。通过随机选择隐藏单元然后利用它们来获取图像分类的激活分数。FickleNet偷偷的学习了特征图中每个位置之间的一致性,最终导出一个可以识别高区分度部位和其他部位(可能是说不是那么高区分度部位吧。。。其他部位也真的是。。。)位置图(不是CAM图么)来。

先上图

看看就行了,啥也不用解释。。。

图1
CVPR2019 FickleNet的简单解读_第1张图片
图2
CVPR2019 FickleNet的简单解读_第2张图片

图3
CVPR2019 FickleNet的简单解读_第3张图片
算法开始之前还是要做一番总体的说明,不然直接看算法估计大家直接会昏倒。。。
input image一路卷积来到第五层变成一个feature map,从这里开始。。。。
作者意图使用随机选取隐藏单元的方式,来对feature map进行卷积,也就是下面这个样子的卷积核,卷积总要滑动窗口吧,每一个滑动窗口会随机选择一种卷积核(不固定),卷积核里的有效元素应该是根据dropout rate来确定的,rate越大,有效元素(蓝色的)越少?但是有一点,中心位置的元素是不会取消的。
这种操作做N次。。。会得到N个location map。

图4
CVPR2019 FickleNet的简单解读_第4张图片

论文本身各个部分包含在算法里了:
作者提出的算法如图3所示,对于图3中每个步骤都有对应的Sec来说明,这里一一聊聊自己的理解
1 就不用说了
3 的时候首先对x进行了0的padding,kxwxh => kx(w+s-1)x(h+s-1),使得最终输出的尺寸与输入大小一致,然而这个好像是针对stride=1而言成立。然后再对padding过的x进行扩张(具体是如何扩张的呢?),变成了
kxshxsw。这样,就可以用kernel的尺寸大小来作为滑动窗口的stride大小,不会想图2(a)那样窗口之间有重叠。

4 然后对于x做卷积,但是采用了随机选取隐藏单元的办法,也就是,卷积核里面的值不全用,只选取一些。但是在卷积核上来做似乎有点难,于是想到,在x上做(估计应该是在x上做标记,卷积核不动弹,对于标记不参与卷积的x中的像素,卷积核不会理睬),该方法是一种spatial dropout方法,存在dropout rate。对于不同的rate,得到的结果不同。
5 就是一般的分类操作了。。。。
7 更新参数也没什么好说的。
9 这里就想了很久,捉者说的不太明确,什么叫做random selection,但是根据后面的描述发现,应该是一次random unit的组合。
如,这里有100个不同的random selection,那么就相当于预测了100次,但是每次的预测中,random unit的组合都会不一样,因此会生成100张
location map图。
10 利用Grad-CAM的方法来提取location map图,这一步没什么好说的,不懂的可以去看Grad-CAM的论文
11 聚合所有的location map图,如果某个像素的类别分数超过阈值θ,则定义为该类,如果某个像素指定了多个类别,我的理解是这样的,用2个类举例吧:
观察在该像素上,A类有x个map支持它,总分为X,B类有y个map支持它,总分为Y,一共N个图,则计算支持A的平均分为X/N和支持B的平均分为Y/N。选择大的那个分数对应的类。
我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:

训练分割网络
利用上面的方法生成伪标签GT,给DSRG作为弱监督分割的seed cues。
下一篇该看DSRG了《Weaklysupervised semantic segmentation network with deep seeded region growing》

实验结果
CVPR2019 FickleNet的简单解读_第5张图片
CVPR2019 FickleNet的简单解读_第6张图片
CVPR2019 FickleNet的简单解读_第7张图片
CVPR2019 FickleNet的简单解读_第8张图片

分割的时候,还是跟主干网有很大的关系,例如在某些图像的分割中,如鸭子Figure4中(第一行)Res就比VGG效果好很多。
不知道在coco上的分割结果如何。。。
再说吧。。。。

吐槽

有些句子很难理解,不知道是自己的英语水平不行还是作者表述的不清楚。。。总之,唉。。。一边理解一边猜吧


参考文献

Huang, Z., Wang, X., Wang, J., Liu, W., & Wang, J. 《Weakly-Supervised Semantic Segmentation Network with Deep Seeded Region Growing》. CVPR 2018

《FickleNet: Weakly and Semi-supervised Semantic Image Segmentation using Stochastic Inference》 CVPR 2019

你可能感兴趣的:(语义分割)