论文阅读笔记:Deep Object Co-segmentation via Spatial-Semantic Network Modulation(AAAI2020)

协同分割论文阅读:Deep Object Co-segmentation via Spatial-Semantic Network Modulation(AAAI2020)

https://arxiv.org/abs/1911.12950

提出了一种基于空间和语义调制的目标共着色深度网络结构。采用骨干网提取多分辨率图像特征。利用相关图像的多分辨率特征作为输入,设计了一个空间调制器来学习每个图像的掩码。空间调制器通过无监督学习捕获图像特征描述符之间的相关性。学习掩码可以在抑制背景的同时粗略地定位共享前景对象。对于语义调制器,我们将其建模为一个监督的图像分类任务。提出了一种分级的二阶池化模块,用于对图像特征进行分类转换。两个调制器的输出通过移位和尺度操作来处理多分辨率特征,使特征集中在共目标区域的分割上。该模型是端到端的训练,没有任何复杂的后处理。

spatial modulation branch:用无监督学习学习出每张图片的掩码,以融合多分辨率图像特征为输入,将掩码学习问题转化为一个整数规划问题。它的连续松弛有一个闭型解。(Its continuous relaxation has a closed-form solution.)所述学习参数表示所述图像像素对应的是前景还是背景。

semantic modulation branch:在语义调制分支中,设计了一个层次化的二阶池操作符(HSP)来转换卷积特征进行对象分类。空间池(SP)能够捕获高阶特征统计相关性。提出的HSP模块有两个SP层。它们致力于捕获整体特征表示的远程通道依赖关系。HSP层的输出被送入一个全连接层进行对象分类,并作为语义调制器使用。

three sub-networks:

spatial modulation sub-net fspa,

semantic modulation sub-net fsem

and segmentation sub-net fseg

论文阅读笔记:Deep Object Co-segmentation via Spatial-Semantic Network Modulation(AAAI2020)_第1张图片

网络结构:a group of images(by the backbone network yield a set of muti-resolution CFMs

the CFMs are modulated by a group of spatial heatmaps (捕获图像中共对象的粗略定位) and a feature channel selector vector在共同类别标签的监督下,通过学习一种表示特征通道重要性的group-wise语义表示方法得到)。

Finally, the multi-resolution modulated CFMs are fused(以类似特征金字塔网络FPN的方式进行融合)to produce the co-segmentation maps.

论文阅读笔记:Deep Object Co-segmentation via Spatial-Semantic Network Modulation(AAAI2020)_第2张图片

Spatial Modulator

对融合得到的特征图的每个channel特征图以聚类的方法划分为前景和背景两类(最小化类内距离,最大化类间距离),得到实现粗定位的掩码。

Semantic Modulator

论文阅读笔记:Deep Object Co-segmentation via Spatial-Semantic Network Modulation(AAAI2020)_第3张图片

SP+HSP

SP:减少channel数至c,计算每两个通道的相关性,得到C*C大小的相关性矩阵,它利用平方算子对整体表示的高阶统计量进行建模,因此能够增强非线性建模能力。后接全连接层,得到1*1*dtensor,表示各特征通道的重要性。

HSP:对每张输入图做SP操作,得到的N个1*1*d的tensor进行垂直拼接,得到的N*1*d矩阵再进行一次SP操作,以获取语义表示的group-wise的通道维度上的长期依赖关系,引导注意对共类别分类至关重要的重要channel

论文阅读笔记:Deep Object Co-segmentation via Spatial-Semantic Network Modulation(AAAI2020)_第4张图片

Loss计算:

使用交叉熵loss:

y_{l}\epsilon\left \{ 0 ,1\right \}是groundtruth label

Segmentation Sub-net:

\left \{ S,\gamma \right \}

流程:

论文阅读笔记:Deep Object Co-segmentation via Spatial-Semantic Network Modulation(AAAI2020)_第5张图片

Loss:cross-entropy loss for pixel-wise classification: P is the number of the pixels in each training image

论文阅读笔记:Deep Object Co-segmentation via Spatial-Semantic Network Modulation(AAAI2020)_第6张图片

实验结果表示,总体表现的挺好的。

你可能感兴趣的:(论文笔记)