Segmentation-Aware Convolutional Networks Using Local Attention Masks的一些理解

Segmentation-Aware Convolutional Networks Using Local Attention Masks的一些理解

    • 摘要
    • 网络架构
    • 1.学习分割线索
    • 2.分割感知双边过滤器
    • 3.分割感知CRF
    • 4.分割感知卷积

摘要

引进一种方法来集成CNN中的分割信息。该法抵消了CNN平滑跨区域信息的趋势,并增加了他们的空间精确度。建立一个CNN来产生一个基于欧几里得距离 来评估区域共同成员资格的嵌入空间。利用这些嵌入来计算一个相对于每个神经元位置的局部注意力掩码。将这些掩码引入到CNN中,并且用一个允许神经元有选择的注意来自它自身区域的输入的分割感知变体替代卷积操作。将生成的网络称为分割感知CNN是因为它能根据局部分割线索在每个图像点适配它的过滤器(核),而同时保持全卷积形式。
卷积神经网络在语义分割上存在两个问题:
1.低像素导致空间位置精确度降低
2.平滑导致单个像素的预测任务性能下降
实际上这篇我没怎么看太明白,暂时记录几个学到的知识。

网络架构

Segmentation-Aware Convolutional Networks Using Local Attention Masks的一些理解_第1张图片

1.学习分割线索

简单来说就是改变通过改变特征空间的方式来计算特征图上像素点之间的相似度,例如RGB图中每个像素点P是3维向量,我们学习一个嵌入函数将它映射到一个特征空间V,在V中像素之间的语义相似度可以通过测量像素之间的距离获得。
在这里插入图片描述
任意两个像素之间的相似度损失函数,l表示标签,e表示嵌入元素

目标函数
在这里插入图片描述
通过最小化这个函数来找到最合适的特征映射函数
在这里插入图片描述
在这里插入图片描述
文章中用的是全卷积CNN来作为这个函数,然后用梯度下降法来最小化这个损失函数。注意看上图的dist和loss。(难道要在网络架构中一层一层的分开计算损失函数吗?)

2.分割感知双边过滤器

在这里插入图片描述
用来测量两个嵌入落入同一个object的概率,λ可以学习,这里的理解是λ越小,则该决策函数越宽松,越大越严格。mi表示一个分割掩码。输入特征xi利用mi进行过滤得到对应的yi
在这里插入图片描述
该方程根据m_ij中ej的取值不同,有三种过滤效果
1)ej=0,平均过滤器
2)ej=i(这里的i换成j更为妥当,因为j是i的邻域位置,是逐渐变化的,离i越远,导致 mi,j越小,符合高斯滤波器的特征)
3)ej=(i,pi),双边滤波器,第一个表示位置,第二个表像素值或者颜色向量。
双边滤波器的说明如下:(以下来自摘录)
Segmentation-Aware Convolutional Networks Using Local Attention Masks的一些理解_第2张图片
利用双边滤波器进行处理后的特征图如下:
Segmentation-Aware Convolutional Networks Using Local Attention Masks的一些理解_第3张图片

3.分割感知CRF

CRF也可以锐化CNN产生的预测图,在这里,用到能量函数作为目标函数
在这里插入图片描述
目的是使得能量函数最小化。主要用来计算函数
在这里插入图片描述
这里I可以看做是整幅图上的像素观测值,x为标签序列。当能量函数最小的时候,P(x)取到最大值。能量函数中,第一项为一元势能函数,在deeplab中用-logP(x)来代替(是否为粗分类的损失函数?),表示分类损失函数,第二项为二元势能函数,其中
在这里插入图片描述
μ(xi,xj)是一个标签兼容函数,当xi和xj为同一个类别时为1,否则为0.
Segmentation-Aware Convolutional Networks Using Local Attention Masks的一些理解_第4张图片
这里,为了近似的计算P(x),决定用KL散度来逼近,但是用了一个非常复杂的迭代算法,这里只做展示

详情查阅论文Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials和 Probabilistic Graphical Models >_<
>_<

差点忘了,此处的改进是,在公式(*)中用embedding 替代了 p.

4.分割感知卷积

此处提出卷积公式,此处无非就是将针对任务的卷积核与双边滤波器结合起来
在这里插入图片描述
这里输入特征x与学习到的卷积核内积之前,先和归一化的掩码mi进行点乘。
如果ti全等于1,则该等式变成了双边滤波器。
如果mi全等于1,则该等式变成了标准的卷积。
可以分步骤理解为:1,首先对输入特征进行掩码操作;2,对于掩码后的特征进行卷积操作,实际上就是做了这两件事。

至于其他的,大家还是看看论文吧。本人也是小菜鸟一枚,有很多不明白的地方。欢迎大家一起探讨探讨。。。。>_<
(本文仅拿来练练手,有啥错误还望多多指点)

你可能感兴趣的:(语义分割,语义分割,计算机视觉)