论文阅读笔记-Segmentation-Aware Convolutional Networks Using Local Attention Masks

    发表于ICCV2017的论文Segmentation-Aware Convolutional Networks Using Local Attention Masks用segmentation-aware的convolution代替CNN中传统的convolution,使得计算过程中神经元可以注意于和它属于同一类的区域。在semantic segmentation和optical flow estimation问题上取得了好的效果。

文章亮点:

1. Embedding的作用及实现

    使用和VGG-16前7层类似的网络结构训练一种FCN网络,来实现pixel的embedding,即由R3映射为R64,使得同一物体的像素点距离近,不同物体的像素点距离远。各层都有监督信息,各层的输出融合后得到最终的embedding。学embedding network的目标函数为:


    embedding得到的feature vector,用于指示各个像素点与周围像素点的类别近邻关系。在计算卷积时用作加权。

2. segmentation-aware convolution

    论文中的卷积采用和Caffe类似的卷积计算方式实现,即先做image-to-column的变换,然后将卷积转化为矩阵乘法。本论文的方法需要对矩阵乘法插入weight mask。

    对于输入H*W的feature map,每个点与其K个近邻计算距离,通过image-to-column的操作,得到(H*W)*K的mask矩阵。按照image-to-column的排列,原图像每个位置抽取其K个近邻,也可以得到(H*W)*K的矩阵。点对点相乘即实现加权。

 

3. segmentation-aware CRF

    计算CRF时,将原始的RGB特征替换为embedding后的特征。



文字

你可能感兴趣的:(理论学习)