《论文》:注意力机制

论文:PAYING MORE ATTENTION TO ATTENTION: IMPROVING THE PERFORMANCE OF CONVOLUTIONAL NEURAL NETWORKS VIA ATTENTION TRANSFER

创新点:
1.文章提出了activation-based attention以及gradient-based attention transfer两种注意力机制的想法。
2.文章提出使用注意力机制的想法嵌入到teacher-student network中,指导student network学习teacher network中的特征;

背景:
不同的观察者由于自身不同的知识和目标,有着不同的注意力的策略,也就是说对于相同的场景对于不同的观察者观察到的内容是不同的,基于此,文章提出了注意力的概念,即假定网络存在注意力,通过将网络观察到的特征转达给另一个需要训练的模型,从而来不仅降低模型的训练层数,同时提升模型的准确度。
网络注意力的定义:网络为了进行最后的输出决策(分类,分割等)来对原始图像进行了感兴趣区域的编码,个人理解为通过卷积池化等操作来对特征进行提取,即将图像特征从低层次到高层次进行信息的重组。
因此,文章基于网络对信息提取的考虑:权值以及梯度,将注意力机制定义为两个方向,一个是基于对提取到的特征的值进行数学运算的操作,一个是基于对网络运算过程中用到的梯度信息的考虑。

具体实现:

  1. activation-based attention transfer:
    《论文》:注意力机制_第1张图片
    将隐藏层中的神经元的输出(在网络进行分类之前的层)的结果进行数学运算:
    Fsum(A):Fsum(A)对有更高激活的空间位置有更多的权重,也就是对最优判别性的部分赋予更多的权重。Fsum(A)更倾向于多个神经元都激活的区域
    Fmax(A):更关注于单个的信息,即考虑其中一个来赋予权重
    《论文》:注意力机制_第2张图片
    根据对隐藏层位置的不同,注意力机制可以分为底层,中层和高层。并且通过对各层输出的研究发现,发现隐层激活的统计信息不仅有空间相关性,而且这些相关性与准确率有很强的关系,更强大的网络有更尖锐的注意力。
    《论文》:注意力机制_第3张图片
    Loss function:
    假设迁移损失位于student和teacher相同分辨率的激活图上,但是如果需要的话,后部分的约束保证激活图可以差值到满足他们的形状要求
    《论文》:注意力机制_第4张图片
  2. gradient-based attention transfer:
    《论文》:注意力机制_第5张图片
    总结:
    1.activation-based attention transfer表现优于gradient-based attention transfer。
    2.activation-based attention transfer中不同的层有不同的注意力图,前面的层对于低层次梯度点激活程度很高,中间层对于最有判别性的区域激活很高,顶层会反映出整体的目标的目标信息。并且采用Fsum(A)的网络表现效果会由于Fmax(A)

你可能感兴趣的:(深度学习)