Revealing the Dark Secrets of MIM

论文名称: Revealing the Dark Secrets of Masked Image Modeling
发表时间:CVPR2022
作者及组织:Zhenda Xie, Zigang Geng, Hu Han等,来自清华,中科院,微软亚洲研究院。

前言

 本文尝试探讨MIM为何有效的原因。

1、结论

 由于是篇充满可视化及对比实验的文章,因此先说结论:
 1) MIM能给模型所有层带来归纳偏置;
 2) MIM能给不同Head带来多样性;
 3) MIM在感知任务和细分类任务上优于全监督预训练。

2、对比实验条件设置

 Backbone:VIT-B
 预训练方法:全监督(DeiT),对比学习(Moco),MIM

3、可视化角度

 论文从不同角度,可视化了三种预训练方法的热图。下面将分别介绍:

3.1.Head内的平均注意力距离(AAD)

 简单说下平均注意力距离计算方法:在得到Attntion Mat后,遍历每个token与之匹配token 的相对距离,将其求和在除以token总数。因而能够定性表示Attntion Mat关注的相对位置远近的分布(引入归纳偏置)。
Revealing the Dark Secrets of MIM_第1张图片

 在上图中,横坐标表示不同层,纵坐标表示AAD,每个圆圈表示一个Head。全监督和对比预训练在最后三层AAD基本一致,而MIM还保持了较大分布范围,因此便得出MIM能给不同层带来归纳偏置。

3.2.Head权重值的熵(权重值的分布)

 论文之后可视化了每个Head的熵(-p*logp)分布,能够衡量每个Head属于全局注意力Or局部注意力。
Revealing the Dark Secrets of MIM_第2张图片

 从上图可以看出,全监督和对比预训练方法在最后三层的Head熵挺大的,表示Attention Mat关注的范围更广,即全局注意力;而MIM则在最后三层熵分布范围广,即保证局部注意力同时也保证了全局注意力。

3.3.不同Head之间权重分布相似性

  上述两个指标表示MIM的Head关注范围丰富,但无法确定Head与Head之间分布相似性,因此作者又衡量了不同Head之间的分布的相似性,即利用KL散度。
Revealing the Dark Secrets of MIM_第3张图片

  上图中大圆圈表示当前层平均KL散度,MIM相较前两种预训练方法在后三层KL散度更大。即不同Head关注的token不一致。

3.4.特征图FM之间相似性

  作者借助CKA指标观察了不同FM的相似度。下图是12层FM之间热力图,颜色越亮表示越相似。可以发现,MIM层与层之间FM趋于相似。

Revealing the Dark Secrets of MIM_第4张图片

4、实验角度

 该章节则是从对比实验角度比较三种预训练方法。
Revealing the Dark Secrets of MIM_第5张图片

 在感知任务上MIM效果更好,得益于MIM引入归纳偏置和Attntion Mat多样性丰富。

你可能感兴趣的:(目标检测,深度学习)