自监督学习系列(1) BYOL: Bootstrap Your Own Latent

目录

相关信息

主要思想

讨论

结果

 Linear evaluation on lmageNet

Semi-supervised training on lmageNet(使用label数据进行微调)​

Ablation study

补充


首先粘贴一下论文的相关信息。

Paper:Bootstrap your own latent: A new approach to self-supervised Learning

地址:https://arxiv.org/abs/2006.07733

代码:https://github.com/deepmind/deepmind-research/tree/master/byol

主要思想

自监督学习系列(1) BYOL: Bootstrap Your Own Latent_第1张图片

自监督学习系列(1) BYOL: Bootstrap Your Own Latent_第2张图片

 Loss

自监督学习系列(1) BYOL: Bootstrap Your Own Latent_第3张图片

 Train:

      BYOL主要思想是同时维持两个相同的网络。如上图的\theta网络和\xi网络,在网络训练过程中,\theta网络称为online网络;\xi网络称为target网络。训练过程中,使online网络不断向target网络逼近,同时target网络使用momentum的方式来更新参数向online网络逼近。训练过程中,对同一张图片x进行随机的两种图像增强的策略分别输入到\theta网络和\xi网络,在online网络中,经过q\theta网络后,比较与sg(z\xi')的loss,而target网络不进行梯度更新,仅使用momentum方式。同时将输入到 \theta网络和\xi网络的v和v'分别输入到\xi网络和\theta网络,得到另一个loss,两个loss之和即为BYOL网络的loss,使用这个loss对\theta网络进行训练,最后根据训练后的\theta更新\xi网络。这就是BYOL主要思想。

附:作者提供的伪代码

自监督学习系列(1) BYOL: Bootstrap Your Own Latent_第4张图片

讨论

 为什么这种方式能有效呢?

自监督学习系列(1) BYOL: Bootstrap Your Own Latent_第5张图片

首先两组经过处理的图像经过网络得到Feature Space(图像由每个维度的值来描述)

此时进行比较,两者的相关性是不明显。

所以需要将图像信息投影到更高维的特征空间,再比较两者的空间关系。

作者使用多个MLP使得online网络向target网络逼近。

结果

 Linear evaluation on lmageNet

自监督学习系列(1) BYOL: Bootstrap Your Own Latent_第6张图片

自监督学习系列(1) BYOL: Bootstrap Your Own Latent_第7张图片

Semi-supervised training on lmageNet(使用label数据进行微调)自监督学习系列(1) BYOL: Bootstrap Your Own Latent_第8张图片

自监督学习系列(1) BYOL: Bootstrap Your Own Latent_第9张图片

Ablation study

batch size

自监督学习系列(1) BYOL: Bootstrap Your Own Latent_第10张图片

补充

BYOL通过预测其输出的前序版本来学习其表示,而不使用负样本。然而,BYOL仍然依赖于特定于视觉应用的现有增强集。要将BYOL推广到其他模式(例如,音频、视频、文本等),必须为每种模式获得类似的适用增强。设计这样的增强可能需要大量的努力和专业知识。因此,自动化搜索这些增强将是推广BYOL 模式的重要的一步。

新的发现表明BYOL可以不需要BN:具体做法是设计模拟BN对初始值和训练的影响,而不使用反向传播。在训练之前,我们通过在一批增强数据上运行带有BN的网络的单次前进,计算每一层激活的BN统计量。  然后我们删除并批处理归一化层,但保留的尺度和偏移的参数γ和β可以训练,并初始化它们为:

 测试发现:

自监督学习系列(1) BYOL: Bootstrap Your Own Latent_第11张图片

具体内容就不赘述了,见论文BYOL works even without batch statistics。

你可能感兴趣的:(自监督学习,Self-supervised,Learning)