论文笔记:Bootstrap Your Own Latent A New Approach to Self-Supervised Learning

论文笔记:Bootstrap Your Own Latent A New Approach to Self-Supervised Learning

abstract:

介绍了BYOL网络(原理):依赖两个网络,一个online和target网络,互相之间相互影响相互学习。从图像增强地视角下看online和target网络,在同一张图片,我们训练了online网络去预测target网络的representation。与此同时,At the same time, we update the target network with a slow-moving average of the online network.(没有看懂这里的 a slow-moving average)。
对比于其他网络: 我们与一些顶级的自监督网络相比我们不需要负样本,在imagenet上我们取得了很好的成绩。

Introduction

背景1:好的特征提取是计算机视觉的主要任务,而且好的特征提取对下游任务比较重要。
背景2:已经提出了许多不同的方法来进行特征提取,依赖着前置任务。
同时我顺便介绍目前的自监督学习方法
例如:
原文链接:原文

  1. Reconstruction方法
    论文笔记:Bootstrap Your Own Latent A New Approach to Self-Supervised Learning_第1张图片
    论文笔记:Bootstrap Your Own Latent A New Approach to Self-Supervised Learning_第2张图片
    论文笔记:Bootstrap Your Own Latent A New Approach to Self-Supervised Learning_第3张图片
    论文笔记:Bootstrap Your Own Latent A New Approach to Self-Supervised Learning_第4张图片

  2. Common Sense Tasks(常识任务)
    论文笔记:Bootstrap Your Own Latent A New Approach to Self-Supervised Learning_第5张图片
    论文笔记:Bootstrap Your Own Latent A New Approach to Self-Supervised Learning_第6张图片
    论文笔记:Bootstrap Your Own Latent A New Approach to Self-Supervised Learning_第7张图片

  3. 自动标签生成方法
    论文笔记:Bootstrap Your Own Latent A New Approach to Self-Supervised Learning_第8张图片
    论文笔记:Bootstrap Your Own Latent A New Approach to Self-Supervised Learning_第9张图片
    背景3:在representation之中,多数先进的模型用着contrastive methods来进行学习,contrastive methods通过学习正样本和负样本之前的区别来进行特征提取。
    困难与挑战:使用contrastive method方法, 如何去选择负样本成为了一个新的问题,同时需要较大的一个训练批次去训练,而且这种方法的性能与图像增强密切相关。
    我们的方法:byol是一种全新的自监督学习方法,而且已经超过了最顶级的contrastive methods,而且不需要使用负样本。我们通过迭代引导网络的输出作为目标,来增强representation。BYOL是一个更为强大的图像增强的选择,而且我们怀疑不适用负样本可以提升鲁棒性。
    论文笔记:Bootstrap Your Own Latent A New Approach to Self-Supervised Learning_第10张图片
    与其他人的工作来进行比较:之前method的模型引导是使用pseudo-label,cluster indices,handful of label。我们的方法是直接引导representation。
    讲解模型:用了两个卷积神经网络,online和target networks,他们相互学习相互影响。从增强representation的角度看,online来预测target network的representation关于同一张图片(增强任务?)。

RELATED WORKS:

绝大多数的无监督模型的特征提取可以被总结为generative or discriminative的方法。
论文笔记:Bootstrap Your Own Latent A New Approach to Self-Supervised Learning_第11张图片

  1. generative methods
    generative 的representation learning是提取特征到一个embeddign,将得到的embedding作为图像的特征。主要以autoencoder为代表,对编码器的主要要求就是尽可能地保持原始数据的重要信息,如果decoder解码回到原来的图片,说明重建的足够好。如果decoder解码回来原来的图片,说明重建的足够好。除了autoencoder还有用对抗生成网络的方法达,用判别网络算loss。这种generative是像素的level上计算loss。但是存在问题,这种基于pixel进行运算开销巨大,而且这种方法对像素进行重建过于严格。
    eg:dollars——好的特征提取还有其他方式
  2. contrastive
    contrastive方式已经成为现如今最优秀的方式(自监督学习模型),这类方法不要求模型去重建原图而是希望我们的模型能够利用(特征)对正负样本进行判断。因为不用进行重建,所以优化变得容易,但我们并没有标签,所以问题转化为了怎么构建正负样本。
  3. DeepCluster
    可以部分的回答这个问题,通过特征提取来产生target为了接下来的representation,第一个特征提取就行cluster任务,然后用特征提取的结果进行分类从而进行新的特征提取
  4. 其他方法
    还有一些没有使用contrastive的方法但是使用了额外的手工预测,例如patch-prediction, 从colorizing gray-scale, image2image的方法,但是这些方法都被contrastive打败。
  5. 为看懂predictions of Bootstrapped latent

未完成的工作

bootstrapped 与 latent 和self-supervised learning 都是比较困难的领域,我觉得我目前的能力暂时没有太多必要去花更多的时间去强行理解文中的含义, 在未来有能力/合适的时候将这篇论文的读书笔记补上。

你可能感兴趣的:(读书笔记,深度学习,计算机视觉)