2023-自监督学习综述

Self‑supervised Learning: A Succinct Review

引言

  • 术语“自监督学习”首先用于机器人技术,其中标签被自动分配给训练数据,以利用输入信号和传感器之间的关系。
  • SSL操作背后的基本思想是,在提供输入时,有些部分是隐藏的,并且使用可见部分来预测隐藏部分。
  • SSL与无监督学习的不同之处在于,它需要标签,但不需要人工标记。
  • SSL使用了两个主要概念:辅助代理任务和对比学习
  • 辅助代理主要用于填充图像中缺失的部分,将其转换为灰度,预测隐藏部分等许多任务
  • 对比学习区分增强图像特征
    过程如下图所示
    2023-自监督学习综述_第1张图片
    简单介绍一下增量学习
    2023-自监督学习综述_第2张图片
  • 增量学习的目标是从新的样本中学习新的知识,并在不忘记之前任务的情况下,使用新的数据连续地解 决新的任务。
  • 是机器学习技术的一个子集,可以处理与人类行为和思想更一致的应用程序。
  • 在学习新知识时,反向传播方法根据可用顺序数据的损失调整参数权重。
  • 模型在先前学习的知识上的表现将因此受到影响。这被称为灾难性遗忘(CF),它是增量学习的主要问题。

自监督学习

SSL被认为是监督学习和无监督学习之间的桥梁
SSL模型使用输入数据的一部分进行自我训练,以学习输入数据的另一部分。
SSL算法能够自动为无标签数据生成标签,从而将无监督模型转换为有监督模型。如图所示
2023-自监督学习综述_第3张图片

代理任务

使用可见部分预测数据的隐藏部分。代理任务可以应用于任何类型的数据,例如图像、音频、视频等等。
如图展示了一些借口任务的例子,比如为图像着色,预测缺失的补丁,估计旋转角度,拼图,等等。该任务允许机器通过直接从数据中获得监督来自动学习,而不使用注释。设计一个合适的代理任务需要领域知识。
2023-自监督学习综述_第4张图片
图像着色:图像着色是指将彩色图像转换为黑白图像的过程。每个像素的全色信息由训练后的模型存储。
预测缺失的patch:预测图像补丁位置
估算旋转角度:将图像旋转三次,CNN模型通过学习物体的位置来恢复原始图像
拼图:解决拼图游戏不仅需要了解单个补丁,还需要了解同一图像的不同补丁之间的关系,理解补丁的区别特征有助于解决这个难题。由于没有捷径可以预测patch的正确位置,因此对每个patch生成多个排列函数,以找到它的正确位置

下游任务

下游任务可以通过两种方式实现:微调或使用线性分类器
当自监督预训练与下游任务之间的域差距较小时,下游任务的性能通常较好。

自监督学习经典技术

对比学习

对比学习用于学习一个表示或特征空间,吸引和排斥来自相似图像的表示。对比学习在计算机视觉和自然语言处理中有着广泛的应用。例如,在NLP中,改变单个单词的位置可以改变句子的语义。对比学习的目标是使语义相关的样本更接近,同时保持不相似的样本分开。
对比学习中,将训练数据中的一个样本作为锚点,将其增强形式标记为正样本,将训练批中的其余样本标记为负样本。
在对比学习中,使用了三种编码器:图像编码器、动量编码器和字典
2023-自监督学习综述_第5张图片

非对比学习

非对比学习技术只依赖于正的样本对,这意味着训练数据只包含相关的表示。
但FAIR发现,尽管只从正样本中学习,模型仍有学习良好表示的能力。非对比SSL模型使用停止梯度和额外预测器操作来获得更好的学习结果。
BYOL和SimSiam证明了使用这些操作,非对比学习模型不会发生表示崩溃

自监督学习的应用

NLP领域

  • BERT和T5
  • SSL正则化技术进行文本分类
  • 混合SSL方法来正则化文本分类任务的训练
  • 任务自适应预训练(Task adaptive pre-training, TAPT)和领域自适应预训练(domain adaptive pre-training, DAPT)
  • SSL-Reg技术
  • ERNIE 2.0:增量方式学习多个任务的框架

医学领域

  • 来自同一患者在不同时间的图像对在潜在空间中被推得更远
  • 对通道的感知,SSL可以估计流量行为
  • 使用SSL进行上下文恢复
  • 结合迁移和自监督学习的融合方法
  • 对比学习和在线特征聚类方法
  • 从多模态图像中提取特征,并使用这些提取的特征在监督和非监督模式下训练模型

计算机视觉中的自监督学习

  • 基于convnet的方法来识别图像中的2D旋转
  • SSL用于few-shot目标检测(FSOD)和实例分割
  • Self-EMD:学习空间视觉表征的方法
  • 从未标记的视频中检测和检索对象。
    表列出了各个领域的研究人员的主要贡献,如医疗保健、自然语言处理、图像分类、物体检测等
    2023-自监督学习综述_第6张图片

Critical analysis

  • 绝大多数的自我监督预训练模型,例如ImageNet数据集中的那些模型,都是在具有单一主导对象的图像上进行训练的。自动驾驶汽车等应用程序中的场景包含多个项目,因此很难区分两个相似的场景。
  • 由于卫星和医学图像缺乏结构,在它们中查找上下文是极其困难的。因此,相对斑块预测和拼图游戏等方法在处理此类图像时都是无用的。
  • 当处理包含医疗和卫星图像的结构化较低的数据集时,需要不同于处理自然语言处理数据集时的增强方法。
  • 创建一个有用的代理作业,让网络学习有意义的图像/文本是自我监督学习中最困难的方面。
  • 随着数据集的大小增长,系统的性能也会增长。因此,只要可能,就应该使用更大的数据集
  • 由于SSL可以在不依赖标签的情况下处理大型数据集,因此在NLP领域中,一个不完整的句子可以用几个单词来完成。后面的单词可以通过理解前一句的语义来完成

总结和展望

自我监督的方法主导了监督学习。他们使用大量免费获取的未标记数据。自监督学习方法已被证明在困难的下游任务中是有效的,如图像分类、对象检测、图像分割和其他带有少量标签输入的任务。本文的作者研究了SSL应用领域以及各种类型的学习。当与其他学习方法结合使用时,SSL可以取得更大的成功。不同的代理任务产生不同的监督信号,可以帮助网络学习更多的典型特征。在现有的大多数自监督视觉特征学习算法中,ConvNet被训练来解决一个代理任务。只有少数研究考察了自我监督特征学习的多重代理任务学习。可以进一步研究多代理任务下的自监督特征学习。目前,大多数自监督视觉特征学习方法都集中在单一模态的特征学习上。如果来自其他传感器的多个数据模式可用,则可以使用它们之间的约束来训练网络以学习特征。由于现在每个人都很忙,希望自动完成大部分工作,研究人员有很大的空间来探索这一领域的许多新技术。SSL提供了这种级别的安全,而不需要人工干预。

你可能感兴趣的:(医学影像综述,学习,计算机视觉,人工智能)