论文阅读“FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence”

Sohn, Kihyuk, et al. "Fixmatch: Simplifying semi-supervised learning with consistency and confidence." Advances in neural information processing systems 33 (2020): 596-608.

论文地址
Pytorch 实现版本

摘要导读

半监督学习(Semi-supervised learning, SSL)为利用无标签数据提高模型的性能提供了一种方式。近年来该领域的快速发展,依赖于更加复杂的模型结构。本文提出的FixMatch是对现有SSL方法的重大简化。FixMatch首先使用模型对弱增强的无标签数据进行标签预测从而生成伪标签。对于一个给定的图像,只有在模型产生高置信度预测的情况下,才会保留其对应的伪标签。后续当输入的是同一样本强增强的图像时,使用伪标签对模型进行训练。具体来说,FixMatch使用一致性正则化(consistency regularization)和伪标签(pseudo-labeling)产生人工标签。最重要的是,人工标签基于一个弱增强的无标签图像产生(例如,只使用翻转和移动的数据增强),当模型被送入同一图像的强增强版本时,由弱增强无标签数据产生的人工标签被用作目标进行监督。尽管它很简单,但实验表明,FixMatch在各种标准的半监督学习基准中取得了最先进的性能。

问题形式化

给定一个类的分类任务,设是一个batch_size为B的有标签数据:,其中是训练样本,是one-hot标签。设,其中是决定有标签样本和无标签样本比例的超参数。此外:
表示将样本作为输入,模型预测的对应标签分布。
表示两个概率标签分布之间的交叉熵。
表示数据增强技术中的强增强。
表示数据增强技术中的弱增强。

相关技术
  • Consistency regularization
    一致性正则化是当前SSL算法中较为重要的技术。一致性正则化利用未标记的数据,并依赖于如下假设:当向同一图像的不同扰动版本作为输入时,模型应输出类似的预测结果。一般来说,该技术包含一个标准的监督分类损失和在无标签样本上的损失,其中在无标签样本上的损失可以如下:
    其中,和是随机的函数,则上式可以得出不同的值。在一些扩展性方法中,可以被替换为相对抗的转换;则可以使用运行的平均数或过去的模型预测;同时损失的平方也可以被交叉熵等来代替。相关的方法这里不进行赘述。
  • Pseudo-labeling
    伪标签利用了使用模型本身的输出,为无标签的数据获得人工标签。具体来说,使用 "硬 "标签(即模型输出的arg max),并且只保留那些最大类别概率超过预定阈值的人工标签。令, pseudo-labeling对应的损失如下:
    其中,是对应的阈值。
模型浅析

该模型主要的新颖性来自一致性正则化和伪标签技术的结合,以及在进行一致性正则化时使用单独的弱增强和强增强。其对应的模型图如下:


提出的FixMatch的损失函数包含两个部分:监督损失 应用于有标签的数据以及无标签损失 。 就是传统分类任务中使用的交叉熵损失函数:
不同的是,这里预测分布的产生不是作用在原始输入样本的,而是作用在通过弱样本增强的表示 上。然后,通过模型产生所有样本 的人工标签样本(舍弃了原始 的标签),然后用于标准的交叉熵损失。
人工标签的生成方式:
(1) ;
(2) ,
然后对强增强的样本版本强制进行交叉熵损失:
其中, 是一个标量超参数,表示保留伪标签的阈值。
总体的损失函数如下:

尽管从形式上看,FixMatch中的构造和Pseudo-labeling中损失的形式是一致的,关键区别在于,人工标签是基于弱增强的图像计算的,而损失是针对强增强的图像的模型输出而强制执行的。 这种操作引入了一致性规范化的形式,这对FixMatch的成功至关重要。

消融学习

主要涉及了1. Sharpening and Thresholding(锐化和阈值处理)2. Augmentation Strategy(数据增强策略)两个部分。

  • 可以通过锐化预测分布来设计一个 "软 "版本的伪标签,即生成伪标签时,不使用,而是选择引入超参数temperature来控制标签概率分布。论文通过研究和置信度阈值之间的相互作用,相关结果如下:
    这表明,为了达到高精确度,伪标签的质量比数量更重要。另一方面,当使用置信度阈值时,锐化并没有显示出性能上的明显差异。
  • 文中对不同的强数据增强政策进行了消融研究,因为它在FixMatch中起着关键作用。

论文展示了FixMatch如何开始弥合少量标签半监督学习和少量学习或聚类之间的差距。

你可能感兴趣的:(论文阅读“FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence”)