《Realistic Evaluation of Deep Semi-Supervised Learning Algorithms》笔记

对深度半监督学习算法的现实评价

  • Abstract
  • Introduction
  • Improved Evaluation
  • Semi-Supervised Learning Methods
    • 半监督
    • Π-Model
    • Mean Teacher
    • Virtual Adversarial Training(VAT)
    • Entropy Minimization (EntMin)
    • Pseudo-Labeling
  • Conclusions and Recommendations
  • Experiments

Abstract

写作目的:为了帮助指导SSL研究更贴合现实世界的适用性,文章公开了统一的重新实现和评估平台。

Introduction

第二节:列举了改进后的评估环境和方法。
第三节:概述了深度架构的现代SSL方法,并强调了本文包含的方法。
第四节:各种SSL算法的现实适用性。通过应用SSL做图像分类。
第五节:得出了评估SSL技术的具体建议。

Improved Evaluation

  • 共享实施方式:标准化实验流程
  • 高质量的监督基线:优化SSL方法的参数
    实验结论:
    完全监督基线与SSL基线之间的差距比文献中通常报道的要小。
    必须使用相同的模型来评估不同的算法,以避免混淆比较。
  • 对比迁移学习
  1. 迁移学习通常是通过使用原始模型初始化新模型的参数,并使用小数据集“微调”这个新模型来实现的。虽然这种方法只有在适用的源数据集可用时才可行,但它仍然提供了一个强大的、广泛使用的、很少报告(rarely reported)的基线来进行比较。下为迁移学习的简单介绍。
    迁移学习简单介绍
  2. 实验结论:
    使用该网络实现的任何SSL技术中,错误率最低。这表明当适合传输的标记数据集可用时,迁移学习可能是一个不错的选择。
  • 考虑类分布不匹配:研究了标记数据和未标记数据之间不同类分布的影响。
  1. 研究动机:
    分类中的数据集太小,只能用类似的图像拓展数据集。但训练中所用到的图像所属的那个类别标签有极大可能不是我们真正需要分类的类别标签。SSL算法的标准评估忽略了这种可能性。
    例子:我们的目的是分类十个人的脸部照片,基于数据不够,我们扩充了很多其他随机人员的脸部图片。类别标签一下子从10个扩充到N个,但我们的目的只需要分类这十个人。
  2. 实验结论:
    a. 从不使用任何未标记的数据中添加一组未标记的数据实际上会损害性能。
    b. 这意味着,如果未标记数据与核心学习任务足够无关,则为获得标记数据可能比获得未标记数据支付更大的成本。实验中没有重新调整这些实验的超参数;因为通过这样做,差距可能会缩小。
  • 改变标签和未标签数据的数量
  1. 常见做法:分别丢弃不同数量的类标签
  2. 少见情况:用系统的方法模拟两个场景
    a.未标记数量是巨大的:互联网图片,获取容易,标记相对昂贵
    b. 未标记数量是极少的:医学影像,获取和标记都很昂贵
  3. 实验结论:
    SSL技术对不同数据量会有令人震惊的不同水平的敏感度。
  • 更符合实际的小验证集
  1. 做法:讨论小型验证集的影响,分析了验证集大小与模型精度估计方差之间的关系。

  2. 验证集:用于调整超参数的数据。下为hyperparameters和parameters的区别。
    hyperparameters和parameters的区别

  3. 原因:大多数的SSL中验证集通常明显大于训练集。符合实际的小型验证集限制了选择模型的能力。
    导致:
    i. 任何客观值(如精度)由于验证集的样本量较小,用于超参数调整的精度将明显更嘈杂。
    ii. 广泛的超参数调整可能有些徒劳,因为收集的衡量性能数据太少。
    iii. 许多情况下,即使是使用交叉验证也可能是不够的,而且还会产生大量的计算成本。

  4. 实验结论:
    对于实际大小的验证集(占训练集大小的10%),区分模型的性能是不可行的。

Semi-Supervised Learning Methods

半监督

给一个数据集,利用有标签数据和无标签数据获得一个预测函数,该预测函数比只利用有标签数据的预测函数更准确。

Π-Model

  1. 应用一致性正则化的最简单的设置是,当预测函数fθ(x)本身是随机的时,即,它可以为相同的输入x产生不同的输出。
  2. 当fθ(x)是一个神经网络时,由于常见的正则化技术,如数据增强、退出和添加噪声,使上述情况在训练过程中非常常见。
  3. Π-Model增加了一个损失术语,它鼓励通过网络的不同通道的x∈Dul的网络输出之间的距离很小。

Mean Teacher

  1. 问题:
    Π模型方法的一个困难在于,它依赖于一个潜在的不稳定的“目标”预测,即在训练中可以快速变化的第二次随机网络预测。
  2. 解决:
    预测函数的参数是先前所有训练步骤的参数的平均值,这样可以使未标记数据的预测输出更加稳定。
  3. 解释:
    在Temporal-Ensembling中,由于每个目标在每个历元epoch中只更新一次,因此学习的信息以缓慢的速度被融入到训练过程中。相比之下,平均教师平均模型权重,而不是标签预测。因此,它可以在每一步step而不是每一个历元之后聚集信息。来源如下。
    https://zhuanlan.zhihu.com/p/74787474

Virtual Adversarial Training(VAT)

正则化,↑robust,↓过拟合

  1. 对比对抗训练AT:VAT只需要无标签数据就可完成正则化。
  2. 虚拟对抗训练(VAT)不依赖于fθ(x)的内置随机性,而是直接将一个小的扰动添加到x中,这对预测函数的输出有最大的影响。
  3. 扰动计算的思想可以理解为:将输入样本向着损失上升的方向再进一步,得到的对抗样本就能造成更大的损失,提高模型的错误率。来源如下。
    https://blog.csdn.net/qq_33221657/article/details/105170202

Entropy Minimization (EntMin)

添加了一个损失项,鼓励网络对所有未标记数据进行置信度预测(低熵)。

Pseudo-Labeling

在训练过程中使用预测函数为未标记样本生成“伪标签”。具有相应类概率(需大于预定义阈值)的伪标签被用作应用于未标记样本l的标准监督损失函数的输入。

Conclusions and Recommendations

  1. 比较SSL时,使用完全相同的底层模型
  2. 报告经过调整良好的完全监督和在适用的基线中的迁移学习性能。SSL的目标应该是显著超过完全监督的设置。
  3. 当未标记的数据来自不同的类别时,SSL技术都受到了影响。
  4. 一个理想的SSL算法即使有很少的标记数据也是有效的,并从额外的未标记数据中获益。
  5. 注意不要在不实际的大验证集中过度调整超参数。当验证集实际上很小时,需要在每个模型或每个任务的基础上进行重大调整的SSL方法将无法使用。
  6. 最佳时机:
    a. 当没有来自类似领域的高质量标记数据集可用于微调时。
    b. 当被标记的数据通过采样从未标记的数据池收集时,而不是来自(稍微)不同的分布。
    c. 当标记数据集足够大,可以准确估计验证精度时,这是进行模型选择和调优超参数时必要的。

Experiments

《Realistic Evaluation of Deep Semi-Supervised Learning Algorithms》笔记_第1张图片完全监督基线
《Realistic Evaluation of Deep Semi-Supervised Learning Algorithms》笔记_第2张图片

你可能感兴趣的:(机器学习之半监督学习,机器学习,深度学习,人工智能,迁移学习,分类)