论文推荐-使用 Noisy Student 进行自训练可以提高 ImageNet 分类的表现

教师学生模型、伪标签、半监督学习和图像分类

使用 Noisy Student 进行自训练改进 ImageNet 分类是一篇由 Google Research、Brain Team 和Carnegie Mellon大学发表在2020 CVPR的论文

Noisy Student在训练时使用相等或更大的学生模型和在学习期间添加噪声（Dropout, Stochastic Depth,和数据增强）扩展了自训练和蒸馏方法。

一个 EfficientNet 模型首先作为教师模型在标记图像上进行训练，为 300M 未标记图像生成伪标签。
然后将更大的 EfficientNet 作为学生模型并结合标记图像和伪标签图像进行训练。
学生网络训练完成后变为教师再次训练下一个学生网络，并迭代重复此过程。

Noisy Student的训练过程

标记图像 {(x1, y1), (x2, y2), ..., (xn, yn)}，未标记的图像 {~x1; ~x2, ..., ~xm} 第 1 步：学习教师模型 θ t*，它可以最大限度地减少标记图像上的交叉熵损失：

第 2 步：使用正常（即无噪声）教师模型为干净（即无失真）未标记图像生成伪标签：

经过测试软伪标签（每个类的概率而不是具体分类）效果更好。

第 3 步：学习一个相等或更大的学生模型 θ s*，它可以最大限度地减少标记图像和未标记图像上的交叉熵损失，并将噪声添加到学生模型中：

步骤 4：学生网络作为老师，从第2步开始进行迭代训练。

噪声

噪声由两种类型：输入噪声和模型噪声。

对于输入噪声，使用 RandAugment [18] 进行数据增强。简而言之，RandAugment 包括增强：亮度、对比度和清晰度。
对于模型噪声，使用 Dropout [76] 和 Stochastic Depth [37]。

噪声具有在标记和未标记数据的决策函数中强制执行不变性的重要好处。

数据增强是Noisy Student训练中的一种重要方法，因为它迫使学生确保图像增强版本之间的预测一致性。

教师模型通过干净的图像来生成高质量的伪标签，而学生则需要使用增强图像作为输入来重现这些标签。

当 Dropout 和 Stochastic Depth 函数用作噪声时，教师模型在推理时表现得像一个集成（当它生成伪标签时），而学生模型表现得像一个单一的模型。换句话说，学生被迫模仿更强大的集成模型。

其他一些信息

Noisy Student在训练还通过一个额外的技巧更好地工作：数据过滤和平衡。教师模型具有低置信度（ < 0.3）的图像会被过滤，因为它们通常是域外图像。每个类的未标记图像的数量需要进行平衡，因为 ImageNet 中的所有类都具有相似数量的标记图像。为此，复制没有足够图像的类中的图像。对于图像过多的类，会使用置信度最高的图像（最多 130K）。

一些训练的细节如下

使用了 EfficientNet-L2，它比 EfficientNet-B7 更宽更深，但使用了较低的分辨率。
使用了 FixRes。
JFT 用作未标记的数据集。用于训练学生模型的图像总数为 130M（包含一些重复图像）。因为重复所以这 130M 图像中只有 81M 独特图像。
最大的模型 EfficientNet-L2 需要在 Cloud TPU v3 Pod 上训练 6 天，该 Pod 有 2048 个内核。

实验结果

EfficientNet-L2 with Noisy Student 在训练时达到了 88.4% 的 top-1 准确率，明显优于 EfficientNet 上报告的 85.0% 的最佳准确率。3.4% 的总收益来自两个来源：通过使模型更大（+0.5%）和Noisy Student（+2.9%）。

换句话说，Noisy Student 训练对准确性的影响比改变架构要大得多。

Noisy Student 训练超过了需要 35 亿张带有标签的 Instagram 图像的 FixRes ResNeXt-101 WSL [55, 86] 86.4% 的最新准确率，作为比较，Noisy Student Training 只需要 300M 未标记的图像，这可能更容易收集。并且与 FixRes ResNeXt-101 WSL 相比，所提出的模型的参数数量也大约少了两倍。如果仅使用大约一半的模型大小，Noisy Student训练也优于 BiT-L。

不进行迭代训练的Noisy Student

Noisy Student 训练导致所有模型大小的持续提高率为 0.8%。具有Noisy Student 的 EfficientNets 在模型大小和准确性之间提供了更好的权衡。

稳健性基准测试

ImageNet-C 和 P 测试集 [31] 包括具有常见损坏和扰动的图像，例如模糊、雾化、旋转和缩放。ImageNet-A 测试集 [32] 由难度较大的图像组成，这些图像会导致最先进模型的准确性显著下降。

标准模型的预测是不正确的，而 Noisy Student Training 模型的预测是正确的。

在ImageNet-A上，它将前一名的准确率从61.0%提高到83.7%。在ImageNet-C上，它将 mean corruption error(mCE)从45.7减少到28.3。在ImageNet-P上，如果使用224×224(直接比较)的分辨率，它会导致mean flip rate (mFR)为14.2，如果使用299×299的分辨率，则会降低至12.2。

对抗性鲁棒性结果