10亿照片训练,Facebook半弱监督训练方法刷新ResNet-50 ImageNet基准测试

姓名:任子琪

学号:19021110610

转载自:https://news.hexun.com/2019-10-21/198937176.html

【嵌牛导读】Facebook提出新的模型训练技术“半弱监督学习”,结合半监督学习和弱监督学习的优点,为图像和视频分类系统提供了最高分类精度。

【嵌牛鼻子】半弱监督学习,ResNet-50,图像视频分类

【嵌牛提问】如何看待这一技术?

【嵌牛正文】


准确的图像和视频分类对于广泛的计算机视觉应用非常重要,从识别有害内容,到帮助视障人士更容易使用产品,再到帮助人们更容易地在线上平台上买卖东西等等。

Facebook AI正在开发一种新的方法来训练AI系统,以便我们可以使用较少的标记训练数据来做更多的事情,而且即使在无法获得大量高质量的标记数据集的情况下,也能提供准确的结果。

今天,Facebook新博客介绍了一种新的模型训练技术的细节,该技术可为图像和视频分类系统提供最高的准确性

Facebook将该方法称为“半弱监督”(semi-weak supervision),是结合了半监督学习和弱监督学习者两种不同训练方法的有点的一种新方法。通过使用teacher-student模型训练范式十亿规模的弱监督数据集,它为创建更准确、更有效的分类模型打开了一扇门。如果弱监督数据集(例如与公开可用的照片相关联的hashtags)不能用于目标分类任务,该方法还可以利用未标记的数据集来生成高度准确的半监督模型。

Facebook的半弱监督训练框架在轻量级图像和视频分类模型的学术基准上达到了新的最优水平。他们使用ResNet-50模型进行基准测试,在ImageNet上获得了81.2%的top-1准确度。在Kinetics视频动作分类基准测试中,使用低容量R(2+1)D-18模型在验证集上达到了了74.2%的top-1准确度。与使用相同的输入数据集和计算资源的相同容量的弱监督R(2+1)D-18模型所获得的最新结果相比,新方法的准确度提高了2.7%

半弱监督学习有助于缩小高容量的先进模型与计算效率高的生产级模型之间的精度差距。该方法使Facebook能够创建高效、低容量的生产就绪型模型,并且提供比以前更高的准确性,这将改善数十亿人使用的产品。

超越标记数据集

在仅使用标记数据训练目标分类模型时,目标模型的准确性高度依赖于数据集的规模和质量。但是,这种完全有监督的方法需要人类手工标记训练数据,无法扩展到世界上所有可能的视觉概念。例如,要给成千上万种动植物贴上标签是十分耗时耗力的,并且需要广泛的领域专业知识。

在2018年,Facebook人工智能实验室的研究人员证明了,我们可以使用与数十亿张可公开获取的Instagram照片相关的标签来训练高度准确的分类模型

这种方法为目标分类任务标识一组相关的主题标签(hashtags),使用相关的图像进行预处理,然后使用所有可用的带有标签的示例对目标模型进行微调。这是一种弱监督学习的方法,因为数据集中包含大量的标签噪音——例如,“love”之类的标签的使用相当主观,而“persistence”之类的标签则表示抽象的概念。

但是,尽管存在这些挑战,我们还是能够训练出非常大容量、弱监督的模型,并提供最先进的准确性。我们开源了分类模型,这些模型在各种基准上都产生了最好的结果。

开源地址:

https://github.com/facebookresearch/semi-supervised-ImageNet1K-models

尽管弱监管在ImageNet图像分类中带来了显著的成功,但它也有局限性。带有Hashtag的内容并不总是适用于特定的分类任务。例如,在Facebook和Instagram上,大量的视觉内容没有任何相关的标签。虽然可以公开获得的未标记的照片非常多,但弱监督无法将这些数据用于允许你了的模型。此外,目前最先进的弱监督分类模型具有高容量、计算上非常昂贵的特点。这些限制促使我们探索如何利用大量公开可用的未标记数据集来构建更精确的分类模型。

Facebook的半监督训练框架

我们的半监督训练框架,该框架采用最佳实践来生成轻量级图像和视频分类模型

半监督学习为减少AI系统对标记数据集的依赖提供了一种不同的方法。该方法使用大量未标记的数据和少量有标记的示例来训练目标模型。

第一步是用所有可用的标记数据集来训练一个更大容量、高精度的“教师”模型。教师模型用于预测所有未标记示例的标签和相应的soft-max分数。

然后,根据每个概念类对这些示例进行排序。得分最高的示例用于预训练轻量级、计算效率高的“学生”分类模型

最后一步是使用所有可用的标记数据对学生模型进行微调。在预训练阶段,目标模型从它的“教师”模型和未标记的数据集中学习。

该模型训练框架与完全监督模型相比,具有更高的训练精度。在完全监督的方案中,目标模型仅在有标记的数据上训练。

虽然这一高级描述概述了半监督学习的基本原理,但我们发现,在实践中,许多细微的决策会影响半监督框架的性能。此外,以前从没有以如此大的规模(包含数十亿个内容示例)探索半监督训练的图像和视频分类。

通过半弱监督实现最先进的成果

新的半弱监督方法旨在通过利用大量的弱监督数据集来改进上述的半监督框架。hashtags形式的弱监督用于为半监督创建更集中和相关的未标记数据集。此外,同样的过滤数据集用于训练一个非常大容量的弱监督教师模型,以便为学生模型选择预训练样本。

通过利用弱监督数据集(如果可用)来训练教师模型和学生模型,该框架对上述半监督框架进行了改进。

为了评估新框架的有效性,我们结合几个常用的残差网络模型,使用公开可用的ImageNet基准进行照片分类,使用Kinetics基准进行视频分类。

在ImageNet的情况下,目前的state-of-the-art结果是通过Facebook AI的弱监督ResNeXt-101-32x48模型获得的。它的top-1准确率达到了85.4%,远远超过了谷歌最近发布的EfficientNet 网络。该模型在10亿张Instagram图片上进行了预训练,其中包含1500个与ImageNet相关的标签。如果我们使用相同的弱监督数据集和方法来训练目标ResNet-50 ImageNet模型,那么将在ImageNet基准测试获得78.2%的top-1精度。在探索半弱监督训练方法时,这个数字可以作为我们的基准。

为了达到最高的精度,研究人员使用了弱监督的ResNeXt-101-32x48模型作为教师模型,从10亿张带有hashtag的图像的数据集中选择预训练示例。使用所选示例对目标ResNet-50模型进行预训练,然后使用ImageNet训练数据集进行微调,得到的半弱监督ResNet-50模型达到了81.2%的top-1精度。这是ResNet-50 ImageNet基准模型的最优水平。top-1精度比(弱监督)ResNet-50基线高3%,后者在具有完全相同的训练数据集和超参数的相同数据集上进行预训练和微调。

在这个图表中,85.4%代表了最先进的高容量ResNeXt-101-32x48模型所达到的精度。当采用半弱监督方法训练时,低容量ResNet-50模型的准确率达到了81.2%,大大缩小了低容量模型与高容量模型之间的差距。

表示能力分析

预训练的图像分类模型被广泛应用于各种迁移学习任务。我们试图探索如何对现有的分类模型进行微调,以用于没有足够训练示例的不同分类任务。目标任务的分类精度高度依赖于预处理主干模型的容量、精度和问题域。

在此背景下,我们评估了半监督和半弱监督的ImageNet分类模型的表示能力。完全监督的ResNet-50 ImageNet模型的最后一层针对CUB-2011 鸟类图像分类任务进行了微调,经过微调的模型在CUB-2011 基准上可提供73.3%的top-1精度,而我们的弱监督的ResNet-50 ImageNet模型达到了74%的top-1精度。

但是,性能最好的半弱监督的ResNet-50模型在此基础上进行了改进,为CUB-2011转移学习任务提供了80.7% top-1精度。与弱监督的ResNet-50模型相比,该模型的准确率提高了6.7%。

视频分类的半弱监督

在这个图表中,82.8%代表了最先进的高容量R(2+1)D-152模型所达到的 top-1 精度。采用我们的半弱监督方法训练,低容量R(2+1)D-18模型达到74.2%的精度,大大缩小了低容量学生模型和高容量教师模型之间的差距。

基于teacher-student的半监督学习框架也适用于视频分类任务。我们的评估使用Kinetics-400视频动作分类基准,并使用最先进的弱监督R(2+1)D-152视频分类模型作为教师模型。

弱监督教师模型的容量是学生模型的24倍,在验证集上提供了82.8%的top-1准确率。作为参考,弱监督训练的学生模型提供了71.5%的top-1准确率。使用由最先进的教师模型采样的相同弱监督数据集的示例对学生模型进行预训练,可提供74.2%的top-1精度。对于目标R(2+1)D架构,半弱监督模型在Kinetics-400基准上精度提升了9.4%。与弱监督的R(2+1)D模型相比,精度提升了2.7%。

视觉内容理解的未来

Facebook的半监督训练框架大大提高了轻量级生产模型的准确性。部署到生产环境中的更精确的轻量级分类模型将帮助我们更好地理解可视内容,从而改进用户体验。最重要的是,更精确的模型可以检测到更多的不良内容,以确保Facebook的安全。

我们认为,从未标记的数据集中学习是改进最新分类模型的有效方法。人工标记数据将继续是资源密集型的,难以扩展,有时甚至是不可用。不过,硬件的不断进步使得在超大规模的照片或视频上进行训练变得更加容易。十亿规模的未标记数据集将是训练高度精确的视觉理解模型的重要工具。

通过开发不完全依赖于人类标记的用于训练目的的数据的训练方法,我们希望开发出更多功能的系统,并且能够泛化到看不见的任务——这可能帮助我们更接近我们的目标,即实现具有人类水平的智能的人工智能。

本文首发于微信公众号:新智元。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。

你可能感兴趣的:(10亿照片训练,Facebook半弱监督训练方法刷新ResNet-50 ImageNet基准测试)