论文阅读 Towards Automated Semi-Supervised Learning

论文阅读 Towards Automated Semi-Supervised Learning

摘要

让机器自己学习如何搞定一个数据集或任务一直是 AutoML 领域所关注的,它可能不再需要手动数据预处理、不需要人工搭建模型架构或花式调参。但是这些任务基本上都是基于图像识别等监督学习,而实际场景中更多的是未标注数据。因此南京大学 lamda 研究组和第四范式的研究者表示自动化也可以蔓延到半监督学习,他们借此提出了一种 Auto-SSL(semi supervised learning) 模型。首先,使用有增强元特征的元学习快速建议一些SSL使用的实例,其次,提出一种大间隔方法微调超参数。大间隔原则的基本思想是,如果在某个超参数下未标记的样本有大间隔,那么这个参数的质量较高。

简介

模型选择和超参数优化是机器学习技术应用过程中的关键步骤。给定⼀个机器学习任务,人工参与模型选择以及超参数优化通常是⼀个耗时、繁琐的过程。为了解决这样的问题,⼀些关于自动化机器学习的研究工作被提出,比如 Auto-WEKA 、Auto-Sklearn 和 Auto-Keras 等。
另外近几年 NIPS、PAKDD 等会议已经开始举办 AutoML 比赛,这一新兴领域已经获得学术界和工业界的广泛关注。
以往 AutoML 的工作通常侧重于监督学习问题,需要解决包括特征工程、模型选择、和超参数优化等问题。已有的 AutoML 系统已经可以得到不错的模型预测性能。例如,Auto-WEKA 结合了机器学习框架 WEKA,并利用贝叶斯优化方法对新数据集进行模型以及超参数的选择。
Auto-Sklearn 改进了 Auto-WEKA,它使用元学习来初始化学习算法以及超参数,并集成了评估过程中产生的模型,从而得到鲁棒的模型选择结果。另外,谷歌也开发了一套针对图像分类的自动机器学习产品 Cloud AutoML(迁移学习、神经网络框架搜索)。以上研究表明 AutoML 可以自动地选择一个适合当前任务的监督学习模型以及超参数。
利用未标注信息的半监督学习(SSL)在现实应用中普遍存在,但自动化的 SSL 研究仍然有限。在本文工作中,我们主要研究了现有 AutoML 技术无法直接解决的 SSL 问题。

  • 首先,已有的元学习主要从大量有标记数据提取元特征,从而初始化学习算法以及超参数。对于含有大量未标记数据以及少量有标记数据的数据集,提取能刻画数据分布的元特征对于半监督学习算法的选择至关重要。
  • 其次,SSL 在实施过程中可能会出现性能的严重下降,也就是说 SSL 利用了未标记数据以后的模型预测性能还不如仅仅利用有标记数据的监督学习算法。最近一些关于安全半监督的方法已经提出,然而这些研究方法通常侧重学习过程的某一个方面,并没有关注一个自动化的 SSL 解决方案。

为了解决以上问题,本文针对 SSL 提出了自动半监督学习方法(AUTO-SSL)。首先,受到 Auto-Sklearn 的启发,本文使用元学习以快速初始化 SSL 算法。考虑到未标记的数据分布对于 SSL 算法的选择至关重要,本文使用多种无监督聚类算法提取簇内和簇间的统计信息以增强元学习的表现。
其次,本文使用一种大间隔方法,用于微调超参数以缓解 SSL 可能出现的性能降低问题。这种方法的基本思想是,如果某个超参数较好,其在未标记数据上的模型预测结果分类间隔较大。在不同领域的 40 个数据集上,实验结果表明本文提出的方法相比以往的系统有较大的性能提升,包括 AutoML 系统 AUTO-SKLEARN 以及经典 SSL 方法。此外不同于传统的 SSL 方法会出现性能下降的情况,本文提出的方法几乎不会出现这样的情况。

相关工作

AutoML包括很多方面,如:自动化特征工程,自动模型选择(Sun 2016),自动超参数优化。从系统方案角度,最早是Auto-WEKA,他将机器学习框架WEKA与贝叶斯优化方法结合。Auto-Sklearn改进,使用元学习来启动贝叶斯优化,最后使用自动继承构造提高鲁棒性。但都是针对有监督问题,在SSL上受限。
安全性也是SSL考虑的问题,安全SSL方面的研究包括:在数据质量方面克服性能不安全、模型不确定性、测量灵活性。

走向Auto-SSL

AutoML包括私个步骤:使用元学习获取数据集的元特征并使用有监督模型找到可能在未知数据上表现好的算法;再进行超参数优化;接着进行模型评估;最后再预测阶段,给定一个新的数据集,系统通过元特征表示数据集,用好的超参数预测,确定学习模型。

–准备工作和问题定义

符号表示:给定包含大量未标记数据和少量有标记数据的半监督数据集在这里插入图片描述,其中 在这里插入图片描述表示有标记数据, 在这里插入图片描述表示未标记数据,在这里插入图片描述表示样本的标记。自动半监督学习的目标如下:
定义:给定半监督学习算法 在这里插入图片描述以及每个学习算法在这里插入图片描述 对应的超参数集合在这里插入图片描述,基准监督学习算法A以及对应的超参数集合 在这里插入图片描述。假定模型Mauto 是自动半监督学习系统(AUTO-SSL)在数据集上D得到的训练模型,在这里插入图片描述 是基准监督学习算法在有标记数据 L 上得到的训练模型。那么 AUTO-SSL 的目标可以表示为:在这里插入图片描述 通常要显著好于 在这里插入图片描述,最坏情况下,也不会比 在这里插入图片描述 差。其中, 在这里插入图片描述表示模型 在未标记数据上的预测性能。

–增强元特征的元学习

元学习 [Brazdil et al.2008] 旨在利用以往的经验知识来指导新任务的学习,具有学会学习的能力。具体来说,在 AutoML 中,我们收集大量经验数据集的性能数据和其对应的元特征,其中元特征是用来刻画数据集的特征,有助于有效地初始化目标任务上的学习算法 ,元特征有很多计算方法[Feurer et al.2015]。元特征是元学习的核心,传统的元特征主要包括描述数据集基本的结构信息的元特征 (Simple metafeatures)、表示数据集主要成分统计量的 PCA 元特征 (PCA metafeatures )、统计数据的分布情况的统计元特征 (Statistical metafeatures )。
对于 SSL,数据分布信息对于 SSL 算法选择至关重要。建议通过无监督聚类算法描述未标记的数据分布。具体来说,不同的ssl技术适用于不同的数据分发,例如,基于图的半监督学习算法要求数据具有平滑性假设,即相似的样本具有相同的标记;而半监督支持向量机要求数据具有低密度假设,即半监督支持向量机试图找到能将两类数据分开,且穿过数据低密度区域的划分超平面。本文通过无监督学习算法提取数据的分布信息,第一种是k-means算法,它描述了混合高斯分布,每个聚类模拟了数据分布的密度函数,因此,k-均值算法是实现低密度假设的一种选择。第二种是谱聚类算法,它根据数据相似矩阵对数据进行划分,每个聚类模拟数据分布的流形结构,因此,谱聚类算法是实现流形假设的一种选择。最后一个是分层聚类算法,它提供了一种灵活的方式来混合多个局部聚类。对于每一种聚类算法,采用了四个元特征:簇内内聚、簇间分离、davies-bouldin指数和dumn有效性指数。下图为元特征列表(有监督+无监督)
论文阅读 Towards Automated Semi-Supervised Learning_第1张图片
通过下图发现无监督聚类得到的元特征可以发现传统元特征不能发现的信息。
论文阅读 Towards Automated Semi-Supervised Learning_第2张图片

–大间隔方法用于超参数优化

元学习能够有效地给目标任务初始化 SSL 算法,但无法对超参数进行优化。然而,实际的应用场景中,超参数优化虽然可以得到不错的性能调整,但效率低下,通常需要消耗大量的时间。传统的 AutoML 系统通过贝叶斯优化调整超参数,需要大量的标记数据切分验证集并多次进行模型评估,对于 SSL,标记数据通常不足以用来切分验证集进行模型评估。本文提出了一种大间隔的方法来优化超参数,基本思想是,如果某个超参数较好,其在未标记数据上的模型预测结果分类间隔较大,反之亦然。下图给出了大间隔方法用于优化超参数的示例。
论文阅读 Towards Automated Semi-Supervised Learning_第3张图片
从公式出发,超参数集合为在这里插入图片描述
预测值为在这里插入图片描述
最大化间隔公式为在这里插入图片描述
P和N是算法在未标记数据集上预测的正、负样例。
最后为了鲁棒性,将无监督和有监督集成在这里插入图片描述

你可能感兴趣的:(论文阅读)