西瓜书学习笔记——第十三章:半监督学习

13.半监督学习

  • 13.1 未标记样本
  • 13.2 生成式方式
    • 高斯混合生成式模型
    • 其他生成式模型
  • 13.3 半监督SVM
    • TSVM半监督支持向量机
  • 13.4 基于分歧的方法
  • 13.5 半监督聚类
    • 约束k均值算法(必连勿连)
    • 约束种子k均值算法(少量有标记样本)

13.1 未标记样本

训练样本集D由有标记样本集 D l D_l Dl和未标记样本集 D u D_u Du组成,若使用传统监督学习算法,则只能使用 D l D_l Dl D u D_u Du的信息被浪费,学得模型的泛化能力往往不佳。

如何将 D u D_u Du也利用起来是半监督学习的目标。

一种简单的做法是通过专家知识对 D u D_u Du的样本全部标记后用于学习,但需要耗费巨大的人力。

若我们先使用有标记的样本数据集训练出一个学习器,再基于该学习器对未标记的样本进行预测,从中挑选出不确定性高或分类置信度低的样本来咨询专家并进行打标,最后使用扩充后的训练集重新训练学习器,这样便能大幅度降低标记成本,这便是主动学习(active learning),其目标是使用尽量少的/有价值的咨询来获得更好的性能。

显然,主动学习需要与外界进行交互/查询/打标,其本质上仍然属于一种监督学习。事实上,无标记样本虽未包含标记信息,但它们与有标记样本一样都是从总体中独立同分布采样得到,因此它们所包含的数据分布信息对学习器的训练大有裨益。

让学习过程不依赖外界交互,自动利用未标记样本所包含的分布信息的方法便是半监督学习(semi-supervised learning),即训练集同时包含有标记样本数据和未标记样本数据。

半监督学习可进一步划分为纯半监督学习直推学习

  • 纯半监督学习假定训练数据集中的未标记数据并非待预测数据
  • 直推学习假定学习过程中的未标记数据就是待预测数据,学习的目的是在这些未标记样本上获得最优泛化性能

主动学习、纯半监督学习以及直推学习三者的概念如下图所示:
西瓜书学习笔记——第十三章:半监督学习_第1张图片

13.2 生成式方式

生成式方法是直接基于生成式模型的方法。此类方法假设所有数据(无论是否有标记)都是由一个潜在的模型“生成的”。这个假设使得可以通过潜在模型的未知参数将样本的未知标记与学习目标联系起来,通常可基于EM算法进行极大似然估计求解。

生成式方法的区别主要在于生成式模型的假设,不同的模型假设将产生不同的方法。

高斯混合生成式模型

假设样本由高斯混合模型生成,且每个类别对应一个高斯混合成分。数据样本是基于如下概率密度生成:
西瓜书学习笔记——第十三章:半监督学习_第2张图片

不失一般性,假设类簇与真实的类别按照顺序一一对应,即第i个类簇对应第i个高斯混合成分。与高斯混合聚类类似地,这里的主要任务也是估计出各个高斯混合成分的参数以及混合系数,不同的是:对于有标记样本,不再是可能属于每一个类簇,而是只能属于真实类标对应的特定类簇。
在这里插入图片描述
西瓜书学习笔记——第十三章:半监督学习_第3张图片
式(13.3)为样本x由第i个高斯混合成分生成的后验概率

直观上来看,基于半监督的高斯混合模型有机地整合了贝叶斯分类器与高斯混合聚类的核心思想,有效地利用了未标记样本数据隐含的分布信息,从而使得参数的估计更加准确。可使用EM算法求解高斯混合模型参数估计,迭代更新式如下:
西瓜书学习笔记——第十三章:半监督学习_第4张图片
西瓜书学习笔记——第十三章:半监督学习_第5张图片
以上过程不断迭代直至收敛,即可获得模型参数。然后由式(13.3)和式(13.2)就能对样本进行分类。

其他生成式模型

将高斯混合模型换成混合专家模型、朴素贝叶斯模型等即可推导出其他的生成式半监督学习方法。此类方法简单,易于实现,在有标记数据极少的情形下往往比其他方法性能更好。然而,此类方法有一个关键:模型假设必须准确,即假设的生成式模型必须与真实数据分布吻合;否则利用未标记数据反倒会降低泛化性能。蛋疼的是,现实任务中往往很难事先做出准确的模型假设,除非拥有充分可靠的领域知识。

13.3 半监督SVM

监督学习中的SVM试图找到一个划分超平面,使得两侧支持向量之间的间隔最大,即“最大划分间隔”思想。

对于半监督学习,S3VM则考虑超平面需穿过数据低密度的区域
西瓜书学习笔记——第十三章:半监督学习_第6张图片

TSVM半监督支持向量机

TSVM是半监督支持向量机中的最著名代表,与标准SVM一样都是针对二分类的算法,其核心思想是:尝试为未标记样本找到合适的标记指派,使得超平面划分后的间隔最大化。TSVM采用局部搜索的策略来进行迭代求解,即首先使用有标记样本集训练出一个初始SVM,接着使用该学习器对未标记样本进行打标,这样所有样本都有了标记,并基于这些有标记的样本重新训练SVM,之后再寻找易出错样本不断调整。整个算法流程如下所示:
西瓜书学习笔记——第十三章:半监督学习_第7张图片
西瓜书学习笔记——第十三章:半监督学习_第8张图片
注:4-11行的循环终止条件为 C u = = C l C_u == C_l Cu==Cl,循环过程中逐渐增大 C u C_u Cu以提高未标记样本对优化目标的影响。
西瓜书学习笔记——第十三章:半监督学习_第9张图片

13.4 基于分歧的方法

与生成式方法和半监督SVM等基于单学习器利用未标记数据不同,基于分歧的方法使用多学习器,而学习器之间的“分歧”对未标记数据的利用至关重要。

基于分歧的方法通过多个学习器之间的分歧(disagreement)/多样性(diversity)来利用未标记样本数据,协同训练就是其中的一种经典方法。协同训练最初是针对于多视图(multi-view)数据而设计的,多视图数据指的是样本对象具有多个属性集,每个属性集则对应一个试图。例如:电影数据中就包含画面类属性和声音类属性,这样画面类属性的集合就对应着一个视图。首先引入两个关于视图的重要性质:

相容性:即使用单个视图数据训练出的学习器的输出空间是一致的。例如都是{好,坏}、{+1,-1}等。
互补性:即不同视图所提供的信息是互补/相辅相成的,实质上这里体现的就是集成学习的思想。

协同训练正是很好地利用了多视图数据的“相容互补性”,其基本的思想是:首先基于有标记样本数据在每个视图上都训练一个初始分类器,然后让每个分类器去挑选分类置信度最高的样本并赋予标记,并将带有伪标记的样本数据传给另一个分类器去学习,从而相互学习相互进步。

西瓜书学习笔记——第十三章:半监督学习_第10张图片
西瓜书学习笔记——第十三章:半监督学习_第11张图片
协同训练算法本身是为多视图数据而设计的,但此后出现了一些能在单视图数据上使用的变体算法,也能有效地利用未标记数据提升性能。后续理论研究发现,此类算法事实上无需数据拥有多视图,仅需弱学习器之间有显著的分歧,即可通过互相提供伪标记样本的方式来提升泛化性能。

基于分歧的方法只需要采用合适的基学习器,就能较少受到模型假设,损失函数非凸性和数据规模问题的影响,学习方法简单有效、理论基础相对坚实、使用范围较为广泛。

13.5 半监督聚类

聚类是典型的无监督学习任务,但是在现实聚类任务中我们往往能获得一些额外的监督信息:必连和勿连约束,于是可通过半监督聚类来利用监督信息来获得更好的聚类效果。

必连:样本必定属于同一个簇
勿连:样本必定不属于同一个簇,监督信息是少量的有标记样本

约束k均值算法(必连勿连)

约束k均值算法是利用第一类监督信息“必连”“勿连”的代表。
与K-means的区别在于给定必连关系集合和勿连关系集合,在聚类过程中确保必连关系集合和勿连关系集合的约束得到满足,否则将返回错误提示。
西瓜书学习笔记——第十三章:半监督学习_第12张图片
西瓜书学习笔记——第十三章:半监督学习_第13张图片

约束种子k均值算法(少量有标记样本)

给定样本集D,其中包含属于各个聚类簇的有标记样本,这样的监督信息利用起来很容易:直接将它们作为“种子”,用它们初始化k均值算法的k个聚类中心,并且在聚类簇迭代更新过程中不改变种子样本的簇隶属关系
西瓜书学习笔记——第十三章:半监督学习_第14张图片
西瓜书学习笔记——第十三章:半监督学习_第15张图片

你可能感兴趣的:(西瓜书学习笔记,西瓜书,机器学习,半监督)