西瓜书13-半监督学习

chapter13 半监督学习

13.1 未标记样本

能不能将未标记的样本也用上呢?
我们有训练样本{(x1,y1),(x2,y2),…,(xl,yl)},这l个样本的类别标记已知,称为“有标记样本”,此外,还有{xl+1,…,xl+u}这u个样本的标记未知,称为“未标记样本”。若直接使用传统监督学习技术,则仅有Dl能用于构建模型,Du所包含的信息被浪费了。另一方面,若Dl较小,则由于训练样本不足,学得模型的泛化能力往往不佳,那么,能否在构建模型的过程中将Du利用起来呢?
简单的方法是把Du的样本全部标记,但这样需要耗费较大的时间和精力,有没有“便宜点”的方法呢?
我们可以用Dl先训练一个模型,拿这个模型去地里挑一个瓜,询问瓜农好不好,然后把这个新获得的有标记样本加入Dl中重新训练一个模型,再去挑瓜,这样循环,若每次都挑出对改善模型性能帮助大的瓜,则只需询问瓜农比较小的瓜就能构建出比较强的模型,从而大幅度降低标记成本,这样的学习方式称为“主动学习”,其目标是使用尽可能少的“查询”(标记)来获得尽量好的性能。
显然,主动学习引入了额外的专家知识,通过与外界的交互来将部分未标记样本转变为有标记样本。若不与专家交互,没有获得额外信息,还能用未标记的样本来提高泛化性能吗?答案是可以。
事实上,未标记的样本虽未直接包含标记信息,但若它们与有标记样本是从同样的数据源独立同分布采样而来,则他们所包含的关于数据分布的信息对建立模型将大有裨益,图13.1给出一个直观的示例,若仅基于图中的一个正例和一个反例,则由于待判别样本位于两者正中间,大体上只能随机猜测;若能观察到图中的未标记样本,则将很有把握地判别为正例。
西瓜书13-半监督学习_第1张图片
半监督学习就是让学习器不依赖外界交互,自动地利用未标记样本来提升学习性能。“有标记数据少,未标记数据多”这个现象在互联网的应用更加明显,很少有用户愿意花很多时间来提供标记,因此,有标记的网页样本少,但互联网上存在无数网页可作为未标记样本来使用,半监督学习恰是提供了一条利用“廉价”的未标记样本的途径。
要利用未标记样本,必须要做一些将未标记样本所揭示的数据分布信息与类别标记相联系的假设。最常见的是==“聚类假设”==,即假设数据存在簇结构,同一个簇的样本属于同一个类别。图13.1就是基于聚类假设来利用未标记样本,由于待预测样本与正例样本通过未标记样本的“撮合”聚在一起,与相对分离的反例样本相比,待判别样本更可能属于正类,半监督学习中另一种常见的假设是“流形假设”,即假设数据分布在一个流形结构上,邻近的样本拥有相似的输出值,“邻近”程度常用“相似”程度来刻画,因此,流形假设可看作聚类假设的推广,但流形假设对输出值没有限制,因此比聚类假设的适用范围更广,可用于更多类型的学习任务,事实上,无论聚类假设还是流形假设,其本质都是“相似的样本拥有相似的输出"这个基本假设。

半监督学习可进一步划分为纯半监督学习直推学习
前者假定训练数据中的未标记样本并非待预测的数据,而后者则假定学习过程中所考虑的未标记样本恰是待预测数据,学习的目的就是在这些未标记的样本上获得最优泛化性能,换言之,纯半监督学习是基于“开放世界”假设,希望学得模型能适用于训练过程中未观测到的数据,而直推学习是基于“封闭世界”假设,仅试图对学习过程中观察到的非标记数据进行预测。13.2是主动学习和半监督学习的区别:西瓜书13-半监督学习_第2张图片

13.2 生成式方法

生成式方法是直接基于生成式模型的方法,此类方法假设所有数据(无论是否有标记)都是同一个潜在的模型“生成”的,这个假设使得我们能通过潜在模型的参数将未标记数据与学习目标联系起来,而未标记数据的标记可看作模型的缺失参数,通常可基于EM算法进行极大似然估计求解。此类方法的区别主要在于生成式模型的假设,不同的模型假设将产生不同的方法。

暂时不继续更新西瓜书,转战李航概率书。

你可能感兴趣的:(西瓜书)