西瓜书读书笔记(十三)-半监督学习

全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴

一、未标记样本

半监督学习可进一步划分为纯半监督学习和直推学习。前者假定训练数据中的未标记样本并非带预测的数据,后者则是假定学习过程中所考虑的未标记样本恰是带预测数据,学习的目的就是在这些未标记样本上获得最优泛化性能。

二、生成式方法

生成式方法(generative methods)是直接基于生成式模型的方法。此类方法
假设所有数据(无论是否有标记)都是由同一个潜在的模型生成的。

三、半监督SVM

半监督支持向量机(Semi-Supervised Support Vector Machine,简称S3VM)是支持向量机在半监督学习上的推广。在不考虑未标记样本时,支持向量机试图找到最大间隔划分超平面,而在考虑未标记样本后,S3VM试图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平面。

  • TSVM
    西瓜书读书笔记(十三)-半监督学习_第1张图片

四、图半监督学习

给定一个数据集,我们可将其映射为 一个图,数据集中每个样本对应于图中一个结点,若两个样本之间的相似度很高(或相关性很强),则对应的结点之间存在一条边,边的 “ 强度” (strength)正比于样本之间的相似度(或相关性)。

  • 迭代式标记传播算法
    西瓜书读书笔记(十三)-半监督学习_第2张图片

五、基于分歧的方法

与生成式方法、半监督SVM、图半监督学习等基于单学习器利用未标记数据不同,基于分歧的方法(disagreement-based methods)使用多学习器,而学习器之间的 “分歧” (disagreement)对未标记数据的利用至关重要。

  • 协同训练算法
    西瓜书读书笔记(十三)-半监督学习_第3张图片
    基于分歧的方法只需采用合适的基学习器,就能较少受到模型假设、损失函数非凸性和数据规模问题的影响,学习方法简单有效、理论基础相对坚实、适周范围较为广泛。

六、半监督聚类

聚类是一种典型的无监督学习任务,然而在现实聚类任务中我们往往能获得一些额外的监督信息,于是可通过半监督聚类(semi-supervised clustering)来利用监督信息以获得更好的聚类效果。

  • 约束k均值算法

西瓜书读书笔记(十三)-半监督学习_第4张图片

  • 约束种子k均值算法
    西瓜书读书笔记(十三)-半监督学习_第5张图片

下一章传送门:西瓜书读书笔记(十四)-概率图模型

你可能感兴趣的:(西瓜书读书笔记,机器学习,西瓜书)