【机器学习-周志华】学习笔记-第十三章

记录第一遍没看懂的
记录觉得有用的
其他章节:
        第一章
        第三章
        第五章
        第六章
        第七章
        第八章
        第九章
        第十章
        十一章
        十二章
        十三章
        十四章
        十五章
        十六章

13.1 未标记样本
        让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,就是半监督学习。可分为纯半监督学习和直推学习,前者假定训练数据中的未标记样本并非待预测的数据, 而后者则假定学习过程中所考虑的未标记样本恰是待预测数据,学习的目的就是在这些未标记样本上获得 最优泛华性能。
【机器学习-周志华】学习笔记-第十三章_第1张图片
13.2 生成式方法
        生成式方法直接基于生成式模型的方法。假设所有数据(无论是否有标记)都是由同一个潜在的模型"生成 “的。这样能够通过潜在模型的参数将未标记数据与学习目标联系起来,而未标记数据的看作模型的缺失参数。通常可基于EM 算法进行极大似然估计求解。此类方法的区别主要在于生成式模型的假设,不同的模型假设将产生不同的方法。他的相关介绍可以参考:14.1 生成式方法
【机器学习-周志华】学习笔记-第十三章_第2张图片
13.4 半监督SVM
        半监督支持向量机是试图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平面。
【机器学习-周志华】学习笔记-第十三章_第3张图片
        TSVM算法流程如下:它先利用有标记样本学得一个SVM,然
后利用这个SVM 对未标记数据进行标记指派,即将SVM预测的结果作为"伪标记"赋予未标记样本;然后代入公式求解;由于此时的伪标记很可能不准确,因此一开始让 C u C_u Cu小一点,然后慢慢提高 C u C_u Cu的权重,直到 C u = C l C_u=C_l Cu=Cl。期间,TSVM会找出两个标记指派为异类且很可能发生错误的未标记样本,交换它们的标记,再重新求解(6-10行)。
【机器学习-周志华】学习笔记-第十三章_第4张图片
13.5 基于分歧的方法
        基于分歧的方法使用多学习器,而学习器之间的"分歧” 对未标记数据的利用至关重要。协同训练时此类方法的重要代表。协同训练正是很好地利用了多视图的"相容互补性"。假设数据拥有两个充分且条件独立视图,首先在每个视图上基于有标记样本分别训练出一个分类器,然后让每个分类器分别去挑选自己"最有把握的"未标记样本赋予伪标记,并将伪标记样本提供给另一个分类器作为新增的有标记样本用于训练更新……然后不断迭代进行,直到两个分类器都不再发生变化,或达到预先设定的迭代轮数为止。
【机器学习-周志华】学习笔记-第十三章_第5张图片
13.6 半监督聚类
        第一种想法:这个算法框架和第九章基本类似,但是加上了约束。同样是就算中心点距离,然后找最近的簇,但是需要检查约束,如果违反了,就去掉然后找其他簇。
【机器学习-周志华】学习笔记-第十三章_第6张图片
        第二种监督信息是少量有标记样本,说明已经知道了簇的个数,那么中心点直接从簇里取就可以。
【机器学习-周志华】学习笔记-第十三章_第7张图片

你可能感兴趣的:(#,机器学习,机器学习,算法,半监督学习)