机器学习-学习分类: 半监督学习

目录

概念

分类

打标签的方法


概念

  • 半监督学习要让学习器不依赖外界交互、自动的利用未标记数据来提升学习性能
  • 关键在于给未标记数据打上正确的标签
  • 为了应用未标记数据,必须对未标记数据的分布和已标记数据之间的关系作出某种假设,即相似的样本有相似的分布和输出,例如聚类假设和流形假设

分类

  • 纯半监督学习:训练数据中的未标记数据不是待测数据
  • 直推学习:训练数据中的未标记数据恰好就是待测数据,学习的目的就是在这些为标记的样本上获得最优的泛化性能。

关键:打标签的方法

  • 生成式方法:所有标记都是基于同一个潜在模型生成,未标记数据可以看做潜在模型的缺失参数,因此可以用EM算法求解。这个潜在模型的到底是什么必须根据先验知识作出充足的假设才能保证此方法的准确性。这就要根据实际情况具体分析,例如可以假设为GMM模型
  • 半监督SVM(S3VM):SVM基于标记数据,优化策略是找到能够将样本分类的最大间隔分类超平面;而S3VM在这个基础上,基于低密度间隔(Low density separator)假设,考虑未标记数据,尝试寻找穿越数据低密度区的最大分类间隔超平面。

  • S4VM:基于S3VM,考虑到可能不止存在一个穿越数据低密度区的最大分类间隔超平面,所以同时考虑多个满足条件的超平面,S4VM 的主要思想是,在给定许多不同的“间隔”较大的分界线时,通过对未标记的样本的类别划分进 行优化,使得在最坏的情况下,相对于只使用标记样本的支持向量机的性能提升最大化。

  • 图半监督方法

  • 基于分歧的方法

  • 半监督聚类:半监督聚类中监督信息大致有两种:一种是must-link 和 cannot-link 信息,另一种是某些少量样本有标记。

你可能感兴趣的:(机器学习-学习分类: 半监督学习)