半监督学习的简单介绍

半监督分类(semi-supervised classification):同时利用大量无标号样本和少量标号样本进行分类学习,以获得比仅利用标号样本的监督分类学习更好的分类性能。
半监督学习的简单介绍_第1张图片
目前的半监督分类方法可大致分为四大类:

  1. 生成式(generative)方法
  2. 大间隔半监督分类方法
  3. 基于图的半监督分类方法
  4. 协同训练(co-training)方法

    学习原理
    半监督分类利用无标号样本帮助提升学习性能
    1.试图挖掘隐藏在无标号样本中的数据分布信息,并利用该信息指导分类;
    2.为挖掘数据分布信息,必须采用某种数据分布假设;
    3.最常用的数据分布假设为聚类假设(cluster assumption)和流形假设(manifold assumption)。

    半监督学习的简单介绍_第2张图片

数据分布假设:

聚类假设
假定属于同一聚类的样本有较大可能共享相同的类标号。
等价表述:分类边界应穿越数据分布的低密度区域,从而使聚类内(高密度区域中)样本被划分在分类边界两侧,也被称为低密度分割假设 (low-density separation assumption)。
流形假设
假定数据分布在一低维流形上,流形结构可由一无向图表示,图中结点代表样本,边权代表样本间相似性。在流形结构上相似的样本具有相似类标号。

你可能感兴趣的:(半监督学习的简单介绍)