机器学习理论 | 周志华西瓜书 第十三章:半监督学习

第十三章 半监督学习

此系列文章旨在提炼周志华《机器学习》的核心要点,不断完善中…


13.1 未标记样本

1、一些概念
主动学习(active learning):使用尽量少的query获得经良好的性能
半监督学习(semi-supervised learning):让学习器不依赖外界交互,自动利用未标记样本来提升学习性能

2、一些假设
聚类假设(cluster assumption):假设数据存在簇结构,同一个簇的样本属于同一个类别
流形假设(manifold assumption):假设数据分布在一个流形结构上,邻近的样本拥有相似的输出值

3、半监督学习分类
纯半监督学习:假定训练数据中的未标记样本并非预测的数据
直推学习:假定学习过程中所考虑的未标记样本恰是预测数据

13.2 生成式方法

1、概述

  • 直接给予生成模型的方法
  • 假设所有数据都是由同一个潜在的模型“生成”

2、公式推断

  • 数据样本生成基于的概率密度: p ( x ) = ∑ i = 1 N α i ∗ p ( x ∣ μ i , Σ i ) p(\bm x)=\sum_{i=1}^N\alpha_i*p(\bm x|\bm\mu_i,\bm\Sigma_i) p(x)=i=1Nαip(xμi,Σi)
  • 推导:
    机器学习理论 | 周志华西瓜书 第十三章:半监督学习_第1张图片
  • 后验概率: p ( Θ = i ∣ x ) = α i ∗ p ( x ∣ μ i , Σ i ) ∑ i = 1 N α i ∗ p ( x ∣ μ i , Σ i ) p(\Theta=i|\bm x)=\frac{\alpha_i*p(\bm x|\bm\mu_i,\bm\Sigma_i)}{\sum_{i=1}^N\alpha_i*p(\bm x|\bm\mu_i,\bm\Sigma_i)} p(Θ=ix)=i=1Nαip(xμi,Σi)αip(xμi,Σi)
  • D l ⋃ D u D_l\bigcup D_u DlDu(标记样本集 ⋃ \bigcup 未标记样本集)对数似然:
    L L ( D l ⋃ D u ) = ∑ ( x j , y j ) ∈ D l l n ( ∑ i = 1 N α i ∗ p ( x ∣ μ i , Σ i ) ∗ p ( y j ∣ Θ = i , x j ) ) + ∑ x j ∈ D u l n ( ∑ i = 1 N α i ∗ p ( x j ∣ μ i , Σ i ) ) LL(D_l\bigcup D_u)=\sum_{(\bm x_j,y_j)\in D_l}ln(\sum_{i=1}^N\alpha_i*p(\bm x|\bm\mu_i,\bm\Sigma_i)*p(y_j|\Theta=i,\bm x_j))+\sum_{\bm x_j\in D_u}ln(\sum_{i=1}^N\alpha_i*p(\bm x_j|\bm\mu_i,\bm\Sigma_i)) LL(DlDu)=(xj,yj)Dlln(i=1Nαip(xμi,Σi)p(yjΘ=i,xj))+xjDuln(i=1Nαip(xjμi,Σi))

上式两部分:有监督项和无监督项

3、EM算法求解高斯混合模型的参数估计
机器学习理论 | 周志华西瓜书 第十三章:半监督学习_第2张图片

13.3 半监督SVM

代表:TSVM(Transductive Support Vector Machine)
学习目标: D u D_u Du中样本预测标记
机器学习理论 | 周志华西瓜书 第十三章:半监督学习_第3张图片
机器学习理论 | 周志华西瓜书 第十三章:半监督学习_第4张图片

13.4 图半监督学习

  • 基本概念:给定一个数据集可以映射为一个图(样本为点,强度为边)
  • 迭代式标记传播算法
    机器学习理论 | 周志华西瓜书 第十三章:半监督学习_第5张图片

13.5 基于分歧的方法

  • 概述
    使用多学习器:多学习器之间的分歧对未标记的数据利用至关重要
    代表方法:协同训练(针对多视图数据)
  • 协同训练算法
    机器学习理论 | 周志华西瓜书 第十三章:半监督学习_第6张图片

13.6 半监督聚类

聚类任务中获得的监督信息类型

  • 第一类:“必连”与“勿连”约束(根据样本是否必属于同一个簇)
  • 第二类:少量有标记样本

利用第一类监督信息的代表:约束k均值算法
机器学习理论 | 周志华西瓜书 第十三章:半监督学习_第7张图片
利用第二类监督信息的代表:约束种子k均值算法
机器学习理论 | 周志华西瓜书 第十三章:半监督学习_第8张图片

你可能感兴趣的:(Machine,Learning)