半监督学习入门——《机器学习》周志华—第十三章

《机器学习》第十三章(西瓜书)

  • 13.1未标注样本
  • 13.2生成式方法
  • 13.3半监督SVM
  • 13.4图半监督学习
  • 13.5基于分歧的方法
  • 13.6半监督聚类
  • 文中引用的外部图片

13.1未标注样本

半监督学习 描述
概念 让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能半监督学习入门——《机器学习》周志华—第十三章_第1张图片
分类 纯半监督学习和直推学习半监督学习入门——《机器学习》周志华—第十三章_第2张图片## 标题

Q:如何利用未标记样本?
A:做一些将未标记样本所揭示的数据分布信息与类别标记相联系的假设,如聚类假设和流式假设(相似的样本拥有相似的输出)

13.2生成式方法

生成式方法 描述:用于具体的应用领域(需要充分可靠的领域知识)
概念 直接基于生成式模型的方法
具体内容 模型→所有数据;未标记数据的标记→模型的缺失参数;通常可基于EM算法进行极大似然估计求解;方法的关键:选取的模型假设必须正确,即假设的生成式模型必须与真实数据吻合(难做到)半监督学习入门——《机器学习》周志华—第十三章_第3张图片1
区别 生成式模型的假设——不同的模型假设将产生不同的方法
例子(高斯混合模型) 半监督学习入门——《机器学习》周志华—第十三章_第4张图片半监督学习入门——《机器学习》周志华—第十三章_第5张图片半监督学习入门——《机器学习》周志华—第十三章_第6张图片
缺点 需要正确的假设模型

13.3半监督SVM

支持向量机 简称S3VM 低密度分离方法

对象 划分描述:需要减轻非凸函数造成的不利影响
SVM 不考虑未标记样本——试图找到最大间隔划分平面
S3VM 考虑了未标记样本——找到将两类有标记样本分开,且穿过数据低密度区域的划分平面半监督学习入门——《机器学习》周志华—第十三章_第7张图片
TSVM 描述
思想 label assignment,指派标记→上图的灰色点指派为“+”或“-”,所有样本→一个间隔最大化的划分超平面→未标记样本的最终指派就是其预测结果
具体内容 半监督学习入门——《机器学习》周志华—第十三章_第8张图片
缺点 尝试未标记样本的各种标记指派是一个穷举过程,仅当未标记样本很少时才有可能直接求解。
研究重点 更高效的优化策略
局部搜索求近似解 ①有标记样本→②SVM→③标记未标记样本,得“伪标记”→④新的划分平面和松弛向量,令有标记得重要程度大于未标记得重要程度→⑤找出两个标记指派为异类且很有可能发生错误得未标记样本,交换标记→⑥循环④⑤,逐步提高未标记样本得重要程度直到二者重要程度相等,结束循环
对应算法 半监督学习入门——《机器学习》周志华—第十三章_第9张图片
知识点 描述
1 半监督学习入门——《机器学习》周志华—第十三章_第10张图片
2 S.T. 是subject to 的缩写,作形容词用时,其基本含义是受限于…,服从于…,易受…;作副词用时,意思是在…条件下,依照…。

13.4图半监督学习

图半监督学习 描述:还有K近邻图的方法
概念 数据集→图,样本→图中结点,相似度→图的边(存在与否+强度大小),染色→已标记,半监督学习→颜色在图中的扩散(基于矩阵运算)
二分类问题的标记传播方法 半监督学习入门——《机器学习》周志华—第十三章_第11张图片半监督学习入门——《机器学习》周志华—第十三章_第12张图片
多分类问题的标记传播方法 半监督学习入门——《机器学习》周志华—第十三章_第13张图片半监督学习入门——《机器学习》周志华—第十三章_第14张图片半监督学习入门——《机器学习》周志华—第十三章_第15张图片
缺点 一是存储开销。问题规模O(m),算法涉及的矩阵规模为O(m^2),不利于处理大规模数据;二是新样本的加入需要①重构图,或者②引入额外的预测机制(另外训练一个学习器)。

13.5基于分歧的方法

基于分歧方法 描述:将集成学习和半监督学习联系起来,可自然与主动学习结合
概念 使用多学习器,基于学习器之间的分歧(disagreement;diversity)来利用未标记数据
协同训练multi-view learning 多视图(multi-view)数据?一个数据对象同时拥有多个”属性集“(attribute set),每个属性集就构成一个”视图“(view)。(,y)是多视图数据,x1、x2分别对应一个数据对象不同视图中的属性向量,y是标记。半监督学习入门——《机器学习》周志华—第十三章_第16张图片
优点 算法简单;在视图充分且条件独立(现实中很难满足),可将弱分类器的泛化性能提升到任意高;同时,后续研究表明,也可用于单视图数据,如使用不同的学习算法、使用不同的数据采样、使用不同的参数设置来产生不同的学习器,也可以提升性能。只要学习器之间又显著分歧即可。
缺点 标记样本很少,或布局有多视图时,需要巧妙设计。

Q:标记样本少——在先使用了主动学习挑出有价值的样本进行标记后能否解决这个问题?
A:本来有疑问,读到13.7时才发现周志华老师已经想到了这点。故在描述的那栏加上了解释。

13.6半监督聚类

半监督聚类 描述:流形正则化框架,预测函数具有局部光滑性
概念 聚类是一种典型的无监督学习任务;利用额外的监督信息,可以实现半监督聚类
监督信息分类 ①“必连”+“勿连”:前者样本属于同一个簇;后者不属于同一个簇②少量的有标记样本
约束K均值算法① 在这里插入图片描述半监督学习入门——《机器学习》周志华—第十三章_第17张图片半监督学习入门——《机器学习》周志华—第十三章_第18张图片
约束K均值算法② 半监督学习入门——《机器学习》周志华—第十三章_第19张图片

文中引用的外部图片

未标注的都为书中截图或者百度百科解释


  1. 图片来源 ↩︎

你可能感兴趣的:(机器学习之半监督学习,机器学习,聚类,算法)