【台大李宏毅ML课程】Lecture 12 Semi-Supervised Learning半监督学习笔记

本节课主要讲了半监督学习Semi-supervised:样本中有一部分数据有标签(label data)但很少,另一部分数据无标签(unlabel data),很多~因为收集无标签的数据很容易,但是收集有标签数据没那么容易~

图片来源于李宏毅老师ppt,如有错误务必指正!!
博主总结的时候喜欢中英夹杂,别介意!

1.Semi-supervised Generative Model
基本思想(EM):
(1)先用label data训练一个model
(2)再用unlabel data不断更新model
这里写图片描述
与一般的生成模型不同的是(比如NB可以一次性就得到closed form solution),这种方式需要不断iterate~这种方式也叫作self-training

self-training
基本思想:
(1)先用label data 训练一个model f
(2)用这个model f去test unlabel data,会得到pseu-label的数据(假装被分了类),再把这些数据加入label data集里面
(3)Repeat
这里写图片描述

Entropy-based Regularization
为了让unlabel中的标签不那么分散,加上正则项~
这里写图片描述

2.Smoothless Assumption
基本idea:近朱者赤,近墨者黑
即,如果两个点x1和x2在一个高密度的区域考得比较近,那么这两个点比较像。
这里写图片描述

怎么操作呢?
* Graph-based Approach*
基本思想:在点与点之间加一些边(edge),edge的权重weight与点之间的相似度有关,使得目标函数min(越平滑),比如左图看着就比右图更好,更符合“近朱者赤近墨者黑”~
这里写图片描述

你可能感兴趣的:(台大李宏毅ML课程笔记)