李宏毅机器学习笔记-12:Semi-supervised Learning半监督学习

Machine learning机器学习是Artificial inteligence的核心,分为四类:

1. Supervised learning

监督学习是有特征(feature)和标签(label)的,即便是没有标签的,机器也是可以通过特征和标签之间的关系,判断出标签。举例子理解:高考试题是在考试前就有标准答案的,在学习和做题的过程中,可以对照答案,分析问题找出方法。在高考题没有给出答案的时候,也是可以给出正确的解决。这就是监督学习。
一句话概括:给定数据,预测标签。
通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类。

2. Unsupervised learning

无监督学习只有特征,没有标签。举例子理解:高考前的一些模拟试卷,是没有标准答案的,也就是没有参照是对还是错,但是我们还是可以根据这些问题之间的联系将语文、数学、英语分开,这个过程就叫做聚类。在只有特征,没有标签的训练数据集中,通过数据之间的内在联系和相似性将他们分成若干类。
一句话概括:给定数据,寻找隐藏的结构。
直接对数据集建模。
以上两者的区别:监督学习只利用标记的样本集进行学习,而无监督学习只利用未标记的样本集。

3. Semi-Supervised learning

半监督学习使用的数据,一部分是标记过的,而大部分是没有标记的。和监督学习相比较,半监督学习的成本较低,但是又能达到较高的准确度。
综合利用有类标的和没有类标的数据,来生成合适的分类函数。
半监督学习出现的背景:实际问题中,通常只有少量的有标记的数据,因为对数据进行标记的代价有时很高,比如在生物学中,对某种蛋白质的结构分析或者功能鉴定,可能会花上生物学家很多年的工作,而大量的未标记的数据却很容易得到。

4. Reinforcement learning

强化学习也是使用未标记的数据,但是可以通过一些方法知道你是离正确答案越来越近还是越来越远(奖惩函数)。可以把奖惩函数看作正确答案的一个延迟、稀疏的形式。可以得到一个延迟的反馈,并且只有提示你是离答案越来越近还是越来越远。

以上内容来自博主@醒了的追梦人

半监督主要有四种情况,在做半监督学习时会做一些猜测,结果的好坏跟这个猜测有关系
李宏毅机器学习笔记-12:Semi-supervised Learning半监督学习_第1张图片

1. Semi-supervised Learning for Generative Model(生成模型)

首先计算没标签的数据属于C1的概率是多少,第二就是去计算C1的概率,再去更新你的Model
李宏毅机器学习笔记-12:Semi-supervised Learning半监督学习_第2张图片
李宏毅机器学习笔记-12:Semi-supervised Learning半监督学习_第3张图片

2.Low-density Separation(低密度分离假设)

低密度分离假设就是假设数据非黑即白,在两个类别的数据之间存在着较为明显的鸿沟,即在两个类别之间的边界处数据的密度很低(即数据量很好)

2.1自训练(Self-training)

首先根据有标签的数据训练出一个模型,将没有标签的数据作为测试数据输进去,得到没有标签的数据的一个为标签,之后将一部分的带有伪标签的数据转移到有标签的数据中,在进行训练,循环往复。其中选取哪一部分的伪标签数据转移至有标签数据需要自己定义,甚至可以自己提供一个权重。李宏毅机器学习笔记-12:Semi-supervised Learning半监督学习_第4张图片
在做分类问题中,一个输入数据可能0.7概率属于a,0.3概率属于b,在自训练中是不行的,起不了作用,因为不对标签进行改变的话,将这些放入带标签的数据中对于数据的输出一点改进都没有,输出的还是原来的数据。当有0.7概率是a时,就要把这个标签设置为a(非黑即白
李宏毅机器学习笔记-12:Semi-supervised Learning半监督学习_第5张图片

2.2基于熵的正则化(Entropy-based Regularization)自训练的进阶版

我们希望一个数据是一个类比较明显,而不是每个标签都有点像,我们怎样去衡量一个数据的无序状态程度,可以通过方程来计算李宏毅机器学习笔记-12:Semi-supervised Learning半监督学习_第6张图片
在L中加入的无标签的那项就可以当做是正则项,L的两项也可以加入一些权重来重视与有标记数据或者无标记数据

李宏毅机器学习笔记-12:Semi-supervised Learning半监督学习_第7张图片

3. 平滑性假设(Smoothness Assumption)

这种假设就是
李宏毅机器学习笔记-12:Semi-supervised Learning半监督学习_第8张图片

3.1聚类标记

在距离上虽然 x2 与 x3 的距离更接近,但是 x2 与 x1 位于同一个高密度的区域中。可以认为同一个高密度区域之间的数据可以很好的接触连接,具有相同的标签值,而不同的高密度区域无法相互接触,所以标签值不相同。
李宏毅机器学习笔记-12:Semi-supervised Learning半监督学习_第9张图片
李宏毅机器学习笔记-12:Semi-supervised Learning半监督学习_第10张图片
一种直观的方法是首先对数据进行聚类,看没有标签的数据落在哪一个部分,然后对其及进行标注
但是,在图片上把一类放在一起是有难度的,只有聚类足够好,结果才不至于太差
李宏毅机器学习笔记-12:Semi-supervised Learning半监督学习_第11张图片

3.2基于图的方法

定性描述

将所有的数据点建成一个图,如果在图上两个点之间可以连通,那么他们之间标签就是相同的。那么如何形成图呢,有些图是天然的,比如说网页之间的连接,或者论文之间的相互引用,但有的时候需要自己建图。李宏毅机器学习笔记-12:Semi-supervised Learning半监督学习_第12张图片
图的好坏关系到结果好坏,那怎样去建立这个图呢?

  • 首先要算x1,x2之间的相似度
  • 然后就可以建立图,图有很多种
    第一种K Nearest Neighbor:我们算出相识度后,如果k=3就取跟他最像的3个点
    李宏毅机器学习笔记-12:Semi-supervised Learning半监督学习_第13张图片
    第二种是e Nearest Neighbor:相似度要大于e李宏毅机器学习笔记-12:Semi-supervised Learning半监督学习_第14张图片
    加上一些函数会让x1,x2更接近,图中橙色点会链接在一起,而橙色与绿色相差较大就不会连接在一起
    李宏毅机器学习笔记-12:Semi-supervised Learning半监督学习_第15张图片
    接下来是定量的描述:

根据方程算出s,s越小越平滑
李宏毅机器学习笔记-12:Semi-supervised Learning半监督学习_第16张图片
R:label Data
U:unlabel Data
L=D-W
W:a11就是x1对x1的权重,a12就是x1对x2的权重,一次类推
D:dnn=wn1+wn2+…+到行尾

李宏毅机器学习笔记-12:Semi-supervised Learning半监督学习_第17张图片
李宏毅机器学习笔记-12:Semi-supervised Learning半监督学习_第18张图片
另一种在无监督学习中会讲到。

你可能感兴趣的:(李宏毅机器学习笔记)