【机器学习】监督学习,非监督学习,半监督学习三者的定义区别及举例分析

监督(supervised)= 标签(label),是否有监督,就是输入数据(input)是否有标签,有标签则为有监督学习,没标签则为无监督学习。至于半监督学习,就是一半(一点点)数据有标签,一半(极其巨大)数据没标签。——简单一句话答案。

首先从学习(learn)这个概念开始解释,所谓学习,就是闻一知十。(正经回答在最后)

例如学数学,小学老师会先给大量训练,让人学会解题方法。之后面对考试的时候出现的绝对不同的题目,也能回答。机器学习也是一样,我们能不能用已经做过的题,来推断没做过的题呢?

有监督学习可以理解成已经打了标签(有答案)的数学题目,无监督学习就是没有答案的题目。

举例个简单的例子说明:

有监督学习:1 X 1 + 1 = ?

AI: 等于 1 ?

有监督学习:错! 等于2 !记住!

(AI调整中)

第二次:

有监督学习:1 X 1 + 1 = ?

AI: 等于 2 !

无监督学习:1 X 1 + 1 = ?

AI: 等于 1 ?

无监督学习:3 X 4 + 8 =?

AI: 等于 0 ?

。。。。。。。。。

AI:我发现了,数学题都是先乘法后加法!

半监督学习:1 X 1 + 1 = ?

AI: 等于 1 ?

半监督学习:错! 等于2 !记住!

(AI调整中)

第二次:

半监督学习:1 X 1 + 1 = ?

AI: 等于 2 !

半监督学习:恭喜你学会了,现在 3 X 4 + 8 = ?

AI: 等于 2 !

半监督学习:好的,我帮你标签(lable)一下,3 X 4 + 8 = 2

再举个例子:

监督学习:给小朋友一本有课后答案的习题册,让小朋友自己做题,并自己校对答案;

无监督学习:比如参加一些开放性的竞赛(比如:数学建模竞赛),出题人只给出题目。参赛者,需要根据题目找出结构和规则,才能解题。(在没有老师的情况下,学生自学的过程。学生在学习的过程中,自己对知识进行归纳、总结。无监督学习中,类似分类和回归中的目标变量事先并不存在。要回答的问题是“从数据X中能发现什么”。)

半监督学习:家教,家教老师给学生讲一两道例题思路,然后给学生布置没有答案的课后习题,让学生课后自己完成。

正经回答:

a) 监督学习是最常见的一种机器学习,它的训练数据是有标签的,训练目标是能够给新数据(测试数据)以正确的标签。

例如,想让AI知道什么是猫什么是狗,一开始我们先将一些猫的图片和狗的图片(带标签)一起进行训练,学习模型不断捕捉这些图片与标签间的联系进行自我调整和完善,然后我们给一些不带标签的新图片,让该AI来猜猜这些图片是猫还是狗。

经典的算法:支持向量机、线性判别、决策树、朴素贝叶斯

b) 无监督学习常常被用于数据挖掘,用于在大量无标签数据中发现些什么。它的训练数据是无标签的,训练目标是能对观察值进行分类或者区分等。相对于监督学习,无监督学习使用的是没有标签的数据。机器会主动学习数据的特征,并将它们分为若干类别,相当于形成「未知的标签」。

非监督性学习是只给特征,没有给标签,就是高考前的一些模拟试卷,是没有标准答案的,也就是没有参照是对还是错,但是我们还是可以根据这些问题之间的联系将语文、数学、英语分开。

通常无监督学习是指不需要人为注释的样本中抽取信息。例如word2vec。

经典的算法:k-聚类、主成分分析等;

c) 半监督学习介于两者之间。算法上,包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。隐藏在半监督学习下的基本规律在于:数据的分布必然不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到可以接受甚至是非常好的分类结果。(此处大量忽略细节)

例如:很多实际问题中,只有少量的带有标记的数据,因为对数据进行标记的代价有时很高。比如找到照片并给照片上的猫标上标签(lable)很麻烦,但是猫的各种姿势的猫片网上一搜一大堆。那我们能不能手动标记一部分猫片,然后让AI学习训练,然后再剩下没标记的猫片上做实验呢?

经典算法:SVMs半监督支持向量机

 

你可能感兴趣的:(日常学习,机器学习)