机器学习-引言

机器学习笔记
1.引言
1.1 机器学习是什么?
Arthur Samuel 定义:在没有明确设置的情况下,使计算机具有学习能力的研究领域。
Tom Mitchell 定义:计算机程序从经验E中学习解决某一任务T进行某一性能度量P,通过P测量在T上的表现因经验E而提高。
西洋棋程序中:T就是玩跳棋 P就是玩一把新游戏赢的概率 E 就是反复的自我练习的经验
目前几种主要类型的算法:监督学习、无监督学习
1.2监督学习(教计算机做某些事情)
含义:我们给算法一个数据集,其中包含了正确答案,算法的目的就是找更多的正确答案。
举个例子,比如学习,上课有老师教就是监督学习,与此相反,课后作业没有老师教,课后完成的 就是无监督学习。
监督学习的分类:回归(Regression)、分类(Classification)

回归(Regression):对已经存在的点(训练数据)进行分析,拟合出适当的函数模型y=f(x),这里y就是数据的标签,而对于一个新的自变量x,通过这个函数模型得到标签y。
举例:预测房屋价格
假设想要预测房屋价格,绘制了下面这样的数据集。水平轴上,不同房屋的尺寸是平方英尺,在竖直轴上,是不同房子的价格,给定数据,假设一个人有一栋房子,750平方英尺,他要卖掉这栋房子,想知道能卖多少钱。这个时候,监督学习中的回归算法就能派上用场了,我们可以根据数据集来画直线或者二阶函数等来拟合数据。
通过图像,可以看出直线拟合出来的150k,曲线拟合出来是200k,所以要不断训练学习,找到最合适的模型得到拟合数据(房价)。

机器学习-引言_第1张图片

分类(Classification) :和回归最大的区别在于,分类是针对离散型的,输出的结果是有限的。
假设某人发现了一个乳腺瘤,在乳腺上有个z肿块,恶性瘤是危险的、有害的;良性瘤是无害的。
假设在数据集中,水平轴是瘤的尺寸,竖直轴是1或0,也可以是Y或N。在已知肿瘤样例中,恶性的标为1,良性的标为0。那么,如下,蓝色的样例便是良性的,红色的是恶性的。这个时候,机器学习的任务就是估计该肿瘤的性质,是恶性的还是良性的。
那么分类就派上了用场,在这个例子中就是向模型输入人的各种数据的训练样本(这里是肿瘤的尺寸,当然现实生活里会用更多的数据,如年龄等),产生“输入一个人的数据,判断是否患有癌症”的结果,结果必定是离散的,只有“是”或“否”。所以简单来说分类就是,要通过分析输入的特征向量,对于一个新的向量得到其标签。

机器学习-引言_第2张图片

1.2无监督学习(让计算机自己学习)
定义:我们不知道数据集中数据、特征之间的关系,而是要根据聚类或一定的模型得到数据之间的关系。
与监督学习相比,无监督学习更像是自学,让机器学会自己做事情,是没有标签的。
对于平时的考试来说,监督学习相当于我们做了很多题目都知道它的标准答案,所以在学习的过程中,我们可以通过对照答案,来分析问题找出方法,下一次在面对没有答案的问题时,往往也可以正确地解决。 而无监督学习,是我们不知道任何的答案,也不知道自己做得对不对,但是做题的过程中,就算不知道答案,我们还是可以大致的将语文,数学,英语这些题目分开,因为这些问题内在还是具有一定的联系。
在无监督学习中,我们只是给定了一组数据,我们的目标是发现这组数据中的特殊结构。例如我们使用无监督学习算法会将这组数据分成两个不同的簇,,这样的算法就叫聚类算法。

机器学习-引言_第3张图片

在无监督学习中, 即无监督学习中没有任何的标签或者是有相同的标签或者就是没标签。所以我们已知数据集,也未告知每个数据点是什么。别的都不知道,就是一个数据集。从数据中找到某种结构。
1.Google新闻按照内容结构的不同分成财经,娱乐,体育等不同的标签,这就是无监督学习中的聚类。
2.根据给定基因把人群分类。如图是DNA数据,对于一组不同的人我们测量他们DNA中对于一个特定基因的表达程度。然后根据测量结果可以用聚类算法将他们分成不同的类型。这就是一种无监督学习, 因为我们只是给定了一些数据,而并不知道哪些是第一种类型的人,哪些是第二种类型的人等等。
垃圾邮件问题:如果你有标记好的数据,区别好是垃圾还是非垃圾邮件,我们把这个当作监督学习问题。
新闻事件分类:就是那个谷歌新闻的例子,我们在本视频中有见到了,我们看到,可以用一个聚类算法来聚类这些文章到一起,所以是无监督学习

你可能感兴趣的:(机器学习,机器学习,深度学习)