【机器学习(一)】什么是机器学习、监督学习及无监督学习

声明:本文是以吴恩达机器学习系列课程为学习对象而作的学习笔记。

什么是机器学习

一个适当的学习问题定义如下:计算机程序从经验E中学习,解决某一任务T,进行某一性能度量P,通过P测定在T上的表现因经验E而提高。——Tom Mitchell(1998)

Arthur Samuel曾经编写了一个跳棋游戏程序,他使程序与自己对弈几万次,通过观察哪些布局容易赢,哪些布局容易输,使计算机学会下跳棋。
那么对于跳棋游戏,经验E就是程序与自己下几万次跳棋;任务T就是玩跳棋;性能度量P就是与新对手玩跳棋时赢的概率。

监督学习

给算法一个数据集,其中包含了正确答案,在这个数据集中的每个样本,我们想要算法预测并得出的“正确答案”。——吴恩达

回归问题

回归是指设法预测连续值的属性,目标是预测一个连续值输出。

举例
现收集了一组数据并绘制了一个数据集。横轴是不同房屋的平方英尺数,纵轴是不同房子的价格,单位是千美元。
【机器学习(一)】什么是机器学习、监督学习及无监督学习_第1张图片
拥有了这些数据,假设现在需要抛售一栋750平方英尺的房子,并想得到目前的市场价格。学习算法能做到的一件事就是:根据数据画一条直线,或者说,用一条直线拟合数据
【机器学习(一)】什么是机器学习、监督学习及无监督学习_第2张图片

基于此,可以看出:房子可以卖大约15万美元。

当然,你也可以使用二次函数或者二阶多项式来拟合数据,效果可能会更好:
【机器学习(一)】什么是机器学习、监督学习及无监督学习_第3张图片
如此一来,看上去它可以卖出接近20万美元。

这便是监督学习算法的一个例子:
监督学习是指:我们给算法一个数据集,其中包含了正确答案,也就是说我们给它一个房价数据集,在这个数据集中的每个样本,我们都给出正确的价格,即这个房子实际卖价,算法的目的就是给出更多的正确答案。例如为这个急需卖出的房子给出估价。我们想要算法预测并得出的“正确答案”。

分类问题

目的是预测离散值输出

举例:现在有两组病人,年龄与肿瘤大小如下:
【机器学习(一)】什么是机器学习、监督学习及无监督学习_第4张图片
假设有一个人很不幸有一个肿瘤,他的年龄与肿瘤大小如下图粉色圆点所示:
【机器学习(一)】什么是机器学习、监督学习及无监督学习_第5张图片
因此在给定的数据集上,学习算法能做的,就是在数据上画出一条直线,设法将恶性肿瘤和良性肿瘤分开。现在就可以通过这个判断这个人的肿瘤类型。

【机器学习(一)】什么是机器学习、监督学习及无监督学习_第6张图片
这种情况下有两种特征,即病人的年纪和肿瘤大小。在其他的机器学习算法中,往往会有更多的特征。

无监督学习

在无监督学习中,给定的所有数据都具有相同的标签或者都没有标签。得到一个数据集,我们不知道要拿它来做什么,也不知道每个数据点究竟是什么,仅被告知这里有一个数据集。

聚类算法

对于给定的数据集,无监督学习算法可能判定,该数据集包含两个不同的簇。
【机器学习(一)】什么是机器学习、监督学习及无监督学习_第7张图片
无监督学习算法可以把这些数据分成两个不同的簇,这就是聚类算法。它在各种领域都有广泛运用。

受视频篇幅以及课程内容编排影响,吴先生的视频仅讲了以上一部分内容,对监督学习及无监督学习感兴趣的可以看看我先前写的一篇文章:
【Python】机器学习入门(一)——监督学习和无监督学习

你可能感兴趣的:(学习,人工智能,算法)