零基础"机器学习"自学笔记|Note2:单变量线性回归

写在前面

这个系列为我在自学【机器学习】时的个人笔记。因为本人为医学相关专业,故学习过程中可能会有较多的纰漏,希望各位读者不吝赐教。本系列以吴恩达老师的【“机器学习”课程】为纲,辅以黄海广老师的【斯坦福大学 2014 机器学习教程个人笔记(V5.51)】,中间会穿插相关数理知识。该系列笔记为实时同步更新,故与本人的学习进度息息相关,希望同在学习相关知识的朋友能多多督促,共同进步。

02.单变量线性回归

2.1

模型表示(Machine Learning

例1.

有一个数据集包含俄勒冈州波特兰市的住房价格。根据不同房屋尺寸所售出的价格,画出数据集。如果你朋友的房子是1250平方尺大小,你要告诉他这房子能卖多少钱。那么,你可以做的一件事就是构建一个模型,也许是条直线,从这个数据模型上来看,也许你可以告诉你的朋友,他能以大约220000(美元)左右的价格卖掉这个房子。这就是监督学习算法的一个例子

它被称作监督学习是因为对于每个数据来说,我们给出了“正确的答案”,即告诉我们:根据我们的数据来说,房子实际的价格是多少,而且,更具体来说,这是一个回归问题。回归一词指的是,我们根据之前的数据预测出一个准确的输出值,对于这个例子就是价格,同时,还有另一种最常见的监督学习方式,叫做分类问题,当我们想要预测离散的输出值,例如,我们正在寻找癌症肿瘤,并想要确定肿瘤是良性的还是恶性的,这就是0/1离散输出的问题。更进一步说,在监督学习中我们有一个数据集,这个数据集被称训练集。

以之前的房屋交易问题为例,假使我们回归问题的训练集(Training Set)如表所示.

我们将要用来描述这个回归问题的标记如下:

m 代表训练集中实例的数量

x 代表特征/输入变量

y 代表目标变量/输出变量

(x,y) 代表训练集中的实例

(x^i,y^i) 代表第 i个观察实例

h 代表学习算法的解决方案或函数也称为假设

这就是一个监督学习算法的工作方式,我们可以看到这里有我们的训练集里房屋价格.我们把它喂给我们的学习算法,学习算法的工作了,然后输出一个函数,通常表示为小写 h 表示.h代表hypothesis(假设),h表示一个函数,输入是房屋尺寸大小,就像你朋友想出售的房屋,因此 h 根据输入的 x值来得出 y值,y值对应房子的价格.因此,h是一个从x到y的函数映射.

那么,对于我们的房价预测问题,我们该如何表达h?

一种可能的表达方式为:

因为只含有一个特征/输入变量,因此这样的问题叫作单变量线性回归问题。

2.2代价函数(Cost Function)

在线性回归中我们有一个像这样的训练集,m代表了训练样本的数量,比如 m = 47。而我们的假设函数,也就是用来进行预测的函数,是这样的线性性函数形式:

接下来我们会引入一些术语我们现在要做的便是为我们的模型选择合适的‘参数’(parameters)θ0和θ1在房价问题这个例子中便是直线的斜率和在y轴上的截距。

我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度,模型所预测的值与训练集中实际值之间的差距(下图中蓝线所指)就是建模误差(modeling error)。

我们的目标便是选择出可以使得建模误差的平方和能够最小的模型参数。即使得代价函数:

最小。误差的平方和我们都知道了。1/2m系数怎么来的我这里说一下我个人的见解:

m是代表m个样本,1/m 表示m个样本方差的均值,消除样本数量对结果的影响;1/2是为了方便后面在利用梯度下降法对J求导时多出的2抵消,便于计算。

我们绘制一个等高线图,三个坐标轴分别为θ0,θ1和J(θ0,θ1)。则可以看出在三维空间中存在一个使得J(θ0,θ1)最小的点。

代价函数也被称作平方误差函数,有时也被称为平方误差代价函数。我们之所以要求出误差的平方和,是因为误差平方代价函数,对于大多数问题,特别是回归问题,都是一个合理的选择。还有其他的代价函数也能很好地发挥作用,但是平方误差代价函数可能是解决回归问题最常用的手段了。

在后续课程中,我们还会谈论其他的代价函数,但我们刚刚讲的选择是对于大多数线性回归问题非常合理的。

1.3代价函数的直观理解

上图为代价函数的等高线图,可以看出在三维空间中存在一个使得J(θ0,θ1)最小的点。(不懂等高线图的同学可以先跳过,不影响后续学习。)

下一节我们将介绍一种算法,能够自动地找出能使代价函数J最小化的参数θ0和θ1的值。

— END —

往期 · 推荐

零基础"机器学习"自学笔记|Note1:机器学习绪论

你可能感兴趣的:(零基础"机器学习"自学笔记|Note2:单变量线性回归)