机器学习入门(二)—— 单变量线性回归

入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。

一、符号规定

  • m: 表示训练集的样本的数量;
  • x: 表示输入变量(特征量),表示输入的特征;
  • y: 表示输出变量(目标变量),也就是我们的预测结果;
  • (x,y):表示一个训练样本;
  • (x(i),y(i)):为了表示每个训练样本,我们使用x上标(i)和y上标(i)来表示,表示第i个训练样本,i只是一个索引,表示训练集里面的第i行, 并不是x和y的i次方;
  • h:(hypothesis)假设函数,输入x,输出y,h是一个从x到y的函数映射。

二、线性回归模型(h(x))

单变量线性回归的模型公式:


三、代价函数

在线性回归中,我们有一个训练集。我们要做的是得出Ɵ0和Ɵ1,使我们得到的假设函数表示的直线尽量的与这些数据点相拟合。但是我们要如何选择Ɵ0和Ɵ1呢?我们的想法是选择能够使h(x),也就是输入x是我们的预测的值,最接近该样本对应的y值的参数Ɵ0和Ɵ1。

抽象的说:在线性回归问题中,我们要解决的是一个最小化的问题,写出关于Ɵ0和Ɵ1的最小化式子,让h(x)和y之间的差异最小。

代价函数(平方误差函数)公式:

机器学习入门(二)—— 单变量线性回归_第1张图片

 如果没有那个1/2,其实就是方差公式,加上了1/2是为了方便计算

就此,我们的目标转化为

 如何求得Ɵ0和Ɵ1是为关键


四、梯度下降

我们来看下面这张图方便待会理解

如果我们想要从A点开始找到最快的J值减少方向(梯度下降方向),就像是想最快速度下山,那可以走图中黑色路径(注:起点不同路径不同)

机器学习入门(二)—— 单变量线性回归_第2张图片

 具体公式

机器学习入门(二)—— 单变量线性回归_第3张图片

其中:=是赋值,α是学习率(即下山时走一步有多远)

α太小的话步伐太小需要很长的时间才能走下山,α太大的话梯度下降可能会越过最低点,甚至可能无法收敛

梯度下降算法不仅可以最小化线性回归函数J,还可以最小化其他函数。

最小化代价函数不一定要使用梯度下降算法,还有另一种算法——正规方程法(normal equation method),但梯度下降算法更加适用于大的数据集。

对于单变量线性回归,这里应用的思想是最小二乘法。


你可能感兴趣的:(机器学习,深度学习,线性回归,人工智能,机器学习,回归)