机器学习入门 ————》 一元及多元线性回归

1、线性回归(line Regression)

回归,指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常Y1,Y2,…,Yi是因变量,X1、X2,…,Xk是自变量。

• 回归分析(regression analysis)用来建立方程模拟两个或者多个变量之间如何关联
• 被预测的变量叫做:因变量(dependent variable),输出(output)
• 被用来进行预测的变量叫做: 自变量(independent  variable), 输入(input)
一元线性回归包含一个自变量和一个因变量
• 以上两个变量的关系用一条直线来模拟
• 如果包含两个以上的自变量,则称作多元回归分析 (multiple regression)

机器学习入门 ————》 一元及多元线性回归_第1张图片

正相关  positive(斜率正)   负相关 negative (斜率负)

理解:就是得到很多点,求解一元二次方程组。但两点确定一条回归线,很多点就会产生很多回归线,哪一条线才是最佳的回归线呢?

 2、代价函数(Cost Function)或损失函数(Lost  Function)

用于判断最佳回归线,越小越好,拟合的越好。

机器学习入门 ————》 一元及多元线性回归_第2张图片

平方是把误差都变为正。求和,除以m。除2,是因为后面求导,与平方的2约掉,就是为了方便,也不影响判断。

刚刚说有很多点就会产生很多回归线,那每个回归线就有一个斜率,一个损失函数值。

先看简单的,把截距去掉,损失函数少一个变量。

机器学习入门 ————》 一元及多元线性回归_第3张图片

取不同斜率,有不同的损失函数值

机器学习入门 ————》 一元及多元线性回归_第4张图片机器学习入门 ————》 一元及多元线性回归_第5张图片机器学习入门 ————》 一元及多元线性回归_第6张图片

机器学习入门 ————》 一元及多元线性回归_第7张图片      当斜率为1时,损失函数最小。

 

加上截距的变量

机器学习入门 ————》 一元及多元线性回归_第8张图片

机器学习入门 ————》 一元及多元线性回归_第9张图片

   机器学习入门 ————》 一元及多元线性回归_第10张图片

最小值在圈中心,好像银河系呃。

机器学习入门 ————》 一元及多元线性回归_第11张图片

那怎么求斜率和截距得到最小的损失值呢?

3、梯度下降法(Gradient Descent)

机器学习入门 ————》 一元及多元线性回归_第12张图片

初始值 斜率和截距会影响结果,得到的是局部最小值,可能是最小值,也可能不是。

机器学习入门 ————》 一元及多元线性回归_第13张图片

机器学习入门 ————》 一元及多元线性回归_第14张图片

迭代方法,右边斜率和截距更新不同步,会把损失值改变,从而得到错误的迭代。

学习率,太大,不能得到最佳的斜率和截距。太小迭代次数增多,时间加长。

机器学习入门 ————》 一元及多元线性回归_第15张图片

代价函数是凸函数,只有一个极值,也就是最值。这个点就是最佳回归线的截距和斜率。

机器学习入门 ————》 一元及多元线性回归_第16张图片

凸函数一个极值,非凸函数,多个极值。如果代价函数不是凸函数,那么狠可能不会得到最佳拟合的回归线

机器学习入门 ————》 一元及多元线性回归_第17张图片

 

 多元线性回归

多元,多个特征,多个因变量

二元的。三元,四元无法画出这个平面了,称为超平面。

机器学习入门 ————》 一元及多元线性回归_第18张图片

代价函数,梯度下降都是同样的算法。只不过是增加了几个因变量。

机器学习入门 ————》 一元及多元线性回归_第19张图片

二元                                                           多元

机器学习入门 ————》 一元及多元线性回归_第20张图片

标准方程法,多元线性回归

机器学习入门 ————》 一元及多元线性回归_第21张图片

用矩阵的方式处理

 

 

当数据量小时,使用交叉印证法。

把数据集分为十份。标号,1-10.第一次。用1做测试集,2-10做训练集。第二次,用2做测试集,1,3-10做训练集,以此类推

再把十次得到的误差做平均

机器学习入门 ————》 一元及多元线性回归_第22张图片

 

过拟合,训练集很好,测试集很差

机器学习入门 ————》 一元及多元线性回归_第23张图片

防止过拟合

机器学习入门 ————》 一元及多元线性回归_第24张图片

你可能感兴趣的:(机器学习,线性回归)