机器学习10线性回归法Linear Regression

文章目录

  • 一、线性回归算法简介
  • 二、简单线性回归的实现
  • 三、向量化运算
  • 四、衡量线性回归法的指标,MSE,RMS,MAE
    • MSE均方误差(Mean Squared Error)
    • RSE均方误差(Root Mean Squared Error)
    • 平均绝对误差MAE(Mean Absolute Error)
  • 五、演示
  • 六、评价回归算法R Square
  • 七、多元线性回归
    • 目标
    • 多元线性回归的正规方程解(Normal Equation)
    • 问题:
    • 优点:
    • 实现多元线性回归:
  • 八、线性回归的可解释性和更多思考
    • 线性回归算法总结:

一、线性回归算法简介

1.解决回归问题;
2.思想简单,实现容易;
3.是许多强大的非线性模型的基础;
4.结果具有很好的可解释性;
5.蕴含机器学习中的很多重要思想;
样本特征x只有一个称为简单的线性回归;
机器学习10线性回归法Linear Regression_第1张图片
不用绝对值是因为其不能保证在之后的算法中处处可导;
因此我们选择了真值与预测值差之平方来表示偏差;
推出来这个式子之后我们的目标就是使其尽可能地小;
——典型的最小二乘法的问题
机器学习10线性回归法Linear Regression_第2张图片
目标,其实就是找到一个模型最大程度拟合我们的数据,在线性回归算法中这个模型就是一个线性回归方程,在这里,
我们称右图目标函数为损失函数(loss function)也就是说度量出模型没有拟合样本的损失的那一部分
有的函数中度量的是拟合的那部分函数,称为效用函数(utility function)
不管是哪一种函数,我们的机器学习都是通过分析问题,确定问题的损失函数或者效用函数,通过最优化损失函数或者效用函数获得机器学习的模型;
近乎所有参数学习算法(线性回归,多项式回归,逻辑回归,svm,神经网络等)都是这样的思路;
机器学习10线性回归法Linear Regression_第3张图片
具体怎么推此处省略
机器学习10线性回归法Linear Regression_第4张图片

二、简单线性回归的实现

简单线性回归的实现:
机器学习10线性回归法Linear Regression_第5张图片
机器学习10线性回归法Linear Regression_第6张图片
机器学习10线性回归法Linear Regression_第7张图片

三、向量化运算

(使用向量运算比使用for循环速度是更快的)结果基本大小一样
机器学习10线性回归法Linear Regression_第8张图片
机器学习10线性回归法Linear Regression_第9张图片

四、衡量线性回归法的指标,MSE,RMS,MAE

衡量线性回归法的指标之一,就是这么一个衡量标准,让误差和尽可能小,但是这里有一个问题就是m的大小会对衡量造成影响,
因此此处引入MSE均方误差(Mean Squared Error)、
RSE均方误差(Root Mean Squared Error)、
平均绝对误差MAE(Mean Absolute Error)
机器学习10线性回归法Linear Regression_第10张图片

MSE均方误差(Mean Squared Error)

机器学习10线性回归法Linear Regression_第11张图片

RSE均方误差(Root Mean Squared Error)

机器学习10线性回归法Linear Regression_第12张图片

平均绝对误差MAE(Mean Absolute Error)

机器学习10线性回归法Linear Regression_第13张图片

五、演示

机器学习10线性回归法Linear Regression_第14张图片
机器学习10线性回归法Linear Regression_第15张图片
机器学习10线性回归法Linear Regression_第16张图片
机器学习10线性回归法Linear Regression_第17张图片
机器学习10线性回归法Linear Regression_第18张图片

六、评价回归算法R Square

**回忆:**在解决分类问题的时候,我们评价分类的准确度1代表最好0代表最差,取值在0-1之间;
但是问题来了,MSE RMSE MAE没有这样的性质,我们无法判断算法准确度的优劣,这就是以上三种方法的局限性;
解决方法:RSquared;
R^2后面部分的分子代表使用我们的模型预测产生的错误,分母代表y=y的均值,使其成为一个模型(最基本的模型Baseline Model);
用1-后面式子相当于衡量了使用模型没有产生错误的相应的指标;
所以这个值越大越好,越接近1越好;
机器学习10线性回归法Linear Regression_第19张图片
机器学习10线性回归法Linear Regression_第20张图片

七、多元线性回归

一个样本有很多个特征值
机器学习10线性回归法Linear Regression_第21张图片

目标

机器学习10线性回归法Linear Regression_第22张图片

多元线性回归的正规方程解(Normal Equation)

机器学习10线性回归法Linear Regression_第23张图片

问题:

虽然有一些加速方案,但是即使有一些加速方案的话,整体优化出来也是O(n2.4)基本上还是比O(n2)要高;

优点:

不需要对数据做归一化处理
机器学习10线性回归法Linear Regression_第24张图片

实现多元线性回归:

机器学习10线性回归法Linear Regression_第25张图片
机器学习10线性回归法Linear Regression_第26张图片
机器学习10线性回归法Linear Regression_第27张图片
机器学习10线性回归法Linear Regression_第28张图片

机器学习10线性回归法Linear Regression_第29张图片

八、线性回归的可解释性和更多思考

评价线性回归算法:R Squared;

线性回归算法总结:

1、典型的参数学习,对比knn非参数学习;
2、只能解决回归问题,虽然很多分类方法中,线性回归是基础(如逻辑回归)对比knn:既可以解决分类问题又可以解决回归问题;
我们在学习线性回归的时候其实对数据有一个假设:线性;对比knn对数据没有假设(假设就是数据和最终输出之间有一定的线性关系,而且线性关系越强线性回归算法线性回归算法得到的结果也就越好);
线性回归算法稍作改动就可以解决非线性问题,并且它的优点:对数据具有解释性;
当时间复杂度越高的时候,更好的解决方案:梯度下降方法;
机器学习10线性回归法Linear Regression_第30张图片
机器学习10线性回归法Linear Regression_第31张图片

Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pupil-teacher ratio by town
        - B        1000(Bk - 0.63)^2 where Bk is the proportion of black people by town
        - LSTAT    % lower status of the population
        - MEDV     Median value of owner-occupied homes in $1000's

你可能感兴趣的:(机器学习,线性回归,回归)