线性回归算法原理简介

1,线性回归概念
回归和分类的区别:简单地说,回归就是通过数据预测出一个目标值(实际值),分类就是通过数据预测出一个类别(二分类,多分类)。
比如:银行贷款实例
(1)数据:每个个人(样本)的工资和年龄(两个特征)
(2)目标:预测银行会贷款给个人多少钱(标签,回归)或者预测银行会不会给贷款(标签,分类)
(3)建立以特征为自变量的拟合函数,确定函数参数以求出函数值(标签)

线性回归算法原理简介_第1张图片
可以添加一列x0(取值都为1)引入偏置项,使组合式简洁工整,方便进行矩阵运算,提高效率。

2,误差:
线性回归算法原理简介_第2张图片

误差的特点:

在这里插入图片描述

高斯分布图:

线性回归算法原理简介_第3张图片
高斯分布的实际意义:银行可能会多给,也可能会少给(均值为0),但是绝大多数情况下这个浮动不会太大,极小情况下浮动会比较大,符合正常情况。

线性回归算法原理简介_第4张图片线性回归算法原理简介_第5张图片

3,似然函数的引入,取对数操作,最小二乘法

似然函数:根据样本数据服从的规则来估计合理的参数值(参数估计),即什么样的参数和数据组合(预测值)后恰好是真实值(是真实值的可能性越大越好,最大似然函数,极大似然估计)。

在这里插入图片描述
m是样本的个数,累乘(独立性分布)。

对数似然:对数可以将乘法转换成加法,简化计算。(若数据存在偏度也有对数据取对数的,是数据的分布服从假设)

在这里插入图片描述
展开化简:

线性回归算法原理简介_第6张图片

目标:让似然函数(单调性相同,对数变换后也一样)越大越好,即令下式越小越好:

线性回归算法原理简介_第7张图片如果数据上升到更高维的空间,我们尝试使用最大似然估计来解释最小二乘的合理性。

将目标函数展开:

在这里插入图片描述

对上式求偏导:

线性回归算法原理简介_第8张图片
令偏导等于0(凸函数,凸优化)则有:

在这里插入图片描述

X,y对应于给定样本的数据(已知),一般情况下都可求解。并不一定可直接求解,线性回归可以当做是一个特例。

评估方法:

最常用的评估项:

线性回归算法原理简介_第9张图片

取值越接近于1我们认为模型拟合的越好。

4,梯度下降
由于目标函数并不一定可直接求解,举个例子,我要优化一个深度神经网络DNN(Deep neural network)的网络参数(换言之,优化此网络对于已知数据拟合结果的正确性),可不可以用最小二乘准则去衡量某一拟合结果相对于标准答案的偏差程度呢?可以。而同时,由于DNN模型本身的复杂性,我们没有办法像线性拟合时那样,在理论和公式的层面求出一个最优解,因此需要引入所谓的BP算法(实质上就是梯度下降法)进行参数的迭代求解。
线性回归算法原理简介_第10张图片
梯度下降法,是假设条件更为广泛(无约束)的,一种通过迭代更新来逐步进行的参数优化方法,最终结果为局部最优;机器学习的方法就是交给机器一堆数据,然后告诉它什么样的学习方式是对的(目标函数),然后让它朝着这个方向去做(不断地优化迭代),求出偏导后是梯度上升的值,所以梯度下降是梯度的反方向。

建立目标函数:

在这里插入图片描述

以下山为例(怎样最快到达山谷的最低点):
(1)找到当前最合适的方向
(2)走一小步(走快了有可能越过最低点)
(3)按照方向(偏导)与步伐(更新量)去更新的参数

线性回归算法原理简介_第11张图片
批量梯度下降:

在这里插入图片描述
综合考虑所有样本,容易得到最优解,但是由于每次考虑所有样本,速度很慢。

随机梯度下降:

在这里插入图片描述

每次找一个样本,迭代速度快,但不一定每次都朝着收敛的方向(数据噪音、异常等)。

小批量梯度下降法:

在这里插入图片描述

每次更新选择一小部分(10个样本)数据来算,批处理数量:32,64,128都可以(能多大可以多大),很多时候还得考虑内存和效率,很实用。

学习率(步长):对结果会产生巨大的影响,一般小一些(0.01),而把迭代步数加大,也可以在迭代过程中不断减小学习率。

线性回归算法原理简介_第12张图片

你可能感兴趣的:(机器学习)