各种回归全解:传统回归、逻辑回归、加权回归/核回归、岭回归、广义线性模型/指数族

一。前言:


1、回归分析有两类用途:1、拟合预测。2、分类


2、一些标记:

x为输入的特征向量组,每个特征向量为n维(表示有n个特征)
y为特征向量对应的类别
对于训练样本来说:


表示第i个样本(x,y),i=1……m(表示一共m个训练样本)
表示第i个特征向量的第1、2个特征值
为‘回归拟合系数’,所以对应x的维度,为n维



二。传统的线性回归


(只能做拟合预测,因为最终是使得误差最小时得到一条拟合直线,只能预测点的y值,y值连续,所以不涉及分类)


1、目标:让‘整体’误差最小




所以这是一个‘最优化’问题

2、最优化前提:


(1)认为误差服从高斯分布




偶然误差也叫‘随机误差’

(2)实际上这个误差不一定是高斯分布,如果想让这个误差是高斯分布前提是:特征样本x是高斯分布


3、最优化过程:


(1)通过高斯分布求概率

各种回归全解:传统回归、逻辑回归、加权回归/核回归、岭回归、广义线性模型/指数族_第1张图片

注意:这里面均值取0的意义是:就像核密度估计时采用高斯窗也没有均值
在我们对某一事物的概率分布的情况下。如果某一个数在观察中出现了,我们可以认为这个数的概率密度很比大,和这个数比较 近的数的概率密度也会比较大,而那些离这个数远的数的概率密度会比较小。
但是方差一定有,代表了带宽

(2)使用最大似然


参见‘机器学习里的数学应用/参数估计’
得到似然函数L

各种回归全解:传统回归、逻辑回归、加权回归/核回归、岭回归、广义线性模型/指数族_第2张图片
注意,之所以是求l(theta)最大,是因为,求误差最小,误差在高斯的x位置,也即x为0最好,高斯x为0时函数取最大,所以是求l(theta)最大

(3)求均方和误差最小


对向量 求偏导

***********************************************************************************
注意:
各种回归全解:传统回归、逻辑回归、加权回归/核回归、岭回归、广义线性模型/指数族_第3张图片
***********************************************************************************

各种回归全解:传统回归、逻辑回归、加权回归/核回归、岭回归、广义线性模型/指数族_第4张图片


(4)求解(3)的最小时的参数向量


  • 法一:矩阵法

各种回归全解:传统回归、逻辑回归、加权回归/核回归、岭回归、广义线性模型/指数族_第5张图片

******************************************************************************
其实这就是所谓的‘广义逆矩阵’,也叫伪逆:


参考‘四。岭回归’
******************************************************************************

  • 法二:batch gradient descent(批梯度下降)

  • 法三:stochatic/cremental gradient descent(随机梯度下降)

上面两种方法参见‘机器学习里的数学应用/非常‘亲民’的随机梯度和批梯度下降解释’

  • 法四:拟牛顿法

参见‘机器学习里的数学应用/牛顿法及拟牛顿法’

(5)传统线性回归再总结:


一旦点不是‘直线式’分布,则‘线性拟合’必然发生‘欠拟合’的情况,此时,可以调整‘线性拟合’为‘非线性拟合’:


但是如果到五次函数的话可能出现‘过拟合’
所以对于 样本点比较‘分散’或者‘非线性分布’,需要多试几次各种次函数,看效果,这样效率比较慢,因为目的是预测某个点的y值,我们可以使用三的方法

三。局部加权线性回归(locally weight linear regression,也叫核回归:kernel regression)

只能拟合预测,不能分类

1、形式:


各种回归全解:传统回归、逻辑回归、加权回归/核回归、岭回归、广义线性模型/指数族_第6张图片


2、注意,LWLR和传统线性回归对未知参数的估计的区别是:


  • 传统的先不看需要预测的点,先通过样本点估计出,然后将预测点x带入的表达式得到估计值y,如果需要再预测一个点x2,则直接带入这个表达式即可
  • LWLR是针对每个预测点x单独计算其(也即每次预测一个点需要计算一个最佳,然后将x带入这个表达式得到y;如果下一次再预测下一个点x2,则还要重复上述过程得到一个新及其表达式)

3、具体过程:


根据二的(4)法一:

各种回归全解:传统回归、逻辑回归、加权回归/核回归、岭回归、广义线性模型/指数族_第7张图片
当然也可以使用‘梯度下降,拟牛顿法’

各种回归全解:传统回归、逻辑回归、加权回归/核回归、岭回归、广义线性模型/指数族_第8张图片

5、举例说明LWLR的效果:


各种回归全解:传统回归、逻辑回归、加权回归/核回归、岭回归、广义线性模型/指数族_第9张图片
可见上面红线是通过传统线性回归,黑线是对x点的LWLR,可见对于 样本点比较‘分散’或者‘非线性分布’时,LWLR对预测点的预测效果更好

四。岭回归

各种回归全解:传统回归、逻辑回归、加权回归/核回归、岭回归、广义线性模型/指数族_第10张图片

五。逻辑回归(logistic regression)


1、参见‘机器学习里的数学应用/logistic或sigma函数’

2、从‘广义线性模型(GLM:generalized linear models)’和‘指数族’说起:


(1)指数族(the exponential family)


各种回归全解:传统回归、逻辑回归、加权回归/核回归、岭回归、广义线性模型/指数族_第11张图片

  • 伯努利分布:
各种回归全解:传统回归、逻辑回归、加权回归/核回归、岭回归、广义线性模型/指数族_第12张图片

  • 高斯分布:

各种回归全解:传统回归、逻辑回归、加权回归/核回归、岭回归、广义线性模型/指数族_第13张图片

(2)GLM


各种回归全解:传统回归、逻辑回归、加权回归/核回归、岭回归、广义线性模型/指数族_第14张图片

3、为什么sigma函数可以代表概率?


设y只取0,1
各种回归全解:传统回归、逻辑回归、加权回归/核回归、岭回归、广义线性模型/指数族_第15张图片

4、逻辑回归的参数估计:(使用最大似然,因为关于未知数的概率函数是相乘且指数)


各种回归全解:传统回归、逻辑回归、加权回归/核回归、岭回归、广义线性模型/指数族_第16张图片

各种回归全解:传统回归、逻辑回归、加权回归/核回归、岭回归、广义线性模型/指数族_第17张图片
注意:发现逻辑回归最后需要求解的式子和传统线性回归一样,再次说明了
概率密度符合指数族的分布的随机变量,都可以用GLM回归分析

最后求解过程参见‘二。传统线性回归的2’

5、逻辑回归的优点:


见二2, 线性回归、岭回归、局部加权线性回归这些‘传统线性回归’可知,最终的最优解是基于
由于特征样本x是高斯分布导致误差是高斯分布,从而进行最优解求解
而从上面的4可见,逻辑回归直接根据二项分布的概率密度特点导出最优解,所以逻辑回归的优势:

(1)不需要特征样本x是高斯分布


(2)甚至不需要x具有特定分布(注意:LR所谓的‘二项分布’是指针对分类结果y只有0和1,这个分布和x无关)


(3)对于误差的分布当然也没有要求


六。关于线性回归、岭回归、局部加权线性回归和逻辑回归的特点


前两种都是:


这本身就是一个‘超平面’方程
因为是‘平的’,所以如果沿某一个平面的三个点(两头是同一个类型,中间是另一种),x依次增加,但是y是‘两头大,中间小’,则一个平面是无法分开的
对于逻辑回归:
因为sigma函数并没有改变单调性,所以和上面的同理
各种回归全解:传统回归、逻辑回归、加权回归/核回归、岭回归、广义线性模型/指数族_第18张图片
可以是黑的,但不能是红的

但是对于 局部加权线性回归:
因为是针对单个预测点单独估值,即便被估值的点在‘凹点或凸点’,因为是‘局部直线’

各种回归全解:传统回归、逻辑回归、加权回归/核回归、岭回归、广义线性模型/指数族_第19张图片
也会比较精确
换句话说,一般的线性回归或者逻辑回归这种先用所有样本点算出参数后再代入预测值x,对于 ‘凹点或凸点’x来说,会被两侧距离远的点影响,从而出现最终上图红线的情况


你可能感兴趣的:(机器学习基本算法)