机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析

@机器学习之 线性回归,对数几率回归(逻辑回归),线性判别分析
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第1张图片
模型是方法,策略是函数例如 最小二乘,算法是求解方法

属性特征处理:

  1. 二值离散特征(0和1)
  2. 有序连续特征(1,2,3对应小 中 大)
  3. 无序离散特征(one-hot编码)

线性回归

均方误差最小化(最小二乘估计)

几何意义上是预测值和实际值的差平方(并不是垂直距离的误差,那样成了正交差)
argmin(w,b) 求最小值的w和b

极大似然估计(估计概率分布的参数值)

问:线性回归中怎么能利用极大似然估计(观测样本出现概率最大的分布)去估计y(预测值)的分布呢

机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第2张图片
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第3张图片

将误差代替之后,y就是原概率密度函数中独立同分布的随机变量,wx+b是μ
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第4张图片
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第5张图片
在其中m和σ是常数,所以在优化中需要求导(可与直接忽略),最终得到了线性回归的极大似然估计就是最小二乘估计

求解w和b的参数(凸函数最值点)

机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第6张图片
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第7张图片
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第8张图片

1. 为什么 (y-wx-b)2 是凸函数

证明原函数的海塞矩阵是半正定即可,半正定是 矩阵的顺序主子式大于0
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第9张图片
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第10张图片
按照上面的要求,对w和b求出了二阶导数,所对应的海塞矩阵如图,只要证明上述式子机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第11张图片

2. 最值点

机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第12张图片

多元线性回归

机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第13张图片
将b扩充进去,作为d+1维的量,在x处的d+1的值是1机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第14张图片
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第15张图片
将求和运算向量化,因为在向量化之后便于矩阵计算
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第16张图片
变成了向量内积的计算方法,再对后面的向量进行拆解
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第17张图片
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第18张图片
得到了向量化之后的结果,最小化的损失函数

多元线性回归损失函数证明

机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第19张图片

证明凸函数,也是其海塞矩阵半正定,

机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第20张图片
标量对向量的求导,矩阵微分中的知识,机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第21张图片机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第22张图片机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第23张图片

一阶求导的值在上面求解海塞矩阵中得到在这里插入图片描述

在现实任务中由于XTX不是满秩矩阵,对于真实的X,列数往往多于行数,也就是变量比样例数还多,此时w可能有多个值,都可以均方误差最小化,此时解将由算法的归纳偏好决定,做法是引入正则化

岭回归 解决 多重共线性

机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第24张图片
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第25张图片
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第26张图片机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第27张图片
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第28张图片
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第29张图片

所以,一般通过调节α,就可以实现恰当的数据拟合
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第30张图片在这里插入图片描述

Lasso 最小绝对收缩和选择算子

机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第31张图片
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第32张图片机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第33张图片
对于后面部分的假设,w的值为正,所以绝对值去掉,上面的2写错了,应该没有

机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第34张图片机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第35张图片
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第36张图片
在这里插入图片描述机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第37张图片
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第38张图片
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第39张图片

根据以上得到,lasso限制w参数,是让其直接为0,所以可以用来进行特征选择

ridge选择R2作为验证误差,lasso选择均方误差(只考虑了偏差,不考虑方差)

对数几率回归

算法原理

线性回归做的是实值的解答,对数几率回归是一个利用映射函数做分类的功能
先是二分类
如何实现:找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第40张图片
分类中,机器学习任务会给出样本的概率值,那么范围是[0,1]之间的,线性回归中的值是R上的不能直接用,所以用一个映射函数完成了分类任务
西瓜书的角度是对数几率,ln(y/1-y)

https://sm1les.com/2019/01/17/logistic-regression-and-maximum-entropy/

离散变量的分类(概率质量函数)

极大似然估计推导

方便于在多元条件的一样使用
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第41张图片
将整合,方便使用极大似然函数机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第42张图片机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第43张图片
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第44张图片
函数整合,取对数之后,yi的取值是0或者1,那么按照结果就得到了下面的式子
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第45张图片

信息论推导

x是随机变量X的所有取值机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第46张图片理想分布px,模拟分布qx ,一般的,px的取值是小于1的,所以log得到的结果是小于1,那么带上负号转为正值 机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第47张图片根据上面的公式,当px和qx相等的时候,值是1,所以此时相对熵最小,为0,机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第48张图片
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第49张图片

机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第50张图片
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第51张图片
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第52张图片
此时,从极大似然估计和信息论角度得到了同样的损失函数
因为没有闭式解,所以采用一些算法求解最优值
在这里插入图片描述

线性判别分析

机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第53张图片

算法原理

根据其定义可知 用来进行分类 ,主要是用来降维(类别减1)
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第54张图片
书中的公式:X是不同取值的样本,μ是不同取值样本的均值向量,Σ是不同取值样本的协方差(少了系数,但是不影响结果)
在特征空间找一个方向,使得所有的样本点都投影上去,目的:中心远,方差小
类内方差小,类间方差大
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第55张图片
我们让中心远,那么就是μ0-μ1的距离较大,但是投影的距离是|μ|cosθ,一般的,角度theta不好求,所以使用w的转置乘以μ作为投影距离,乘w的模长对我们的max目标没有影响
根据公式:cosθ = u
v / |u||v|
所以一般的:
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第56张图片
在上面的方差公式中,wT*x是向量x在w方向的投影,这样的得到了方差小的目标函数
两个目标函数整合:
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第57张图片

可解损失函数

在max中,w的值多解,因为放大倍数都有解,Sb和Sw是固定的,所以此时条件将分母固定,w也就固定了范围,这样max目标就有了求解
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第58张图片

拉格朗日乘子法

机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第59张图片
得到在约束条件下的极值点,但是得到的极值解还需要进行最值的挑选

w的求解

机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第60张图片
Sb和Sw是对称矩阵
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第61张图片
在Sbw = λSww是一个广义特征值求解的问题
(μ0-μ1)T*w是一个值,所以可以直接假设,γ只受w的影响
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第62张图片
机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第63张图片
因为几何意义是中心点的距离,并且它的方向是四周变化,所以一定具有最大最小值

广义特征值

机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第64张图片

广义瑞利商

机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第65张图片

机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第66张图片
根据其性质,我们在前面的拉格朗日乘子法中得到的结果其实是特征值最大的对应的特征向量就是其解,
对于多分类问题,将W划分列向量,也就是转为二分类问题,w1对用的是最大的特征向量
w2对应的是第二大的特征向量,依次排序就得到了后面的结果

机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析_第67张图片

你可能感兴趣的:(机器学习,逻辑回归,机器学习,回归)