吃瓜学习笔记2:第三章线性回归&对数几率回归&线性判别分析

线性回归

理解:

线性回归就是希望通过数据属性能够预测未来的函数。比如说拥有了购房数量、地段来预测未来的房价。

那属性一般用x表示,预测的属性用y表示,y=wx+b,其中w是每个属性的权重,b是偏置,也就是可以修正数据的误差。

一般我们的数据集肯定是特别大,属性特别多,为了计算方便,故用矩阵来计算。


也叫多元线性回归

有了函数,自然也要找到损失函数,在这里,我们尝试均方差作为损失函数

损失函数

我们的目的是要求出wi和b,我们用偏导的思想去求


其中=(w;b),另上面的式子为零,最后有


在把式子带入y=X.最终的多元线性回归模型



对数几率回归

对数几率函数,也是我们俗称的Sigmoid函数,一般用来做分类,而线性回归一般做预测

Sigmoid函数


Sigmoid函数图像

对数几率回归的作用就是它将z 值转化为一个接近0 或1 的y值,并且其输出值在z =0 附近变化很陡.将对数几率函数作为g-(.)代入式上面公式 ,得到


该函数的功能就是把y=这个线性函数通过对数几率函数(sigmoid函数)映射成一个在[0-1]范围内的概率值

下一步,怎么求w和b值?可以通过极大似然估计,极大似然估计的作用就是求参数的

第一步,先得到y=0和y=1两个后验概率估计


(1)

带入极大似然估计公式化简得到:


关于w和b的极大似然估计公式

其中β=(w;b),=(x;1),

我们最小化上述公式,就得到β的最优解,也就是w和b的最优解

线性判别分析(LDA)

LDA的基本思想:给定训练样例集7 设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别. 图3.3 给出了一个二维示意图.


按照它的思想,我们的目的是要找到一条投影线y=wx,

我们可以想到它的模型特点无非就是:异类样本的中心尽可能远,同类样本的方差尽可能小

对此根据该思想得到一个公式:

分母是协方差,分子是样本距离

表示u0在w的投影长度,且

等价于就是协方差

为了方便计算,我们令,

从而得到最后的目标函数:


现在要确定w,且想要目标函数J的最大化,因J的解与ω 的长度无关,只与其方向有关.不失一般性,令,求

有约束条件,一般我们用拉格朗日法解上述函数,最后得到


得到了w,最后带入投影方向的公式:y=wx,得到了我们的投影线

------------------------------------------

学习路径:Datawhale吃瓜教程

你可能感兴趣的:(吃瓜学习笔记2:第三章线性回归&对数几率回归&线性判别分析)