回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降

回归问题:
线性回归
logisitic回归(本质是解决分类问题,尤其是二分类)
Softmax回归(解决二分类问题用logisitic回归,解决多分类问题用Softmax回归
回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降_第1张图片
线性回归:
回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降_第2张图片
假设上图是房屋面积和价格的线性图像,那么我们可以用y=kx+b表示,如果有i个样本,那么任何一个点xi和yi都可以写成y1=kx1+b,y2=kx2+b,y3=kx3+b…yi=kxi+b,通过这些方程去解里面的k和b,但其实这是一个矛盾方程。矛盾方程是没有解的。那我们如何解决呢?
现在假设房屋的价格不止与房屋的面积有关,而且与房子是几居室有关如下图
回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降_第3张图片
那么现在特征就有两个,房屋面积x1,居室数目x2和目标值房屋价格y。那我们可以看出来,y = θ0+θ1x1+θ2x2,那我们可以根据这些样本计算θ0,θ1,θ2取多少的时候,可以更好的进行预测。我们可以把上面的式子写成:y = θT*X

最小二乘估计:

回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降_第4张图片
最小二乘估计,与测试减去实际值的平方相加,假定了误差服从高斯分布,并且认为每个样本独立,使用极大自然估计就能得出结论。

现在假设X是样本,有m个,每个样本有n个特征,那么x是一个mn的矩阵:[x11,x12,x13…x1n],[x21,x22,x23…x2n]…[xm1,xm2,xm3…xmn],目标值y:[y1,y2,y3…ym]。他是一个m行乘1列的列向量。那么θ:[θ1,θ2,θ3…θn],我们假设这是一个n行一列的向量。我们希望用xn去近似y。xn得到的是一个m行1列的矩阵,其中相乘得到的每一个数字都是我们的预测值。 记作zi。我们用y1和z1的差值,y2和z2的差值。。。分别去平方。所以用线性代数的方式来表示,就是1/2(xθ-y)T(xθ-y)。
经过推导,最终得到θ的解析式:θ = (xTx)-1xTy.也就表示,任意给一个矩阵xmn,ym
1,一定可以得到关于他们的θ。

回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降_第5张图片
如果X不可逆,那就加入一个很小的数,比如0.0001
在这里插入图片描述他一定是可解的。
回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降_第6张图片
简便方法记忆结论:
xθ = y,两边同时乘以xT,那么就是xxTθ = yxT,化简可以得到θ =( xxT-1 yxT

中心极限定理的意义
回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降_第7张图片
回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降_第8张图片
回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降_第9张图片
回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降_第10张图片
回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降_第11张图片

多项式曲线拟合比较:
回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降_第12张图片
回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降_第13张图片
我们发现,1阶系数——5阶系数都比较小,我们可以接受,但是到了6阶以上,系数就变得特别大,就像两个人正常行走,一个人把一本书递给另外一个人是很容易的,但是两个人以光速行走,想把书递给对方是很困难的。放到图像中,8阶的方程,虽然加加减减,最终拟合出符合全部点的曲线,但其实是不稳定的。其实我们是希望参数不要太大的。所以我们希望(θ12+θ22+…θn2)不要太大。以此引出下面的复杂度惩罚因子:

线性回归的复杂度惩罚因子

回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降_第14张图片
我们把(θ12+θ22+…θn2)放到刚才的目标函数中,我们可以选择直接累加,λ取1,如果特别重视这种参数,也可以取10,取100。所以λ是需要给定的。因为是用目标函数加了一项,我们把这项叫做正则项,因为这项正则项用的是平方加和,所以是L2正则。在线性回归中,取L2正则,有一个特定的名字,就是Ridge:岭回归。当然也可以使用L1正则,就是取|θ1|+|θ2|+…|θn|,所有θ的绝对值的和。叫做LASSO。当然我们也可以把L1正则和L2正则结合起来,并把他们之间用某一个值加权,这个值我们取0-1。因为L1正则有特征选择的能力,但是L2没有。L2的性能往往不错,但是L1往往没有L2好,所以二者结合,就有了Elastic Net

总结:
回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降_第15张图片
根据代码来分析,当我们用线性回归的时候,发现阶数越大,系数越大。当我们用Ridge回归的时候,发现所有系数都变小了。说明正则是有效果的。如果θ特别大,给定同样的λ之后,即使损失很小,J(θ)也不会很小,这个值就不是最优的。所以θ不可能很大。
回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降_第16张图片

LASSO为什么具有特征选择能力?

回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降_第17张图片
当给定了x1,x2,x3…xn,θ1,θ2,θ3…θn.让我们去预测y1,y2,y3…yn的时候,有些时候是希望做稀疏解的,在这n个θ中,我们希望有些θ是为0的,当我们认为某些参数为0.那么就可以认为参数是0的特征是无效的。好比感冒去医院检查,有20多种检测数据,但是医生知道有哪几项的特征组合最有用,LASSO可以保证稀疏。如上图,图1是L1正则,图2是L2正则,我们可以看出,L1正则可以至少让一个w为0,但是L2不可以。

回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降_第18张图片
这样的误差平方和,如果我们想得到稀疏解的时候,我们需要数一数θ不为0的个数
回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降_第19张图片
广义逆矩阵(伪逆):
回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降_第20张图片
θ = (XTX)-1*XTy ,假设X是一个n乘n的方阵,并且可逆。那么θ = X-1y,只是因为X不可逆,或者X是m乘n的方阵,所以才有这么复杂的式子。所以对于mn的方阵而言,(XTX)-1*XT和X-1的作用是等同的,从方程解的直观意义上来看,就可以把(XTX)-1*XT看作是X-1(广义的逆)

梯度下降算法

回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降_第21张图片
最常用的一种优化手段:梯度下降。
我们先随机初始化一个θ,沿着他的负梯度方向进行迭代。更新后的θ使J(θ)更小,到达一个至少是局部的最小值。
那工作当中,使用梯度下降算法还是直接求θ呢,如果X维度是几百维以下的,直接算没有问题,如果维度在几百维以上,更推荐梯度下降。

你可能感兴趣的:(回归算法:线性回归,中心极限定理,似然函数,正则1正则2,梯度下降)