ML—线性回归系列(一)—线性回归

华电北风吹
天津大学认知计算与应用重点实验室
日期:2015/11/25

本来以为线性回归是一个特简单的东西,最近遇到很多基于线性回归的东西,才意识到我的无知。为了记录最近的学习历程,还是从线性回归开始系统总结一下吧。

一、线性回归
在实际问题中,在考虑变量 y 与另外一些变量 x1,x2,...,xn 之间关系的时候,为了简化往往考虑线性模型
hθ(x)=θ0+θ1x1+...+θnxn=θTx(1-1)
其中 x0=1 .

接下来,目标就是对于训练数据集 (xi,yi),i=1,2,...,m 确定模型最合适的参数 θ 。采用最小二乘法,定义损失函数
J(θ)=12mi=1(hθ(x(i))y(i))2(1-2)

二、梯度下降法
最小二乘是无约束优化的凸问题,属于最简单的凸优化问题,有很多的数值求解的方法,参考参考博客[1]。本文介绍梯度下降法求解最小二乘优化问题。
在梯度法中参数 θ 的更新规则为:
θj=θjαddθjJ(θ)(2-1)
其中 α 为学习率,可以设定为常数,也可以采用一维搜索方法确定,具体可以查看参考博客[2]
ddθjJ(θ)
=ddθj(12mi=1(hθ(x(i))y(i))2
=12mi=12(hθ(x(i))y(i))x(i)j
=mi=1(hθ(x(i))y(i))x(i)j
(2-2)
公式(2-2)带入公式(2-1)得到 θj 的更新规则为:
θj=θjαmi=1(hθ(x(i))y(i))x(i)j(2-3)
采用公式(2-3)的方法被称为批梯度下降法。由于批梯度下降法对与每一次 θ 的更新需要计算所有的样本,不利于在线计算,因此一般使用如下公式(2-4)所示的随机梯度下降法:
θj=θjα(hθ(x(i))y(i))x(i)j(2-4)
并且往往公式(2-4)的收敛效率要远远高于(2-3),可以更早的达到收敛。

三、最小二乘的概率解释
在参考博客3中说了线性规划的最小二乘属于广义线性模型,并进行了推导,得到了
p(y|x,θ)=12πexp(12(yθTx)2)(3-1)
在这里我们看一种更简单点的解释,假设输出y与输入x服从如下等式
y(i)=θTx(i)+ϵ(i)(3-2)
由于对于取样的每个样本都是独立同分布的,假设误差项 ϵ(i) ~ N(0,σ2)
则对于每一个取样样本有
p(ϵ(i))=12πσexp((ϵ(i))22σ2)(3-3)
由公式(3-2)得 ϵ(i)=y(i)θTx(i) 带入公式(3-3)得到
p(y(i)|x(i);θ)=12πσexp((y(i)θTx(i))22σ2)(3-3)
公式(3-3)便是样本 (x(i),y(i)) 的先验概率公式。接下来就是统计学里面的参数估计问题了。求解似然函数极大化似然函数即可。
似然函数为:
L(θ)=mi=1p(y(i)|x(i);θ)(3-4)
对数似然函数为:
l(θ)=logL(θ)=logmi=112πσexp((y(i)θTx(i))22σ2)(3-5)
化简公式(3-5)得
l(θ)=mlog12πσ12σ2mi=1(y(i)θTx(i))2(3-6)
刨除公式(3-6)的常数部分,极大化似然函数(3-6)等价于极小化其中的 mi=1(y(i)θTx(i))2 部分,即文章开头所说的最小二乘部分的 J(θ) (公式(1-2))。

四、矩阵求解最小二乘
把所有的样本 (x(i),y(i)) 用矩阵的形式表示,可以写成如下的形式
Y=Xθ+ϵ(4-1)
目标是求解 θ 是的 ϵTϵ 最小。令
S(θ)=ϵTϵ=(YXθ)T(YXθ)(4-2)
ddθS(θ)=2XT(YXθ)=0(4-3)
XTXθ=XTY
如果X中的特征都是线性无关的,即 rank(X)=n ,那么 rank(XTX)=rank(X)=n ,即 XTX 可逆。
所以有最小二乘的矩阵形式解—公式(4-4)
θ=(XTX)1XTY(4-4)

五、参考博客
1、最优化方法—无约束极值问题的解法
(http://blog.csdn.net/zhangzhengyi03539/article/details/49705305)
2、最优化方法—一维搜索
(http://blog.csdn.net/zhangzhengyi03539/article/details/49704893)
3、ML—广义线性模型(GLM)
(http://blog.csdn.net/zhangzhengyi03539/article/details/46834379)

你可能感兴趣的:(ML—线性回归系列(一)—线性回归)