【机器学习入门】线性回归的概率解释

Andrew Ng的公开课机器学习

线性回归中我们建立了一个线性模型 h(x(i))=θTx(i) ,并计算误差函数 J(θ)=mi=1(h(x(i))y(i))2=mi=1(θTx(i)y(i))2

为了选择合适的 θ 使得 J(θ) 最小,我们可以采取两种方法:
1.梯度下降法
2.最小二乘法

具体的在上一节中已有讲述。
本文从概率上解释,为何在计算 J(θ) 时,我们选择预测值与实际值差值的平方作为误差衡量?
实质上,这是我们认为误差满足高斯分布时的极大似然估计。

假设样本的实际关系为 y(i)=θTx(i)+ϵ(i) ,其中 ϵ(i) 代表一些无法捕获的噪声。假设噪声满足高斯分布 N(0,σ2) ,即 P(ϵ(i))=12πσexp((ϵ(i))22σ2)
即给定 x(i) 和参数 θ 时,函数值服从高斯分布:
P(y(i)|x(i);θ)=12πσexp((y(i)θTx(i))22σ2)
换言之,给定样本值和参数,函数值 y(i) 服从 N(θTx(i),σ2)
则参数的极大似然函数为:

L(θ)=i=1mP(y(i)|x(i);θ)=i=1m12πσexp((y(i)θTx(i))22σ2)

对数似然函数:
logL(θ)=i=1mlogP(y(i)|x(i);θ)=i=1mlog12πσexp((y(i)θTx(i))22σ2)=mlog12πσi=1m(y(i)θTx(i))22σ2

为了使似然函数最大,则需最小化

i=1m(y(i)θTx(i))22σ2

即最小化

J(θ)=i=1m(y(i)θTx(i))22

上述推导说明了,线性回归的参数,实质上是假设误差满足高斯分布且独立同分布的情况下的极大似然估计。

你可能感兴趣的:(机器学习)