机器学习笔记(VII)线性模型(III)对数几率回归和极大似然估计

背景知识

常见回归模型

线性回归(linear regression):

y=wTx+b(1)

但是有时候预测值会逼近 y 的衍生值比如输出标记在指数尺度上变化。

对数线性回归(log-linear regression):

lny=wTx+b(2)

广义线性模型(generalized linear model):

y=g1(wTx+b)g(y)=wTx+b(3)

其中 g() 称为联系函数, g1() g() 的反函数

对数几率回归

阶跃函数

y=0,0.5,1,z<0;z=0;z>0;

对于二分类任务,其输出标记 y{0,1}
线性回归模型产生的预测值 z=wTx+b ,因此最理想的情况就是“单位阶跃函数”但是按照广义线性模型的公式(3),”单位阶跃函数”没有反函数

反函数存在条件

函数存在反函数的充要条件是,函数的定义域与值域是一一映射;严格增(减)的函数一定有严格增(减)的反函数【反函数存在定理】.

对数几率函数(logistic function)

y=11+ez(4)

这是一种“Sigmoid函数”,它将 z 的值转化为一个接近0或者1的 y 的值,
将式(4)代入式(3)得到
y=11+e(wTx+b)

类似(2)式,此时可以化为:
lny1y=wTx+b(5)

此时如果将 y 视为样本 x 作为正例的可能性,则 1y 视为其实反例的可能性,两者的比值
y1y
称为几率,反映了 x 作为正例的相对可能性,对几率取对数则得到“对数几率”(log odds,AKA logit)
lny1y

极大似然估计

如何确定

y=11+e(wTx+b)
中的 w b
在(5)式中,将 y 视为类后验概率估计 p(y=1x) 则可以重新改写为
p(y=1x)=ewTx+b1+ewTx+bp(y=0x)=11+ewTx+b

于是可以通过”极大似然估计”(maximum likelihood method)来估计 w b
给定数据集
D={(x1,y1),(x2,y2),,(xm,ym)}={(xi,yi)}mi=1

最大化“对数似然”
(w,b)=i=1mlnp(yiwi;w,b)(likehood)

likehood最大就是要每个样本属于其真实标记的概率越大越好。似然项:
p(yiwi;w,b)

简单处理

1:令 β=(w;b),x^=(x;1) 此时 wTx+bβTx^
2:令

p1(x^i;β)=p(y=1x^;β)p0(x^;β)=p(y=0w^;β)=1p1(x^;β)

3:将likehood中的似然项改写为
p(yixi;w,b)=yip1(x^i;β)+(1yi)p0(x^i;β)(result)

因为 yi{0,1}
所以 yi=0
p(yi=0xi;w,b)=0×p1(x^i;β)+(10)p0(x^i;β)=p0(x^i;β)

如果 yi=1
p(yi=1xi;w,b)=1×p1(x^i;β)+(11)p0(x^i;β)=p1(x^i;β)

则两种情况相加
此时
lnp0(x^;β)=ln(1+eβTx^)(s0)

同样
lnp1(x^;β)=βTx^ln(1+eβTx^)(s1)

综合两种情况:
p(yixi;β)=y1βTx^ln(1+eβTx^)

如果 yi=0 p(yixi;β)=s0
如果 yi=1 p(yixi;β)=s1
则最终结果为:
(β)=i=1m(y1βTx^ln(1+eβTx^))

此时可以使用不同的方法计算最优解 β
β=argminβ(β)

你可能感兴趣的:(机器学习,机器学习)