背景知识
常见回归模型
线性回归(linear regression):
y=wTx+b(1)
但是有时候预测值会逼近
y 的衍生值比如输出标记在指数尺度上变化。
对数线性回归(log-linear regression):
lny=wTx+b(2)
广义线性模型(generalized linear model):
y=g−1(wTx+b)⇕g(y)=wTx+b(3)
其中
g(⋅) 称为联系函数,
g−1(⋅) 是
g(⋅) 的反函数
对数几率回归
阶跃函数
y=⎧⎩⎨⎪⎪0,0.5,1,z<0;z=0;z>0;
对于二分类任务,其输出标记
y∈{0,1}
线性回归模型产生的预测值
z=wTx+b ,因此最理想的情况就是“单位阶跃函数”但是按照广义线性模型的公式(3),”单位阶跃函数”没有反函数
反函数存在条件
函数存在反函数的充要条件是,函数的定义域与值域是一一映射;严格增(减)的函数一定有严格增(减)的反函数【反函数存在定理】.
对数几率函数(logistic function)
y=11+e−z(4)
这是一种“Sigmoid函数”,它将
z 的值转化为一个接近0或者1的
y 的值,
将式(4)代入式(3)得到
y=11+e−(wTx+b)
类似(2)式,此时可以化为:
lny1−y=wTx+b(5)
此时如果将
y 视为样本
x 作为正例的可能性,则
1−y 视为其实反例的可能性,两者的比值
y1−y
称为几率,反映了
x 作为正例的相对可能性,对几率取对数则得到“对数几率”(log odds,AKA logit)
lny1−y
极大似然估计
如何确定
y=11+e−(wTx+b)
中的
w 和
b
在(5)式中,将
y 视为类后验概率估计
p(y=1∣x) 则可以重新改写为
p(y=1∣x)=ewTx+b1+ewTx+bp(y=0∣x)=11+ewTx+b
于是可以通过”极大似然估计”(maximum likelihood method)来估计
w 和
b
给定数据集
D={(x1,y1),(x2,y2),…,(xm,ym)}={(xi,yi)}mi=1
最大化“对数似然”
ℓ(w,b)=∑i=1mlnp(yi∣wi;w,b)(likehood)
likehood最大就是要每个样本属于其真实标记的概率越大越好。似然项:
p(yi∣wi;w,b)
简单处理
1:令 β=(w;b),x^=(x;1) 此时 wTx+b⇒βTx^
2:令
p1(x^i;β)=p(y=1∣x^;β)p0(x^;β)=p(y=0∣w^;β)=1−p1(x^;β)
3:将likehood中的似然项改写为
p(yi∣xi;w,b)=yip1(x^i;β)+(1−yi)p0(x^i;β)(result)
因为
yi∈{0,1}
所以
yi=0 则
p(yi=0∣xi;w,b)=0×p1(x^i;β)+(1−0)p0(x^i;β)=p0(x^i;β)
如果
yi=1 则
p(yi=1∣xi;w,b)=1×p1(x^i;β)+(1−1)p0(x^i;β)=p1(x^i;β)
则两种情况相加
此时
lnp0(x^;β)=−ln(1+eβTx^)(s0)
同样
lnp1(x^;β)=βTx^−ln(1+eβTx^)(s1)
综合两种情况:
p(yi∣xi;β)=y1βTx^−ln(1+eβTx^)
如果
yi=0 则
p(yi∣xi;β)=s0
如果
yi=1 则
p(yi∣xi;β)=s1
则最终结果为:
ℓ(β)=∑i=1m(y1βTx^−ln(1+eβTx^))
此时可以使用不同的方法计算最优解
β∗
β∗=argminβℓ(β)