事实证明,寒假在家也并不能高效工作,年前准备过年,年后没事了,想动手却冻手,幸好姥姥家里暖和,过年姥姥又伤风感冒,姥姥今年74,姥爷今年81,今天本来到邢台的,但是放心不下又回来了,愿姥姥姥爷健康长寿,别无他求。
第 3 章 线性模型
3.1 基本形式
给定由d个属性描述的实例 x=(x1;x2;...;xd) ,线性模型试图学得一个通过属性的线性组合来进行预测的函数,即 f(x)=w1x1+w2x2+...+wdxd+b 用向量形式写成 f(x)=wTx+b .
由于 w 直观表达了个属性在预测中的重要性,因此线性模型有很好的可解释性。
3.2 线性回归
给定数据集 D={(x1,y1),(x2,y2),...,(xm,ym)} ,其中 xi=(xi1;xi2;...;xid),yi∈R . “线性回归”试图学得一个线性模型以尽可能准确地预测实值输出标记。
对离散属性,若属性值间存在“序”关,可通过连续化将其转化为连续值;若属性值间不存在序关系,假定有k个属性值,则通常转化为k维向量。
先考虑最简单的情形:输入属性的数目只有一个
线性回归试图学得
f(xi)=wxi+b,使得f(xi)≃yi
利用均方误差最小化确定w,b
(w∗,b∗)=argmin(w,b)∑i=1m(f(xi)−yi)2=argmin(w,b)∑i=1m(yi−wxi−b)2
基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。
求解w和b使
E(w,b)=∑mi=1(yi−wxi−b)2 最小化的过程,称为线性回归模型的最小二乘“参数估计”。将
E(w,b) 分别对w和b求导,得
∂E(w,b)∂w=2(w∑i=1mx2i−∑i=1m(yi−b)xi),∂E(w,b)∂b=2(mb−∑i=1m(yi−wxi)),
令上式得零得到w和b最优解的闭式解
w=∑mi=1yi(xi−x¯)∑mi=1x2i−1m(∑mi=1xi)2,b=1m∑i=1m(yi−wxi),
更一般的情形,样本由d个属性描述
此时我们试图学得
f(xi)=wTxi+b,使得f(xi)≃yi
这称为“多元线性回归”
把数据集D表示为大小为
m×(d+1) 大小的矩阵
X ,
X=⎛⎝⎜⎜⎜⎜⎜x11x21⋮xm1x12x22⋮xm2……⋱…x1dx2d⋮xmd11⋮1⎞⎠⎟⎟⎟⎟⎟=⎛⎝⎜⎜⎜⎜⎜xT1xT2⋮xTm11⋮1⎞⎠⎟⎟⎟⎟⎟
再把标记也写成向量形式
y=(y1;y2;…;ym) ,则类似均方误差,有
w^∗=argminw^(y−Xw^)T(y−Xw^)
令
Ew^=(y−Xw^)T(y−Xw^) ,对
w^ 求导得到
∂Ew^∂w^=2XT(Xw^−y)(这里对矩阵求导不懂)
当
XTX 为
满秩矩阵时,令上式为零可得
w^∗=(XTX)−1XTy
令
x^i=(xi;1) ,则最终学得的多元线性回归模型为
f(x^i)=x^Ti(XTX)−1XTy
然而,现实任务中 XTX 往往不是满秩矩阵,此时可解出多个 w^ 。选择哪一个解作为输出,将由悬系算法的归纳偏好决定,常见的做法是引入正则化项。
线性模型的变形
线性模型的预测值逼近真是标记y时,就得到线性回归模型。
线性回归模型简写为
y=wTx+b
令模型预测值逼近y的衍生物,例如:
lny=wTx+b ——”对数线性回归”,实质上在求取输入空间到输出空间的非线性函数映射。
广义线性模型
考虑单调可微函数g(.),令 y=g−1(wTx+b)。
3.3 对数几率回归
上一节讨论使用线性模型进行回归学习,对于分类任务,只需找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。
对于二分类任务,可通过“单位阶跃函数”把线性回归模型产生的预测值 z=wTx+b 对应到输出标记 y∈{0,1} 。
“单位阶跃函数”y=⎧⎩⎨⎪⎪0,0.5,1,z<0;z=0;z>0;
但是单位阶跃函数不连续,不可直接作为“广义线性模型”中的
g−(.) ,可用对数几率函数
y=11+e−z
替代之。
对数几率函数是一种“Sigmoid函数”,它将z值转化为一个接近0或1的y值,并且其输出值在z=0附近变化很陡。
将对数几率函数代入
y=11+e−(wTx+b).(1)lny1−y=wTx+b
若将y视为样本
x 作为正例的可能性,则1-y时期反例可能性,故“对数几率”为:
lny1−y
小结:(1)式是在用线性回归模型的预测结果去逼近真实标记的对数几率,因此,其对应的模型称为“对数几率回归”,是一种分类学习方法。
优点:
- 直接对分类可能性进行建模,无需实现假设数据分布,这样就避免了假设分布不准确所带来的问题。
- 不仅预测出“类别”,还可得到近似概率预测。
- 对率函数是任意阶可导的凸函数,现有的许多数值优化算法都可直接用于求取最优解。
确定(1)中的w和b(这里不太懂)
若将式(1)中的y视为类后验概率估计p(y=1|x),则
lnp(y=1|x)p(y=1|x)=wTx+bp(y=1|x)=ewTx+b1+ewTx+bp(y=1|x)=11+ewTx+b
于是,通过“极大似然法”估计w和b。对率回归模型最大化“对数似然”
l(w,b)=∑i=1mlnp(yi|xi;w,b)(2)
即令每个样本属于其真实标记的概率越大越好。
为便于讨论,令
β=(w,b),x^=(x;1), 则
wTx+b 可简写为
βTx^ .再令
p1(x^;β)=p(y=1|x^;β),p0(x^;β)=p(y=0|x^;β)=1−p1(x^;β) ,则(2)式中的似然项可重写为
p(yi|xi;w,b)=yip1(x^i;β)+(1−yi)p0(x^i;β)
最小化(2)式等价于最小化
l(β)=∑i=1m(−yiβTx^i+ln(1+eβTx^i))
3.4 线性判别分析
Linear Discriminant Analysis,LDA 一种经典的线性学习方法,用于二分类问题。亦乘“Fisher”判别分析。
LDA思想:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。
假设条件:给定数据集 D={(xi,yi)}mi=1,yi∈{0,1} ,令 Xi、μi、Σi 分别表示第 i∈{0,1} 类示例的集合、均值向量、协方差矩阵。
思想实现:欲使同类样例的投影点尽可能接近,可以让同类样例投影点的协方差尽可能小,即 wTΣ0w+wTΣ1w 尽可能小;而欲使异类样例的投影点尽可能远离,可以让类中心之间的距离尽可能大,即 ||wTμ0−wTμ1||22 尽可能大。即最大化下式
J=wTμ0−wTμ1||22wTΣ0w+wTΣ1w(3)
定义“类内散度矩阵”
Sw=Σ0+Σ1=∑x∈X0(x−μ0)(x−μ0)T+∑x∈X1(x−μ1)(x−μ1)T
以及“类间散度矩阵”
Sb=(μ0−μ1)(μ0−μ1)T
则式(3)可重写为
J=wTSbwwTSww
这就是LDA欲最大化的目标,即
Sb 与
Sw 的“广义瑞利商”