《机器学习》——读书笔记2

事实证明,寒假在家也并不能高效工作,年前准备过年,年后没事了,想动手却冻手,幸好姥姥家里暖和,过年姥姥又伤风感冒,姥姥今年74,姥爷今年81,今天本来到邢台的,但是放心不下又回来了,愿姥姥姥爷健康长寿,别无他求。

第 3 章 线性模型

3.1 基本形式

给定由d个属性描述的实例 x=(x1;x2;...;xd) ,线性模型试图学得一个通过属性的线性组合来进行预测的函数,即 f(x)=w1x1+w2x2+...+wdxd+b 用向量形式写成 f(x)=wTx+b .
由于 w 直观表达了个属性在预测中的重要性,因此线性模型有很好的可解释性。

3.2 线性回归

给定数据集 D={(x1,y1),(x2,y2),...,(xm,ym)} ,其中 xi=(xi1;xi2;...;xid),yiR . “线性回归”试图学得一个线性模型以尽可能准确地预测实值输出标记。
对离散属性,若属性值间存在“序”关,可通过连续化将其转化为连续值;若属性值间不存在序关系,假定有k个属性值,则通常转化为k维向量。

先考虑最简单的情形:输入属性的数目只有一个
线性回归试图学得

f(xi)=wxi+b,使f(xi)yi
利用均方误差最小化确定w,b
(w,b)=argmin(w,b)i=1m(f(xi)yi)2=argmin(w,b)i=1m(yiwxib)2

基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。
求解w和b使 E(w,b)=mi=1(yiwxib)2 最小化的过程,称为线性回归模型的最小二乘“参数估计”。将 E(w,b) 分别对w和b求导,得
E(w,b)w=2(wi=1mx2ii=1m(yib)xi),E(w,b)b=2(mbi=1m(yiwxi)),
令上式得零得到w和b最优解的闭式解
w=mi=1yi(xix¯)mi=1x2i1m(mi=1xi)2,b=1mi=1m(yiwxi),

更一般的情形,样本由d个属性描述
此时我们试图学得
f(xi)=wTxi+b,使f(xi)yi
这称为“多元线性回归”
把数据集D表示为大小为 m×(d+1) 大小的矩阵 X
X=x11x21xm1x12x22xm2x1dx2dxmd111=xT1xT2xTm111

再把标记也写成向量形式 y=(y1;y2;;ym) ,则类似均方误差,有
w^=argminw^(yXw^)T(yXw^)

Ew^=(yXw^)T(yXw^) ,对 w^ 求导得到
Ew^w^=2XT(Xw^y)

XTX 满秩矩阵时,令上式为零可得
w^=(XTX)1XTy
x^i=(xi;1) ,则最终学得的多元线性回归模型为
f(x^i)=x^Ti(XTX)1XTy

然而,现实任务中 XTX 往往不是满秩矩阵,此时可解出多个 w^ 。选择哪一个解作为输出,将由悬系算法的归纳偏好决定,常见的做法是引入正则化项。

线性模型的变形
线性模型的预测值逼近真是标记y时,就得到线性回归模型。
线性回归模型简写为

y=wTx+b

令模型预测值逼近y的衍生物,例如: lny=wTx+b ——”对数线性回归”,实质上在求取输入空间到输出空间的非线性函数映射。

广义线性模型
考虑单调可微函数g(.),令 y=g1(wTx+b)

3.3 对数几率回归

上一节讨论使用线性模型进行回归学习,对于分类任务,只需找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。
对于二分类任务,可通过“单位阶跃函数”把线性回归模型产生的预测值 z=wTx+b 对应到输出标记 y{0,1}

y=0,0.5,1,z<0;z=0;z>0;

但是单位阶跃函数不连续,不可直接作为“广义线性模型”中的 g(.) ,可用对数几率函数
y=11+ez
替代之。

对数几率函数是一种“Sigmoid函数”,它将z值转化为一个接近0或1的y值,并且其输出值在z=0附近变化很陡。
将对数几率函数代入

y=11+e(wTx+b).(1)lny1y=wTx+b

若将y视为样本 x 作为正例的可能性,则1-y时期反例可能性,故“对数几率”为:
lny1y

小结:(1)式是在用线性回归模型的预测结果去逼近真实标记的对数几率,因此,其对应的模型称为“对数几率回归”,是一种分类学习方法。
优点:
- 直接对分类可能性进行建模,无需实现假设数据分布,这样就避免了假设分布不准确所带来的问题。
- 不仅预测出“类别”,还可得到近似概率预测。
- 对率函数是任意阶可导的凸函数,现有的许多数值优化算法都可直接用于求取最优解。

确定(1)中的w和b(这里不太懂)
若将式(1)中的y视为类后验概率估计p(y=1|x),则

lnp(y=1|x)p(y=1|x)=wTx+bp(y=1|x)=ewTx+b1+ewTx+bp(y=1|x)=11+ewTx+b

于是,通过“极大似然法”估计w和b。对率回归模型最大化“对数似然”
l(w,b)=i=1mlnp(yi|xi;w,b)(2)
即令每个样本属于其真实标记的概率越大越好。
为便于讨论,令 β=(w,b),x^=(x;1), wTx+b 可简写为 βTx^ .再令 p1(x^;β)=p(y=1|x^;β),p0(x^;β)=p(y=0|x^;β)=1p1(x^;β) ,则(2)式中的似然项可重写为
p(yi|xi;w,b)=yip1(x^i;β)+(1yi)p0(x^i;β)

最小化(2)式等价于最小化
l(β)=i=1m(yiβTx^i+ln(1+eβTx^i))

3.4 线性判别分析

Linear Discriminant Analysis,LDA 一种经典的线性学习方法,用于二分类问题。亦乘“Fisher”判别分析。
LDA思想:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。

假设条件:给定数据集 D={(xi,yi)}mi=1,yi{0,1} ,令 XiμiΣi 分别表示第 i{0,1} 类示例的集合、均值向量、协方差矩阵。
思想实现:欲使同类样例的投影点尽可能接近,可以让同类样例投影点的协方差尽可能小,即 wTΣ0w+wTΣ1w 尽可能小;而欲使异类样例的投影点尽可能远离,可以让类中心之间的距离尽可能大,即 ||wTμ0wTμ1||22 尽可能大。即最大化下式

J=wTμ0wTμ1||22wTΣ0w+wTΣ1w(3)
定义“类内散度矩阵”
Sw=Σ0+Σ1=xX0(xμ0)(xμ0)T+xX1(xμ1)(xμ1)T

以及“类间散度矩阵”
Sb=(μ0μ1)(μ0μ1)T

则式(3)可重写为
J=wTSbwwTSww

这就是LDA欲最大化的目标,即 Sb Sw 的“广义瑞利商”

你可能感兴趣的:(《机器学习》——读书笔记2)