《统计学习方法》第六章逻辑斯蒂回归与最大熵模型学习笔记

一、逻辑斯蒂回归模型

1. 二项逻辑斯蒂回归模型

二项逻辑斯蒂回归模型是如下的条件概率分布:

P(Y=1|x)=exp(wx+b)1+exp(wx+b)

P(Y=0|x)=11+exp(wx+b)

注意: P(Y=1|x) 模型也经常写成 hθ(x)=11+exp(θTx)
事件的 几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。
如果事件发生的概率是p,那么该事件的几率是 P1P ,该事件的对数几率(log odds)或logit函数是: logit(P)=logp1p
逻辑回归的对数几率是:
log(P(Y=1|x)1P(Y=1|x))=wx

意义:在逻辑斯蒂回归模型中,输出Y=1的对数几率是输入x的线性函数。或者说,输出Y=1的对数几率是由属于x的线性函数表示的模型,即逻辑斯蒂回归模型。(这里需要再理解下
  感知机只通过决策函数( wx )的符号来判断属于哪一类。逻辑斯蒂回归需要再进一步,它要找到分类概率 P(Y=1) 与输入向量x的直接关系,再通过比较概率值来判断类别。
令决策函数( wx )输出值等于概率值比值取对数,即:
logp1p=wxp=exp(wx+b)1+exp(wx+b)

逻辑斯蒂回归模型的定义式 P(Y=1|x) 中可以将线性函数 wx 转换为概率,这时,线性函数的值越接近正无穷,概率值就越接近1;线性函数的值越接近负无穷,概率值就接近0.

2. 模型参数估计

应用极大似然法进行参数估计,从而获得逻辑斯蒂回归模型。极大似然估计的数学原理参考这里。
设: P(Y=1|x)=π(x),P(Y=0|x)=1π(x)
似然函数为:

i=1N[π(xi)]yi[1π(xi)]1yi

上式连乘符号内的两项中,每个样本都只会取到两项中的某一项。若该样本的实际标签 yi=1 ,取样本计算为1的概率值 π(xi) ;若该样本的实际标签 yi=0 ,取样本计算的为0的概率值 1π(xi)
对数似然函数为:
L(w)====i=1N[yilogπ(xi)+(1yi)log(1π(xi))]i=1N[yilogπ(xi)1π(xi)+log(1π(xi))]i=1N[yi(wxi)+log11+exp(wxi)]i=1N[yi(wxi)log(1+exp(wxi))]

对上式中的 L(w) 求极大值,得到 w 的估计值。
问题转化成以对数似然函数为目标函数的无约束最优化问题,通常采用梯度下降法以及拟牛顿法求解 w
假设 w 的极大估计值是 wˆ ,那么学到的逻辑斯蒂回归模型为:
P(Y=1|x)=exp(wˆx)1+exp(wˆx)

P(Y=0|x)=11+exp(wˆx)

3. 多项逻辑斯蒂回归

多项逻辑斯蒂回归用于多分类问题,其模型为:

P(Y=k|x)=exp(wkx)1+k=1K1exp(wkx),k=1,2,,K1

P(Y=K|x)=11+k=1K1exp(wkx)

上面的公式和二分类的类似,式中 k 的取值只能取到 K1

4. 交叉熵损失函数的求导

逻辑回归的另一种理解是以交叉熵作为损失函数的目标最优化。交叉熵损失函数可以从上文最大似然推导出来。
交叉熵损失函数为:

y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))

则可以得到目标函数为:
J(θ)==1mi=1my(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))1mi=1m[y(i)θTx(i)log(1+eθTx(i))]

计算J(θ)对第j个参数分量 θj 求偏导:

θjJ(θ)====θj(1mi=1m[log(1+eθTx(i))y(i)θTx(i)])1mi=1m[θjlog(1+eθTx(i))θj(y(i)θTx(i))]1mi=1mx(i)jeθTx(i)1+eθTx(i)y(i)x(i)j1mi=1m(hθ(x(i))y(i))x(i)j

你可能感兴趣的:(统计学习方法,机器学习)