统计学习方法——第6章 logistics回归与最大熵模型

介绍(Introduction):

       logistics回归是统计学习方法中的经典分类方法。最大熵是概率模型学习的一个准则。将其推广到分类问题得到最大熵模型(Maxmium Entorpy Model)。logistics回归和最大熵模型都是线性对数模型。

6.1 logistics回归模型:

logistics 分布(logistics distribution)

      分布函数:F(x) = P(X\leq x) = \dfrac{1}{1+\exp(-(x-u)/\lambda ))}

      概率密度:f(x) = F'(x)=\dfrac{\exp(-(x-u)/\lambda )}{\gamma(1+\exp(-(x-u)/\lambda)) )^2}

统计学习方法——第6章 logistics回归与最大熵模型_第1张图片

二项logistics回归

P(Y=1|x)=\dfrac{e^{(w.x)}}{1+e^{w.x}} ,   P(Y=0|x)=\dfrac{1}{1+e^{w.x}}, 其中w = (w^{(1)}, w^{(2)}, ...,w^{(n)}, b)^T,x = (x^{(1)}, x^{(2)}, ...,x^{(n)}, 1)^T

几率(odds):事件发生的概率和不发生的概率的比值,对数几率为:\log\dfrac{p}{1-p}=\log(e^{w.x})=w.x,即输出Y=1的对数几率是x的线性函数

极大似然法参数估计

设:P(Y=1|x)=\pi(x), 则似然函数为:\prod_{i=1}^{N}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i},其中y_i \in \{0, 1 \}

对数似然函数: \small L(w)=\sum_i^Ny_i\log(\pi(x_i))+(1-y_i)\log(1-\pi(x_i))=\sum_i^Ny_i(w.x_i)\log(1+e^{(w.x_i)})

最优化对数似然函数\small L(w)的方法有梯度下降法和拟牛顿法

6.2 最大熵模型

       最大熵模型:在所有可能的概率模型中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵原理可以表述为在满足约束条件下选择熵最大的模型。可以证明,当且仅当变量\small X服从均匀分布时,熵最大。

联合概率分布\small P(X,Y)和边缘分布\small P(X)的经验分布分别为\small \tilde{P}(X,Y)\small \tilde{P}(X)\small \tilde{P}(X,Y)=\dfrac{v(X=x,Y=y)}{N} \small \tilde{P}(X)=\dfrac{v(X=x)}{N},

特征函数\small f(x,y)描述\small x\small y的某一事实。记为:\small f(x)=\left\{\begin{matrix} &1 \ \ \ x,y\ exist\ fact& \\ &0 \ \ \ otherwise\ \ \ \ \ \ & \end{matrix}\right.

关于经验分布\small \tilde{P}(X,Y)的期望记为:\small E_{\tilde{P}}(f)=\sum_i^N\tilde{P}(x,y)f(x,y),

关于经验分布\small \tilde{P}(X)的期望记为: \small E_{P}(f)=\sum_i^N\tilde{P}(x)P(y|x)f(x,y)

条件约束满足:\small E_{\tilde{P}}(f)=E_{P}(f)

条件熵最大的熵模型:\small H(P)=-\sum_i^N\tilde{P}(x)P(y|x)\log P(y|x) s.t \small E_{\tilde{P}}(f)=E_{P}(f)\small \sum_yP(y|x)=1的最优化问题:

              max_{P\in C}H(P)=-\sum_{(x,y)}\tilde{P}(x)P(y|x)\log P(y|x)=min_{P \in C}\sum_{(x,y)}\tilde{P}(x)P(y|x)\log P(y|x)

条件熵最大的最大熵模型求解方法:拉格朗乘数法:

                           L(P,w)=-H(P)+w_0(1-\sum_yP(y|x))+\sum_i^Nw_i(E_{\tilde{P}}(f_i)-E_P(f_i))

最优化原始问题\min_P\max_wL(P,w)的对偶问题\max_w\min_PL(P,w)。对P求导,令倒数为0,结合约束条件2,求得:

P(y|x)=\exp{\sum_i(w_if_i(x,y))+w_0-1)}=\dfrac{\exp\sum_i(w_if_i(x,y)}{\exp{(1-w_0)}},  \small \sum_yP(y|x)=1, 得:

P_w(y|x)=\dfrac{\exp\sum_i(w_if_i(x,y)}{Z_w(x)},其中,Z_w(x)=\sum_y\exp{(\sum_iw_if_i(x,y))}称为泛化因子。

结论:对偶函数的极大化等价于最大熵模型的极大似然估计

6.3 模型优化算法

改进的迭代尺度法(imporved iterative scaling, IIS)

        输入:特征函数f_1,f_2,...,f_n,经验分布\small \tilde{P}(X,Y)和模型P_w(y|x)

        输出:最优参数值w_i^*和最优模型P_w.

        (1) 对所有i \in \{1, 2, ..., n \},取初值w_i=0

        (2) 对每一个i \in \{1, 2, ..., n \},a: 令\delta_i是方程\small \sum_{x,y}\tilde{P}(x)P(y|x)f_i(x,y)\exp(\delta_i\sum_i^nf_i(x,y)=E_{\tilde{P}}(f)的解,b:更新\small w_i\leftarrow w_i+\delta_i

        (3) 如果不是所有\small w_i都收敛,重复(2)。

拟牛顿法(BFGS):

        输入:特征函数f_1,f_2,...,f_n,经验分布\small \tilde{P}(X,Y),目标函数\small f(w),梯度\small g(w)=\triangledown f(w),精度\small \epsilon

        输出:最优参数值w_i^*和最优模型P_w.

统计学习方法——第6章 logistics回归与最大熵模型_第2张图片

6.4 logistics回归与朴素贝叶斯:

      相同点:

            都是对数特征的线性函数,都属于概率模型;

     不同点:

          A:logistics回归是判别模型,最大化判别函数\small P(y|x),不需要知道\small P(x|y)\small P(y)

                 朴素贝叶斯是生成模型,首先计算先验\small P(y)和似然函数\small P(x|y),最后生成概率\small P(y|x)

          B:在独立同分布假设条件下,朴素贝叶斯和logistics均具有较好的表达能力,当数据不满足\small i.i.d条件时,logistics通过调                  整参数仍能得到优化解

          C:朴素贝叶斯数据需求量为\small O(\log N),logistics回归数据需求量为\small O(N)

          D:朴素贝叶斯不需要调参,优化更简单。

你可能感兴趣的:(机器学习,统计学习方法,logistics回归)