逻辑斯谛回归与最大熵模型

逻辑斯谛回归与最大熵模型

  • 逻辑斯谛回归模型
  • 最大熵模型
  • 最大熵模型的学习

逻辑斯谛回归(logistic regression)是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型(maximum entropy model)。逻辑斯谛回归模型与最大熵模型都属于对数线性模型。

逻辑斯谛回归模型

  1. 逻辑斯谛分布:设 是连续随机变量, 服从逻辑斯谛分布是指 具有下列分布函数和密度函数

    式中, 为位置参数, 为形状参数。

  2. 逻辑斯谛分布函数,其图像是一条 S 形曲线。该曲线以点 为中心对称,即满足

    逻辑斯谛回归与最大熵模型_第1张图片

    曲线在中心附近增长速度较快,在两端增长速度较慢。形状参数 的值越小,曲线在中心附近增长得越快。

  3. 二项逻辑斯谛回归模型(binomial logistic regression model)是一种分类模型,由条件概率分布 表示,形式为参数化的逻辑斯谛分布。这里,随机变量 取值为实数,随机变量 取值为1或0。我们通过监督学习的方法来估计模型参数。

  4. 二项逻辑斯谛回归模型是如下的条件概率分布:

    这里, 是输入, 是输出, 和 是参数, 称为权值向量, 称为偏置, 为 和 的内积。

  5. 逻辑斯谛回归比较两个条件概率值的大小,将实例 分到概率值较大的那一类。

  6. 为了方便,将 ,,这时,逻辑斯谛回归模型如下:


  7. 一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是 ,那么该事件的几率是 ,该事件的对数几率(log odds)或 logit 函数是

    对逻辑斯谛回归而言

    这就是说,在逻辑斯谛回归模型中,输出 的对数几率是输入 的线性函数。或者说,输出 的对数几率是由输入 的线性函数表示的模型,即逻辑斯谛回归模型。

  8. 给定训练数据集 ,其中 ,,可以应用极大似然估计法估计模型参数,从而得到逻辑斯谛回归模型。
    设 ,
    似然函数为

    对数似然函数为
    \begin{array} \ L(\omega) &=& \sum_{i=1}^N[y_i\log \pi(x_i) + (1-y_i)\log(1-\pi(x_i))] \\ &=& \sum_{i=1}^N [y_i \log\frac{\pi(x_i)}{1-\pi(x_i)}+\log(1-\pi(x_i)] \\ &=& \sum_{i=1}^N[y_i(\omega \cdot x_i)-\log(1+\exp(\omega\cdot x_i))] \end{array}
    对 求极大值,就得到 的估计值。
    这样,问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法。

  9. 二分类逻辑斯谛模型,可以将其推广为多项逻辑斯谛回归模型(multi-nominal logistic regression model),用于多类分类。

最大熵模型

  1. 最大熵原理是概率模型学习的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。

  2. 假设离散随机变量 的概率分布式 ,则其熵是

    熵满足以下不等式

    式中, 是 取值的个数,当且仅当 的分布式均匀分布时右边的等号成立。也就是说, 服从均匀分布时,熵最大。

  3. 直观地,最大熵原理认为要选择的概率模型首先必须满足已有的事实,即约束条件。在没有更多信息的情况下,那些不确定的部分都是“等可能的”。

  4. 等概率表示了对事实的无知。

  5. 给定训练数据集 ,确定联合分布 的经验分布和边缘分布 的经验分布,分别以 和 表示

    其中, 表示训练数据中样本 出现的频数, 表示训练数据中输入 出现的频数。 表示训练样本容量。

  6. 用特征函数 描述输入 和输出 之间的某一个事实。

    它是一个二值函数。

  7. 特征函数 关于经验分布 的期望值,用 表示

    特征函数 关于模型 与经验分布 的期望值,用 表示

    如果模型能够获取训练数据中的信息,那么就可以假设 ,我们将该假设作为模型学习的约束条件。如果有多个特征函数,那么就会有多个约束条件。

  8. 最大熵模型定义: 假设满足所有约束条件的模型集合为

    定义在条件概率分布上的条件熵为

    则模型集合 中条件熵 最大的模型称为最大熵模型。式中的对数为自然对数。

最大熵模型的学习

  1. 对于给定的训练数据集 以及特征函数 ,,最大熵模型的学习等价于约束最优化问题

    将最大值问题改写为等价的最小值问题

    将约束最优化的原始问题转换为无约束最优化的对偶问题
    引入拉格朗日乘子 ,定义拉格朗日函数
    \begin{array} \ L(P, \omega) & = & -H(p) + \omega_0(1-\sum_yP(y\mid x)) + \sum_{i=1}^n\omega_i(E_{\hat{P}}(f_i)-E_P(f_i)) \\ & = & \sum_{x,y}\hat{p}(x)P(y|x)\log P(y|x) + \omega_0(1-\sum_yP(y\mid x)) + \sum_{i=1}^n\omega_i(E_{\hat{P}}(f_i)-E_P(f_i)) \end{array}
    最优化的原始问题是

    对偶问题是

    由于拉格朗日函数 是 的凸函数,原始问题的解与对偶问题的解释等价的。这样可以求解对偶问题来求解原始问题。
    求解对偶问题内部极小化问题 ,该函数是 的函数,将其记作

    称为对偶函数。同时,将其解记作

    具体地,求 对 的偏导数
    \begin{array} \ \frac{\partial L(P, \omega)}{\partial P(y\mid x)} & = & \sum_{x,y}\hat{P}(x)(\log P(y\mid x) + 1) - \sum_y \omega_0 - \sum_{x,y}(\hat{P}(x)\sum_{i=1}^n \omega_if_i(x, y)) \\ & = & \sum_{x,y}\hat{P}(x)(\log P(y\mid x) + 1 -\omega_0 -\sum_{i=1}^n \omega_if_i(x, y) ) \end{array}
    令偏导数等于 0,在 的情况下解得

    由于 得

    其中,

    称为规范化因子; 是特征函数; 是特征的权值。
    之后,对解对偶问题外部的极大化问题

    将其解记为

    这就是说,可以应用最优化算法求对偶函数 的极大化,得到 ,用来表示 。这里, 是学习到的最优模型(最大熵模型)。也就是说,最大熵模型的学习归结为对偶函数 的极大化。

你可能感兴趣的:(逻辑斯谛回归与最大熵模型)