《统计学习方法》——第6章 逻辑斯蒂回归与最大熵模型

第六章逻辑斯蒂回归与最大熵模型

  • 逻辑斯蒂回归是统计学习中的经典分类方法。
  • 最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型。
  • 逻辑斯蒂回归模型与最大熵模型都属于对数线性模型。

6.1 逻辑斯蒂回归模型

6.1.1 逻辑斯蒂分布

  • x服从逻辑斯蒂分布是指满足以下分布函数和密度函数

6.1.2 二项逻辑斯蒂回归模型

  • 是一种分类模型,由条件概率分布P(Y|X)表示。

  • 是如下的条件概率分布:

  • 逻辑斯蒂回归比较两个条件概率值的大小。将实例x分到概率值较大的那一类。

  • 有时为了方便,将权值向量和输入向量加以扩充。这时逻辑斯蒂回归模型就变成了这样:

  • 逻辑斯蒂回归模型:一个事件的机率是指该事件发生的概率与该事件不发生的概率的比值。如果事情发生的概率是p。那么该事件的几率是p/1-p,那么该事件的对数几率或logit函数是

    这就是说,在逻辑斯蒂回归模型中,输出Y=1的对数几率是输入x的线性函数。或者说,输出Y=1的对数几率是由输入x的线性函数表示的模型,即逻辑斯蒂回归模型。

  • 可以将线性函数w·x转化为概率

    这时,线性函数的值越接近正无穷,概率值就越接近1;线性函数的值越接近负无穷,概率值就越接近0。这样的模型就是逻辑斯蒂回归模型。

  • 形如上图的分布函数F(x)

6.1.3 模型参数估计

  • 对于给定的训练数据集,可以应用极大似然估计法估计模型参数,从而得到逻辑斯蒂回归模型。

    对L(w)求极大值,得到w的估计值。

    这样问题就变成了以对数似然函数为目标函数的最优化问题。

    逻辑斯蒂回归学习中通常采用的方法是梯度下降法及拟牛顿法。

6.1.4 多项逻辑斯蒂回归

  • 上面介绍的逻辑斯蒂回归模型是二项分类模型,用于二分分类。可以将其推广为多项逻辑斯蒂回归模型,用于多分类。

  • 多项逻辑斯蒂回归模型是

6.2 最大熵模型

6.2.1 最大熵原理

  • 学习概率模型时,在满足约束条件的模型集合中选取熵最大的模型。

  • 假设离散随机变量X的概率分布是P(X)。则其熵是:

  • 举个例子来理解一下。以下概率学习的方法正是遵循了最大熵原理。

  • 一般的模型可以有无穷多个解,但是如果给了约束条件之后,符合条件的模型就会变少。学习的目的是在可能的模型集合中选择最优模型。

  • 而最大熵原理则给出最优模型选择的一个准则。

6.2.2 最大熵模型的定义

  • 给定一个训练数据集,学习的目标是用最大熵原理选择最好的分类模型。

  • 给定训练数据集,可以确定联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布。

  • 特征函数f(x,y)描述输入x和输出y之间的某一个事实。其定义是

  • 假设两个期望值相等。

  • 最大熵模型定义。

6.2.3 最大熵模型的学习

  • 学习过程就是求解最大熵模型的过程。学习可以形式化为约束最优化问题。

  • 最大熵模型学习的具体推导过程:略。

    用到了拉格朗日函数L(P,w),最优化的原始问题,对偶问题。

6.2.4 极大似然估计

  • 最大熵模型是由以下两个函数表示的条件概率分布。

  • 最大熵模型与逻辑斯蒂回归模型有类似的性质,他们又称为对数线性模型。

    模型学习就是在给定的训练数据条件下对模型进行极大似然估计和正则化的极大似然估计。

6.3 模型学习的最优化算法

  • 常见的改进方法有迭代尺度法,梯度下降法,牛顿法或拟牛顿法。

6.3.1 改进的迭代尺度法IIS算法

  • IIS是一种最大熵模型学习的最优化算法。

6.3.2 拟牛顿法BFGS算法

第六章概要

你可能感兴趣的:(机器学习,读书笔记)