李航·统计学习方法笔记·第6章 logistic regression与最大熵模型(1)·逻辑斯蒂回归模型

第6章 logistic regression与最大熵模型(1)·逻辑斯蒂回归模型

标签(空格分隔): 机器学习教程·李航统计学习方法


  • 第6章 logistic regression与最大熵模型1逻辑斯蒂回归模型
  • Logistic distribution
    • 1 一维逻辑斯蒂分布的数学定义
    • 2 logistic分布的均值和方差
    • 3 何时需要用到Logistic分布
  • 二项逻辑斯蒂回归模型及其特点
    • 1 二项逻辑斯蒂回归模型
    • 2 二项逻辑斯蒂回归模型的特点
  • 二项逻辑斯蒂回归模型参数的估计
  • 多项逻辑斯蒂回归
  • 二项逻辑斯蒂回归和多项逻辑斯蒂回归
  • 参考文献

逻辑斯蒂logistic
李航书中称之为:逻辑斯蒂回归模型
周志华书中称之为:对数几率回归模型
Andrew NG书中称之为:逻辑回归
……好吧!好多不同的名称,其实都是一种方法,晕了好久……


为了利用逻辑斯蒂分布去进行回归问题的分析,首先,必须知道什么是逻辑斯蒂分布,所以,本节主要讨论逻辑斯蒂分布,它是一个连续分布,与高斯分布非常像;

1 Logistic distribution

The Logistic distribution is a continuous probability density function that is symmetric
and uni-modal. It is similar in appearance to the Normal distribution and in practical
applications, the two distributions cannot be distinguished from one another.

1.1 一维逻辑斯蒂分布的数学定义

  • 分布函数
    F(x)=11+e(xμ)/σ

    注1:也可以写成
    F(x)=e(xμ)/σe(xμ)/σ+1

    注2:分布函数(即概率累积函数)的导数
    F(x)=(1+e(xμ)/σ)(1+e(xμ)/σ)2=(1σ)e(xμ)/σ(1+e(xμ)/σ)2=1σe(xμ)/σ(1+e(xμ)/σ)2
  • 概率密度函数
    f(x)=1σe(xμ)/σ(1+e(xμ)/σ)2

    李航·统计学习方法笔记·第6章 logistic regression与最大熵模型(1)·逻辑斯蒂回归模型_第1张图片
  • logistic涉及两个参数
    • μ :location,控制分布函数的中心位置,或者说是概率密度函数对称轴的位置
      李航·统计学习方法笔记·第6章 logistic regression与最大熵模型(1)·逻辑斯蒂回归模型_第2张图片
    • σ :scale,该参数控制着 f(x) 的宽和高;其值越大, f(x) 越矮越胖
      李航·统计学习方法笔记·第6章 logistic regression与最大熵模型(1)·逻辑斯蒂回归模型_第3张图片
      注:其实该参数 σ 与正态分布的 σ 含义相同,只不过相差了一个系数 π23 (这个数字来自于logistic distribution的方差),

1.2 logistic分布的均值和方差

  • 均值:
    E(x)=μ
  • 方差:
    Var(x)=13(πσ)2
  • 考察高斯分布 N(μ,σ2) ,它的均值为 μ ,方差为 σ2
    • 可以看到,logistic分布的方差 σ2π23 与高斯分布方差只是差了一个常数项 π23
    • 所以说,logistic分布与高斯分布非常相似
    • 如下图所示,分别绘制出了参数为(0,1)的logistic分布和参数为(0, π23 )的高斯分布的密度函数,此时,二者的方差取值相同(都为 π23 ),可以看到,此时的logistic概率密度函数和高斯函数概率密度函数非常接近
      李航·统计学习方法笔记·第6章 logistic regression与最大熵模型(1)·逻辑斯蒂回归模型_第4张图片

1.3 何时需要用到Logistic分布

李航·统计学习方法笔记·第6章 logistic regression与最大熵模型(1)·逻辑斯蒂回归模型_第5张图片

  • 由于logistic分布的分布函数(S型)的良好的数学性质,使得它的概率密度函数具有对称性,从而,经常使用logistic分布区近似其他具有对称概率密度函数的分布

  • logistic分布的这种S-shapesd的分布,称为Logistic regression model,其用来对某个输入最可能的输出进行预测

  • logistic CDF(分布函数、cumulative distribution function)的S-shaped曲线,实际上可以描述了某一个事件发生的可能性

2. 二项逻辑斯蒂回归模型及其特点

2.1 二项逻辑斯蒂回归模型

  • 上面讨论了逻辑斯蒂分布,接下来将该分布应用到机器学习的分类问题中!
  • 假设我们要解决的问题为一个二分类问题,那么,可以利用逻辑斯蒂分布来对二分类模型建模,即对于一个样本x,它的类别要么为1,要么为0,我们设定它为1的概率为逻辑斯蒂分布中的概率分布形式,那么,它为0的概率也就是1-P(y=0);
  • 这里的“二项”一词,与二项分布的意义相同(一次试验的结果要么为1要么为0),一个样本类别要么为1要么为0
  • 二项逻辑斯蒂回归模型的应用场景
    两类分类问题,期 Y{1,0}
    另:样本 x 具有n个特征,即 xRn

  • 二项逻辑斯蒂回归模型具体形式

    P(Y=1|x)=exp(wx+b)1+exp(wx+b)P(Y=0|x)=11+exp(wx+b)

    • 注1: P(Y=1|x)+P(Y=0|x)=1
    • 注2:上面的二项逻辑斯蒂回归模型其实就是一个二项分布的形式,即一次试验的结果要么为1、要么为0,其中,结果为1的概率利用逻辑斯蒂分布给出
  • 最终类别的判定
    对于给定的样本 x ,利用二项逻辑斯蒂回归模型计算该样本类别为1和0的概率,然后,将样本 x 分类到概率较大的那一类

  • 二项逻辑斯蒂回归模型的紧凑形式:对输入向量进行扩充,添加一个1,从而,可以将参数向量 w 和偏移量 b 写在一起,仍记为 w ,此时,逻辑回归模型为:

    P(Y=1|x)=exp(wx)1+exp(wx)P(Y=0|x)=11+exp(wx)

    注: wx+b=w1x1++wnxn+b=(w1,,wn,b)T(x1,,xn,1)=wx ,新的 w 仍记做 w

2.2 二项逻辑斯蒂回归模型的特点

  • 首先,给出“几率”的定义:某个事件发生的概率为 p ,那么,该事件的几率为 p1p (发生的概率与不发生的概率之比)

  • 接下来分析二项逻辑斯蒂模型中的第一项 P(Y=1|x)=exp(wx)1+exp(wx)

    • 经分析发现: P(Y=1|x)1P(Y=1|x)=ewx ,则有: log(P(Y=1|x)1P(Y=1|x))=wx
      其中, log(P(Y=1|x)1P(Y=1|x)) 称为对数几率
    • 也就是说,输出Y=1对应的对数几率是由输入x的线性函数表示的模型 wx
  • 从另外一个角度:对输入x的线性函数 wx 进行逻辑斯蒂函数计算,得到该样本属于Y=1的概率

3. 二项逻辑斯蒂回归模型参数的估计

经过前面分析可以看到,二项逻辑斯蒂回归模型具体形式为:

P(Y=1|x)=exp(wx)1+exp(wx)P(Y=0|x)=11+exp(wx)

该模型具有一个位置的参数向量 w ,那么如何能够利用训练数据集求得该参数向量?最直观的方式就是利用极大似然估计:

  • 对于某一个输入样本 x ,它的类别为 y ,那么,它取得 y 的概率到底为多大呢?根据逻辑斯蒂回归模型的定义,这个概率与y的具体取值有关:
    y=1p=exp(wx)1+exp(wx)π(x)y=0p=11+exp(wx)1π(x)
  • 上式可以写为一个紧凑的形式,即
    p=π(x)y[1π(x)]1y
  • 即对于逻辑斯蒂回归模型而言,某个输入样本 x 对应的输出为 y 的概率为 p=π(x)y[1π(x)]1y
  • 基于极大似然估计的思想:给定 N 个样本,最优的参数应该是使得这给定的 N 个样本的联合概率密度 Ni=1pi (即似然函数)取得最大的参数w^*,即
    w=argmaxwi=1Npi=argmaxwi=1Nπ(xi)yi[1π(xi)]1yi
  • 具体实现中,不直接最大化 N 个样本的似然函数,而是利用对数似然函数的最大化
    w=argmaxwlog(i=1Npi)

    其中,
    L(w)=log(i=1Npi)=i=1Nlogpi=i=1Nlog(π(xi)yi[1π(xi)]1yi)=i=1Nyilogπ(xi)+(1yi)log[1π(xi)]=i=1Nyilog(π(xi))yilog(1π(xi))+log(1π(xi))=i=1Nyilog(π(xi)1π(xi))+log(1π(xi))

    再将 π(x) 代入,可以得到
    L(w)=i=1N[yi(wxi)log(1+exp(wxi))]
  • 最终
    w=argmaxwL(w)=argmaxwi=1N[yi(wxi)log(1+exp(wxi))]
  • 得到的最终模型即为
    P(Y=1|x)=exp(wx)1+exp(wx)P(Y=0|x)=11+exp(wx)

    李航·统计学习方法笔记·第6章 logistic regression与最大熵模型(1)·逻辑斯蒂回归模型_第6张图片

4 多项逻辑斯蒂回归

二项逻辑斯蒂回归模型用于且仅能用于2类分类问题,如果是多类分类问题,需要对二项逻辑斯蒂回归模型进行拓展,得到多项逻辑斯蒂回归模型

  • 对于某一个输入样本 x ,它的输出类别的取值可能有多个(K个),此时,不能再用二项分布来描述这种分布了,而是需要利用多项式分布来描述类别的分布
  • 取得每一个类别的概率还是以逻辑斯蒂分布的形式描述
  • 李航·统计学习方法笔记·第6章 logistic regression与最大熵模型(1)·逻辑斯蒂回归模型_第7张图片

5 二项逻辑斯蒂回归和多项逻辑斯蒂回归

  • 二项逻辑斯蒂回归:它可能的取值为二项分布(0-1)分布,取得每一个数值的概率可以利用逻辑斯蒂分布表示
可能的取值 1 0
概率 exp(wx)1+exp(wx) 11+exp(wx)
解释 逻辑斯蒂分布函数的形式 1- 逻辑斯蒂分布函数的形式
  • 多项逻辑斯蒂回归:它可能的取值为多项式分布,取得每一个数值的概率可以利用逻辑斯蒂分布表示
可能的取值 1 2 …. K
概率 exp(w1x)1+exp(w1x++wK1x) exp(w2x)1+exp(w1x++wK1x) …. 11+exp(w1x++wK1x)
解释 逻辑斯蒂分布函数的形式 逻辑斯蒂分布函数的形式 …. 1- 逻辑斯蒂分布函数的形

参考文献

[1] Logistic Distribution - Paul Johnson.PDF
or
[2] 统计学习方法·李航·6.1
[3] Introduction to Probability, Statistics, and Random Processes by Hossein Pishro-Nik


你可能感兴趣的:(机器学习_machine,learning,机器学习)