【统计学习方法】第六章 逻辑回归与最大熵模型

文章目录

  • 基础概念
  • 第六章 逻辑回归与最大熵模型
    • 1. 逻辑回归模型
      • 1.1 逻辑斯谛分布
      • 1.2 二项逻辑斯谛回归模型
      • 1.3 模型参数估计
      • 1.4 多项逻辑斯谛回归
    • 2. 最大熵模型
    • 3. 模型学习的最优化算法(略)
      • 3.1 改进迭代尺度法
      • 3.2 拟牛顿法

基础概念

逻辑回归与最大熵模型都属于对数线性模型

 

第六章 逻辑回归与最大熵模型

 

1. 逻辑回归模型

1.1 逻辑斯谛分布

【统计学习方法】第六章 逻辑回归与最大熵模型_第1张图片

1.2 二项逻辑斯谛回归模型

二项逻辑回归模型是一种分类模型,描述的是条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX),随机变量X取值为实数,随机变量Y取值为0或1,逻辑回归模型是如下的条件概率分布:(有时为了简单,也直接把 w x + b wx+b wx+b简写成 w x wx wx
P ( Y = 1 ∣ x ) = e x p ( w x + b ) 1 + e x p ( w x + b ) P(Y=1|x)=\frac{exp(wx+b)}{1+exp(wx+b)} P(Y=1x)=1+exp(wx+b)exp(wx+b)
P ( Y = 0 ∣ x ) = 1 1 + e x p ( w x + b ) P(Y=0|x)=\frac{1}{1+exp(wx+b)} P(Y=0x)=1+exp(wx+b)1
逻辑回归比较两个条件概率值的大小,将实例x分到概率值较大的那一类。

现在考虑逻辑回归的特点:
一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是p,那么该事件的几率是 p 1 − p \frac{p}{1-p} 1pp,改时间的对数几率(log odds)或logit函数是:
l o g i t ( p ) = l o g p 1 − p logit(p)=log\frac{p}{1-p} logit(p)=log1pp
对逻辑回归而言,
l o g P ( Y = 1 ∣ x ) 1 − P ( Y = 1 ∣ x ) = w x log\frac{P(Y=1|x)}{1-P(Y=1|x)}=wx log1P(Y=1x)P(Y=1x)=wx
也就是说,在逻辑回归模型中,输出 Y = 1 Y=1 Y=1的对数几率是输入x的线性函数。或者说,输出 Y = 1 Y=1 Y=1的对数几率是由输入x的线性函数表示的模型,即逻辑回归模型。

1.3 模型参数估计

逻辑回归模型学习时,对于给定的训练集 T = ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)} T=(x1,y1),(x2,y2),...,(xN,yN),可以用极大似然估计法来估计模型参数,从而得到逻辑回归模型。
步骤:

  1. 写出似然函数(或对数似然函数)
  2. 问题转换成了以似然函数(对数似然函数)作为目标函数的最优化问题,使用梯度下降法拟牛顿法求解。
  3. 得到模型参数的估计值后,代入逻辑回归模型。

1.4 多项逻辑斯谛回归

前面的模型是二分类模型,可以推广为多分类模型,假设随机变量Y的取值集合为 1 , 2 , 3 , . . . K {1,2,3,...K} 1,2,3,...K,多项逻辑回归模型是:
P ( Y = k ∣ x ) = e x p ( w k ) 1 + ∑ k = 1 K − 1 e x p ( w k x ) P(Y=k|x)=\frac{exp(w_k)}{1+\sum_{k=1}^{K-1}exp(w_kx)} P(Y=kx)=1+k=1K1exp(wkx)exp(wk)
P ( Y = K ∣ x ) = 1 1 + ∑ k = 1 K − 1 e x p ( w k x ) P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}exp(w_kx)} P(Y=Kx)=1+k=1K1exp(wkx)1

 

2. 最大熵模型

最大熵原理:在满足约束条件的模型集合中,选取熵最大的模型
最大熵模型的定义:首先确定所有约束条件的模型集合,然后定义条件熵,在模型集合中,条件熵最大的模型称为最大熵模型。
对偶函数的极大化等价于最大熵模型的极大似然估计。

 

3. 模型学习的最优化算法(略)

3.1 改进迭代尺度法

3.2 拟牛顿法

你可能感兴趣的:(机器学习)