逻辑回归与最大熵模型

转自微信公众号:机器学习算法与Python学习

以及统计学习方法

Logistic回归

逻辑回归是用来分类的,是一种线性分类器,需要注意的地方有:

1. Logistic函数的表达式:


逻辑回归与最大熵模型_第1张图片

其导数形式为


逻辑回归与最大熵模型_第2张图片

2. logsitc回归方法主要是用最大似然估计来学习的,所以单个样本的后验概率为:


到整个样本的后验概率:


逻辑回归与最大熵模型_第3张图片

其中:


可通过对数进一步简化:


逻辑回归与最大熵模型_第4张图片

3. 其实它的loss function为-l(θ),因此我们需使loss function最小,可采用梯度下降法得到。梯度下降法公式为:


逻辑回归与最大熵模型_第5张图片


Logistic回归优点:

1、实现简单;

2、分类时计算量非常小,速度很快,存储资源低;

缺点:

1、容易欠拟合,一般准确度不太高

2、只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分;


逻辑回归与最大熵模型_第6张图片


逻辑回归与最大熵模型_第7张图片

也就是说在逻辑回归模型中,输出Y=1的对数几率是关于x的线性函数

因此,可以推出

逻辑回归是针对二分类模型的,下面推广到多分类(我们暂时不管多分类)


逻辑回归与最大熵模型_第8张图片

最大熵模型

由最大熵原理推导实现。

最大熵原理是概率模型学习的一个准则,最大熵认为,学习概率模型时,在所有可能的分布中,熵最大的模型是最好的模型。

直观地来讲,最大熵原理认为要选择的概率模型首先必须要满足既有事实,即约束条件。在没有更多信息的情况下,那些不确定的部分都是等可能的,最大熵原理通过熵的最大化来表示等可能性。

在满足约束条件下求等可能概率方法估计概率分布。


逻辑回归与最大熵模型_第9张图片

最大熵原理定义:

假设分类模型是一个条件概率分布P(Y|X),可以认为是

的推导实现

学习目标是用最大熵原理选择最好的分类模型


逻辑回归与最大熵模型_第10张图片
逻辑回归与最大熵模型_第11张图片
逻辑回归与最大熵模型_第12张图片
逻辑回归与最大熵模型_第13张图片
逻辑回归与最大熵模型_第14张图片


从最大熵模型学习中,可以看出对偶函数的极大化,等价于最大熵模型的极大似然估计。

算法:梯度下降和拟牛顿法

sgd

随机梯度下降算法的伪代码如下:

################################################

初始化回归系数为1

重复下面步骤直到收敛{

对数据集中每个样本

计算该样本的梯度

使用alpha xgradient来更新回归系数

}

你可能感兴趣的:(逻辑回归与最大熵模型)