李航-第6章逻辑斯蒂回归与最大熵模型

线性回归和逻辑回归的联系

在我理解,线性回归一般预测解决连续值预测的问题,对已有的数据进行线性拟合,运用最小二乘法等,找到最佳拟合曲线,然后得到线性模型,来进行预测。
逻辑回归的模型 是一个非线性模型,sigmoid函数,又称逻辑回归函数,逻辑回归用来解决分类的问题,输出的属于某个类别的概率。但是它本质上又是一个线性回归模型,因为除去sigmoid映射函数关系,其他的步骤,算法都是线性回归的。可以说,逻辑回归,都是以线性回归为理论支持的。只不过线性模型无法做到sigmoid的非线性形式,sigmoid可以轻松处理0/1分类问题。

一文打尽:线性回归和逻辑斯蒂线性回归
线性回归与逻辑回归
线性回归与逻辑回归
对线性回归、逻辑回归、各种回归的概念学习

二元逻辑回归的模型

二项逻辑斯蒂回归模型是一种分类模型,由条件概率分布P(Y/X)表示,形式为参数化的逻辑斯蒂分布。随机变量X为实数,随机变量Y取值为1或者0


李航-第6章逻辑斯蒂回归与最大熵模型_第1张图片
二项逻辑斯蒂回归模型.jpg

什么是几率?
一件事情的几率是指该时间发生的概念与该事件不发生的概念的比值。如果事件发生的概念是p,那么该事件的几率是p/(1-p),该事件的对数几率或logit函数是logit(p) = log(p/(1-p))。

二元逻辑回归的损失函数

模型一定,参数未知。只要计算得出模型的参数即可得到具体模型。可以使用极大似然估计法作为损失函数来估计模型参数。那么问题就会变为以似然函数为目标函数的最优化问题。


李航-第6章逻辑斯蒂回归与最大熵模型_第2张图片
极大似然估计法估计模型参数.jpg
李航-第6章逻辑斯蒂回归与最大熵模型_第3张图片
学到的逻辑斯蒂回归模型.jpg
二元逻辑回归的损失函数的优化及正则化

1、梯度下降(Gradient Descent)又叫作最速梯度下降,是一种迭代求解的方法,通过在每一步选取使目标函数变化最快的一个方向调整参数的值来逼近最优值。基本步骤如下:

选择下降方向(梯度方向,∇J(θ))
选择步长,更新参数θi
重复以上两步直到满足终止条件
2、正则化
当模型的参数过多时,很容易遇到过拟合的问题。这时就需要有一种方法来控制模型的复杂度,典型的做法在优化目标中加入正则项,通过惩罚过大的参数来防止过拟合。

多元逻辑回归

逻辑斯蒂回归模型可以是二分类模型,用于二分类问题。也可以推广为多项逻辑斯蒂回归模型,用于多分类问题。

李航-第6章逻辑斯蒂回归与最大熵模型_第4张图片
多项逻辑斯蒂回归模型.jpg
最大熵模型的定义

首先说明什么是最大熵原理?
最大熵原理:学习概率模型时, 在所有可能的概率模型(分布)中, 熵最大的模型是最好的模型, 表述为在满足约束条件的模型集合中选取熵最大的模型。


李航-第6章逻辑斯蒂回归与最大熵模型_第5张图片
最大熵原理.jpg

以下为最大熵模型的定义,即找到模型集合中熵最大的模型,即为最大熵模型。


李航-第6章逻辑斯蒂回归与最大熵模型_第6张图片
最大熵模型.jpg
最大熵模型损失函数的优化

最大熵模型的学习过程即为约束最优化问题。这里的推导看的不是很懂。。。


李航-第6章逻辑斯蒂回归与最大熵模型_第7张图片
最大熵模型的化为约束最优化问题.jpg

最大熵模型与逻辑斯蒂回归模型有类似的形式,它们又称为对数线性模型。模型学习就是在给定的训练数据条件下对模型进行极大似然估计或正则化的极大似然估计。

要点:
逻辑斯蒂回归模型与最大熵模型都属于对数线性模型。
逻辑斯蒂回归模型及最大熵模型学习一般采用极大似然估计,或正则化的极大似然估计。逻辑斯蒂回归模型及最大熵模型学习可以形式化为无约束最优化问题。求解该最优化问题的算法由改进的迭代尺度法、梯度下降法、拟牛顿法

逻辑回归与朴素贝叶斯有什么区别?

参考链接:
如何理解logistic函数?
指数与对数
十分钟学习极大似然估计
深入浅出最大似然估计(Maximum Likelihood Estimation)
最大似然估计和最小二乘法怎么理解?
一文搞懂极大似然估计
李航《统计学习方法》逻辑斯蒂回归
Python实现逻辑斯蒂回归
TensorFlow之简单的线性回归模型
从线性回归入门Tensorflow
scikit-learn 逻辑回归类库使用小结

你可能感兴趣的:(李航-第6章逻辑斯蒂回归与最大熵模型)