机器学习 笔记06:最大熵模型

目录

1、最大熵原理

1.1 离散情形

1.2 连续情形

2、最大熵模型

3、拉格朗日乘子法

4、最大熵模型学习

 5、极大似然估计

6、模型学习的最优化算法

1. 梯度下降法——经典

1.1 求极小值原理

 1.2 梯度下降法求最大熵模型——求条件概率分布

2. 牛顿法、拟牛顿法

2.1 牛顿法求零点

2.2 牛顿法求极小值

 2.3 拟牛顿法——DFP算法和BFGS算法

2.4 拟牛顿法应用于最大熵模型

3. 改进的迭代尺度法


1、最大熵原理

1.1 离散情形

1.2 连续情形

机器学习 笔记06:最大熵模型_第1张图片

2、最大熵模型

        最大熵原理是概率模型学习的一个准则,最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型就是最好的模型,通常使用模型的约束条件来确定概率模型的集合,所以最大熵原理也可以表述为在满足约束条件的模型集合中选择上最大的模型。 

机器学习 笔记06:最大熵模型_第2张图片

这里,n个约束条件; 真实分布经验分布为:

机器学习 笔记06:最大熵模型_第3张图片

 未知的只有条件分布 p(y|x),得到了待选模型集合 \mathcal{C}

机器学习 笔记06:最大熵模型_第4张图片

3、拉格朗日乘子法

 机器学习 笔记06:最大熵模型_第5张图片机器学习 笔记06:最大熵模型_第6张图片机器学习 笔记06:最大熵模型_第7张图片

机器学习 笔记06:最大熵模型_第8张图片

4、最大熵模型学习

机器学习 笔记06:最大熵模型_第9张图片

机器学习 笔记06:最大熵模型_第10张图片机器学习 笔记06:最大熵模型_第11张图片

机器学习 笔记06:最大熵模型_第12张图片

机器学习 笔记06:最大熵模型_第13张图片

        最大熵模型就是由公式(6.22)、公式(6.23)表示的条件概率分布。

 5、极大似然估计

        想要估计逻辑回归中的条件概率分布,可以通过极大似然方法实现。那么在最大熵模型里,同样可以使用极大似然方法去估计条件概率分布,然后使用这个条件概率分布(模型)去解决分类问题。

        怎么找似然函数?首先我们假定我们已经知道了条件概率分布,然后找到用于训练模型的样本集,根据这个样本集写出所有样本所出现的概率表达式。换一个视角,在已知这些样本情况下,我们将这个表达式记作条件概率分布的似然函数。现在的研究对象变成了条件概率分布。取什么样的分布可以使得这个似然函数最大呢?

机器学习 笔记06:最大熵模型_第14张图片

机器学习 笔记06:最大熵模型_第15张图片

机器学习 笔记06:最大熵模型_第16张图片

机器学习 笔记06:最大熵模型_第17张图片

机器学习 笔记06:最大熵模型_第18张图片

6、模型学习的最优化算法

来自B站博主“简博士”讲解——《统计学习方法》最大熵模型的优化算法。 

1. 梯度下降法——经典

1.1 求极小值原理

机器学习 笔记06:最大熵模型_第19张图片

 1.2 梯度下降法求最大熵模型——求条件概率分布

 

机器学习 笔记06:最大熵模型_第20张图片

2. 牛顿法、拟牛顿法

2.1 牛顿法求零点

机器学习 笔记06:最大熵模型_第21张图片

2.2 牛顿法求极小值

2.2.1 一元情形

机器学习 笔记06:最大熵模型_第22张图片

2.2.2 多元情形

机器学习 笔记06:最大熵模型_第23张图片

 2.3 拟牛顿法——DFP算法和BFGS算法

2.3.1 DFP算法

机器学习 笔记06:最大熵模型_第24张图片

 2.3.2 BFGS算法

机器学习 笔记06:最大熵模型_第25张图片

2.3.3 Broyden算法

机器学习 笔记06:最大熵模型_第26张图片

2.4 拟牛顿法应用于最大熵模型

机器学习 笔记06:最大熵模型_第27张图片

机器学习 笔记06:最大熵模型_第28张图片

机器学习 笔记06:最大熵模型_第29张图片

3. 改进的迭代尺度法

机器学习 笔记06:最大熵模型_第30张图片

你可能感兴趣的:(机器学习,人工智能,python)