v_JULY_v

最大熵模型中的数学推导

最大熵模型中的数学推导

0 引言

写完SVM之后，一直想继续写机器学习的系列，无奈一直时间不稳定且对各个模型算法的理解尚不够，所以导致迟迟未动笔。无独有偶，重写KMP得益于今年4月个人组织的算法班，而动笔继续写这个机器学习系列，正得益于今年10月组织的机器学习班。

10月26日机器学习班第6次课，身为讲师之一的邹博讲最大熵模型，他从熵的概念，讲到为何要最大熵、最大熵的推导，以及求解参数的IIS方法，整个过程讲得非常流畅，特别是其中的数学推导。晚上我把他的PPT 在微博上公开分享了出来，但对于没有上过课的朋友直接看PPT 会感到非常跳跃，因此我打算针对机器学习班的某些次课写一系列博客，刚好也算继续博客中未完的机器学习系列。

综上，本文结合邹博最大熵模型的PPT和其它相关资料写就，可以看成是课程笔记或学习心得，着重推导。有何建议或意见，欢迎随时于本文评论下指出，thanks。

1 预备知识

为了更好的理解本文，需要了解的概率必备知识有：

大写字母X表示随机变量，小写字母x表示随机变量X的某个具体的取值；
P(X)表示随机变量X的概率分布，P(X,Y)表示随机变量X、Y的联合概率分布，P(Y|X)表示已知随机变量X的情况下随机变量Y的条件概率分布；
p(X = x)表示随机变量X取某个具体值的概率，简记为p(x)；
p(X = x, Y = y) 表示联合概率，简记为p(x,y)，p(Y = y|X = x)表示条件概率，简记为p(y|x)，且有：p(x,y) = p(x) * p(y|x)。

需要了解的有关函数求导、求极值的知识点有：

如果函数y=f(x)在[a, b]上连续，且其在(a,b)上可导，如果其导数f’(x) >0，则代表函数f(x)在[a,b]上单调递增，否则单调递减；如果函数的二阶导f''(x) > 0，则函数在[a,b]上是凹的，反之，如果二阶导f''(x) < 0，则函数在[a,b]上是凸的。
设函数f(x)在x0处可导，且在x处取得极值，则函数的导数F’(x0) = 0。
以二元函数z = f(x,y)为例，固定其中的y，把x看做唯一的自变量，此时，函数对x的导数称为二元函数z=f(x,y)对x的偏导数。
为了把原带约束的极值问题转换为无约束的极值问题，一般引入拉格朗日乘子，建立拉格朗日函数，然后对拉格朗日函数求导，令求导结果等于0，得到极值。

更多请查看《高等数学上下册》、《概率论与数理统计》等教科书，或参考本博客中的：数据挖掘中所需的概率论与数理统计知识。

2 何谓熵？

从名字上来看，熵给人一种很玄乎，不知道是啥的感觉。其实，熵的定义很简单，即用来表示随机变量的不确定性。之所以给人玄乎的感觉，大概是因为为何要取这样的名字，以及怎么用。

熵的概念最早起源于物理学，用于度量一个热力学系统的无序程度。在信息论里面，熵是对不确定性的测量。

2.1 熵的引入

事实上，熵的英文原文为entropy，最初由德国物理学家鲁道夫·克劳修斯提出，其表达式为：

它表示一个系系统在不受外部干扰时，其内部最稳定的状态。后来一中国学者翻译entropy时，考虑到entropy是能量Q跟温度T的商，且跟火有关，便把entropy形象的翻译成“熵”。

我们知道，任何粒子的常态都是随机运动，也就是"无序运动"，如果让粒子呈现"有序化"，必须耗费能量。所以，温度（热能）可以被看作"有序化"的一种度量，而"熵"可以看作是"无序化"的度量。

如果没有外部能量输入，封闭系统趋向越来越混乱（熵越来越大）。比如，如果房间无人打扫，不可能越来越干净（有序化），只可能越来越乱（无序化）。而要让一个系统变得更有序，必须有外部能量的输入。

1948年，香农Claude E. Shannon引入信息（熵），将其定义为离散随机事件的出现概率。一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信息熵就越高。所以说，信息熵可以被认为是系统有序化程度的一个度量。
若无特别指出，下文中所有提到的熵均为信息熵。

2.2 熵的定义

下面分别给出熵、联合熵、条件熵、相对熵、互信息的定义。

熵：如果一个随机变量X的可能取值为X = {x1, x2,…, xk}，其概率分布为P(X = xi) = pi（i = 1,2, ..., n），则随机变量X的熵定义为：

把最前面的负号放到最后，便成了：

上面两个熵的公式，无论用哪个都行，而且两者等价，一个意思（这两个公式在下文中都会用到）。

联合熵：两个随机变量X，Y的联合分布，可以形成联合熵Joint Entropy，用H(X,Y)表示。
条件熵：在随机变量X发生的前提下，随机变量Y发生所新带来的熵定义为Y的条件熵，用H(Y|X)表示，用来衡量在已知随机变量X的条件下随机变量Y的不确定性。

且有此式子成立：H(Y|X) = H(X,Y) – H(X)，整个式子表示(X,Y)发生所包含的熵减去X单独发生包含的熵。至于怎么得来的请看推导：

简单解释下上面的推导过程。整个式子共6行，其中

第二行推到第三行的依据是边缘分布p(x)等于联合分布p(x,y)的和；
第三行推到第四行的依据是把公因子logp(x)乘进去，然后把x,y写在一起；
第四行推到第五行的依据是：因为两个sigma都有p(x,y)，故提取公因子p(x,y)放到外边，然后把里边的-（log p(x,y) - log p(x)）写成- log (p(x,y)/p(x) ) ；
第五行推到第六行的依据是：p(x,y) = p(x) * p(y|x)，故p(x,y) / p(x) = p(y|x)。

相对熵：又称互熵，交叉熵，鉴别信息，Kullback熵，Kullback-Leible散度等。设p(x)、q(x)是X中取值的两个概率分布，则p对q的相对熵是：

在一定程度上，相对熵可以度量两个随机变量的“距离”，且有D(p||q) ≠D(q||p)。另外，值得一提的是，D(p||q)是必然大于等于0的。

互信息：两个随机变量X，Y的互信息定义为X，Y的联合分布和各自独立分布乘积的相对熵，用I(X,Y)表示：

且有I(X,Y)=D(P(X,Y) || P(X)P(Y))。下面，咱们来计算下H(Y)-I(X,Y)的结果，如下：

通过上面的计算过程，我们发现竟然有H(Y)-I(X,Y) = H(Y|X)。故通过条件熵的定义，有：H(Y|X) = H(X,Y) - H(X)，而根据互信息定义展开得到H(Y|X) = H(Y) - I(X,Y)，把前者跟后者结合起来，便有I(X,Y)= H(X) + H(Y) - H(X,Y)，此结论被多数文献作为互信息的定义。

3 最大熵

熵是随机变量不确定性的度量，不确定性越大，熵值越大；若随机变量退化成定值，熵为0。如果没有外界干扰，随机变量总是趋向于无序，在经过足够时间的稳定演化，它应该能够达到的最大程度的熵。

为了准确的估计随机变量的状态，我们一般习惯性最大化熵，认为在所有可能的概率模型（分布）的集合中，熵最大的模型是最好的模型。换言之，在已知部分知识的前提下，关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断，其原则是承认已知事物（知识），且对未知事物不做任何假设，没有任何偏见。

例如，投掷一个骰子，如果问"每个面朝上的概率分别是多少"，你会说是等概率，即各点出现的概率均为1/6。因为对这个"一无所知"的色子，什么都不确定，而假定它每一个朝上概率均等则是最合理的做法。从投资的角度来看，这是风险最小的做法，而从信息论的角度讲，就是保留了最大的不确定性，也就是说让熵达到最大。

3.1 无偏原则

下面再举个大多数有关最大熵模型的文章中都喜欢举的一个例子。

例如，一篇文章中出现了“学习”这个词，那这个词是主语、谓语、还是宾语呢？换言之，已知“学习”可能是动词，也可能是名词，故“学习”可以被标为主语、谓语、宾语、定语等等。

令x1表示“学习”被标为名词， x2表示“学习”被标为动词。
令y1表示“学习”被标为主语， y2表示被标为谓语， y3表示宾语， y4表示定语。

且这些概率值加起来的和必为1，即

，

，则根据无偏原则，认为这个分布中取各个值的概率是相等的，故得到：

因为没有任何的先验知识，所以这种判断是合理的。如果有了一定的先验知识呢？

即进一步，若已知：“学习”被标为定语的可能性很小，只有0.05，即

，剩下的依然根据无偏原则，可得：

再进一步，当“学习”被标作名词x1的时候，它被标作谓语y2的概率为0.95，即

，此时仍然需要坚持无偏见原则，使得概率分布尽量平均。但怎么样才能得到尽量无偏见的分布？

实践经验和理论计算都告诉我们，在完全无约束状态下，均匀分布等价于熵最大（有约束的情况下，不一定是概率相等的均匀分布。比如，给定均值和方差，熵最大的分布就变成了正态分布）。

于是，问题便转化为了：计算X和Y的分布，使得H(Y|X)达到最大值，并且满足下述条件：

因此，也就引出了最大熵模型的本质，它要解决的问题就是已知X，计算Y的概率，且尽可能让Y的概率最大（实践中，X可能是某单词的上下文信息，Y是该单词翻译成me，I，us、we的各自概率），从而根据已有信息，尽可能最准确的推测未知信息，这就是最大熵模型所要解决的问题。

相当于已知X，计算Y的最大可能的概率，转换成公式，便是要最大化下述式子H(Y|X)：

且满足以下4个约束条件：

3.2 最大熵模型的表示

至此，有了目标函数跟约束条件，我们可以写出最大熵模型的一般表达式了，如下：

其中，P={p | p是X上满足条件的概率分布}

继续阐述之前，先定义下特征、样本和特征函数。

特征：(x,y)

y：这个特征中需要确定的信息
x：这个特征中的上下文信息

样本：关于某个特征(x,y)的样本，特征所描述的语法现象在标准集合里的分布：(xi,yi)对，其中，yi是y的一个实例，xi是yi的上下文。

对于一个特征(x0,y0)，定义特征函数：

特征函数关于经验分布

在样本中的期望值是：

其中

，

。

特征函数关于模型P(Y|X)与经验分布P-(X)的期望值为：

换言之，如果能够获取训练数据中的信息，那么上述这两个期望值相等，即：

不过，因为实践中p(x)不好求，所以一般用样本中x出现的概率"p(x)-"代替x在总体中的分布概率“p(x)”，从而得到最大熵模型的完整表述如下：

其约束条件为：

该问题已知若干条件，要求若干变量的值使到目标函数（熵）最大，其数学本质是最优化问题（Optimization Problem），其约束条件是线性的等式，而目标函数是非线性的，所以该问题属于非线性规划（线性约束）(non-linear programming with linear constraints)问题，故可通过引入Lagrange函数将原带约束的最优化问题转换为无约束的最优化的对偶问题。

3.3 凸优化中的对偶问题

考虑到机器学习里，不少问题都在围绕着一个“最优化”打转，而最优化中凸优化最为常见，所以为了过渡自然，这里简单阐述下凸优化中的对偶问题。

一般优化问题可以表示为下述式子：

其中，subject to导出的是约束条件，f(x)表示不等式约束，h(x)表示等式约束。

然后可通过引入拉格朗日乘子λ和v，建立拉格朗日函数，如下：

对固定的x，Lagrange函数L(x,λ,v)为关于λ和v的仿射函数。

3.4 对偶问题极大化的指数解

针对原问题，首先引入拉格朗日乘子λ0,λ1,λ2, ..., λi，定义拉格朗日函数，转换为对偶问题求其极大化：

然后求偏导,：

注：上面这里是对P(y|x)求偏导，即只把P(y|x)当做未知数，其他都是常数。因此，求偏导时，只有跟P(y0|x0)相等的那个"(x0,y0)"才会起作用，其他的(x,y)都不是关于P(y0|x0)的系数，是常数项，而常数项一律被“偏导掉”了。

令上述的偏导结果等于0，解得：

进一步转换：

其中，Z(x)称为规范化因子。

根据之前的约束条件之一： = 1，所以有

从而有

现将求得的最优解P*(y|x)带回之前建立的拉格朗日函数L

得到关于λ的式子：

注：最后一步的推导中，把之前得到的结果代入计算即可。

接下来，再回过头来看这个式子：

可知，最大熵模型模型属于对数线性模型，因为其包含指数函数，所以几乎不可能有解析解。换言之，即便有了解析解，仍然需要数值解。那么，能不能找到另一种逼近？构造函数f(λ)，求其最大/最小值？

相当于问题转换成了寻找与样本的分布最接近的概率分布模型，如何寻找呢？你可能想到了极大似然估计。

3.5 最大熵模型的极大似然估计

记得13年1月份在微博上说过：所谓最大似然，即最大可能，在“模型已定，参数θ未知”的情况下，通过观测数据估计参数θ的一种思想或方法，换言之，解决的是取怎样的参数θ使得产生已得观测数据的概率最大的问题。

举个例子，假设我们要统计全国人口的身高，首先假设这个身高服从服从正态分布，但是该分布的均值与方差未知。由于没有足够的人力和物力去统计全国每个人的身高，但是可以通过采样（所有的采样要求都是独立同分布的），获取部分人的身高，然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。

极大似然估计MLE的一般形式表示为：

其中，是对模型进行估计的概率分布，是实验结果得到的概率分布。

进一步转换，可得：

对上式两边取对数可得：

因上述式子最后结果的第二项是常数项（因为第二项是关于样本的联合概率和样本自变量的式子，都是定值），所以最终结果为：

至此，我们发现极大似然估计和条件熵的定义式具有极大的相似性，故可以大胆猜测它们极有可能殊途同归，使得它们建立的目标函数也是相同的。我们来推导下，验证下这个猜测。

将之前得到的最大熵的解带入MLE，计算得到（右边在左边的基础上往下再多推导了几步）：

注：其中，且P~(x,y) = P~(x) * P(y|x)， = 1。

然后拿这个通过极大似然估计得到的结果

跟之前得到的对偶问题的极大化解

只差一个“-”号，所以只要把原对偶问题的极大化解也加个负号，等价转换为对偶问题的极小化解：

则与极大似然估计的结果具有完全相同的目标函数。

换言之，之前最大熵模型的对偶问题的极小化等价于最大熵模型的极大似然估计。

且根据MLE的正确性，可以断定：最大熵的解（无偏的对待不确定性）同时是最符合样本数据分布的解，进一步证明了最大熵模型的合理性。两相对比，熵是表示不确定性的度量，似然表示的是与知识的吻合程度，进一步，最大熵模型是对不确定度的无偏分配，最大似然估计则是对知识的无偏理解。

4 参数求解法：IIS

回顾下之前最大熵模型的解：

其中

对数似然函数为：

相当于现在的问题转换成：通过极大似然函数求解最大熵模型的参数，即求上述对数似然函数参数λ 的极大值。此时，通常通过迭代算法求解，比如改进的迭代尺度法IIS、梯度下降法、牛顿法或拟牛顿法。这里主要介绍下其中的改进的迭代尺度法IIS。

改进的迭代尺度法IIS的核心思想是：假设最大熵模型当前的参数向量是λ，希望找到一个新的参数向量λ+δ，使得当前模型的对数似然函数值L增加。重复这一过程，直至找到对数似然函数的最大值。

下面，咱们来计算下参数λ 变到λ+δ的过程中，对数似然函数的增加量，用L(λ+δ)-L(λ)表示，同时利用不等式：-lnx ≥1-x , x>0，可得到对数似然函数增加量的下界，如下：

将上述求得的下界结果记为A(δ | λ)，为了进一步降低这个下界，即缩小A(δ | λ)的值，引入一个变量：

其中，f 是一个二值函数，故f#(x, y)表示的是所有特征(x, y)出现的次数，然后利用Jason不等式，可得：

我们把上述式子求得的A(δ | λ)的下界记为B(δ | λ)：

相当于B(δ | λ)是对数似然函数增加量的一个新的下界，可记作：L(λ+δ)-L(λ) >= B(δ | λ)。

接下来，对B(δ | λ)求偏导，得：

此时得到的偏导结果只含δ，除δ之外不再含其它变量，令其为0，可得：

从而求得δ，问题得解。

值得一提的是，在求解δ的过程中，如果若f#(x,y)=M为常数，则

否则，用牛顿法解决：

求得了δ，便相当于求得权值λ，最终将λ 回代到下式中：

即得到最大熵模型的最优估计。

5 参考文献

一堆wikipedia，热力学熵：http://zh.wikipedia.org/zh-mo/%E7%86%B5，信息熵：http://zh.wikipedia.org/wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA)，百度百科：http://baike.baidu.com/view/401605.htm；
熵的社会学意义：http://www.ruanyifeng.com/blog/2013/04/entropy.html；
北京10月机器学习班之邹博的最大熵模型PPT：http://pan.baidu.com/s/1qWLSehI；
北京10月机器学习班之邹博的凸优化PPT：http://pan.baidu.com/s/1sjHMj2d；
《统计学习方法李航著》；
最大熵学习笔记：http://blog.csdn.net/itplus/article/details/26549871；
2013年在微博上关于极大似然估计的讨论：http://weibo.com/1580904460/zfUsAgCl2?type=comment#_rnd1414644053228；
极大似然估计：http://www.cnblogs.com/liliu/archive/2010/11/22/1883702.html；
数据挖掘中所需的概率论与数理统计知识：http://blog.csdn.net/v_july_v/article/details/8308762。
数学之美系列十六--谈谈最大熵模型：http://www.cnblogs.com/kevinyang/archive/2009/02/01/1381798.html。

Python函数专题：引用传参圣逸从入门到精通Python语言 python 开发语言 Python入门精通python 数据结构
在Python编程中，函数是一个非常重要的概念。函数不仅能提高代码的可重用性，还能够使代码结构更加清晰。在函数的设计和使用中，参数的传递方式是一个关键的因素。Python中的参数传递有两种主要形式：值传递和引用传递。虽然Python的参数传递机制有时被称为"引用传递"，但实际上它更接近于"对象引用传递"。本文将深入探讨Python中的引用传参及其相关概念。一、基本概念在讨论引用传参之前，首先要理解
python函数支持哪些参数类型_Python函数的几种参数类型 weixin_39965283
以下代码均以Python3为基础理解。初识Python函数大部分常见的语言如C、Java、PHP、C#、JavaScript等属于C系语言，Python不属于他们中的一员（ruby亦然）。在这些语言中，Python也属于比较新奇的一派，就函数来说，它没有大括号，用def关键字定义一个函数，定义后用:然后换行tab指定函数函数的范围，当然也不存在什么分号。作为一个函数，那个它肯定是有参数的，Pyth
Springboot中的@ConditionalOnBean注解：使用指南与最佳实践上官美丽 java spring boot java mybatis
在使用SpringBoot进行开发时，大家应该都听说过条件注解（ConditionalAnnotations）。其中的@ConditionalOnBean注解就很有趣，它帮助开发者在特定条件下创建和注入Bean，让你的应用更加灵活。今天就来聊聊这个注解的使用场景、工作原理以及最佳实践！什么是@ConditionalOnBean注解？@ConditionalOnBean是SpringBoot中提供的
怎样用Java实现快速排序与找到数组中第k小的值？上官美丽 java 算法排序算法
大家好，今天我们来聊聊在Java中如何实现快速排序算法，以及如何利用这个排序算法来找到一个数组中的第k小的值。这两个主题在算法和数据结构的学习中都非常重要，理解这些内容对编写高效程序有很大的帮助！快速排序（QuickSort）是一种非常流行的排序算法，因为它在平均情况下表现得非常迅速。它的基本思路是通过一个“基准”值将数组分为两部分，然后递归对这两部分进行排序。听起来简单吧！接下来，我们深入了解一
Qt 多线程设计：死循环与信号槽的权衡吃面不喝汤66 qt 开发语言
在开发音视频播放器时，多线程设计是不可避免的挑战。音频和视频的解码、播放需要高效运行，同时还要与主线程或其他线程同步，例如通过信号通知播放进度。本文基于一个实际案例，分析了两种线程设计在死循环和信号槽使用中的表现，探讨其原因，并给出选择建议。问题表现我在实现音频播放线程时，遇到了一个问题：主线程通过QMetaObject::invokeMethod调用terminateDecode无法终止音频线程
Python for循环详解红虾程序员 Python 开发语言 ide python pycharm
目录一、基本语法二、用法示例1、遍历字符串2、遍历列表3、遍历元组4、遍历字典5、使用range()函数6、使用enumerate()函数7、嵌套循环8、break和continue语句9、else子句三、优点四、缺点在Python中，for循环是一种用于迭代可迭代对象（如列表、元组、字典、集合、字符串或任何实现了迭代协议的对象）的语句，它允许按顺序访问可迭代对象中的每个元素，并对每个元素执行一组
解释 TypeScript 中的类型保护（type guards），如何使用类型保护进行类型检查？程序员黄同学 TypeScript 前端开发 JavaScript typescript ubuntu javascript
TypeScript类型保护深度解析核心概念解析类型保护是TypeScript用于在条件分支中缩小变量类型范围的机制，通过特定的语法结构让编译器能够推导出更精确的类型信息。其核心价值在于提升代码类型安全性，同时保持开发效率。五大实现方式及实战案例1.类型谓词（TypePredicates）interfaceCat{purr():void;}interfaceDog{bark():void;}fun
@GitHub 送了我这个礼物 - Github 星星奖???? krishnaik06 git AIGC github 人工智能开发语言
这位博主收到了GitHub颁发的“GitHubStarAwards”奖品，并进行了开箱视频。他表示，这些奖品是由于他在2021年对GitHub开源项目的持续贡献而获得的，包括上传项目、解决问题等。开箱视频展示了奖品内容，包括：一张感谢信，感谢博主在社区中的贡献。一只毛绒玩具熊。一顶GitHub帽子。一件GitHubT恤。一件GitHub连帽衫。一个麦克风和一个防喷罩。一个GitHub马克杯。一堆G
Spring Boot 3 新特性实战：从理论到实践潘多编程网络 java 开发语言
引言SpringBoot自发布以来，凭借其简洁的配置和强大的功能，迅速成为Java开发者的首选框架。随着SpringBoot3的发布，开发者们迎来了更多令人兴奋的新特性。本文将深入探讨SpringBoot3的新特性，并通过实战示例展示如何在实际项目中应用这些新功能。1.支持Java17SpringBoot3全面支持Java17，这是Java生态系统中的一个重要里程碑。Java17带来了许多新特性，
Spring中的循环依赖问题是什么？上官美丽 java ide java spring boot
在使用Spring框架进行开发时，可能会遇到一个比较棘手的问题，那就是循环依赖。说到循环依赖，很多人可能会感到有些困惑，难道这个问题真的有那么复杂吗？其实，理解循环依赖并不是很难。我们可以从Spring的依赖注入机制入手，看看循环依赖是如何产生的，以及如何解决这个问题，让项目运行得更加顺利。**什么是循环依赖呢？**简单来说，循环依赖就是在两个或多个Bean之间相互引用的情况。举个例子，假设有两个
【AI论文】ReCamMaster：基于单视频的相机控制式生成渲染东临碣石82 人工智能数码相机计算机视觉
摘要：相机控制在基于文本或图像条件的视频生成任务中已得到积极研究。然而，尽管改变给定视频的相机轨迹在视频创作领域具有重要意义，但这一领域的研究仍显不足。由于需要保持多帧外观和动态同步的额外约束，这一任务颇具挑战性。为解决这一问题，我们提出了ReCamMaster，这是一个相机控制的生成式视频重渲染框架，能够在新的相机轨迹下重现输入视频中的动态场景。其核心创新在于通过一种简单而强大的视频条件机制，利
项目经理的验收突围战：从风险预判到价值交付的破局之道
在软件项目交付失败的统计中，近40%的问题集中爆发在验收环节。当某智慧城市项目在验收阶段遭遇23个功能点争议时，项目经理发现合同中的验收标准竟写着"系统运行稳定"这样的模糊表述——这个真实案例折射出验收管理的复杂性。项目经理需要构建从需求源头到价值交付的全周期验收防御体系。一、验收危机的三大引爆点与拆解策略需求迷雾：概念共识的断层某医疗AI项目开发时，客户口中的"智能分诊"被工程师理解为规则引擎，
dfs（二十二）78. 子集曾几何时` #DFS 深度优先算法数据结构
78.子集给你一个整数数组nums，数组中的元素互不相同。返回该数组所有可能的（幂集）。解集不能包含重复的子集。你可以按任意顺序返回解集。示例1：输入：nums=[1,2,3]输出：[[],[1],[2],[1,2],[3],[1,3],[2,3],[1,2,3]]示例2：输入：nums=[0]输出：[[],[0]]提示：1>res;vectorpath;vector>subsets(vector
【数据结构】 -- 链表的入栈弹栈王峰～ C语言数据结构
#include#include//链表中的节点结构typedefstructlineStack{intdata;structlineStack*next;}lineStack;//入栈操作;//stack为当前的链栈，a表示入栈元素lineStack*push(lineStack*stack,inta){//创建存储新元素的节点lineStack*line=(lineStack*)malloc(
分布式系统中的负载均衡樽酒ﻬق 架构设计负载均衡网络运维
目录分布式系统中的负载均衡引言1.什么是负载均衡？1.1负载均衡的目标2.负载均衡的类型2.1网络负载均衡（NetworkLoadBalancing）2.2应用负载均衡（ApplicationLoadBalancing）2.3全局负载均衡（GlobalLoadBalancing）2.4计算负载均衡（ComputeLoadBalancing）3.负载均衡算法3.1轮询（RoundRobin）3.2加
探索 Tavily Search API：为 AI 提供快速准确的搜索结果 nseejrukjhad 人工智能 python 开发语言
引言在当今的技术时代，AI代理（如大型语言模型）日益需要实时、准确和事实性强的搜索结果。TavilySearchAPI就是为此而生的。这篇文章将介绍如何将TavilySearchAPI集成为一个检索器，使开发者可以在应用中快速获取所需信息。此外，我们将讨论这一集成过程中的挑战及其解决方案。主要内容1.TavilySearchAPI简介TavilySearchAPI是一个专门为AI代理设计的搜索引擎
人工智能之数学基础：线性子空间每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习线性代数线性子空间线性空间
本文重点在前面的课程中，我们学习了线性空间，本文我们我们在此基础上学习线性子空间。在应用中，线性子空间的概念被广泛应用于信号处理、机器学习、图像处理等领域。子空间的性质子空间是线性空间的一部分，它需要满足下面的性质：设V是数域F上的线性空间，W是V的一个非空子集。如果W对于V中的加法运算和数乘运算也构成F上的一个线性空间，则称W为V的线性子空间（或称向量子空间）。具体来说，设V是一个线性空间，W是
使用 Tavily 搜索 API 获取实时精确搜索结果 fgayif python 数据库开发语言
技术背景介绍Tavily搜索API是一个专为AI代理（如大型语言模型）而设计的搜索引擎。它能够快速提供实时、准确且事实性强的搜索结果。这使得Tavily成为可以嵌入到AI应用中的理想工具，提升信息获取的效率和准确性。核心原理解析Tavily搜索API提供了异步的原生调用方式，可以返回包括标题、URL、内容和答案在内的数据。API可以根据需求设置不同的搜索深度和结果数量。通过与其他语言模型（如Ope
园林无线灌溉控制系统组成与功能北京聚英翱翔电子有限公司物联网监控系统工业物联网物联网人工智能大数据
随着信息技术的飞速发展和全球水资源日益紧张，无线灌溉控制系统作为一种高效、智能的灌溉方式，在园林行业中得到了广泛的应用。该系统基于物联网技术传感器技术、无线通信技术等，通过远程监控和自动控制，实现了对园林灌溉的精准管理和优化。园林无线灌溉控制解决方案，集成改造原有灌溉系统中的阀门、控制器等部件，配合监测园林环境信息的采集器，利用LORA无线网络进行通讯，经智慧农业云平台调控执行灌溉作业，实现远程手
云原生分布式存储：数据洪流中的时空折叠艺术桂月二二云原生分布式
引言：数据维度战争的新防线蚂蚁集团存储集群达500EB规模，Netflix每日处理3PB视频数据。AWSS3支持每秒1.5亿次请求，字节跳动对象存储延迟低至12ms。IDC预测2026年全球存储开销达亿，沃尔玛每秒处理万笔交易日志，沙特阿美地震勘探数据集超。微软冷存单价降至0.00099/GB·月，中国天眼FAST每秒生成160GB射电数据，Twitter使用Ambry实现250万IOPS。Gar
使用libCurl从Web服务器下载文件 eamon100 Win32软件开发 c++开发语言
XlibCurl有两种下载文件方式，同步方式使用easy接口的curl_easy_perform，异步方式可以同时下载多个文件，使用multi接口的curl_multi_perform，通过curl_multi_wait等待传输事件的发生，curl_multi_info_read读取异步传输中的状态。本例使用http下载单个文件和多个文件，ftp方式上传和下载文件，ftp支持断点续传。1、头文件和
kotlin的函数forEach LCY133 spring后端 kotlin
在Kotlin中，forEach是一个高阶函数，用于遍历集合中的每个元素并对其执行指定的操作。它的核心特点是简洁、函数式，适用于需要遍历集合且无需返回值的场景。以下是详细说明和示例：一、基本用法1️⃣遍历集合vallist=listOf("Apple","Banana","Orange")//使用lambda表达式list.forEach{fruit->println(fruit)}//简化为`i
S32K144外设实验（三）：ADC单通道连续采样（中断）上层精灵的赞美诗 #S32K144的外设基础实验单片机 stm32 嵌入式硬件 eclipse mcu 笔记
这次的实验比较简单，主要目的就是验证一下ADC的中断功能，思路是使用软件触发ADC的连续单通道采样，将采样值通过串口发送到上位机观察数是否正确。其实官方并不推荐使用中断的方式，这种方式会占用大量的CPU资源，笔者安排这篇文章的主要目的是在使用ADC中断的时候发现了个容易忽略的问题，如下图：笔者配置了ADC通道12的连续转换并使能了通道中断，关键的点就在中断这里，通过查看SDK中的代码发现，配置后的
深入理解 C++11 多线程编程：从入门到实践小河cpp c++开发语言
C++多线程编程是指使用C++提供的多线程库来并行执行代码块，从而提高程序的性能和响应能力。C++11标准引入了多线程支持，使得在C++中进行多线程编程变得更加容易和直观。以下是C++多线程编程的基本知识，并附有例子代码。多线程的基本概念线程（Thread）：线程是进程中的一个执行单元，每个线程有自己的堆栈，但与其他线程共享程序的全局内存。竞争条件（RaceCondition）：多个线程并发访问同
2.2[frontEnd]ESLint CQU_JIAKE 前端 java
ESLint是一个开源的JavaScript和TypeScript代码质量和代码风格检查工具。它可以帮助开发者检测代码中的问题（如语法错误、潜在的错误、不一致的代码风格等），从而提高代码质量和可维护性。主要功能检测语法错误：ESLint可以检测代码中的语法错误，例如未关闭的括号、缺少分号等。代码风格检查：ESLint可以强制代码风格的一致性，例如：缩进风格（2空格或4空格）。引号类型（单引号或双引
3月TIOBE编程语言排行：Python稳居榜首，C++和Java市场份额稳步上升朱公子的Note 编程语言 python c++java TIOBE编程语言排行
TIOBE编程语言排行榜是一个基于全球程序员数量、课程数量和第三方供应商数量的指标，旨在反映编程语言的流行度。根据TIOBEIndex，它每月更新一次，计算方法基于搜索引擎（如Google、Bing、Wikipedia等）的查询结果，涵盖专业开发者的兴趣和需求。需要注意的是，TIOBE指数不代表“最佳”编程语言或代码量最多的语言，而是反映语言在开发者社区中的热度。2025年3月的排行榜特别提到Py
《Java八股文の文艺复兴》第四篇：ThreadLocal的平行宇宙——弱引用是通往OOM的时空虫洞？程序猿chen 面霸の自我修养（面试篇）「Java八股文の文艺复兴」java 开发语言后端面试跳槽职场和发展安全
楔子：量子泡沫中的幽灵代码"当你在ThreadLocal中写入秘密时，整个宇宙的线程都在窥视它。"上一场战役我们封印了ConcurrentHashMap的熵增奇点，但新的危机正在量子泡沫中酝酿。在某个平行宇宙里，一行看似无害的threadLocal.set(user)正在撕裂JVM的内存维度，而弱引用竟成为打开OOM虫洞的钥匙。此刻，让我们戴上RASP打造的因果律护目镜，穿越ThreadLocal
LeetCode 第30题：串联所有单词的子串 Gemini技术窝 leetcode 算法数据结构 java
大家好！今天我们要探讨的是一道非常有趣的字符串处理题目——LeetCode第30题：串联所有单词的子串。这个问题就像是在寻找字符串中的藏宝图，每个单词都是一个线索，我们需要把这些线索串联起来，找到它们在字符串中的位置。准备好了吗？让我们一起解锁这个问题的解决方案吧！文章目录问题描述解题思路高效代码实现详细讲解代码逻辑图解过程举例说明例子1：简单例子例子2：无匹配项例子3：重复单总结问题描述首先，让
ApplicationContext介绍 lgily-1225 日常积累 java 后端 spring
一、概述ApplicationContext是Spring框架中的一个核心接口，它扩展了BeanFactory接口，并提供了更全面的功能。ApplicationContext不仅包含了BeanFactory的所有功能，还添加了国际化支持、资源访问、事件传播、以及更高级的容器特性，如自动装配和生命周期管理等。它是Spring应用中的核心容器，负责管理和配置应用中的对象（称为beans）。二、主要功能
LeetCode每日一题——30. 串联所有单词的子串 hyk今天写算法了吗 #算法实例 leetcode 算法职场和发展数据结构 python
文章目录题目示例思路题解题目给定一个字符串s和一些长度相同的单词words。找出s中恰好可以由words中所有单词串联形成的子串的起始位置。注意子串要与words中的单词完全匹配，中间不能有其他字符，但不需要考虑words中单词串联的顺序。示例示例1：输入：s=“barfoothefoobarman”,words=[“foo”,“bar”]输出：[0,9]解释：从索引0和9开始的子串分别是“bar
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。

最大熵模型中的数学推导

最大熵模型中的数学推导

0 引言

1 预备知识

2 何谓熵？

2.1 熵的引入

2.2 熵的定义

3 最大熵

3.1 无偏原则

3.2 最大熵模型的表示

3.3 凸优化中的对偶问题

3.4 对偶问题极大化的指数解

3.5 最大熵模型的极大似然估计

4 参数求解法：IIS

5 参考文献

你可能感兴趣的:(最大熵模型中的数学推导)