xiangyong58

最大熵模型中的数学推导

最大熵模型中的数学推导

原文来自：http://blog.csdn.net/v_july_v/article/details/40508465

0 引言

写完SVM之后，一直想继续写机器学习的系列，无奈一直时间不稳定且对各个模型算法的理解尚不够，所以导致迟迟未动笔。无独有偶，重写KMP得益于今年4月个人组织的算法班，而动笔继续写这个机器学习系列，正得益于今年10月组织的机器学习班。

10月26日机器学习班第6次课，Z讲师讲最大熵模型，Z从熵的概念，讲到为何要最大熵、最大熵的推导，以及求解参数的IIS方法，整个过程讲得非常流畅，特别是其中的数学推导。晚上我把上课PPT 在微博上公开分享了出来，但对于没有上过课的朋友直接看PPT 会感到非常跳跃，因此我打算针对机器学习班的某些次课写一系列博客，刚好也算继续博客中未完的机器学习系列。

综上，本文结合10月机器学习班最大熵模型的PPT和其它相关资料写就，可以看成是课程笔记或学习心得，着重推导。有何建议或意见，欢迎随时于本文评论下指出，thanks。

1 预备知识

为了更好的理解本文，需要了解的概率必备知识有：

大写字母X表示随机变量，小写字母x表示随机变量X的某个具体的取值；
P(X)表示随机变量X的概率分布，P(X,Y)表示随机变量X、Y的联合概率分布，P(Y|X)表示已知随机变量X的情况下随机变量Y的条件概率分布；
p(X = x)表示随机变量X取某个具体值的概率，简记为p(x)；
p(X = x, Y = y) 表示联合概率，简记为p(x,y)，p(Y = y|X = x)表示条件概率，简记为p(y|x)，且有：p(x,y) = p(x) * p(y|x)。

需要了解的有关函数求导、求极值的知识点有：

如果函数y=f(x)在[a, b]上连续，且其在(a,b)上可导，如果其导数f’(x) >0，则代表函数f(x)在[a,b]上单调递增，否则单调递减；如果函数的二阶导f''(x) > 0，则函数在[a,b]上是凹的，反之，如果二阶导f''(x) < 0，则函数在[a,b]上是凸的。
设函数f(x)在x0处可导，且在x处取得极值，则函数的导数F’(x0) = 0。
以二元函数z = f(x,y)为例，固定其中的y，把x看做唯一的自变量，此时，函数对x的导数称为二元函数z=f(x,y)对x的偏导数。
为了把原带约束的极值问题转换为无约束的极值问题，一般引入拉格朗日乘子，建立拉格朗日函数，然后对拉格朗日函数求导，令求导结果等于0，得到极值。

更多请查看《高等数学上下册》、《概率论与数理统计》等教科书，或参考本博客中的：数据挖掘中所需的概率论与数理统计知识。

2 何谓熵？

从名字上来看，熵给人一种很玄乎，不知道是啥的感觉。其实，熵的定义很简单，即用来表示随机变量的不确定性。之所以给人玄乎的感觉，大概是因为为何要取这样的名字，以及怎么用。

熵的概念最早起源于物理学，用于度量一个热力学系统的无序程度。在信息论里面，熵是对不确定性的测量。

2.1 熵的引入

事实上，熵的英文原文为entropy，最初由德国物理学家鲁道夫·克劳修斯提出，其表达式为：

它表示一个系系统在不受外部干扰时，其内部最稳定的状态。后来一中国学者翻译entropy时，考虑到entropy是能量Q跟温度T的商，且跟火有关，便把entropy形象的翻译成“熵”。

我们知道，任何粒子的常态都是随机运动，也就是"无序运动"，如果让粒子呈现"有序化"，必须耗费能量。所以，温度（热能）可以被看作"有序化"的一种度量，而"熵"可以看作是"无序化"的度量。

如果没有外部能量输入，封闭系统趋向越来越混乱（熵越来越大）。比如，如果房间无人打扫，不可能越来越干净（有序化），只可能越来越乱（无序化）。而要让一个系统变得更有序，必须有外部能量的输入。

1948年，香农Claude E. Shannon引入信息（熵），将其定义为离散随机事件的出现概率。一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信息熵就越高。所以说，信息熵可以被认为是系统有序化程度的一个度量。
若无特别指出，下文中所有提到的熵均为信息熵。

2.2 熵的定义

下面分别给出熵、联合熵、条件熵、相对熵、互信息的定义。

熵：如果一个随机变量X的可能取值为X = {x1, x2,…, xk}，其概率分布为P(X = xi) = pi（i = 1,2, ..., n），则随机变量X的熵定义为：

把最前面的负号放到最后，便成了：

上面两个熵的公式，无论用哪个都行，而且两者等价，一个意思（这两个公式在下文中都会用到）。

联合熵：两个随机变量X，Y的联合分布，可以形成联合熵Joint Entropy，用H(X,Y)表示。
条件熵：在随机变量X发生的前提下，随机变量Y发生所新带来的熵定义为Y的条件熵，用H(Y|X)表示，用来衡量在已知随机变量X的条件下随机变量Y的不确定性。

且有此式子成立：H(Y|X) = H(X,Y) – H(X)，整个式子表示(X,Y)发生所包含的熵减去X单独发生包含的熵。至于怎么得来的请看推导：

简单解释下上面的推导过程。整个式子共6行，其中

第二行推到第三行的依据是边缘分布p(x)等于联合分布p(x,y)的和；
第三行推到第四行的依据是把公因子logp(x)乘进去，然后把x,y写在一起；
第四行推到第五行的依据是：因为两个sigma都有p(x,y)，故提取公因子p(x,y)放到外边，然后把里边的-（log p(x,y) - log p(x)）写成- log (p(x,y)/p(x) ) ；
第五行推到第六行的依据是：p(x,y) = p(x) * p(y|x)，故p(x,y) / p(x) = p(y|x)。

相对熵：又称互熵，交叉熵，鉴别信息，Kullback熵，Kullback-Leible散度等。设p(x)、q(x)是X中取值的两个概率分布，则p对q的相对熵是：

在一定程度上，相对熵可以度量两个随机变量的“距离”，且有D(p||q) ≠D(q||p)。另外，值得一提的是，D(p||q)是必然大于等于0的。

互信息：两个随机变量X，Y的互信息定义为X，Y的联合分布和各自独立分布乘积的相对熵，用I(X,Y)表示：

且有I(X,Y)=D(P(X,Y) || P(X)P(Y))。下面，咱们来计算下H(Y)-I(X,Y)的结果，如下：

通过上面的计算过程，我们发现竟然有H(Y)-I(X,Y) = H(Y|X)。故通过条件熵的定义，有：H(Y|X) = H(X,Y) - H(X)，而根据互信息定义展开得到H(Y|X) = H(Y) - I(X,Y)，把前者跟后者结合起来，便有I(X,Y)= H(X) + H(Y) - H(X,Y)，此结论被多数文献作为互信息的定义。

3 最大熵

熵是随机变量不确定性的度量，不确定性越大，熵值越大；若随机变量退化成定值，熵为0。如果没有外界干扰，随机变量总是趋向于无序，在经过足够时间的稳定演化，它应该能够达到的最大程度的熵。

为了准确的估计随机变量的状态，我们一般习惯性最大化熵，认为在所有可能的概率模型（分布）的集合中，熵最大的模型是最好的模型。换言之，在已知部分知识的前提下，关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断，其原则是承认已知事物（知识），且对未知事物不做任何假设，没有任何偏见。

例如，投掷一个骰子，如果问"每个面朝上的概率分别是多少"，你会说是等概率，即各点出现的概率均为1/6。因为对这个"一无所知"的色子，什么都不确定，而假定它每一个朝上概率均等则是最合理的做法。从投资的角度来看，这是风险最小的做法，而从信息论的角度讲，就是保留了最大的不确定性，也就是说让熵达到最大。

3.1 无偏原则

下面再举个大多数有关最大熵模型的文章中都喜欢举的一个例子。

例如，一篇文章中出现了“学习”这个词，那这个词是主语、谓语、还是宾语呢？换言之，已知“学习”可能是动词，也可能是名词，故“学习”可以被标为主语、谓语、宾语、定语等等。

令x1表示“学习”被标为名词， x2表示“学习”被标为动词。
令y1表示“学习”被标为主语， y2表示被标为谓语， y3表示宾语， y4表示定语。

且这些概率值加起来的和必为1，即

，

，则根据无偏原则，认为这个分布中取各个值的概率是相等的，故得到：

因为没有任何的先验知识，所以这种判断是合理的。如果有了一定的先验知识呢？

即进一步，若已知：“学习”被标为定语的可能性很小，只有0.05，即

，剩下的依然根据无偏原则，可得：

再进一步，当“学习”被标作名词x1的时候，它被标作谓语y2的概率为0.95，即

，此时仍然需要坚持无偏见原则，使得概率分布尽量平均。但怎么样才能得到尽量无偏见的分布？

实践经验和理论计算都告诉我们，在完全无约束状态下，均匀分布等价于熵最大（有约束的情况下，不一定是概率相等的均匀分布。比如，给定均值和方差，熵最大的分布就变成了正态分布）。

于是，问题便转化为了：计算X和Y的分布，使得H(Y|X)达到最大值，并且满足下述条件：

因此，也就引出了最大熵模型的本质，它要解决的问题就是已知X，计算Y的概率，且尽可能让Y的概率最大（实践中，X可能是某单词的上下文信息，Y是该单词翻译成me，I，us、we的各自概率），从而根据已有信息，尽可能最准确的推测未知信息，这就是最大熵模型所要解决的问题。

相当于已知X，计算Y的最大可能的概率，转换成公式，便是要最大化下述式子H(Y|X)：

且满足以下4个约束条件：

3.2 最大熵模型的表示

至此，有了目标函数跟约束条件，我们可以写出最大熵模型的一般表达式了，如下：

其中，P={p | p是X上满足条件的概率分布}

继续阐述之前，先定义下特征、样本和特征函数。

特征：(x,y)

y：这个特征中需要确定的信息
x：这个特征中的上下文信息

样本：关于某个特征(x,y)的样本，特征所描述的语法现象在标准集合里的分布：(xi,yi)对，其中，yi是y的一个实例，xi是yi的上下文。

对于一个特征(x0,y0)，定义特征函数：

特征函数关于经验分布

在样本中的期望值是：

其中

，

。

特征函数关于模型P(Y|X)与经验分布P-(X)的期望值为：

换言之，如果能够获取训练数据中的信息，那么上述这两个期望值相等，即：

不过，因为实践中p(x)不好求，所以一般用样本中x出现的概率"p(x)-"代替x在总体中的分布概率“p(x)”，从而得到最大熵模型的完整表述如下：

其约束条件为：

该问题已知若干条件，要求若干变量的值使到目标函数（熵）最大，其数学本质是最优化问题（Optimization Problem），其约束条件是线性的等式，而目标函数是非线性的，所以该问题属于非线性规划（线性约束）(non-linear programming with linear constraints)问题，故可通过引入Lagrange函数将原带约束的最优化问题转换为无约束的最优化的对偶问题。

3.3 凸优化中的对偶问题

考虑到机器学习里，不少问题都在围绕着一个“最优化”打转，而最优化中凸优化最为常见，所以为了过渡自然，这里简单阐述下凸优化中的对偶问题。

一般优化问题可以表示为下述式子：

其中，subject to导出的是约束条件，f(x)表示不等式约束，h(x)表示等式约束。

然后可通过引入拉格朗日乘子λ和v，建立拉格朗日函数，如下：

对固定的x，Lagrange函数L(x,λ,v)为关于λ和v的仿射函数。

3.4 对偶问题极大化的指数解

针对原问题，首先引入拉格朗日乘子λ0,λ1,λ2, ..., λi，定义拉格朗日函数，转换为对偶问题求其极大化：

然后求偏导,：

注：上面这里是对P(y|x)求偏导，即只把P(y|x)当做未知数，其他都是常数。因此，求偏导时，只有跟P(y0|x0)相等的那个"(x0,y0)"才会起作用，其他的(x,y)都不是关于P(y0|x0)的系数，是常数项，而常数项一律被“偏导掉”了。

令上述的偏导结果等于0，解得：

进一步转换：

其中，Z(x)称为规范化因子。

根据之前的约束条件之一： = 1，所以有

从而有

现将求得的最优解P*(y|x)带回之前建立的拉格朗日函数L

得到关于λ的式子：

注：最后一步的推导中，把之前得到的结果代入计算即可。

接下来，再回过头来看这个式子：

可知，最大熵模型模型属于对数线性模型，因为其包含指数函数，所以几乎不可能有解析解。换言之，即便有了解析解，仍然需要数值解。那么，能不能找到另一种逼近？构造函数f(λ)，求其最大/最小值？

相当于问题转换成了寻找与样本的分布最接近的概率分布模型，如何寻找呢？你可能想到了极大似然估计。

3.5 最大熵模型的极大似然估计

记得13年1月份在微博上说过：所谓最大似然，即最大可能，在“模型已定，参数θ未知”的情况下，通过观测数据估计参数θ的一种思想或方法，换言之，解决的是取怎样的参数θ使得产生已得观测数据的概率最大的问题。

举个例子，假设我们要统计全国人口的身高，首先假设这个身高服从服从正态分布，但是该分布的均值与方差未知。由于没有足够的人力和物力去统计全国每个人的身高，但是可以通过采样（所有的采样要求都是独立同分布的），获取部分人的身高，然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。

极大似然估计MLE的一般形式表示为：

其中，是对模型进行估计的概率分布，是实验结果得到的概率分布。

进一步转换，可得：

对上式两边取对数可得：

因上述式子最后结果的第二项是常数项（因为第二项是关于样本的联合概率和样本自变量的式子，都是定值），所以最终结果为：

至此，我们发现极大似然估计和条件熵的定义式具有极大的相似性，故可以大胆猜测它们极有可能殊途同归，使得它们建立的目标函数也是相同的。我们来推导下，验证下这个猜测。

将之前得到的最大熵的解带入MLE，计算得到（右边在左边的基础上往下再多推导了几步）：

注：其中，且P~(x,y) = P~(x) * P(y|x)， = 1。

然后拿这个通过极大似然估计得到的结果

跟之前得到的对偶问题的极大化解

只差一个“-”号，所以只要把原对偶问题的极大化解也加个负号，等价转换为对偶问题的极小化解：

则与极大似然估计的结果具有完全相同的目标函数。

换言之，之前最大熵模型的对偶问题的极小化等价于最大熵模型的极大似然估计。

且根据MLE的正确性，可以断定：最大熵的解（无偏的对待不确定性）同时是最符合样本数据分布的解，进一步证明了最大熵模型的合理性。两相对比，熵是表示不确定性的度量，似然表示的是与知识的吻合程度，进一步，最大熵模型是对不确定度的无偏分配，最大似然估计则是对知识的无偏理解。

4 参数求解法：IIS

回顾下之前最大熵模型的解：

其中

对数似然函数为：

相当于现在的问题转换成：通过极大似然函数求解最大熵模型的参数，即求上述对数似然函数参数λ 的极大值。此时，通常通过迭代算法求解，比如改进的迭代尺度法IIS、梯度下降法、牛顿法或拟牛顿法。这里主要介绍下其中的改进的迭代尺度法IIS。

改进的迭代尺度法IIS的核心思想是：假设最大熵模型当前的参数向量是λ，希望找到一个新的参数向量λ+δ，使得当前模型的对数似然函数值L增加。重复这一过程，直至找到对数似然函数的最大值。

下面，咱们来计算下参数λ 变到λ+δ的过程中，对数似然函数的增加量，用L(λ+δ)-L(λ)表示，同时利用不等式：-lnx ≥1-x , x>0，可得到对数似然函数增加量的下界，如下：

将上述求得的下界结果记为A(δ | λ)，为了进一步降低这个下界，即缩小A(δ | λ)的值，引入一个变量：

其中，f 是一个二值函数，故f#(x, y)表示的是所有特征(x, y)出现的次数，然后利用Jason不等式，可得：

我们把上述式子求得的A(δ | λ)的下界记为B(δ | λ)：

相当于B(δ | λ)是对数似然函数增加量的一个新的下界，可记作：L(λ+δ)-L(λ) >= B(δ | λ)。

接下来，对B(δ | λ)求偏导，得：

此时得到的偏导结果只含δ，除δ之外不再含其它变量，令其为0，可得：

从而求得δ，问题得解。

值得一提的是，在求解δ的过程中，如果若f#(x,y)=M为常数，则

否则，用牛顿法解决：

求得了δ，便相当于求得权值λ，最终将λ 回代到下式中：

即得到最大熵模型的最优估计。

5 参考文献

一堆wikipedia，热力学熵：http://zh.wikipedia.org/zh-mo/%E7%86%B5，信息熵：http://zh.wikipedia.org/wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA)，百度百科：http://baike.baidu.com/view/401605.htm；
熵的社会学意义：http://www.ruanyifeng.com/blog/2013/04/entropy.html；
北京10月机器学习班之邹博的最大熵模型PPT：http://pan.baidu.com/s/1qWLSehI；
北京10月机器学习班之邹博的凸优化PPT：http://pan.baidu.com/s/1sjHMj2d；
《统计学习方法李航著》；
最大熵学习笔记：http://blog.csdn.net/itplus/article/details/26549871；
2013年在微博上关于极大似然估计的讨论：http://weibo.com/1580904460/zfUsAgCl2?type=comment#_rnd1414644053228；
极大似然估计：http://www.cnblogs.com/liliu/archive/2010/11/22/1883702.html；
数据挖掘中所需的概率论与数理统计知识：http://blog.csdn.net/v_july_v/article/details/8308762。
数学之美系列十六--谈谈最大熵模型：http://www.cnblogs.com/kevinyang/archive/2009/02/01/1381798.html。

深入解析：React中的信号组件与细粒度更新
引言在主流的前端开发框架中，无论是React、Vue还是Svelte，核心都是围绕着更高效地进行UI渲染展开的。为了实现高性能，基于DOM总是比较慢这个假设前提，其最核心的要解决的问题有两个：响应式更新细粒度更新为了将响应式更新、细粒度更新优化到极致，各种框架是八仙过海，各显神通。以最流行的React和Vue为例，首先两者均引入了VirtualDOM的概念。Vue的静态模板编译，通过编译时的静态分
Ada语言的数据结构与算法尤宸翎包罗万象 golang 开发语言后端
Ada语言的数据结构与算法引言在计算机科学的领域里，数据结构与算法是核心的组成部分，围绕着如何高效地存储和处理数据。这些概念不仅是程序设计的重要基础，也是提高程序性能的关键。Ada是一种强类型、结构化的编程语言，早在20世纪80年代就被设计用于军用和实时系统。由于其高可靠性和可维护性，Ada逐渐在航空航天、军事和其他需要高安全性的领域获得了广泛应用。本文将探讨Ada语言中的数据结构和算法，包括常见
Julia语言的饼图尤宸翎包罗万象 golang 开发语言后端
Julia语言的饼图：全面剖析与实战指南引言在数据可视化的领域中，饼图作为一种经典的可视化工具，广泛用于展示各个分类在总体中的占比关系。尽管饼图在一些数据分析师中被视为相对简单和直观的图形，但它在实际运用中依然扮演着重要角色。本文将重点探讨如何使用Julia语言实现饼图的绘制，分析其背后的逻辑，并通过实例帮助读者掌握这一基本技能。Julia语言简介Julia是一种高性能、高级别的编程语言，适用于数
httpcanary动态注入_HttpCanary使用指南——正则匹配注入火锅大魔王 httpcanary动态注入
HttpCanary于v2.11.0版本上线了正则匹配注入功能。顾名思义，就是使用正则表达式或者匹配字符串，动态修改网络请求数据中的部分数据。举个例子：{"date":"30日星期天","high":"高温30℃","fengli":"","low":"低温23℃","fengxiang":"西南风","type":"多云"}复制代码我们希望将网络请求体中这段数据中的符号℃修改为中文摄氏度，即：{
C语言中的函数 NaZiMeKiY C/C++c语言 linux 开发语言
一.函数：1.函数的概念：函数就是程序中独立的功能2.函数的使用场景：我们需要反复书写的代码，但是又不确定什么时候会用到二.函数的定义和调用：①：函数的结构返回值类型函数名(形参1,形参2,...,形参n){函数体;return返回值;}②：举例：#includevoidstudy(){printf("准备开始学习\n");printf("打开b站\n");printf("打开自己想要学习的课程\
知识库中的知识如何进行分类和标签管理？自不量力的A同学人工智能
知识库中的知识如何进行分类和标签管理？基于主题分类明确主题层级：首先确定主要的知识主题领域，如在一个企业知识库中，可以分为“人力资源”“市场营销”“技术研发”等大主题。然后在每个大主题下细分小主题，例如在“人力资源”主题下可以有“招聘”“培训”“绩效考核”等子主题。这样的层级分类有助于用户快速定位到自己需要的知识领域。参考行业标准和最佳实践：按照行业内公认的分类标准来划分知识。以医学知识库为例，可
深入了解 Ubuntu 中的 build-essential：开发者的必备工具 scoone Linux ubuntu linux 运维
摘要：本文将介绍Ubuntu系统中的build-essential包，包括其作用、包含的工具和库，以及如何在Ubuntu上安装和使用build-essential。正文：一、什么是build-essential？build-essential是Ubuntu和其他基于Debian的Linux发行版中的一个元包，它包含了编译软件所必需的工具和库。这个包主要面向开发人员，尤其是那些需要从源代码编译软件的
深入解析TTM市盈率在股票投资中的应用 scoone 杂项小计生活学习
摘要：本文对TTM市盈率的概念、计算方法、优缺点及其在股票投资决策中的作用进行了详细阐述，旨在帮助投资者更好地运用这一财务指标进行投资分析。一、TTM市盈率概述TTM市盈率，即TrailingTwelveMonths市盈率，是一种反映股票价格与公司最近12个月盈利能力的比率。它通过计算公司过去四个季度净利润的总和，再除以在外流通的普通股总数，得到每股收益（EPS），最后以股价除以每股收益得到TTM
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
Hyperlane：Rust 生态中的轻量级高性能 HTTP 服务器库，助力现代 Web 开发 LTPP rust http 服务器开发语言后端前端面试
Hyperlane：Rust生态中的轻量级高性能HTTP服务器库，助力现代Web开发在Rust生态系统中，Hyperlane是一个备受关注的HTTP服务器库，以其轻量级、高性能和易用性脱颖而出。无论你是想快速构建一个高效的Web服务，还是需要支持实时通信的现代应用，Hyperlane都能成为你的理想选择。它不仅简化了网络服务的开发，还提供了强大的功能支持，如HTTP请求解析、响应构建、TCP通信，
Python 爬虫实战：如何爬取小红书数据并进行分析 Python爬虫项目 python 爬虫开发语言 selenium 测试工具
一、引言随着社交电商的崛起，小红书（Xiaohongshu）作为一款结合了社交和电商的应用，吸引了大量年轻用户。用户在平台上分享购物心得、生活经验以及个性化的消费推荐内容，形成了庞大的用户数据与内容生态。因此，如何从小红书获取数据进行分析，成为了数据科学、市场营销和社交媒体研究中的一个重要课题。本文将介绍如何使用Python编写爬虫爬取小红书的数据，分析如何通过小红书的开放API获取用户信息、帖子
Java数据类型 Arrays VS ArraysList VS LikedList 解析 fantasy_4 Java java
在学习Java过程中，在刷题时总是搞不清楚这三种数据结构的区别，打算写篇文章记录一下ArraysVSArrayListArrayListVSLinkedList总结ArraysVSArrayListArraysArrayList类型Java的基本数据类型Java集合框架中的一个类，实现了List接口存储内容基本数据类型+对象引用对象引用可变性数组长度创建后不可变长度可变适用场景查询元素会比较快，直
AXI总线之相关应用逾越TAO fpga开发硬件工程笔记
AXI总线作为现代SoC设计的核心互连协议，其应用场景极为广泛，覆盖移动设备、AI加速器、FPGA、存储控制器等多个领域。以下是AXI在不同应用中的关键角色及具体实现案例：一、移动处理器与SoC应用场景：智能手机、平板电脑的SoC（如高通骁龙、苹果A系列、华为麒麟）中，AXI用于连接多核CPU、GPU、ISP（图像信号处理器）、DDR控制器等模块。典型案例：ARMCortex-A系列多核集群：AX
【前端】面试八股文——输入URL到页面展示的过程帅比九日面试八股文前端面试 javascript
【前端】面试八股文——输入URL到页面展示的过程1.DNS解析当用户在浏览器中输入URL并按下回车时，首先需要将域名转换为IP地址，这个过程称为DNS（域名系统）解析。具体步骤如下：浏览器缓存：浏览器首先检查自身缓存中是否有该域名的IP地址。操作系统缓存：如果浏览器缓存中没有找到，浏览器会向操作系统请求DNS信息。路由器缓存：如果操作系统缓存也没有找到，操作系统会向本地网络中的路由器请求DNS信息
在 Ansys Mechanical 中创建等效应力结果并使用 Python 导出到文件 David WangYang 硬件工程
介绍在AnsysMechanical模型中，通常需要对许多实体/曲面体或它们组进行后处理等效应力或总变形等。使用分组在TreeGrouping文件夹中的NamedSelections，可以在Mechanical中编写Python脚本来自动生成结果对象。此外，once可以获取新创建的结果对象，并再次使用Mechanical中的Python脚本将所有结果集的结果导出到.csv文件。在本文中，我们将探讨
常见Linux指令详解：新手入门指南 PS下载安装免费教程 Linux linux 网络服务器
一、文件和目录管理1.ls：列出目录内容功能：显示指定目录中的文件和文件夹。常用选项：-l：以详细列表形式显示-a：显示所有文件，包括隐藏文件-h：以人类可读的格式显示文件大小示例：ls-lh/home/user2.cd：改变当前工作目录功能：切换当前的工作目录。示例：cd/var/www3.mkdir：创建新目录功能：创建一个或多个新目录。示例：mkdirmy_projectmkdir-ppro
2025年计算机毕业设计springboot 智慧社区管理系统 zhihao503 课程设计 spring boot 后端
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容选题背景关于智慧社区管理系统的研究，现有成果多聚焦于单一功能模块的数字化（如物业缴费或门禁系统），缺乏对多场景服务整合与用户体验优化的系统性研究。国外研究侧重物联网技术应用（如新加坡“智慧国”计划中的社区传感器网络），而国内研究更多关注管理平台的基础框架设计，但针对业主、物业、设备多方
Oracle中union用法邓伟林 Oracle Oracle union
Oracle中union用法一、union用于查询结果可能存在多张表中的数据，并剔除重复数据据。二、unionall用于查询结果可能存在多张表中的数据，并将所有数据返回。三、写法：selecta.name,a.idfrom(selectb.namename,b.ididfrombwhereb.id=‘1’unionselectc.namename,c.ididfromcwherec.id=‘1’u
chatgpt赋能python：Python处理雷达基数据：从入门到实践 lvsetongdao123 ChatGpt python chatgpt 开发语言计算机
Python处理雷达基数据：从入门到实践随着气象技术的不断发展，雷达探测技术已成为当今天气预报和气象研究的主要手段之一。雷达基数据是气象雷达接收到的未经加工的原始数据，因其包含大量天气信息，不仅在天气预报、天气预警等方面得到了广泛应用，还被广泛地用于气象科研和大气环境研究。本文将介绍如何使用Python处理雷达基数据，解析其中的信息，获取有效的天气数据，以及分析和可视化这些数据。雷达基数据格式与处
c++右值引用详解! 好好学习O(∩_∩)O c++开发语言
前言左值引用可以参考笔者的这篇文章---从c到c++——4：引用-CSDN博客(ps:这篇文章里的引用单只左引用笔者当时水平不高(虽然现在也不高)起错了名字)左值引用与右值引用的定义c++中,无论是左值引用与右值引用,用途都是在给对象起别名左值与右值的概念左值和右值是c++中的一个概念,严格的来说,对于系统提供的=操作符来说(自己提供的重载函数不算),可以放在等号左边的或者能加const的称为左值
unionall的用法（当某条记录为空时，union all是否可以合并此条记录） hammring mysql
我们经常说union和unionall的区别在于：1.union合并相同的列时，会去重只取其中的一条；2.unionall合并所有的列。但是如果在按照某一条件进行查询时，如果表中数据没有符合该条件的记录。（即按此条件查询，表中查找到的的记录每列都为空）此时unionall并不能合并这种空的记录。比如新建一个表名为t_student的表。记录学生的姓名，性别，年龄和成绩等基础信息。在t_studen
微信小程序面试内容整理-图片优化不务正业的猿面试微信小程序前端微信小程序 notepad++小程序面试职场和发展
在微信小程序中，图片优化是提升加载速度、节省网络带宽和提高用户体验的重要步骤。图片通常是小程序页面中的主要资源，合理的图片优化能显著提高小程序的性能，尤其是在用户网络状况较差的情况下。1.选择合适的图片格式不同的图片格式有不同的特点，选择合适的格式能够有效减小图片的大小，同时保证图片质量。
【数据库】MySQL的索引详解此木|西贝数据库数据库 mysql
简介索引是一种用于快速查询和检索数据的数据结构，类似于书的目录。在几百页的书通过几页目录就可以精确定位到我们想看的章节优点和缺点优点正确的使用索引可以大大提高检索速度可以使用唯一索引保证数据在库中的唯一性使用聚合索引减少回表，降低IO次数缺点索引不宜创建的太多，否则增删改时不仅修改数据，还要修改大量的索引数据索引也会占用磁盘空间索引结构B树：多路平衡查找树，B树的所有节点都会存储key（索引）和d
列出0 racle Forms配置文件？思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
OracleForms配置文件OracleForms应用程序的配置涉及到多个文件，这些文件用于定义运行时环境、数据库连接、安全设置等。以下是与OracleForms相关的常见配置文件：1.formsweb.cfg位置：通常位于/forms/server/formsweb.cfg或WebLogic域中的指定目录。用途：此文件包含启动Forms应用所需的各种参数和属性，如表单模块名称、数据库连接字符串
路由器的配置命令 yinyaoqi 路由器 interface cisco ios network 网络
路由命令十全大补router>enable从用户模式进入特权模式router#disableorexit从特权模式退出到用户模式router#showsessions查看本机上的TELNET会话router#disconnect关闭所有的TELNET会话router#showusers查看本机上的用户router#erasestartup-config删除NVRAM中的配置router#reloa
innovus命令每日精要 | setCheckMode：数字后端物理设计的必备神器数字后端物理设计知识库 innovus 命令每日精要后端性能优化
在数字后端物理设计的领域中，确保设计数据的完整性和正确性是至关重要的。今天，我们要深入探讨的是Innovus中的一个强大命令——setCheckMode。这个命令就像是你的设计流程中的“健康卫士”，能够在各个阶段帮你揪出潜在的数据问题，避免因小失大，让错误在流程中扩散。检查模式核心功能大揭秘1.设计数据完整性检查：全面扫描，无死角-all选项就像是给你的设计做一次“全身CT”，开启所有检查选项，确
vim在Linux中的作用 U_p_ Linux linux 运维服务器
你这里产生的疑惑其实源于对文件类型和文件扩展名的一些误解。一、什么是普通文件？在Linux中，所有的文件默认都是普通文件，不管你命名为：mkhahamkhaha.txtmkhaha.sh这些名字或者扩展名本身并不决定文件的类型，它们只是为了方便人类识别用途而已。Linux系统中，并不会严格依赖扩展名来决定文件类型。你看到的mkhaha文件的类型：-rwxr-xr-x开头的-表示它是普通文件，而非目
Spring 导入 XML 配置文件：@ImportResource JiaHao汤 Spring spring xml java springboot spring boot 后端
@ImportResource是位于org.springframework.context.annotation包中的一个注解。@ImportResource用于导入XML配置文件，作用是让Spring容器加载指定的XML配置文件，并将其中定义的Bean注册到Spring容器中，以便在应用程序中使用。使用@ImportResource注解可以将一个或多个XML配置文件导入到Spring应用程序上下
Java集合之HashSet集合小白的编程日记 java java
文章目录前言一、HashSet集合特点二、HashSet集合的初始化三、HashSet集合中的成员方法1.添加集合元素2.删除集合元素3.查询集合元素4.修改集合元素5、其他成员方法四、集合的遍历总结前言HashSet集合继承了AbstractSet类，实现了Set接口。其框架图如下：一、HashSet集合特点存放单列元素，无序而且不重复。线程不安全，效率高。集合元素可以为null。没有下标，不可
深入理解 TypeScript 中的迭代器（Iterators）与生成器（Generators）念九_ysl typescript 前端 typescript
一、为什么需要迭代协议？在现代JavaScript/TypeScript开发中，我们经常需要处理各种集合型数据：数组、Map、Set甚至是自定义数据结构。ES6引入的迭代协议（IterationProtocols）正是为了解决统一遍历机制的问题。通过迭代器模式，我们可以：为不同的数据结构提供统一的访问接口实现惰性计算（LazyEvaluation）支持现代语言特性（for...of,扩展运算符等）
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

最大熵模型中的数学推导

最大熵模型中的数学推导

0 引言

1 预备知识

2 何谓熵？

2.1 熵的引入

2.2 熵的定义

3 最大熵

3.1 无偏原则

3.2 最大熵模型的表示

3.3 凸优化中的对偶问题

3.4 对偶问题极大化的指数解

3.5 最大熵模型的极大似然估计

4 参数求解法：IIS

5 参考文献

你可能感兴趣的:(最大熵模型中的数学推导)