Poll的笔记

[Machine Learning & Algorithm]CAML机器学习系列2：深入浅出ML之Entropy-Based家族

　　声明：本博客整理自博友@zhouyong计算广告与机器学习－技术共享平台，尊重原创，欢迎感兴趣的博友查看原文。

写在前面

记得在《Pattern Recognition And Machine Learning》一书中的开头有讲到：“概率论、决策论、信息论3个重要工具贯穿着《PRML》整本书，虽然看起来令人生畏…”。确实如此，其实这3大理论在机器学习的每一种技法中，或多或少都会出现其身影（不局限在概率模型）。

《PRML》书中原话：”This chapter also provides a self-contained introduction to three important tools that will be used throughout the book, namely probability theory, decision theory, and information theory. Although these might sound like daunting topics, they are in fact straightforward, and a clear understanding of them is essential if machine learning techniques are to be used to best effect in practical applications.”

怀念好学生时代：那些年－书本啃过的印记

本章主要讨论《信息论》(Information Theory)中一个非常重要的概念：信息熵，以及概率模型的一个学习准则：最大熵理论。

基本概念

熵与信息熵

如何理解熵的含义？

自然界的事物，如果任其自身发展，最终都会达到尽可能的平衡或互补状态。举例：

一盒火柴，（人为或外力）有序地将其摆放在一个小盒子里，如果不小心火柴盒打翻了，火柴会“散乱”地洒在地板上。此时火柴虽然很乱，但这是它自身发展的结果。

上面描述的其实是自然界的熵。在自然界中，熵可以这样表述：

熵是描述事物无序性的参数，熵越大则无序性越强。

那么，在信息论中，我们用熵表示一个随机变量的不确定性，那么如何量化信息的不确定性呢？
信息熵公式定义

设一次随机事件（用随机变量$X$表示），它可能会有$x_1, x_2, x_3, \cdots ,x_m$共$m$个不同的结果，每个结果出现的概率分别为$p_1, p_2, p_3, \cdots, p_m$，那么$X$的不确定度，即信息熵为：

$$
H(X) =\sum_{i=1}^{m} p_i \cdot \log_{2} \frac{1}{p_i} = - \sum_{i=1}^{m} p_i \cdot \log_{2} p_i \qquad (ml.1.2.1)
$$

①. 信息熵的物理意义：

一个事件（用随机变量$X$表示）可能的变化越多，那么它携带的信息量就越大（与变量具体取值无关，只跟值的种类多少以及发生概率有关）。

②. 系统熵举例：

对于一个分类系统来说，假设类别$C$可能的取值为$c_1, c_2, \cdots, c_k$（$k$是类别总数），每一个类别出现的概率分别是$p(c_1),p(c_2), \cdots, p(c_k)$。此时，分类系统的熵可以表示为:

$$
H(C) = - \sum_{i=1}^{k} p(c_i) \cdot \log_{2} p(c_i) \qquad (n.ml.1.2.1)
$$

分类系统的作用就是输出一个特征向量（文本特征、ID特征、属性特征等）属于哪个类别的值，而这个值可能是$c_1, c_2, \cdots, c_k$，因此这个值所携带的信息量就是公式$(n.ml.1.2.1)$这么多。

条件熵

设$X,Y$为两个随机变量，在$X$发生的前提下，$Y$发生所新带来的熵定义为$Y$的条件熵（Conditional Entropy），用$H(Y|X)$表示，计算公式如下：

$$
H(Y|X) = - \sum_{x_i,y_j}^{m,n} p(x_i,y_j) \cdot log_2 p(y_j|x_i) \qquad(ml.1.2.2)
$$

其物理含义是当变量$X$已知时，变量$Y$的平均不确定性是多少。公式$(ml.1.2.2)$推导如下：

假设变量$X$取值有$m$个，那么$H(Y|X=x_i)$是指变量$X$被固定为值$x_i$时的条件熵；$H(Y|X)$时指变量$X$被固定时的条件熵。那么二者之间的关系时：

$$
\begin{align}
H(Y|X) & = p(x_1) \cdot H(Y|X=x_1) + \cdots + p(x_m) \cdot H(Y|X=x_m) \\
& = \sum_{i=1}^{m} p(x_i) \cdot H(Y|X=x_i)
\end{align} \quad(n.ml.1.2.2)
$$

根据公式$(n.ml.1.2.2)$继续推导$Y$的条件熵：

$$
\begin{align}
H(Y|X) & = \sum_{i=1}^{m} p(x_i) \cdot H(Y|X=x_i) \\
& = -\sum_{i=1}^{m} p(x_i) \cdot \left( \sum_{j=i}^{n} p(y_j|x_i) \cdot log_2 p(y_j|x_i) \right) \\
& = -\sum_{i=1}^{m} \sum_{j=1}^{n} p(y_j,x_i) \cdot log_2 p(y_j|x_i) \\
& = - \sum_{x_i,y_j}^{m,n} p(x_i,y_j) \cdot log_2 p(y_j|x_i)
\end{align} \qquad\qquad (n.ml.1.2.3)
$$

注：条件熵里面是联合概率分布累加，公式$(n.ml.1.2.3)$推导过程可参考《第3章：深入浅出ML之Based-Tree Classification Family》中3.1.2节条件熵部分。

联合熵

一个随机变量的不确定性可以用熵来表示，这一概念可以直接推广到多个随机变量。

联合熵计算（Joint Entropy）

设$X,Y$为两个随机变量，$p(x_i,y_j)$表示其联合概率，用$H(XY)$表示联合熵，计算公式为：

$$
H(XY) = - \sum_{i=1}^{m} \sum_{j=1}^{n} p(x_i,y_j) \cdot log_{2} p(x_i,y_j) \qquad(ml.1.2.3)
$$

条件熵、联合熵、熵之间的关系：

$$
H(Y|X) = H(X,Y) - H(X) \qquad\qquad(n.ml.1.2.4)
$$

公式推导如下：

$$
\begin{align}
H(X,Y) - H(X) & = - \sum_{i=1}^{m} \sum_{j=1}^{n} p(x_i,y_j) \cdot log_2 p(x_i,y_j) + \sum_{i=1}^{m} \underline{p(x_i)} \cdot log_2 p(x_i) \\
& = - \sum_{i=1}^{m} \sum_{j=1}^{n} p(x_i,y_j) \cdot log_2 p(x_i,y_j) + \sum_{i=1}^{m} \underline{ \left( \sum_{j=1}^{n} p(x_i,y_j) \right) } \cdot log_2 p(x_i) \\
& = - \sum_{i=1}^{m} \sum_{j=1}^{n} p(x_i,y_j) \cdot \left(log_2 p(x_i,y_j) - log_2 p(x_i) \right) \\
& = - \sum_{i=1}^{m} \sum_{j=1}^{n} p(x_i,y_j) \cdot log_2 p(y_j|x_i) \\
& = H(Y|X) \qquad\qquad\qquad\qquad\qquad\qquad (n.ml.1.2.5)
\end{align}
$$
联合熵特点
- $H(XY) \geq H(X)$
  - 联合系统的熵不小于子系统的熵，即增加一个新系统不会减少不确定性。
- $H(XY) \leq H(X)+H(Y)$
  - 子系统可加性
- $H(XY) \geq 0$: 非负性。

相对熵、KL距离

相对熵概念

相对熵，又称为交叉熵或KL距离，是Kullback-Leibler散度（Kullback-Leibler Divergence）的简称。它主要用于衡量相同事件空间里的两个概率分布的差异。简单介绍其背景：

根据香农的信息论，给定一个字符集的概率分布，我们可以设计一种编码，使得表示该字符集组成的（每个）字符串平均需要的比特数最少（比如Huffman编码）。假设字符集是$X$，对$x \in X$，其出现概率为$P(x)$，那么其最优编码平均需要的比特数（即每一个字符需要的比特数）等于这个字符集的熵（公式见$(ml.1.2.1)$），即最优编码时，字符$x$的编码长度等于$log_2{\frac{1}{P(x)}}$。

在同样的字符集上，假设存在另一个概率分布$Q(x)$。如果根据$Q(x)$分布进行编码，那么表示这些字符就会比理想情况多用一些比特数。而KL距离就是用来衡量这种情况下平均每个字符多用的比特数，可用来度量两个分布的距离。
KL距离计算公式

这里用$D(P||Q)$表示KL距离，计算公式如下：

$$
D(P||Q) = \sum_{x \in X} P(x) \cdot log_2 \frac{P(x)}{Q(x)} \qquad\qquad(ml.1.2.4)
$$

从公式$(ml.1.2.4)$可以看出，当两个概率分布完全相同时，KL距离为0。概率分布$P(x)$的信息熵如公式$(ml.1.2.1)$所示，说的是如果按照概率分布$P(x)$编码时，描述这个随机事件至少需要多少比特编码。

因此，KL距离的物理意义可以这样表达：

在相同的事件空间里，概率分布为$P(x)$的事件空间，若用概率分布$Q(x)$编码时，平均每个基本事件（符号）编码长度增加了多少比特数。

通过信息熵可知，不存在其它比按照随机事件本身概率分布更好的编码方式了，所以$D(P||Q)$始终是大于等于0的。

虽然KL被称为距离，但是其不满足距离定义的3个条件：1) 非负性；2) 对称性(不满足)；3) 三角不等式(不满足)。
KL距离示例

假设有一个字符发射器，随机发出0和1两种字符，真实发出的概率分布为$A$。现在通过样本观察，得到概率分布$B$和$C$。各个分布的具体情况如下：

(1). $A(0) = 1/2, A(1) = 1/2$;

(2). $B(0) = 1/4, B(1) = 3/4$;

(3). $C(0) = 1/8, C(1) = 7/8$;

那么可以计算出相对熵如下：

$D(A||B) = 1/2 \cdot log_2 (\frac{1/2}{1/4}) + 1/2 \cdot log_2 (\frac{1/2}{3/4}) = 1/2 \cdot log_2 (4/3)$

$D(A||C) = 1/2 \cdot log_2 (\frac{1/2}{1/8}) + 1/2 \cdot log_2 (\frac{1/2}{7/8}) = 1/2 \cdot log_2 (16/7)$

可以看到，用$B和C$两种方式进行编码，其结果都是的平均编码长度增加了。同时也能发现，按照概率分布$B$进行编码，要比按照$C$进行编码，平均每个符号增加的比特数目要少。从分布熵也可以看出，实际上$B$要比$C$更接近实际分布。
如果实际分布为$C$，而用$A$分布来编码这个字符发射器的每个字符，同样可以得到：

$D(C||A) = 1/8 \cdot log_2 (\frac{1/8}{1/2}) + 7/8 \cdot log_2 (\frac{7/8}{1/2}) = 7/8 \log_2{7} - 2 > 0$

从示例中，我们可以得出结论：对于一个信息源进行编码，按照其本身的概率分布进行编码，每个字符的平均比特数最少。 这也是信息熵的概念，用于衡量信息源本身的不确定性。

此外可以看出，KL距离不满足对称性，即$D(P||Q)$不一定等于$D(Q||P)$。
相对熵应用场景
- 推荐系统－物品之间相似度
  
  在使用LDA(Latent Dirichlet Allocation)计算物品之间的内容相似度时，我们可以先计算出物品在Topic上的分布，然后利用两个物品的Topic（话题）分布计算物品的相似度。比如，如果两个物品的Topic分布相似（处在同一个事件空间），则认为两个物品具有较高的相似度，反之则认为两个物品的相似度较低。
  这种Topic分布的相似度可以利用KL散度来计算：
  
  $$
  D(P||Q) = \sum_{i \in X} p(x_i) \cdot log_2 {\frac{p(x_i)}{q(x_i)}} \qquad(n.ml.1.2.6)
  $$
  
  其中$p$和$q$是两个分布，$X$为话题集合，$x_i$表示第$i$个话题。KL散度越大说明分布的相似度越低。

互信息

如果说相对熵（KL）距离衡量的是相同事件空间里的两个事件的相似度大小，那么，互信息通常用来衡量不同事件空间里的两个信息（随机事件、变量）的相关性大小。

互信息计算公式

设$X$和$Y$为两个离散随机变量，事件$Y=y_j$的出现对于事件$X=x_i$的出现的互信息量$I(x_i,y_j)$定义为：

$$
I(x_i;y_j) = log_2 {\frac{p(x_i|y_j)}{p(x_i)}} = log_2 {\frac {p(x_i,y_j)}{p(x_i)p(y_j)}} \qquad(ml.1.2.5)
$$

对于事件$X$和$Y$来说，它们之间的互信息用$I(X;Y)$表示，公式为：

$$
I(X;Y) = \sum_{i=1}^{m} \sum_{j=1}^{n} p(x_i,y_j) \cdot log_2 {\frac{p(x_i,y_j)}{p(x_i)p(y_j)}} \qquad(ml.1.2.6)
$$

公式解释：
互信息就是随机事件$X$的不确定性（即熵$H(X)$），以及在给定随机变量$Y$条件下的不确定性（即条件熵$H(X|Y)$）之间的差异，即

$$
I(X;Y) = H(X) - H(X|Y) \qquad(n.ml.1.2.7)
$$

互信息与决策树中的信息增益等价: 互信息 $\Longleftrightarrow$ 信息增益.

所谓两个事件相关性的量化度量，就是在了解了其中一个事件$Y$的前提下，对消除另一个事件$X$不确定性所提供的信息量。
互信息与其它熵之间的关系
- $H(X|Y) = H(X,Y) - H(Y)$
- $I(X;Y) = H(X) + H(Y) - H(X,Y)$
- $I(X;Y) = H(X) - H(X|Y)$
- $I(X;X) = H(X)$
互信息应用场景
- 机器学习－<feature，label>之间相关性
  - 计算随机事件之间（不同的事件空间）的相关性。

最大熵模型（Maximum Entropy Model）

最大熵原理

在介绍最大熵模型之前，我们先了解一下最大熵原理，因为最大熵原理是选择最优概率模型的一个准则。

最大熵原理

　　在概率模型空间集合中，在满足给定约束条件的前提下，使信息熵最大化得到的概率模型，就是最优的模型。

理解最大熵原理通常用约束条件来确定概率模型的集合。

假设离散随机变量$X$的概率分布是$P(X)$，其信息熵可用公式$(ml.1.2.1)$ 表示，并且熵满足以下不等式：

$$
0 \leq H(X) \leq log_2 |X| \qquad\quad(ml.1.2.7)
$$

其中，$|X|$是$X$的取值个数，当且仅当$X$的分布是均匀分布时右边的等号才成立。也就是说，当$X$服从均匀分布时，熵最大。

根据最大熵原理学习概率模型坚持的原则：首先必须满足已有的事实，即约束条件；但对不确定的部分不做任何假设，坚持无偏原则。最大熵原理通过熵的最大化来表示等可能性。
最大熵原理举例（本示例来自《统计学习方法》第6章－李航老师）

问题：假设随机变量$X$有5个取值$\{A,B,C,D,E\}$, 要估计各个取值的概率$P(A),P(B),P(C),P(D),P(E)$。

首先这些概率只满足以下约束条件：

$$
P(A) + P(B) + P(C) + P(D) + P(E) = 1 \qquad(exp.ml.1.2.1)
$$

满足这个约束条件的概率分布有无穷多个，但是在没有任何其它信息的情况下，根据最大熵原理和无偏原则，选择熵最大时对应的概率分布，即各个取值概率相等是一个不错的概率估计方法。即有：

$$
P(A) = P(B) = P(C) = P(D) = P(E) = \frac{1}{5} \qquad(exp.ml.1.2.2)
$$

等概率坚持了最大熵的无偏原则，因为没有更多信息，此种判断是合理的。

现在从先验知识中得到一些信息：$A和B$的概率值之和满足以下条件：

$$
P(A) + P(B) = \frac{3}{10} \qquad(exp.ml.1.2.3)
$$

同样的，满足公式$(exp.ml.1.2.1)和(exp.ml.1.2.3)$两个约束条件的概率分布仍有无穷多个。在缺少其它信息的情况下，坚持无偏原则，得到：

$$
\begin{align}
P(A) = P(B) = \frac{3}{20} \qquad (exp.ml.1.2.4) \\
P(C) = P(D) = P(E) = \frac{7}{30} \qquad (exp.ml.1.2.5)
\end{align}
$$

…

还可以继续按照满足约束条件下的求等概率的方法估计概率分布。以上概率模型学习的方法正是遵循了最大熵原理。

最大熵模型定义

最大熵原理是统计学习的一般原理，将它应用到分类问题中，即得到最大熵模型。

最大熵模型引入

训练数据集：$D=\{(x^{(1)},y^{(1)}), (x^{(2)},y^{(2)}), \cdots, (x^{(N)},y^{(N)})\}$，学习的目标是：用最大熵原理选择最优的分类模型。

假设分类模型是一个条件概率分布$P(y|x), x \in X \subseteq R^n$表示输入（特征向量），$y \in Y$, $X$和$Y$分别是输入（特征向量）和输出（标签）的集合。这个模型表示的是对于给定的输入$x$，以条件概率$P(y|x)$计算得到标签$y$。
- 首先，考虑模型应满足的条件
  
  给定训练集，可以计算得到经验联合分布$P(x,y)$和边缘分布$P(x)$的经验分布，分别以$\tilde{P}(x,y)$和$\tilde{P}(x)$表示，即：
  
  $$
  \begin{align}
  \tilde{P}(x=\tilde{x}, y = \tilde{y}) &= \frac{freq(x=\tilde{x}, y = \tilde{y})}{N} \qquad(1)\\
  \tilde{P}(x=\tilde{x}) &= \frac{freq(x=\tilde{x})}{N} \qquad\qquad\;(2)
  \end{align} \qquad(ml.1.2.8)
  $$
  
  其中，$freq(x=\tilde{x}, y=\tilde{y})$表示训练集中样本$(\tilde{x}, \tilde{y})$出现的频数，$freq(\tilde{x})$表示训练集中输入$\tilde{x}$（向量）出现的频数，$N$表示训练集容量。
- 特征函数（Feature Function）
  
  定义特征函数 $f(x,y)$用于描述输入$x$和输出$y$之间满足的某一种事实：
  
  $$
  f(x,y) = \begin{cases}
  \displaystyle 1, &x与y满足某一事实; \\
  0, & 其它
  \end{cases} \qquad\qquad(ml.1.2.9)
  $$
  
  这是一个二值函数（也可以是任意实值函数），当$x$与$y$满足这个事实时取值为1，否则为0.
  
  ①. 特征函数$f(x,y)$关于经验分布$\tilde{P}(x,y)$的期望值，用$E_{\tilde{P}}(f)$表示如下：
  
  $$
  E_{\tilde{P}} = \sum_{x,y} \tilde{P}(x,y) \cdot f(x,y) \qquad\qquad(n.ml.1.2.8)
  $$
  
  ②. 特征函数$f(x,y)$关于模型$P(y|x)$与经验分布$\tilde{P}(x)$的期望值，用$E_P(f)$表示如下：
  
  $$
  E_P(f) = \sum_{x,y} \tilde{P}(x) \cdot P(y|x) \cdot f(x,y) \qquad(n.ml.1.2.9)
  $$
  
  ③. 如果模型能够获取训练数据中足够的信息，那么就可以假设这两个期望值相等。即：
  
  $$
  \sum_{x,y} \tilde{P}(x,y) \cdot f(x,y) ＝ \sum_{x,y} \tilde{P}(x) \cdot P(y|x) \cdot f(x,y) \qquad(n.ml.1.2.10)
  $$
  
  注：公式$(n.ml.1.2.10)$是频率学派－点估计求参数套路，之所以假设相等，是因为有$p(x,y)=p(y|x) \cdot p(x)$
  
  我们将公式$(n.ml.1.2.10)$作为概率模型学习的约束条件。假如有$n$个特征函数$f_{i} (x,y), i=1,2, \cdots, n$，那么就有$n$个约束条件。
最大熵模型定义

假设满足所有约束条件的模型集合为：

$$
\mathcal{C} = \{P \in \mathcal{P} | E_{P}(f_i) = E_{\tilde{P}}(f_i), i=1,2, \cdots, n\} \qquad (ml.1.2.10)
$$

定义在条件概率分布$P(y|x)$上的条件熵为：

$$
H(P) = - \sum_{x,y} \tilde{P}(x) \cdot P(y|x) \cdot \log {P(y|x)} \qquad (ml.1.2.11)
$$

模型集合$\mathcal{C}$中条件熵$H(P)$最大的模型称为最大熵模型。

注：最大熵模型中$\log$是指以$e$为底的对数，与信息熵公式中以2为底不同。本文如无特殊说明，$\log$均指自然对数。

最大熵模型参数学习

最大熵模型学习过程即为求解最大熵模型的过程，最大熵模型的学习问题可以表示为带有约束的最优化问题。

示例：学习《最大熵原理》示例中的最大熵模型

为了简便，这里分别以$y_1,y_2,y_3,y_4,y_5$表示$A,B,C,D和E$，最大熵模型学习的最优化问题可以表示为：

$$
\begin{align}
& min \quad -H(P) = \sum_{i=1}^{5} P(y_i) \cdot log{P(y_i)} \\
& s.t. \quad P(y_1) + P(y_2) = \tilde{P}(y_1) + \tilde{P}(y_2) = \frac{3}{10} \\
& \qquad \sum_{i=1}^{5} P(y_i) = \sum_{i=1}^{5} \tilde{P}(y_i) = 1
\end{align} \qquad\quad (exp.ml.1.2.5)
$$

提示：这里面没有特征$x$和特征函数$f_i(x,y)$的约束。

将带约束优化问题转化为无约束优化问题：引入拉格朗日乘子$w_0,w_1$，定义朗格朗日函数：

$$
L(P,w) = \sum_{i=1}^{5} P(y_i) log{P(y_i)} + w_1 \left( P(y_1) + P(y_2) - \frac{3}{10} \right) + w_0 \left(\sum_{i=1}^{5} P(y_i) - 1 \right) \;(exp.ml.1.2.6)
$$

根据拉格朗日对偶性，可以通过求解对偶最优化问题得到原始最优化问题的解，所以求解（对偶问题）：$\max_{w} \min_{P} L(P,w) $。求解过程如下：

首先求解$L(P,w)$关于$P$的极小化问题。为此，固定$w_0,w_1$，求偏导数：

$$
\begin{align}
& \frac{\partial L(P,w)}{\partial P(y_1)} = 1 + log_2 P(y_1) + w_1 + w_0 \\
& \frac{\partial L(P,w)}{\partial P(y_2)} = 1 + log_2 P(y_2) + w_1 + w_0 \\
& \frac{\partial L(P,w)}{\partial P(y_3)} = 1 + log_2 P(y_3) + w_0 \\
& \frac{\partial L(P,w)}{\partial P(y_4)} = 1 + log_2 P(y_4) + w_0 \\
& \frac{\partial L(P,w)}{\partial P(y_5)} = 1 + log_2 P(y_5) + w_0 \\
\end{align}
$$

令各偏导数等于0，可解得：

$$
\begin{align}
& P(y_1) = P(y_2) = e^{-w_1 - w_0 - 1} \\
& P(y_3) = P(y_4) = P(y_5) = e^{-w_0 -1}
\end{align}
$$

于是，极小化结果为：

$$
\min_{P} \; L(P,w) = L(P_w, w) = -2 e^{-w_1 - w_0 - 1} -3 e^{-w_0 - 1} - \frac{3}{10} w_1 - w_0
$$

下面再求解对偶函数$L(P_w,w)$关于$w$的极大化问题：

$$
\max_{w} \; L(P_w, w) = -2 e^{-w_1 - w_0 - 1} -3 e^{-w_0 - 1} - \frac{3}{10} w_1 - w_0 \qquad(exp.ml.1.2.7)
$$

分别求$L(P_w,w)$对$w_0,w_1$的偏导数，并令其为0，得到：

$$
\begin{align}
& e^{-w_1 - w_0 - 1} = \frac{3}{20} \\
& e^{-w_0 - 1} = \frac{7}{30}
\end{align}
$$

于是得到所求的概率分布为：

$$
\begin{align}
& P(y_1) = P(y_2) = \frac{3}{20} \\
& P(y_3) = P(y_4) = P(y_5) = \frac{7}{30}
\end{align}
$$
最大熵模型学习一般流程

对于给定的训练$D=\{(x^{(1)},y^{(1)}), (x^{(2)},y^{(2)}), \cdots, (x^{(N)},y^{(N)})\}$以及特征函数$f_i(x,y),i=1,2,\cdots,n$，最大熵模型的学习等价于带约束的最优化问题：

$$
\begin{align}
& \max_{P \in \mathcal{C}} \quad H(P) = -\sum_{x,y} \tilde{P}(x) \cdot P(y|x) \cdot log P(y|x) \\
& s.t. \quad E_P(f_i) = E_{\tilde{P}} (f_i), \; i=1,2,\cdots,n \\
& \qquad \sum_{y} P(y|x) = 1
\end{align} \qquad\quad(ml.1.2.12)
$$

按照最优化问题的习惯思路，将求最大值问题改写为求等价的最小值问题，即：

$$
\begin{align}
& \min_{P \in \mathcal{C}} \quad -H(P) = \sum_{x,y} \tilde{P}(x) \cdot P(y|x) \cdot log P(y|x) \\
& s.t. \quad E_P(f_i) - E_{\tilde{P}} (f_i) = 0, \; i=1,2,\cdots,n \\
& \qquad \sum_{y} P(y|x) = 1
\end{align} \qquad\quad(ml.1.2.13)
$$

求解约束最优化问题$(ml.1.2.13)$所得出的解，就是最大熵模型学习的解。

将约束最优化的原始问题转换为无约束最优化的对偶问题。具体推导过程如下：
- 首先，引入拉格朗日乘子$w_0,w_1,\cdots,w_n$，定义拉格朗日函数$L(P,w)$
  
  表达式为：
  
  $$
  \begin{align}
  L(P,w) & = -H(P) + w_0 \cdot \left( 1- \sum_{y} P(y|x) \right) + \sum_{i=1}^{n} w_i \cdot \left( E_{\tilde{P}}(f_i) - E_P (f_i) \right) \\
  & = \sum_{x,y} \tilde{P}(x) \cdot P(y|x) \cdot log {P(y|x)} + w_0 \cdot \left( 1- \sum_{y} P(y|x) \right) \\
  & \qquad + \sum_{i=1}^{n} w_i \cdot \left(\sum_{x,y} \tilde{P}(x,y) \cdot f_i(x,y) - \sum_{x.y} \tilde{P}(x) \cdot P(y|x) \cdot f_i(x,y) \right)
  \end{align} \quad(ml.1.2.14)
  $$
  
  最优化的原始问题是：
  
  $$
  \min_{P \in \mathcal{C}} \max_{w} L(P,w) \qquad\qquad(ml.1.2.15)
  $$
  
  对偶问题是：
  
  $$
  \max_{w} \min_{P \in \mathcal{C}} L(P,w) \qquad\qquad(ml.1.2.16)
  $$
  
  通俗的讲，由_最小最大问题_转化为_最大最小问题_。
  
  由于最大熵模型对应的朗格朗日函数$L(P,w)$是参数$P$的凸函数，所以原始问题$(ml.1.2.15)$的解与对偶问题$(ml.1.2.16)$的解是等价的。因此，可以通过求解对偶问题来得到原始问题的解。
- 其次，求对偶问题$(ml.1.2.16)$内部的极小化问题$\min_{P \in \mathcal{C}} L(P,w)$
  
  $\min_{P \in \mathcal{C}} L(P,w)$是乘子$w$的函数，将其记作：
  
  $$
  \Psi(w) = \min_{P \in \mathcal{C}} L(P,w) = L(P_w, w) \qquad(ml.1.2.17)
  $$
  
  $\Psi(w)$称为对偶函数（$Latex: \Psi$ = \Psi）。将其解记作：
  
  $$
  P_w = arg \min_{P \in \mathcal{C}} L(P,w) = P_w (y|x) \qquad(n.ml.1.2.11)
  $$
  
  具体地，固定$w_i$，求$L(P,w)$对$P(y|x)$的偏导数：
  
  $$
  \begin{align}
  \frac{\partial L(P,w)} {\partial P(y|x)} & = \sum_{x,y} \tilde{P}(x) \cdot \left(logP(y|x) + 1 \right) - \sum_{y} w_0 - \sum_{x,y} \left( \tilde{P}(x) \cdot \sum_{i=1}^{n} w_i \cdot f_i(x,y) \right) \\
  & = \sum_{x,y} \tilde{P}(x) \cdot \left(logP(y|x) + 1 - w_0 - \sum_{i=1}^{n} w_i \cdot f_i(x,y) \right) \qquad(n.ml.1.2.12)
  \end{align}
  $$
  
  令偏导数等于0，在$\tilde{P}(x) > 0$的情况下，求得：
  
  $$
  P(y|x) = \exp {\left( \sum_{i=1}^{n} w_i \cdot f_i(x,y) + w_0 - 1 \right)} = \frac {\exp \left(\sum_{i=1}^{n} w_i \cdot f_i(x,y) \right)} {\exp(1-w_0)} \quad(n.ml.1.2.13)
  $$
  
  由于 $\sum_{y} P(y|x) = 1$，可得：
  
  $$
  P_w (y|x) = \frac{1}{Z_w(x)} \exp \left(\sum_{i=1}^{n} w_i \cdot f_i(x,y) \right) \qquad\quad(n.ml.1.2.14)
  $$
  
  其中，
  
  $$
  Z_w(x) = \sum_{y} \exp \left(\sum_{i=1}^{n} w_i \cdot f_i(x,y) \right) \qquad\quad(n.ml.1.2.15)
  $$
  
  $Z_w(x)$称为归一化因子；$f_i(x,y)$是特征函数；$w_i$是第$i$个参数（特征权值）。公式$(n.ml.1.2.14)$、$(n.ml.1.2.15)$ 表示的模型$P_w = P_w(y|x)$就是最大熵模型（$w$是最大熵模型中的参数向量）。
- 最后，求解对偶问题外部的极大化问题
  
  对偶问题外部极大化表达式：
  
  $$
  \max_{w} \Psi(w) \qquad\qquad(ml.1.2.18)
  $$
  
  将其解记作$w^@$，即: $w^@ = arg \max_{w} \Psi(w)$。
  
  也就是说，可以应用最优化算法求对偶函数$\Psi(w)$的极大化，得到$w^@$，用其表示$P^@ = P_{w^@} = P_{w^@}(y|x)$是学习到的最优模型（最大熵模型）。
  
  最大熵模型的学习归结为对偶函数$\Psi(w)$的极大化。

对偶函数极大化与极大似然估计等价

从最大熵模型的学习过程可以看出，最大熵模型是由$n.ml.1.2.14$和$n.ml.1.2.15$表示的条件概率分布。下面证明：对偶函数的极大化等价于最大熵模型的极大似然估计。

对偶函数极大化＝极大似然估计

已知训练数据的经验概率分布$\tilde{P}(x,y)$，条件概率分布分布$P(y|x)$的对数似然函数表示为：

$$
L_{\tilde{P}}(P_w) = \log \prod_{x,y} P(y|x)^{\tilde{P}(x,y)} = \sum_{x,y} \tilde{P}(x,y) \cdot \log P(y|x) \qquad(ml.1.2.19)
$$

当条件概率分布$P(y|x)$是最大熵模型(公式$(n.ml.1.2.14)和n(.ml.1.2.15)$)时，对数似然函数$L_{\tilde{P}}(P_w)$为：

$$
\begin{align}
L_{\tilde{P}}(P_w) & = \sum_{x,y} \tilde{P}(x,y) \cdot \log P(y|x) \\
& = \sum_{x,y} \left (\tilde{P}(x,y) \cdot \sum_{i=1}^{n} w_i f_i(x,y)\right) - \sum_{x,y} \tilde{P}(x,y) \cdot log Z_w(x) \\
& = \sum_{x,y} \left (\tilde{P}(x,y) \cdot \sum_{i=1}^{n} w_i f_i(x,y)\right) - \sum_{x} \tilde{P}(x) \cdot log Z_w(x)
\end{align} \quad(ml.1.2.20)
$$

再看对偶函数$\Psi(w)$，由公式$(ml.1.2.14)$和公式$(ml.1.2.17)$可得：

$$
\begin{align}
\Psi(w) & = \sum_{x,y} \tilde{P}(x) \cdot P_w(y|x) \cdot \log P_w(y|x) \\
& \qquad\quad + \sum_{i=1}^{n} w_i \cdot \left(\sum_{x,y} \tilde{P}(x,y) f_i(x,y) - \sum_{x,y} \tilde{P}(x) P_w(y|x)f_i(x,y) \right) \\
& = \sum_{x,y} \tilde{P}(x,y) \sum_{i=1}^{n} w_i f_i(x,y) + \sum_{x,y} \tilde{P}(x)P_w(y|x) \left(\underline{log P_w(y|x) - \sum_{i=1}^{n} w_i f_i (x,y)}\right) \\
& = \sum_{x,y} \tilde{P}(x,y) \sum_{i=1}^{n} w_i f_i(x,y) - \sum_{x,y} \tilde{P}(x) P_w(y|x) \cdot \underline{\log Z_w(x)} \\
& = \sum_{x,y} \tilde{P}(x,y) \sum_{i=1}^{n} w_i f_i(x,y) - \sum_{x} \tilde{P}(x) \log Z_w(x)
\end{align} \quad(ml.1.2.21)
$$

其中，第二步推导第三步中用到了:

$$
\sum_{i=1}^{n} w_i \cdot f_i(x,y) = \log P_w(y|x) \cdot Z_w(x) \qquad(n.ml.1.2.16)
$$

根据公式$(n.ml.1.2.14)$得到。在最后一步用到了$\sum_{y} P(y|x) = 1$的性质。即：

$$
\begin{align}
\sum_{x,y} \tilde{P}(x) P_w(y|x) \log Z_w(x) & = \sum_{x} \tilde{P}(x) \left( \sum_{y} P_w(y|x) \right) \log Z_w(x) \\
& = \sum_{x} \tilde{P}(x) \log Z_w(x)
\end{align} \qquad(n.ml.1.2.17)
$$

比较公式$(ml.1.2.20)$和$(ml.1.2.21)$，可以发现：

$$
\Psi(w) = L_{\tilde{P}}(P_w) \qquad\qquad(ml.1.2.22)
$$

即对偶函数$\Psi(w)$等价于对数似然函数$L_{\tilde{P}}(P_w)$，于是最大熵模型学习中的对偶函数极大化等价于最大熵模型的极大似然估计的结论得以证明。

总结：最大熵模型的学习问题就转化为具体求解对数似然函数极大化或对偶函数极大化的问题。

可以将最大熵模型写成更为一般的形式：

$$
\begin{align}
P_w(y|x) &= \frac{1}{Z_w(x)} \cdot \exp \left(\sum_{i=1}^{n} w_i \cdot f_i(x,y)\right) \\
Z_w(x) &= \sum_{y} \exp \left(\sum_{i=1}^{n} w_i \cdot f_i(x,y)\right)
\end{align} \qquad(ml.1.2.23)
$$

这里，$x \in R^n$为输入（向量），$y \in \{1,2, \cdots, K\}$为输出，$w \in R^n$为权值向量，$f_i(x,y), i=1,2, \cdots, n$为任意实值特征函数。

小结：

①. 最大熵模型与LR模型有类似的形式，它们又称为对数线性模型（Log Linear Model）。

②. 模型学习就是在给定的训练数据条件下对模型进行极大似然估计或正则化的极大似然估计。

你可能感兴趣的:([Machine Learning & Algorithm]CAML机器学习系列2：深入浅出ML之Entropy-Based家族)

数据处理神器！一款强大的数据处理命令行工具！
大家好，我是Java陈序员。我们在日常开发中，经常会操作使用一些JSON、YAML、XML等格式的数据，对数据进行增删改查和转换操作。今天，给大家分享一款强大的数据处理命令行工具，一行命令搞定数据操作！关注微信公众号：【Java陈序员】，获取开源项目分享、AI副业分享、超200本经典计算机电子书籍等。项目介绍dasel——一款用于处理和操作多种数据格式的命令行工具，支持对JSON、YAML、TOM
蓝桥杯1463：货物摆放问题详解——数学思维与代码优化藍海琴泉蓝桥杯职场和发展
目录一、题目分析与数学建模二、直接暴力法的局限性三、优化策略：因数分解与三元组枚举步骤1：收集所有因数步骤2：三元组枚举优化四、代码实现与优化技巧五、复杂度分析与性能提升六、总结与拓展思考关键点总结拓展思考七、完整代码与验证验证说明一、题目分析与数学建模题目描述：小蓝需要将n个正方体货物摆成一个大的长方体，要求长、宽、高分别为L×W×H，且L×W×H=n。顺序不同视为不同方案（如1×2×3和2×1
Java 算法入门：动态规划和二叉树来自星星的坤算法 java 动态规划
在学习算法的路上，难免会遇到一些概念和题目让你感到困惑。今天，我们来讲解leetcode上两个非常基础但又十分重要的算法题。这两道题既是入门的好题目，也能帮助你理解一些常见的算法思维。让我们一起来探讨一下：动态规划和二叉树。LeetCode70题:爬楼梯问题问题描述想象一下，你正站在一个楼梯的底部，需要爬到楼顶。楼梯共有n阶，每次你可以选择爬1阶或2阶。现在，你需要计算出有多少种不同的方式可以到达
过期的SSL证书可以续费吗？ sslssl证书
SSL证书对于保护网站和应用程序至关重要。但是，它们会过期，需要定期更新。如果您了解流程并掌握所需信息，更新过期的SSL证书很容易。在到期之前更新SSL证书至关重要。本综合指南将引导您完成更新过期SSL证书的所有步骤。**关键要点**检查您的SSL证书的到期日期，并提前1-2个月开始续订流程。要更新SSL证书，您将需要域名、私钥文件、CSR文件或详细信息来生成新的CSR。使用相同的证书颁发机构或选
贪心算法经典应用：最优答疑调度策略详解与Python实现藍海琴泉贪心算法算法
目录引言：从现实场景到算法设计一、问题背景与数学建模1.1现实场景抽象1.2时间线分析二、贪心策略的数学证明与选择依据2.1贪心选择性质2.2证明过程三、算法实现与代码解析3.1算法步骤分解3.2代码亮点解析四、测试案例与结果验证4.1示例分析4.2边界测试五、算法复杂度分析5.1时间复杂度5.2空间复杂度六、进阶思考与扩展6.1变种问题6.2实际应用引言：从现实场景到算法设计在校园生活中，我们常
《Python实战进阶》No37: 强化学习入门：Q-Learning 与 DQN-加餐版1 Q-Learning算法可视化带娃的IT创业者 Python实战进阶 python 算法 pygame
在《Python实战进阶》No37:强化学习入门：Q-Learning与DQN这篇文章中，我们介绍了Q-Learning算法走出迷宫的代码实践，本文加餐，把Q-Learning算法通过代码可视化呈现。我尝试了使用Matplotlib实现，但局限于Matplotlib对动画不支持，做出来的仿动画太僵硬，所以使用pygame重新设计Q-Learning的可视化程序可以显著提升动画的流畅性和交互性。相比
六十天Linux从0到项目搭建（第十一天）（阻塞、挂起、进程状态、退出码） h^hh Linux linux
1阻塞（Blocking）1.阻塞的定义阻塞是指进程因等待某种资源（如磁盘I/O、网络数据、锁等）暂时无法继续执行，从而进入“暂停”状态，直到资源就绪后被唤醒。核心特点：进程主动放弃CPU（不再被调度）。一定是因为需要等待资源（如数据未到达、设备忙）。2.阻塞的底层原理(1)进程如何被阻塞？步骤：进程请求资源（如read()读取磁盘数据）。若资源未就绪（如磁盘忙），OS将进程的PCB（task_s
Python中格式化符号%s和f’{表达式}’的两种用法王子玉博客 python基础教程
格式化符号%s和f’{表达式}’的扩展应用一、格式化字符串%s的其他方式应用需求：利用格式化符号%s来输出数据----我的名字是n，去年n岁了,体重是nage=29name='python自学网'weight=52.5#不全部利用%sprint('我的名字是%s，去年%d岁了,体重是%f'%(name,age,weight))#返回结果我的名字是python自学网，去年29岁了,体重是52.500
leetcode40-组合总和II 记得早睡~ 算法小课堂 leetcode 数据结构 javascript 算法
leetcode40思路在做本题之前可以参考之前的文章：组合总和和组合总和III本题的关键点是：每个元素只能使用一次，另外本题给的数组是无序的，并且元素之间可能存在重复项，举个例子，candidates=[1,2,1,1]，这种可能性存在，所以本题的关键在于去重假设candidates=[1,2,1,1]，target=3可能的情况是：[1,2],[1,1,1]也就是说元素每个元素1都是一个单独的
《Operating System Concepts》阅读笔记：p489-p489 操作系统
《OperatingSystemConcepts》学习第41天，p489-p489总结，总计1页。一、技术总结无。二、英语总结(生词：3)1.merely(1)merely:mere("pure")+-lyadv.only,nothingmorethan(仅仅，只是)。(2)示例Thesecolumns(柱子)havenofunctionandaremerelydecorative.2.incid
&在python是什么意思_python中 '!='是什么意思 weixin_39607873
展开全部1、格式符例如：2113a='test'print'itisa%s'%(a)打印的结果就是5261itisatest2、单独看%，是一个运算符号4102，求余数。例如：求模运算，相当于mod，也1653就是计算除法的余数，比如5%2就得到1。扩展资料：python中%常用的操作有%s,%d,%r等%s,%r,%d分别表示字符串以str（），rper(),以及十进制整数表示，%f表示结果为浮
台式计算机开机不自检不起动,台式机开机一直自检的解决方法 weixin_39537397 台式计算机开机不自检不起动
台式机开机一直自检的解决方法电脑开机都会自动检测内存及cpu等硬件，当电脑基本配置内存容量有所增加及内存过大重复检测内存的话，就是导致检测内存时间过长的主要原因。下面是jy135小编收集整理的台式机开机一直自检解决方法，欢迎阅读。台式机开机一直检测解决方法一：1.开机键→主板控制芯片向→CPU发出RESET信号→CPU初始化2.当电源供电稳定后，芯片组便撤去RESET信号，CPU马上就从FFFFO
dell台式计算机主板电池,台式机主板电池怎么拆 weixin_39595085 dell台式计算机主板电池
大家好，我是时间财富网智能客服时间君，上述问题将由我为大家进行解答。以戴尔台式机为例，台式机主板电池的拆法：1、关闭电源，将所有插在机箱上面的电线与相关设备移除。2、用十字的螺丝刀启开电脑机箱，将机箱放到一边，注意在接触电脑硬件之前一定要用手摸一下金属的东西，以防静电对硬件造成伤害。3、打开机箱后即可看到主板电池。4、用一字的小螺丝刀顶一下主板电池旁边的一个小卡子，电池的一端就会翘起来，将它拿出即
217.HarmonyOS NEXT系列教程之 TabBar工具函数与Canvas绘制实现解析 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之TabBar工具函数与Canvas绘制实现解析本文将详细解析TabBar中的工具函数和Canvas绘制实现，包括图片处理、尺寸计算和Canvas绘制等核心功能。效果演示1.图片资源处理exportfunctiongetImag
SvelteKit 最新中文文档教程（12）—— 高级路由
前言Svelte，一个语法简洁、入门容易，面向未来的前端框架。从Svelte诞生之初，就备受开发者的喜爱，根据统计，从2019年到2024年，连续6年一直是开发者最感兴趣的前端框架No.1：Svelte以其独特的编译时优化机制著称，具有轻量级、高性能、易上手等特性，非常适合构建轻量级Web项目。为了帮助大家学习Svelte，我同时搭建了Svelte最新的中文文档站点。如果需要进阶学习，也可以入手我
小样本学习综述2025 wuxuand 深度学习计算机视觉深度学习人工智能
一、Few-ShotClass-IncrementalLearningforClassificationandObjectDetection:ASurvey用于分类和目标检测的少样本类增量学习：综述引用：@ARTICLE{10840313,author={Zhang,JinghuaandLiu,LiandSilvén,OlliandPietikäinen,MattiandHu,Dewen},jou
213.HarmonyOS NEXT系列教程之 CustomDrawTabbarComponent组件功能解析 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之CustomDrawTabbarComponent组件功能解析本文将详细解析CustomDrawTabbarComponent组件的实现，这是一个自定义的TabBar容器组件。效果演示1.组件功能概述/***功能描述:通过ca
211.HarmonyOS NEXT系列教程之 TabsRaisedCircle组件核心实现解析 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之TabsRaisedCircle组件核心实现解析本文将详细解析TabsRaisedCircle组件的核心实现，包括状态管理、布局结构和交互处理。效果演示1.组件状态定义@ComponentexportstructTabsRai
212.HarmonyOS NEXT系列教程之 TabsRaisedCircleSelect组件实现解析 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之TabsRaisedCircleSelect组件实现解析本文将详细解析TabsRaisedCircleSelect组件的实现，这是一个用于处理选中状态视觉效果的组件。效果演示1.组件结构定义@Builderexportfunc
209.HarmonyOS NEXT系列教程之 TabsConcaveCircle组件状态管理与生命周期 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之TabsConcaveCircle组件状态管理与生命周期本文将详细解析TabsConcaveCircle组件中的状态管理和生命周期处理部分，帮助开发者理解组件的核心机制。效果演示1.状态装饰器使用@Componentexpor
210.HarmonyOS NEXT系列教程之 TabsConcaveCircle组件动画系统详解 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之TabsConcaveCircle组件动画系统详解本文将深入解析TabsConcaveCircle组件的动画系统实现，包括选项切换动画和圆球移动动画。效果演示1.动画状态管理privatecanvasAnimator:Anim
208.HarmonyOS NEXT系列教程之 CustomDrawTabbarComponent组件实现解析 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之CustomDrawTabbarComponent组件实现解析本文将详细解析CustomDrawTabbarComponent组件的实现，这是一个自定义的TabBar容器组件，展示了如何集成和使用TabsConcaveCirc
206.HarmonyOS NEXT系列教程之 TabsConcaveCircle组件交互处理与事件响应 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之TabsConcaveCircle组件交互处理与事件响应本文将详细介绍TabsConcaveCircle组件的交互处理和事件响应机制，包括点击事件处理、状态更新和视觉反馈。效果演示1.菜单项构建与交互@BuilderTabIt
信息安全考研和就业的选择分析狼王7号信息安全
文章目录前序关于未来关于考研1.学历到底是不是个问题？2.考研之路，如何准备。2.1开阔视野，切勿思想局限2.2提前准备，保研优研政策有很多。2.3来点干货，信息安全专业的学校怎么选？2.4信息收集，了解一下2.5研究生阶段，保持本心。关于工作1.大集团还是小公司?前序笔者本科就读于某省属的普通高校。在校期间一直备研，跟热爱信息安全方向的研究生也接触较多。上学打过CTF，参加过几家国内厂商的安全会
0-1背包问题，使用动态规划的三种方法(二维数组,两个一维数组,一个一维数组)python实现路漫漫` leetcode Python 算法动态规划 python
0-1背包问题感谢这些朋友们的文章，给了我很大启发：https://blog.csdn.net/songyunli1111/article/details/94778914https://blog.csdn.net/na_beginning/article/details/62884939https://blog.csdn.net/qq_39445165/article/details/84334
#C8# UVM中的factory机制 #S8.2.3# 重载sequence哪些情形那么菜 UVM
在UVM中，重载（Override）Sequence是一种动态替换激励生成逻辑的关键技术，常用于灵活配置测试场景。以下是常见的用法和实现方式：1.在uvm_testbuild_phase中通过set_type_override重载用途：直接替换某个Sequencer的默认Sequence类型。实现步骤：在测试用例的build_phase中，调用set_type_override。指定原始Seque
静态路由介绍忆往夕梦网络网络
目录静态路由与动态路由优缺点静态路由优点缺点动态路由缺点优点总结静态路由路由环路拓展配置静态路由与动态路由优缺点获取未知网段的路由信息方法：1，静态路由：由网络管理员手工填写的路由信息。2，动态路由：所有路由器运行相同路由协议，之后，通过路由器之间的沟通，协商最终计算生成路由条目。静态路由优点1，选路由管理员选择，相对更好掌控；2，不用占用额外的资源3，更加安全缺点1，配置量大2，静态路由无法根据
Python 中%d，%s等特殊符号的含义哇哈哈& python
常见的格式化符号如下表=====================================================================================https://www.cnblogs.com/wj12312/p/10490753.html================================================
图论 25. A*算法（A星算法，Astar算法） Mophead_Zarathustra 小白的代码随想录刷题笔记 Mophead的小白刷题笔记 leetcode python 代码随想录图论
图论25.A*算法（A星算法，Astar算法）127.骑士的攻击A*算法精讲（Astar算法）|代码随想录卡码网无难度标识思路：（摘录修改自代码随想录）题目背景：我们看到这道题目的第一个想法就是广搜，这也是最经典的广搜类型题目，但提交后会发现超时了。因为本题地图足够大，且n也有可能很大，导致有非常多的查询，以及很多无用的遍历。那我们能不能让遍历方向朝着终点的方向去遍历，从而避免很多无用遍历呢？这就
星河飞雪网络安全-安全见闻总篇小陈在努力ii 安全 python java 1024程序员节
声明学习视频笔记均来自B站UP主"泷羽sec",如涉及侵权马上删除文章笔记的只是方便各位师傅学习知识,以下网站只涉及学习内容,其他的都与本人无关,切莫逾越法律红线,否则后果自负安全见闻01-09已全部更新，后续将会持续更新的章节，感谢各位师傅的点赞关注，冲！目录声明1.常见编程语言（安全见闻01）1.1函数式编程语言1.2数据科学和机器学习领域1.3Web全栈开发1.4移动开发1.5嵌入式系统开发
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?