Sakura_Logic

机器学习之熵笔记

1.物理学中的熵
2.信息论中的熵
- 2.1自信息
- 2.2信息熵
- 2.3联合信息熵
- 2.4条件熵
- 2.5互信息
- 2.6交叉熵
- 2.7相对熵
- 2.8信息增益
- 2.9信息增益率
- 2.10基尼系数

1.物理学中的熵

19世纪，物理学家开始认识到，世界的动力是能量，并且提出 能量守恒定律，即能量的总和是不变的。但是，有一个现象让他们很困惑。物理学家发现，能量无法百分百地转换。比如，蒸汽机使用的是热能，将其转换为推动机器的机械能。这个过程中，总是有一些热能损耗掉，无法完全转变为机械能。一开始，物理学家以为是技术水平不高导致的，但后来发现，技术再进步，也无法将能量损耗降到零。他们就将那些在能量转换过程中浪费掉的、无法再利用的能量称为熵。
后来，这个概念被总结成了 热力学第二定律：能量转换总是会产生熵，如果是封闭系统，所有能量最终都会变成熵。
熵描述的是混乱程度，熵越大则系统越混乱。通过几个例子来具体了解熵与混乱之间的关系：
1、我们长期居住在一个房子里，房间如果没人打扫，只会越来越乱，垃圾到处都是，不可能越来越干净。如果想要改变这混乱的房间，必须打扫它，而打扫的过程，可理解为注入能量的过程。所以要使熵降低，就必须不断提供能量，保持房间的整洁。
2、我们每一个人，都可以看成一个系统，如果不给自己提供能量（不吃不喝）来维持自己的生命，体内的熵会逐渐变大，越来越混乱，直至死亡。
3、一杯清水，开始的时候纯度很高，现在向里面加入一滴蓝墨水，墨水会逐渐扩散到每一个分子的位置，这个过程可以看作熵逐渐增大的过程，水的纯度降低，系统逐渐混乱，充斥在每一个分子之间，最终变成一杯蓝水。
4、我们的宇宙，有很多发光发热的恒星，根据热力学第二定律，温度高的物体能量向温度低的物体传递，最终整个宇宙的温度会趋于平和，即宇宙任何地方的温度都一样，这时宇宙就会趋于死寂的状态。
以上的四个例子，都是随着时间的推移，物体的熵逐渐增大，系统越来越混乱的过程。当然混乱本身是一种感性词汇，或许有人认为，人的最终死亡是一种趋于平静，是一种确定性的趋向，并非趋于混乱。那么，请你将混乱理解为，宇宙万物，在没有外部能量的维持情况下，都是朝着灭亡发展的，即所谓的朝着熵增大，混乱无序的方向发展的。
物理学中波尔兹曼研究得到，热力学熵与微观状态数目的对数之间存在联系。其中， $k$ 为玻尔兹曼常数， $W$ 为微观状态的数目，公式为： $k\ logW$

2.信息论中的熵

2.1自信息

自信息又叫信息量，表示某一事件发生时所带来的信息量的多少，当事件发生的概率越大，则自信息越小。如：别人告诉你，明天太阳从东边升起。因为太阳从东边升起这个事件发生的概率很大，这个信息是显而易见的，所以此信息带给我们的信息量等于零。但是，如果告诉你，某个发达国家发动了政变，你就会震惊，想去看新闻，你就会感觉这个信息量有点大呀！这是从文字的角度理解，但是如何度量它呢？我们现在要寻找一个函数，它要满足的条件是：

事件发生的概率越大，则信息量越小。
自信息不能是负值，最小是0。这个很好理解，因为获得一个信息，最多是此信息对你没有任何用处，不会因为得知了一个信息，记忆反而被删除了。在正常情况下，这是不符合逻辑的。
自信息应该满足可加性，随着知道的信息越多，信息量是逐渐增加的。并且多个独立事件的信息量应该等于多个事件单独的信息量之和。

于是，找到一个满足上述条件的函数，下面给出自信息的具体公式： $I(p_i)=-log \ p_i$ 或表示为 $\ p(x)$ 其中 $l o g$ 可以是以2为底，也可以是以 $e$ 为底等等，默认以2为底。 $p_i$ 为事件发生的概率，自信息的单位是 bit(比特)，函数图像如下：
自信息是基于概率的函数，概率有联合概率、条件概率等。类比自信息也有联合自信息与条件自信息。联合自信息公式： $\ p(x,y)$ 条件自信息公式： $\ p(y|x)$ 后面要说的信息熵，联合信息熵与条件信息熵，都是由一系列的自信息得到的。

2.2信息熵

信息熵反应的是任何一种能量在空间中分布的均匀程度，分布越均匀，信息熵的值就越大。上述，一系列自信息都是针对判断一个事件带来的信息量。如： $P$ (明天下雨的概率) $= 0.7$ ， $P$ (明天不下雨的概率) $= 0.3$ ，可以将这两种情况分别代入公式 $I(p_i)=-log(p_i)$ ，求出各自的自信息。如果想要知道，明天雨晴情况这一整体事件的信息量呢！大家都会想到，把每一种情况逐步带入自信息公式 $I(p_i)=-log(p_i)$ ，然后再求平均，用平均数说明问题。
通过上述的推论，你可能认为信息熵的公式应该是这样的， $\frac{1}{N}\sum_{i=1}^{N}log(p_i)$ ，但显然信息熵的公式不是这样的。在学习概率论与数理统计中了解到，这种把所有情况相加起来除以个数的表达，只是样本均值，而不是总体均值。那什么是总体均值，或为什么用总体均值呢。总体均值就是我们所说的数学期望。从字面意思就可以理解，样本是在总体中选出来的一部分，这部分值只是总体的部分代表，而没有充分的考虑整体样本的特性。而总体均值，兼顾的考虑到元素值的分布率(每个值出现的概率)，更具有对大数据的统计性(特殊的，如果总体是均匀的，即整体特性与任意样本特性一致，如等可能的古典概型。那么任意取一部分完备样本，此样本的均值与总体均值一致)。对于广义上的统计数据来说，根据大数定律，只要样本取的足够大，这时候样本均值(算数平均数)最终将会等于总体均值(数学期望)。大概介绍到这里，详细的请参考概率论与数理统计中的大数定律。总之，可以理解为样本均值与总体均值(数学期望)本质都是求平均数。显然，信息熵用的是，总体均值(数学期望)。
所以，也就相当于求自信息的数学期望，即 $H (X) = E [I (X)]$ 根据数学期望公式，离散情况下得： $\sum_{i=1}^{N}p_i\ log \ p_i$ 或写成 $\sum_{x}p(x)\ log \ p(x)$
连续情况下得， $E(p)=-\int p_ilog \ p_i$ 或写成 $H(X)=-\int_X p(x)log \ p(x)dx$
下面来介绍一下这个函数的图像，因为 $H (X)$ 是个累加的函数，函数值一定和累加的次数有关，为了方便表示其图像轮廓，就以离散型抛硬币为例来说明一下。抛硬币有两个结果，所以 $N$ 取为2。分别为 $p$ (正面向上) $=\frac{1}{2}$ 和 $p$ (反面向上) $=\frac{1}{2}$ ，代入信息熵公式 $H(X)=-\frac{1}{2}log\frac{1}{2}-\frac{1}{2}log\frac{1}{2}=log2=1$ ，这能说明什么呢？其实，对于抛硬币来说，这就是熵最大的时候，也就是最混乱的时候。就是因为，正面和反面的概率是一样的，我们猜哪一面都不太确定，没有比这再糟糕的了。比如，再告诉你这个硬币改造了一下，它正面的概率为 $\frac{2}{3}$ ，反面的概率为 $\frac{1}{3}$ ，此时的熵 $H(X)=-\frac{2}{3}log\frac{2}{3}-\frac{1}{3}log\frac{1}{3}=0.2783$ ，这种情况下熵就变小了，不确定性也变小了，此时我们比较确定会是正面；又或者告诉你，这个硬币又改造了一下，它正面的概率为 $0$ ，反面的概率为 $1$ ，此时的熵 $H (X) = - 0 l o g 0 - 1 l o g 1 = 0$ ，熵最低，不确定性完全没了，一定是反面了；发现没有，只要概率不是均等的，我们总会更确定一些，选出概率相对大的。从这个角度可以看出，在概率为等可能的情况下，就是熵值最大的时候。
同样，现在置筛子，有六种结果，此时 $N$ 为6，熵最大的时候为等可能的情况，即 $H(X)=-\frac{1}{6}log\frac{1}{6}-\frac{1}{6}log\frac{1}{6}-\frac{1}{6}log\frac{1}{6}-\frac{1}{6}log\frac{1}{6}-\frac{1}{6}log\frac{1}{6}-\frac{1}{6}log\frac{1}{6}=log6$ 。无论是哪一种情况，熵最小的时候都是概率取0和1的时候，这个可以通过公式证明，因为 $p (x)$ 表示的是一种概率，所以自变量 $p (x)$ 取值为 $0 < = p (x) < = 1$ 。当概率取0使，利用极限求得 $\mathop{\lim}_{p(x) \to 0 }H(X)=\mathop{\lim}_{p(x) \to 0 }p(x) logp(x)=0$ ；同样当概率 $p (x)$ 取1时，可直接求得 $H (X) = p (x) l o g p (x) = 0$ 。尽管 $H (X)$ 是个累加的函数，因为两种结果都是0，所以即使累加后结果还是0。
通过上面的两个例子，发现信息熵的最大值与事件可能性的个数有关，即与 $N$ 有关，为 $l o g N$ 。所以基本通过描点作图法得到函数 $H (x)$ 的取值范围为： $\leqslant X \leqslant logN$ 。其中 $N$ 为事件所有可能的结果数，信息熵的单位是bit/信源符号。
信息熵的函数图像如下：

为了更好的理解自信息与信息熵的关系，还可以将自信息比作一发子弹的威力。则信息熵就是所有子弹威力的平均，即整把枪的性能。自信息的单位是 bit(比特)，信息熵的单位是bit/信源符号。可以看出，信息熵的单位是基于自信息。
最后，有同学可能会发现，上述的两个古典概型例子（投硬币和置筛子），代入最开始说的样本均值下的信息熵 $\frac{1}{N}\sum_{i=1}^{N}log(p_i)$ 的结果和代入总体均值下真正的信息熵的公式结果是一样的。又间接的说明了样本均值与总体均值的关系，在不考虑元素分布率的情况下(即每个样本都是等可能的)，这种古典概型中样本均值的适用性。

2.3联合信息熵

同样，联合信息熵是对联合自信息取总体平均值(数学期望)， $H (X, Y) = E [I (X, Y)]$ ，根据数学期望公式，联合信息熵为： $H(X,Y)=-\sum_{i=1}^{N}\sum_{j=1}^{M}p(x_i,y_j)logp(x_i,y_j)$ 可以用班级学生为例，一个班级有6个学生，此时 $p(x_i)$ 表示成绩，成绩有优中差三类，所以 $N$ 就为3； $p(y_j)$ 表示是三好学生，三好学生有是否两类，所以 $M$ 取2；则联合概率 $P(x_i,y_j)$ 表示同时取成绩和是否为三好学生.。联合概率分布 $P(x_i,y_j)$ 包含了同时取两种属性的所有可能的组合，整体上表示为并集。具体到特定值，如： $P(x_中，y_是)$ 则表示成绩为中等并且是三好学生的概率，为两者的交集。

	成绩	是否为三好学生
学生一	优	是
学生二	优	是
学生三	中	是
学生四	中	否
学生五	差	否
学生六	差	否

2.4条件熵

条件熵与上面略有不同。具体定义为，在X给定条件下，Y的条件概率分布的熵对X的数学期望。相当于是对条件自信息求完数学期望，再对其结果求关于X的数学期望。公式为： $\begin{aligned} H(Y|X) &= \sum_{i=1}^{N}p(x_i)E(I(Y|X)) \\ & = -\sum_{i=1}^{N}p(x_i) \sum_{j=1}^{M} p(y_j|x_i)log p(y_j|x_i)\\ &=-\sum_{i=1}^{N}\sum_{j=1}^{M}p(x_i,y_j)log p(y_j|x_i) \\ & = -\sum_{i=1}^{N}\sum_{j=1}^{M}p(x_i,y_j)log \frac{p(x_i,y_j)}{p(x_i)} \\ & = -\sum_{i=1}^{N}\sum_{j=1}^{M}p(x_i,y_j)logp(x_i,y_j)+\sum_{i=1}^{N}\sum_{j=1}^{M}p(x_i,y_j)logp(x_i) \\ & = H(X,Y)-[-\sum_{i=1}^{N}p(x_i)logp(x_i)] \qquad \\ &=H(X,Y)-H(X) \end{aligned}$ $(注：上述过程中\sum_{i=1}^{N}\sum_{j=1}^{M}p(x_i,y_j)=\sum_{i=1}^{N}p(x_i)，因为联合概率之和等于边缘概率)$
同样可以得到 $H (X ∣ Y) = H (X, Y) - H (Y)$

2.5互信息

在概率论和信息论中，两个随机变量的互信息（Mutual Information，简称MI）或转移信息（transinformation）是变量间相互依赖性的量度。不同于相关系数，互信息并不局限于实值随机变量，它更加一般且决定着联合分布 p(X,Y) 和边缘概率分布 p(X)p(Y) 的相似程度。互信息是度量两个事件集合之间的相关性(mutual dependence)。互信息最常用的单位是bit。离散情况下互信息： $\sum_{i=1}^{N}\sum_{j=1}^{M}p(x_i,y_j)log(\frac{p(x_i,y_j)}{p(x_i)p(y_j)})$ 连续情况下互信息： $I(X,Y)=\int_X\int_Yp(x,y)log(\frac{p(x,y)}{p(x)p(y)})dxdy$ 直观上，互信息度量 X 和 Y 共享的信息，它度量知道这两个变量其中的一个，对另一个不确定度减少的程度。例如，如果 X 和 Y 相互独立，即 $p (x, y) = p (x) p (y)$ 。则知道 X 不对 Y 提供任何信息，所以它们的互信息为零。从公式中可以看出 $log(\frac{p(x,y)}{p(x)p(y)})=log1=0$ 在另一个极端，如果 X 是 Y 的一个确定性函数，且 Y 也是 X 的一个确定性函数，那么传递的所有信息被 X 和 Y 共享，此时X与Y的互信息就等于X的熵，也等于Y的熵。
互信息可以看作为：一个随机变量由于已知另一个随机变量而减少的不确定性，或者说从贝叶斯角度考虑，由于新的观测数据y到来而导致x分布的不确定性下降程度。
如图，互信息与其它熵之间的关系：

由图可以直接得到关系式： $\begin{aligned} I(X,Y) &= H(X)-H(X|Y) \\ & = H(Y)-H(Y|X)\\& =H(X)+H(Y)-H(X,Y)\\& =H(X,Y)-H(X|Y)-H(Y|X)\\ \end{aligned}$ 以公式的角度推导：
$\begin{aligned} I(X,Y) &=\sum_{i=1}^{N}\sum_{j=1}^{M}p(x_i,y_j)log(\frac{p(x_i,y_j)}{p(x_i)p(y_j)}) \\ & = \sum_{i=1}^{N}\sum_{j=1}^{M}p(x_i,y_j)log(\frac{p(x_i,y_j)}{p(x_i)})- \sum_{i=1}^{N}\sum_{j=1}^{M}p(x_i,y_j)logp(y_j)\\& = \sum_{i=1}^{N}\sum_{j=1}^{M}p(x_i)p(y_i|x_i)logp(y_i|x_i)-\sum_{j=1}^{M}p(y_j)logp(y_j)]\\& =H(Y)-H(Y|X)\\ \end{aligned}$ 对于上述推导，仅证明 $I (X, Y) = H (Y) - H (Y ∣ X)$ 。且用到了，联合概率之和等于边缘概率，即 $\sum_{i=1}^{N}\sum_{j=1}^{M}p(x_i,y_j)=\sum_{i=1}^{N}p(x_i)=\sum_{j=1}^{M}p(y_j)$ 如果把熵 $H (Y)$ 看作一个随机变量不确定度的量度，那么 $H (Y ∣ X)$ 就是 $X$ 没有涉及到的 $Y$ 的部分的不确定度的量度。这就是“在 $X$ 已知之后 $Y$ 的剩余不确定度的量”，于是最后等式的右边就可以读作“ $Y$ 的不确定度，减去在 $X$ 已知之后 $Y$ 的剩余不确定度的量”，此式等价于“移除知道 $X$ 后 $Y$ 的不确定度的量”。这证实了互信息的直观意义为知道其中一个变量提供的另一个的信息量（即不确定度的减少量）。
注意到离散情形 $H (X ∣ X) = 0$ ，于是 $H (X) = I (X ， X)$ 。因此 $I (X ， X) \geq I (X ， Y)$ ，我们可以制定”一个变量至少包含其他任何变量可以提供的与它有关的信息“的基本原理。
互信息和相对熵也存在联系，如果说相对熵不能作为距离度量，是因为其非对称性，那么互信息的出现正好弥补了该缺陷，使得我们可以计算任意两个随机变量之间的距离，或者说两个随机变量分布之间的相关性、独立性。关系式如下： $I (X, Y) = K L (p (x, y) ∣ ∣ p (x) p (y))$ 互信息也是大于等于 $0$ 的，当且仅当 $x$ 与 $y$ 相互独立时候取等号。

2.6交叉熵

交叉熵主要用于度量两个概率分布间的差异性信息， $p$ 对 $q$ 的交叉熵表示 $q$ 分布的自信息对 $p$ 分布的期望， $p$ 是真实样本分布， $q$ 是预测得到样本分布公式定义为： $H(p,q)=E_{x\sim p}[-logq(x)]=-\sum_{i=1}^{N}p(x_i)logq(x_i)$ 逻辑回归算法的损失函数就是交叉熵，也叫做负对数似然，公式为： $J(\theta)=-\frac{1}{m}[\sum_{i=1}^{m}y^{(i)}logh_\theta(x^{(i)})+(1-y^{(i)})log(1-h_\theta(x^{(i)})]$ 其中， $y_i$ 是第 $i$ 个样本的真实标签， $h_\theta(x)$ 是 sigmoid 预测输出值， $J(\theta)$ 是(Convex Function)凸函数，可以得到全局最优解。

2.7相对熵

相对熵（relative entropy），又被称为Kullback-Leibler散度（Kullback-Leibler divergence）或信息散度（information divergence），是两个概率分布（probability distribution）间差异的非对称性度量。在信息理论中，相对熵等价于两个概率分布的信息熵（Shannon entropy）的差值。相对熵是一些优化算法，例如最大期望算法（Expectation-Maximization algorithm, EM）的损失函数。此时参与计算的一个概率分布为真实分布，另一个为理论（拟合）分布，相对熵表示使用理论分布拟合真实分布时产生的信息损耗。
相对熵经常也叫做KL散度，在贝叶斯推理中， $D_{KL}(p||q)$ 衡量当你修改了从先验分布 $q$ 到后验分布 $p$ 的信念之后带来的信息增益。首先给出其连续和离散的公式： $\begin{aligned} D_{KL}(p||q) &= E_{x \sim p}[log \frac{p(x)}{q(x)}] \\ & =-\int_xp(x)log \frac{q(x)}{p(x)} \\ & =-\sum_{i=1}^{N}p(x_i)log \frac{q(x_i)}{p(x_i)}\\& =H(p,q)-H(p) \\ \end{aligned}$ 相对熵较交叉熵有更多的优异性质，主要为：

当p分布和q分布相等时候，KL散度值为0；
可以证明是非负的，证明方式利用Jensen不等式；
非对称的，通过公式可以看出， $K L$ 散度是衡量两个分布的不相似性，不相似性越大，则值越大，当完全相同时，取值为 $0$ 。

简单对比交叉熵和相对熵，可以发现仅仅差了一个 $H (p)$ ，如果从优化角度来看， $p$ 是真实分布，是固定值，最小化KL散度情况下， $H (p)$ 可以省略，此时交叉熵等价于 $K L$ 散度。既然相对熵和交叉熵表示的含义一样，为啥需要两个？在机器学习中何时使用相对熵，何时使用交叉熵？首先需要明确：在最优化问题中，最小化相对熵等价于最小化交叉熵；相对熵和交叉熵的定义其实都可以从最大似然估计得到。
下面进行详细推导：以某个生成模型算法为例，假设是生成对抗网络 $G A N$ ，其实只要是生成模型，都满足以下推导。若给定一个样本数据的真实分布 $P_{data}(x)$ 和生成的数据分布 $P_{G}(x;\theta)$ ，那么生成模型希望能找到一组参数θ使分布 $P_{data}(x)$ 和 $P_{G}(x;\theta)$ 之间的距离最短，也就是找到一组生成器参数而使得生成器能生成十分逼真的分布。现在从真实分布 $P_{data}(x)$ 中抽取N个真实样本 $x^1,x^2,\dots,x^N$ ，对于每一个真实样本，我们可以计算 $P_{G}(x^i;\theta)$ 即在由 $θ$ 确定的生成分布中， $x^i$ 样本所出现的概率。因此，我们可以构建似然函数： $L=\prod_{i=1}^{N}P_{G}(x^i;\theta)$ 最大化似然函数，即可求得最优参数 $\theta^*$ :
$\begin{matrix} \theta^*=arg \ \mathop{\underbrace{max}}\limits_{\theta} \prod_{i=1}^{N} P_{G}(x^i;\theta)\\ \end{matrix}$ 转化为对数似然函数： $\begin{aligned} \theta^* &= arg \ \mathop{\underbrace{max}}\limits_{\theta} log\prod_{i=1}^{N} P_{G}(x^i;\theta) \\ & =arg \ \mathop{\underbrace{max}}\limits_{\theta} \sum_{i=1}^{N}log P_{G}(x^i;\theta) \\ \end{aligned}$ 由于是求最大值，故整体乘上常数对结果没有影响,这里是逐点乘上一个常数，所以不能取等于号，但是因为在取得最大值时候 $P_{G}(x^i;\theta^*)$ 和 $P_{data}(x)$ 肯定是相似的，并且肯定大于0，所以依然可以认为是近视相等的： $\begin{aligned}\theta^* & \approx arg \ \mathop{\underbrace{max}}\limits_{\theta} \sum_{i=1}^{N} P_{data}(x^i)log P_{G}(x^i;\theta) \\ &=arg \ \mathop{\underbrace{max}}\limits_{\theta} E_{x \sim P_{data}}[logP_{G}(x^i;\theta)] \\ \end{aligned}$ 上面的公式正好是交叉熵的定义式。然后我们再该基础上减掉一个常数： $\begin{aligned}\theta^* &=arg \ \mathop{\underbrace{max}}\limits_{\theta} (E_{x \sim P_{data}}[logP_{G}(x^i;\theta)]-E_{x \sim P_{data}}[logP_{data}(x^i)] )\\ &=arg \ \mathop{\underbrace{max}}\limits_{\theta} \ \int_xP_{data}(x) \ log \frac{P_G(\theta)}{P_{data}}dx \\&=arg \ \mathop{\underbrace{min}}\limits_{\theta} \ \int_xP_{data}(x) \ log \frac{P_{data}}{P_G(\theta)}dx \\ &= arg \ \mathop{\underbrace{min}}\limits_{\theta} E_{x \sim P_{data}}[log \frac{P_{data}}{P_G(\theta)}] \\ &=arg \ \mathop{\underbrace{min}}\limits_{\theta} KL(P_{data}(x)||P_{G}(x;\theta)) \end{aligned}$ 通过以上各公式可以得出以下结论：最大化似然函数，等价于最小化负对数似然，等价于最小化交叉熵，等价于最小化KL散度。
交叉熵大量应用在Sigmoid函数和SoftMax函数中，最典型的算法应该就是神经网络和逻辑回归，而相对熵大量应用在生成模型中，例如GAN、EM、贝叶斯学习和变分推导中。从这里我们可以看出一些端倪，如果想通过算法对样本数据进行概率分布建模，那么通常都是使用相对熵，因为我们需要明确的知道生成的分布和真实分布的差距，最好的KL散度值应该是0；而在判别模型中，仅仅只需要评估损失函数的下降值即可，交叉熵可以满足要求，其计算量比KL散度小。在数学之美书中，有这样几句话：交叉熵，其用来衡量在给定的真实分布下，使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小，相对熵，其用来衡量两个取值为正的函数或概率分布之间的差异。
证明相对熵非负 $D_{KL}(p||q) \ge 0$ ，即证 $-D_{KL}(p||q) \le 0$ 。这个证明主要用到了Jensen不等式，因为 $l o g x$ 函数为concave函数，满足Jensen不等式中 $\le log(E[x])$ ： $\begin{aligned} -D_{KL}(p||q) &= -E_{x \sim p}[log \frac{p(x)}{q(x)}] \\ & =\sum_{i=1}^{N}p(x_i)log \frac{q(x_i)}{p(x_i)}\\& \le log\sum_{i=1}^{N}p(x_i)\frac{q(x_i)}{p(x_i)} \\ &=log\sum_{i=1}^{N} q(x_i)=log1=0 \end{aligned}$ 所以， $D_{KL}(p||q) \ge0$ 证明相对熵非负的另一种方法，利用函数关系证明：

从上图中可以看出，再 $\in (0,1]$ 时， $\le x-1$ ，当 $x = 1$ 时取等。将不等式同样带入负的相对熵： $\begin{aligned} -D_{KL}(p||q) &=\sum_{i=1}^{N}p(x_i)log \frac{q(x_i)}{p(x_i)}\\& \le \sum_{i=1}^{N}p(x_i)(\frac{q(x_i)}{p(x_i)}-1) \\ &=\sum_{i=1}^{N} q(x_i)-\sum_{i=1}^{N} p(x_i)=0 \end{aligned}$ 所以， $D_{KL}(p||q) \ge0$ 上述两个证明，最后都用到了自身全概率为1，即 $\sum_{i=1}^{N} q(x_i)=\sum_{i=1}^{N} p(x_i)=1$

2.8信息增益

信息增益（Kullback–Leibler divergence）又称information divergence，information gain，relative entropy 或者KLIC。在概率论和信息论中，信息增益是非对称的，用以度量两种概率分布 $P$ 和 $Q$ 的差异。信息增益描述了当使用 $Q$ 进行编码时，再使用P进行编码的差异。通常 $P$ 代表样本或观察值的分布，也有可能是精确计算的理论分布。 $Q$ 代表一种理论，模型，描述或者对P的近似。尽管信息增益通常被直观地作为是一种度量或距离，但事实上信息增益并不是。就比如信息增益不是对称的，从 $P$ 到 $Q$ 的信息增益通常不等于从 $Q$ 到 $P$ 的信息增益。信息增益是f增益（f-divergences）的一种特殊情况。
$I D 3$ 算法就是用信息增益大小来判断当前节点应该用什么特征来构建决策树，用计算出的信息增益最大的特征来建立决策树的当前节点。形式上，信息增益和互信息完全相同，但意义不一样，互信息是两个随机变量的地位相同。而信息增益，是把一个变量看成是减少另一个变量不确定度的手段。 $g (D, A) = I (D, A) = H (D) - H (D ∣ A)$ 其中， $D$ 表示数据集， $A$ 表示特征。信息增益表示得到特征 $A$ 的信息而使得整体样本的不确定度下降的程度。在 $I D 3$ 中，需要选择一个特征A使得信息增益最大，这样可以使得分类系统进行快速决策。

2.9信息增益率

在应用 $I D 3$ 算法(信息增益)时，主要有四个主要的不足：一是不能处理连续特征；第二个就是用信息增益作为标准容易偏向于取值较多的特征；最后两个是缺失值处理的问和过拟合问题。在 $C 4.5$ 算法中改进了上述4个问题。
$C 4.5$ 主要用的是信息增益率，公式为： $g_r(D,A)=\frac{g(D,A)}{H(A)}$

2.10基尼系数

无论是 $I D 3$ 还是 $C 4.5$ ，都是基于信息论的熵模型的，这里面会涉及大量的对数运算。CART分类树算法使用基尼系数来代替信息增益率，基尼系数代表了模型的不纯度，基尼系数越小，则不纯度越低，特征越好。这和信息增益(比)是相反的。具体的，在分类问题中，假设有 $K$ 个类别，第 $k$ 个类别的概率为 $p_k$ , 则基尼系数的表达式为： $Gini(p)=\sum_{k=1}^{K}p_k(1-p_k)=1-\sum_{k=1}^{K}p_k^2$ 可以看出，基尼系数越小，表示选择该特征后熵下降最快，对分类模型效果更好，与信息增益、信息增益率的选择指标是相反的。基尼系数主要是度量数据划分对训练数据集D的不纯度大小，基尼系数越小，表明样本的纯度越高。其实为什么说基尼系数计算速度快呢，因为基尼系数实际上是信息熵的一阶进似，作用等价于信息熵，只不过是简化版本。根据泰勒级数公式，将 $l n (x)$ 在 $x = 1$ 处展开，忽略高阶无穷小，其可以等价为 $l n (x) = x - 1$ ,所以可以很容易得到上述定义。
对于个给定的样本 $D$ ，假设有 $K$ 个类别，第 $k$ 个类别的数量为 $C_k$ ，则样本 $D$ 的基尼系数表达式为： $Gini(D)=1-\sum_{k=1}^{K}(\frac{|C_k|}{|D|})^2$ 其中， $∣ D ∣$ 表示样本个数。 $C_k|$ 第 $k$ 个类别个数。

学习资料及引用
熵：宇宙的终极规则
机器学习各种熵：从入门到全面掌握
信息熵是什么？
信息熵的前世今生
互信息公式及概述
决策树算法原理

2024大模型秋招LLM相关面试题整理 AGI大模型资料分享官人工智能深度学习机器学习自然语言处理语言模型 easyui
0一些基础术语大模型：一般指1亿以上参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型也有了。大语言模型（LargeLanguageModel，LLM）是针对语言的大模型。175B、60B、540B等：这些一般指参数的个数，B是Billion/十亿的意思，175B是1750亿参数，这是ChatGPT大约的参数规模。强化学习：（ReinforcementLearning）一种机器学习的方法，
CVPR 2024 图像、视频处理总汇（视频字幕、图像超分辨率、图像分类和压缩等）点云SLAM 图形图像处理深度学习计算机视觉图像处理视频处理 3DGS CVPR2024
1、Image/VideoCaptioning(图像/视频字幕)VisualFactChecker:EnablingHigh-FidelityDetailedCaptionGenerationPolos:MultimodalMetricLearningfromHumanFeedbackforImageCaptioning⭐codeprojectPanda-70M:Captioning70MVide
【集成学习】Bagging、Boosting、Stacking算法详解
文章目录1.相关算法详解：2.算法详细解释：2.1Bagging：2.2Boosting：2.3Stacking：2.4K-foldMulti-levelStacking：集成学习（EnsembleLearning）是一种通过结合多个模型的预测结果来提高整体预测性能的技术。它通过将多个学习器的结果集成起来，使得最终的模型性能更强，具有更好的泛化能力。常见的集成学习框架包括：Bagging、Boos
深度学习前置知识全面解析：从机器学习到深度学习的进阶之路
一、引言：人工智能时代的核心技术在当今这个数据爆炸的时代，人工智能(AI)已经成为推动社会进步的核心技术之一。作为AI领域最重要的分支，深度学习(DeepLearning)在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展，彻底改变了我们与机器交互的方式。本教案将从机器学习的基础知识出发，系统性地介绍深度学习的核心概念、数学基础、网络架构和训练方法，为读者构建完整的知识体系框架。无论你是刚
【深度学习】强化学习（Reinforcement Learning, RL）主流架构解析烟锁池塘柳0 机器学习与深度学习深度学习人工智能机器学习
强化学习（ReinforcementLearning,RL）主流架构解析摘要：本文将带你深入了解强化学习（ReinforcementLearning,RL）的几种核心架构，包括基于价值（Value-Based）、基于策略（Policy-Based）和演员-评论家（Actor-Critic）方法。我们将探讨它们的基本原理、优缺点以及经典算法，帮助你构建一个清晰的RL知识体系。文章目录强化学习（Rei
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘大家好，我是阿可，微赚淘客系统及省赚客APP创始人，是个冬天不穿秋裤，天冷也要风度的程序猿！一、背景介绍在返利佣金软件中，动态佣金算法是提升用户活跃度和平台收益的关键技术。传统的佣金算法通常是静态的，无法根据用户的实时行为和市场动态进行调整。为了突破这一技术瓶颈，我们引入了强化学习（ReinforcementLearning,RL），通
【分布式】自定义统一状态机流转设计沉着的码农分布式 Java 分布式 java spring boot
自定义统一状态机流转设计StateMachine接口通用状态机BaseStateMachine举例实现状态事件OrderStateMachine(BaseStateMachine实现类)使用状态机用于描述一个系统在不同状态之间的转换和行为，是状态模式的一种具体应用。状态机是一种抽象的计算模型，它包含有限个状态和转换规则，用于描述系统在不同状态下如何响应输入以及在不同输入下如何进行状态转换。一个状态
【LLM论文阅读】一只齐刘海的猫论文阅读
LLM论文阅读论文重点论文链接RopeRoFormer:EnhancedTransformerwithRotaryPositionEmbeddingRoPE论文阅读YarnUnderstandingYaRN:ExtendingContextWindowofLLMs论文YaRN笔记T5ExploringtheLimitsofTransferLearningwithaUnifiedText-to-Te
[读论文] Towards Machine Learning for Placement and Routing in Chip Design: a Methodological Overview SP FA #EDA+AI 机器学习人工智能
Abstract在现代芯片设计流程中，放置和布线是两个不可或缺且具有挑战性的NP-hard问题。与使用启发式算法或专家精心设计的算法的传统求解器相比，机器学习凭借其数据驱动的性质显示出了广阔的前景，它可以减少对知识和先验的依赖，并且通过其先进的计算范式具有更大的可扩展性(例如GPU加速的深度网络)。本调查首先介绍了基本的布局（Placement）和布线（Routing），并简要介绍了经典的无学习解
配置uwsgi为系统服务遇到State ‘stop-sigterm‘ timed out解决方法 fangeqin linux系统服务 linux uwsgi systemctl
[root@localhostlearning_log]#systemctlstartuwsgi启动服务[root@localhostlearning_log]#systemctlstatusuwsgi●uwsgi.service-TheuWSGIserverLoaded:loaded(/usr/lib/systemd/system/uwsgi.service;disabled;vendorpre
提升自动驾驶导航能力：基于深度学习的场景理解技术星辰和大海都需要门票路径规划算法自动驾驶深度学习人工智能
EnhancingAutonomousVehicleNavigationUsingDeepLearning-BasedSceneUnderstanding提升自动驾驶导航能力：基于深度学习的场景理解技术摘要-为应对复杂环境下的自动驾驶导航，系统高度依赖场景理解的准确性。本研究提出一种基于深度学习的新方法，将目标识别、场景分割、运动预测与强化学习相结合以提升导航性能。该方法首先采用U-Net架构分解
MySQL 8.0 OCP 1Z0-908 题目解析(17) 一只fish MYSQL OCP mysql 数据库
题目65Choosetwo.Whichtwoarecharacteristicsofsnapshot-basedbackups?□A)Thefrozenfilesystemcanbeclonedtoanothervirtualmachineimmediatelyintoactiveservice.□B)ThereisnoneedforInnoDBtablestoperformitsownrecov
GraalVM 与 JVM：深度对比分析 twinsshehp jvm
在现代Java开发中，GraalVM和传统的JVM（JavaVirtualMachine）是两个非常重要的运行时环境。本文将从概念讲解、应用场景区分、优缺点分析、多线程影响以及GraalVM缺少的JDK功能等多个维度进行深入对比，帮助开发者全面理解两者的技术差异和适用场景。一、概念讲解1.JVM（JavaVirtualMachine）JVM是Java运行的核心，负责执行字节码并管理程序的生命周期。
kedro-mlflow 项目教程薄琼茵Angelic
kedro-mlflow项目教程kedro-mlflowAkedro-pluginforintegrationofmlflowcapabilitiesinsidekedroprojects(especiallymachinelearningmodelversioningandpackaging)项目地址:https://gitcode.com/gh_mirrors/ke/kedro-mlflow1
Pyarmor 项目使用教程
Pyarmor项目使用教程pyarmorAtoolusedtoobfuscatepythonscripts,bindobfuscatedscriptstofixedmachineorexpireobfuscatedscripts.项目地址:https://gitcode.com/gh_mirrors/py/pyarmor1.项目目录结构及介绍Pyarmor项目的目录结构如下：pyarmor/├──
强化学习RLHF详解贝塔西塔强化学习大模型人工智能深度学习机器学习算法语言模型
RLHF（ReinforcementLearningfromHumanFeedback）模型详解一、背景1.传统强化学习的局限性传统的强化学习（ReinforcementLearning,RL）依赖于预定义的奖励函数（RewardFunction），但在复杂任务（如自然语言生成、机器人控制）中，设计精确的奖励函数极为困难。例如：模糊目标：生成“高质量文本”难以量化，无法用简单的指标（如BLEU、R
机器学习：集成学习方法之随机森林(Random Forest) 慕婉0307 机器学习集成学习机器学习随机森林
一、集成学习与随机森林概述1.1什么是集成学习集成学习(EnsembleLearning)是机器学习中一种强大的范式，它通过构建并结合多个基学习器(baselearner)来完成学习任务。集成学习的主要思想是"三个臭皮匠，顶个诸葛亮"，即通过组合多个弱学习器来获得一个强学习器。集成学习方法主要分为两大类：Bagging(BootstrapAggregating)：并行训练多个基学习器，然后通过投票
提示词工程推荐阅读论文司南锤 LLM prompt 人工智能自然语言处理
论文目录提示工程少样本提示思维链提示自洽性生成知识提示自动提示工程多模态提示提示技巧对抗提示提示工程PromptEngineeringforText-BasedGenerativeModels论文链接:https://arxiv.org/abs/2107.13586简介:本文概述了提示工程，并讨论了它在各种基于文本的生成模型中的应用。少样本提示Few-shotLearningwithRetriev
入门pytorch-联邦学习四代机您发多少 pytorch 人工智能 python
本文联邦学习的代码引用于https://github.com/shaoxiongji/federated-learning本篇文章相当于带大家读一遍联邦学习的代码，同时加深了大家对联邦学习和Pytorch框架的理解。这里想简单介绍一下联邦学习。联邦学习说白了，就是假如有NNN个数据拥有者F1,...,FN{F_1,...,F_N}F1,...,FN，他们希望使用这些数据来训练机器学习模型，但是又各
长尾形分布论文速览【80-119】木木阳 Long-tailed 人工智能
为便于理解和应用，以下将30篇关于长尾分布的研究文献按主题进行分类整理。每一大类包含相应的工作，帮助我们从整体上把握各方向的研究进展。1.长尾半监督学习与伪标签优化Paper90:Uncertainty-awareSamplingforLong-tailedSemi-supervisedLearning提出了一种动态阈值选择方法（UDTS），能有效改善尾部分类性能，适用于不平衡类别的半监督学习。P
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量 ICCL 2022 365JHWZGo 情感对话论文阅读 gpt-3 共情回复上下文学习提示学习大模型
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量ICCL2022前言贡献PromptIn-contextlearningSITSMEMOSITSM新的自动指标实验前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《DoesGPT-3GenerateEmpatheticDialogues
人工智能-基础篇-2-什么是机器学习？（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等） weisian151 人工智能人工智能机器学习学习
1、什么是机器学习？机器学习（MachineLearning,ML）是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据，自动学习规律并构建模型，从而对未知数据进行预测或决策，而无需依赖显式的程序指令。基本思想：通过数据驱动的方式，使系统能够从经验（数据）中改进性能，形成对数据模式的抽象化表达。基本概念：模型：模型是对现实世界现
Certificate-based web services message security之感性认识 weixin_33755554 ux 5g ui
下面的.netconsoleapplication，添加System.ServiceModel.dll程序集引用即可，不需要配置文件。/*===SETCERT===makecert.exe-asha1-nCN=MyService.com-srLocalMachine-ssMy-skyexchange-skMyServicecertmgr.exe-add-c-nMyService.com-s-rlo
Python 机器学习实战：泰坦尼克号生还者预测 (从数据探索到模型构建) 程序员阿超的博客 Python python 机器学习开发语言泰坦尼克号 Kaggle Scikit-learn 实战教程
引言：挑战介绍泰坦尼克号的沉没是历史上最著名的海难之一。除了其悲剧色彩，它还为数据科学提供了一个经典且引人入胜的入门项目。Kaggle平台上的“Titanic:MachineLearningfromDisaster”竞赛，要求我们利用乘客数据来预测哪些人更有可能在这场灾难中幸存。这是一个典型的二元分类问题：目标变量Survived只有两个值，0（遇难）或1（生还）。这个项目之所以经典，是因为它涵盖
常见机器学习算法与应用场景计算机软件程序设计知识科普机器学习算法人工智能
当然可以。下面是对常见机器学习算法的全面详细阐述，包括每种算法的基本原理、特点以及典型应用场景。1.监督学习（SupervisedLearning）1.1线性回归（LinearRegression）原理：通过拟合一条直线来表示输入和输出之间的关系，适用于预测连续值输出。特点：简单易懂，计算速度快，但只能捕捉线性关系。应用场景：房价预测股票价格预测销售额预测1.2逻辑回归（LogisticRegre
Learning Fully Convolutional Networks for Iterative Non-blind Deconvolution论文阅读青铜锁00 #退化论文阅读深度学习论文阅读图像处理
LearningFullyConvolutionalNetworksforIterativeNon-blindDeconvolution1.研究目标与实际问题1.1研究目标1.2实际意义2.创新方法与模型设计2.1核心框架：迭代式梯度域处理2.1.1模型架构2.2关键技术实现2.2.1梯度域去噪网络2.2.2解卷积模块（核心公式实现）2.2.3损失函数设计2.2.4超参数端到端学习2.3与传统方法
让AI自己学会“怎么学”——元学习，才是高效训练的终极武器！ Echo_Wish Python 进阶人工智能学习
让AI自己学会“怎么学”——元学习，才是高效训练的终极武器！朋友们，今天咱不聊ChatGPT，不聊大模型黑魔法，也不玩Prompt咒语。我想聊一个比“怎么训模型”更底层、更值得思考的问题：如果我们能让模型自己学会怎么更快、更聪明地学习，是不是就能少走很多弯路？这，就是元学习（MetaLearning）要解决的事儿。说白了，元学习是AI给AI上培训课的过程。咱们天天琢磨怎么喂模型数据、调超参、搞迁移
在Mac上查找并删除Java 21.0.5 兔老大RabbitMQ macos java eclipse intellij-idea
要删除javac21.0.5，您需要找到并删除对应版本的JDK。以下是完整的步骤：1.查找javac和JDK位置首先确认当前使用的javac版本和位置：bash复制代码javac-versionwhichjavac然后找到所有已安装的Java版本：bash复制代码/usr/libexec/java_home-V这会显示类似如下输出：复制代码MatchingJavaVirtualMachines(x
鲲鹏服务器的ARM架构 hid_clf-2oizpt7skaq arm开发架构
ARM架构过去称作进阶精简指令集机器（AdvancedRISCMachine，更早称作：AcornRISCMachine），是一个32位精简指令集（RISC）处理器架构，其广泛地使用在许多嵌入式系统设计。由于节能的特点，ARM处理器非常适用于移动通讯领域，符合其主要设计目标为低耗电的特性。在今日，ARM家族占了所有32位嵌入式处理器75%的比例，使它成为占全世界最多数的32位架构之一。ARM处理器
【Java入门】入门第一天-开发环境的搭建-为什么要搭建环境-搭建步骤头秃仙女 java jvm
了解过Java的发展历史之后，相信大家对Java是什么有了一定的了解。那么现在我们就可以开始Java的入门第一步啦---下载软件，搭建环境。首先了解一下JVM、JRE、JDKJVM(JavaVirtualMachine):Java虚拟机，Java程序运行在其中.java语言编译程序只需生成在Java虚拟机上运行的目标代码(字节码)，就可以在多种平台上不加修改地运行.JVM对上层的Java源文件是不
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

机器学习之熵笔记