信息熵、最大熵模型

信息熵(Information Theory)

信息熵是什么

信息熵的概念在统计学习与机器学习中非常重要, 本文主要罗列一些基于信息熵的概念及其意义。

  1. 信息熵是一个数学上颇为抽象的概念, 是概率论与数理统计的一个分枝。

  2. 信息熵常常用于信息处理、通信系统、数据传输、率失真理论、密码学、信噪比、数据压缩等领域。

  3. 可以把信息熵通俗理解成 某种特定信息的出现概率(离散随机事件的出现概率)。

  4. 熵是描述事物无序性的参数,熵越大则越混乱。
    一个系统越是有序, 信息熵就越低;反之, 一个系统越是混乱, 信息熵就越高。

  5. 信息熵也可以说是系统有序化程度的一个度量。

    如果一个系统 ξ \xi ξ有多个事件 S = { E 1 , E 2 , ⋯   , E n } S=\{E_1, E_2, \cdots, E_n\} S={E1,E2,,En},每个事件的概率分布为
    P = { p 1 , p 2 , ⋯   , p n } P=\{p_1, p_2, \cdots, p_n\} P={p1,p2,,pn}
    则每个事件本身的信息量为:
    I e = l o g 1 p i = − l o g p i I_e = log \frac{1}{p_i} = -log p_i Ie=logpi1=logpi
    而熵为整个系统的平均信息量:
    H ( ξ ) = ∑ i = 1 n p i l o g 1 p i = − ∑ i = 1 n p i l o g p i H(\xi )=\sum_{i=1}^{n}p_i log \frac{1}{p_i}=-\sum_{i=1}^{n}p_i logp_i H(ξ)=i=1npilogpi1=i=1npilogpi

信息熵怎么算

熵的概念来源于热力学

  1. 在热力学中熵的定义是系统可能状态的对数值, 称为 热熵,用来表达分子状态杂乱程度的一个物理量。
  2. 热力学指出, 对任何已知孤立的物理系统的演化, 热熵只能增加, 不能减少。然而这里的信息熵则相反, 它只能减少, 不能增加。即 产生信息, 则是为系统引入负(热力学)熵的过程,所以信息熵的符号与热力学中的熵是相反的。
  3. 我们可以认为, 当一种信息出现概率更高的时候, 表明它被传播得更广泛, 或者说被引用的程度更高。
    从信息传播的角度来看, 信息熵可以表示信息的价值。这样我们就有一个衡量信息价值高低的标准, 可以做出关于知识流通问题的更多推论。

信源的平均不定度

  1. 在信息论中信源输出是随机量, 因而其不定度可以用概率分布来度量。
    H ( X ) = H ( P 1 , P 2 , ⋯   , P n ) = ∑ i = 1 , 2 , ⋯   , n − C P ( x i ) l o g P ( x i ) H(X)=H(P_1, P_2, \cdots , P_n)=\sum_{i=1, 2, \cdots ,n}-CP(x_i)logP(x_i) H(X)=H(P1,P2,,Pn)=i=1,2,,nCP(xi)logP(xi), 这里 P ( x i ) P(x_i) P(xi) 为信源取第 i i i个符号的概率。(一般取C=1, 其中 ∑ i = 1 , ⋯   , n P ( x i ) = 1 \sum_{i=1, \cdots ,n}^{}P(x_i)=1 i=1,,nP(xi)=1
    此时, H ( X ) H(X) H(X)称为信源的信息熵。
  2. H ( X ) H(X) H(X)三条基本性质:
    • 连续性: H ( P e , 1 - P e ) H(P_e, 1-P_e) H(Pe,1Pe)是P的连续函数( 0 ⩽ P e ⩽ 1 0 \leqslant P_e \leqslant 1 0Pe1);
    • 对称性: H ( P 1 , ⋯   , P n ) H(P_1, \cdots, P_n) H(P1,,Pn) P 1 , ⋯   , P n P_1, \cdots, P_n P1,,Pn的排列次序无关;
    • 可加性: 若 P n = Q 1 + Q 2 ⩾ 0 P_n=Q_1 + Q_2 \geqslant 0 PnQ1+Q20, 且 Q 1 ⩾ 0 , Q 2 ⩾ 0 Q_1 \geqslant 0, Q_2 \geqslant 0 Q10,Q20,
      则有 H ( P 1 , ⋯   , P n − 1 , Q 1 , Q 2 ) = H ( P 1 , ⋯   , P n − 1 ) + H ( P n ) H(P_1, \cdots, P_{n-1}, Q_1, Q_2)=H(P_1, \cdots, P_{n-1}) + H(P_n) H(P1,,Pn1,Q1,Q2)=H(P1,,Pn1)+H(Pn)

信息熵的单位与公式中对数的底有关

  • 最常用的是以2为底, 单位为比特(bit);
  • 在理论推导中常采用以e为底, 单位为奈特(Nat);
  • 还可以采用其他的底和单位, 并可进行互换。

离散信源的信息熵重要性质

信息熵除了上述三条基本性质外, 还具有一系列重要性质, 其中最主要的有:

  1. 非负性: H ( P 1 , ⋯   , P n ) ≥ 0 H(P_1, \cdots, P_n)≥0 H(P1,,Pn)0;

  2. 确定性: H ( 1 , 0 ) = H ( 0 , 1 ) = H ( 0 , 1 , 0 , ⋯   ) = 0 H(1, 0)=H(0, 1)=H(0, 1, 0, \cdots)=0 H(1,0)H(0,1)H(0,1,0,)0;

  3. 扩张性: H n − 1 ( P 1 , ⋯   , P n − ε , ε ) = H n ( P 1 , ⋯   , P n ) H_{n-1}(P_1, \cdots, P_n-ε, ε)=H_n(P_1, \cdots, P_n) Hn1(P1,,Pnε,ε)Hn(P1,,Pn);

  4. 极值性: P ( x i ) l o g P ( x i ) ⩽ P ( x i ) l o g Q ( x i ) P(xi)logP(xi) \leqslant P(xi)logQ(xi) P(xi)logP(xi)P(xi)logQ(xi); 这里 Q ( x i ) = 1 Q(xi)=1 Q(xi)1;

  5. 上凸性: H ( λ P + ( 1 − λ ) Q ) > λ H ( P ) + ( 1 − λ ) H ( Q ) H( \lambda P +(1- \lambda )Q) > \lambda H(P)+(1- \lambda)H(Q) H(λP+(1λ)Q)>λH(P)+(1λ)H(Q), 式中 0 < λ < 1 0<\lambda<1 0λ1

最大熵模型(MaxEnt: Maximum Entropy Model,又称MEM)

  1. MaxEnt 是概率模型学习中一个准则,其思想为:在学习概率模型时,所有可能的模型(即概率分布)中,熵最大的模型是最好的模型;

    ○ 对一个随机事件的概率分布进行预测时,预测应当满足全部已知的约束,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小,因此得到的概率分布的熵是最大。

    ○ 若概率模型需要满足一些约束,则最大熵原理就是在满足已知约束的条件集合中选择熵最大模型。

  2. 设随机变量 X X X的概率分布为 P ( X ) P(X) P(X)
    则信息熵为: H ( P ) = − s u m X P ( X ) l o g P ( X ) H(P) = -sum_XP(X)logP(X) H(P)=sumXP(X)logP(X)
    当且仅当 X X X的分布为均匀分布时有 H ( P ) = l o g ∣ X ∣ H(P) = log\left | X \right | H(P)=logX
    P ( X ) = 1 ∣ X ∣ 时 熵 最 大 P(X) = \frac{1}{\left | X \right |}时熵最大 P(X)=X1,其中$\left | X \right | 为 X X X的个数。$
    可得, 0 ⩽ H ( P ) ⩽ l o g ∣ X ∣ 0 \leqslant H(P) \leqslant log\left | X \right | 0H(P)logX

  3. 扩充:最大熵原理选取熵最大的模型,而决策树的划分目标选取熵最小的划分。
    ○ 最大熵原理认为在满足已知条件之后,选择不确定性最大(即:不确定的部分是等可能的)的模型。也就是不应该再施加任何额外的约束。
    因此这是一个求最大不确定性的过程,所以选择熵最大的模型。

    ○ 决策树的划分目标是为了通过不断的划分从而不断的降低实例所属的类的不确定性,最终给实例一个合适的分类。因此这是一个不确定性不断减小的过程,所以选取熵最小的划分。

参考

  • 机器学习系列(九)【最大熵模型】by 小小何先生
  • 最大熵算法 by 华校专

你可能感兴趣的:(人工智能)