熵及其性质

熵的物理含义

  • 熵为平均自信息

    • 回顾自信息的物理含义:事件发生前,事件的不确定性,事件发生后,获得的信息量的大小。
    • 熵: 信源平均意义熵不确定的大小。事件发生后,平均每个信源符号所携带的信息量
  • 熵值大小反映了判断信源输出的难易程度。信源中每个消息平均提供的信息量有多大。

  • 辨析I(a_i) 与 H(X)
    相同点:本质都是描述不确定性的大小

  • 不同点:

I(a_i) 某一个具体事件的信息测度
H(X) 随机事件集合(如信源)的信息测度

联合熵

联合熵:联合即XY上,联合自信息的平均值。
H ( X Y ) = E [ I ( a i b j ) ] = − ∑ i = 0 q ∑ j = 0 s P ( a i b j ) log ⁡ P ( a i b j ) H(XY) = E[I(a_ib_j)]=-\sum\limits_{i=0}^{q}{\sum\limits_{j=0}^{s}{P({{a}_{i}}{{b}_{j}})\log }}P({{a}_{i}}{{b}_{j}}) H(XY)=E[I(aibj)]=i=0qj=0sP(aibj)logP(aibj)

条件熵

联合集XY上,条件自信息的平均值定义为条件熵,即:
H ( X ∣ Y ) = E [ I ( a i ∣ b j ) ] = − ∑ i = 0 q ∑ j = 0 s P ( a i b j ) log ⁡ P ( a i ∣ b j ) H(X|Y)=E\left[ I({{a}_{i}}|{{b}_{j}}) \right] =-\sum\limits_{i=0}^{q}{\sum\limits_{j=0}^{s}{P({{a}_{i}}{{b}_{j}})\log }}P({{a}_{i}}|{{b}_{j}}) H(XY)=E[I(aibj)]=i=0qj=0sP(aibj)logP(aibj)
熵及其性质_第1张图片

嫡的意义(对通信系统)

  • H(X):表示信源中每个符号的平均信息量(信源熵)
  • H(Y):表示信宿中每个符号的平均信息量(信宿熵)
  • H(X|Y):表示在输出端接收到Y的全部符号后,发送端X尚存的平均不确定性。这个对x尚存的不确定性是由于干扰引起的。信道疑义度(损失熵)
  • H(Y|X):表示在已知x的全部符号后,对于输出Y尚存的平均不确定性。信道散布度(噪声熵)
  • H(XY):表示整个信息传输系统的平均不确定性(联合熵)。

熵的性质

基本性质

  • 非负性
    H ( X ) ≥ 0 H(X) \geq 0 H(X)0
  • 确定性
    H ( 1 , 0 ) = H ( 1 , 0 , 0 ) = … … = H ( 1 , 0 … … , 0 ) H(1,0)=H(1,0,0)=……=H(1,0……,0) H(1,0)=H(1,0,0)==H(1,00)
    确知信源熵为0
  • 对称性
    H ( P 1 , P 2 , … … , P q ) = H ( P i 1 , P i 2 , … … , P i q ) H(P_1,P_2,……,P_q) = H (P_{i_1},P_{i_2},……,P_{i_q}) H(P1,P2,,Pq)=H(Pi1,Pi2,,Piq)
    ( i p , … … , i q ) (i_p,……,i_q) (ip,iq)为(1-q)的任意排列
    • 熵表示信源的整体属性,
  • 扩展性
    lim ⁡ ε → 0   H ( p 1 , p 2 , ⋯   , p q − ε , ε ) = H ( p 1 , p 2 , ⋯   , p q ) \underset{\varepsilon \to 0}{\mathop{\lim }}\,H({{p}_{1}},{{p}_{2}},\cdots ,{{p}_{q}}-\varepsilon ,\varepsilon )=H({{p}_{1}},{{p}_{2}},\cdots ,{{p}_{q}}) ε0limH(p1,p2,,pqε,ε)=H(p1,p2,,pq)
    极小概率事件对熵没有影响
  • 熵的链式法则
    • 熵的强可加性
      • H ( X Y ) = H ( X ) + H ( Y ∣ X ) = H ( Y ) + H ( X ∣ Y ) H(XY)= H(X)+H(Y|X)=H(Y)+H(X|Y) H(XY)=H(X)+H(YX)=H(Y)+H(XY)
      • 物理含义:XY平均出现的不确定性可以等价的分解为先考察一个事件出现的不确定性,再考察另一个事件在前一个事件的条件下的不确定性。
    • 熵的可加性
      • 若X和Y统计独立,则H(XY) = H(Y)+H(X)
    • N维联合信源熵的链式法则
      H ( X 1 , X 2 , ⋯   , X N ) = ∑ i = 1 N H ( X i ∣ X i − 1 , ⋯   , X 1 ) H({{X}_{1}},{{X}_{2}},\cdots ,{{X}_{N}})=\sum\limits_{i=1}^{N}{H({{X}_{i}}|{{X}_{i-1}},\cdots ,{{X}_{1}})} H(X1,X2,,XN)=i=1NH(XiXi1,,X1)
  • 熵的极值性(最大离散熵定理)
    H ( P 1 , P 2 , … … , P q ) ≤ l o g q , 当 且 仅 当 P 1 = P 2 = … … = P q = 1 q H(P_1,P_2,……,P_q) \leq log q,当且仅当P_1=P_2=……=P_q=\frac{1}{q} H(P1,P2,Pq)logq,P1=P2==Pq=q1信源具有最大熵
    • 信源中各事件出现的概率趋于均匀时,信源的平均不确定性最大(数据压缩的理论依据之一)
    • 提高信息的传输效率——信源输出的每个符号携带的信息量(熵)尽可能大。此为后续信源压缩编码奠定基础
    • 压缩编码:通过调整消息符号的概率分布,使得尽量等概率。
  • 熵的上凸性
  • 条件熵不大于无条件熵(条件作用使熵减小)
    H ( X ∣ Y ) ≤ H ( X ) H(X|Y) \leq H(X) H(XY)HX 当且仅当X与Y相互独立时等号成立。
  • 熵的独立界
    • X 1 , X 2 , ⋯   , X N {{X}_{1}},{{X}_{2}},\cdots ,{{X}_{N}} X1,X2,,XN 服从P( x 1 , x 2 , ⋯   , x N {{x}_{1}},{{x}_{2}},\cdots ,{{x}_{N}} x1,x2,,xN),则 H ( X 1 , X 2 , ⋯   , X N ) ≤ ∑ i = 1 N H ( X i ) H({{X}_{1}},{{X}_{2}},\cdots ,{{X}_{N}})\le \sum\limits_{i=1}^{N}{H({{X}_{i}})} H(X1,X2,,XN)i=1NH(Xi)当且仅当 X 1 , X 2 , ⋯   , X N {{X}_{1}},{{X}_{2}},\cdots ,{{X}_{N}} X1,X2,,XN相互独立时取等号。

附录

概率论的一些相关公式

条件概率

在A发生的情况下,B发生的概率。可以理解为B在A中所占的比例
熵及其性质_第2张图片

P ( B ∣ A ) = P ( A B ) P ( A ) P(B \mid A)=\frac{P(A B)}{P(A)} P(BA)=P(A)P(AB)

概率的乘法公式

P ( A B ) = P ( A ) P ( B ∣ A ) , P (   A ) > 0 = P ( B ) P ( A ∣ B ) , P ( B ) > 0 \begin{aligned} P(A B) &=P(A) P(B \mid A), \quad P(\mathrm{~A})>0 \\ &=P(B) P(A \mid B), \quad P(B)>0 \end{aligned} P(AB)=P(A)P(BA),P( A)>0=P(B)P(AB),P(B)>0

  • 推广到多个事件的乘法公式:
    P ( A 1 A 2 ⋯ A n − 1 ) > 0 P\left(A_{1} A_{2} \cdots A_{n-1}\right)>0 P(A1A2An1)>0 时,有 P ( A 1 A 2 ⋯ A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 A 2 ) ⋯ P ( A n ∣ A 1 A 2 ⋯ A n − 1 ) P\left(A_{1} A_{2} \cdots A_{n}\right) =P\left(A_{1}\right) P\left(A_{2} \mid A_{1}\right) P\left(A_{3} \mid A_{1} A_{2}\right) \cdots P\left(A_{n} \mid A_{1} A_{2} \cdots A_{n-1}\right) P(A1A2An)=P(A1)P(A2A1)P(A3A1A2)P(AnA1A2An1)

全概率公式

由因到果:考察每种情况下A发生的概率,计算A的概率
熵及其性质_第3张图片
P ( A ) = ∑ j = 1 n P ( A B j ) = ∑ j = 1 n P ( B j ) ⋅ P ( A ∣ B j ) \begin{array}{l} P(A)=\sum_{j=1}^{n} P\left(A B_{j}\right) =\sum_{j=1}^{n} P\left(B_{j}\right) \cdot P\left(A \mid B_{j}\right) \end{array} P(A)=j=1nP(ABj)=j=1nP(Bj)P(ABj)

贝叶斯公式

由果到因:在事件A发生的条件下,考察每种情况出现的条件概率

P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) P ( A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) = p i q i ∑ j = 1 n p j q j P\left(B_{i} \mid A\right)= \frac{P\left(B_{i}\right) P\left(A \mid B_{i}\right)}{P(A)}=\frac{P\left(B_{i}\right) P\left(A \mid B_{i}\right)}{\sum_{j=1}^{n} P\left(B_{j}\right) P\left(A \mid B_{j}\right)}=\frac{p_{i} q_{i}}{\sum_{j=1}^{n} p_{j} q_{j}} P(BiA)=P(A)P(Bi)P(ABi)=j=1nP(Bj)P(ABj)P(Bi)P(ABi)=j=1npjqjpiqi

熵及其性质_第4张图片

你可能感兴趣的:(微服务,java,spring,cloud)