信息论基础第二章阅读笔记

信息很难用一个简单的定义准确把握。
对于任何一个概率分布,可以定义一个熵(entropy)的量,它具有许多特性符合度量信息的直观要求。这个概念可以推广到互信息(mutual information),互信息是一种测度,用来度量一个随机变量包含另一个随机变量的信息量。熵恰好变成一个随机变量的自信息。相对熵(relative entropy)是个更广泛的量,它是刻画两个概率分布之间的距离的一种度量,而互信息又是它的特殊情形。

相对熵(也叫做KL散度)、互信息和熵都是信息理论中的重要概念,它们之间有一定的关系,我会尽量用通俗易懂的方式解释它们之间的关系。

  1. 熵(Entropy):想象一堆信息,如果这些信息非常混乱和不可预测,那么熵就高。相反,如果信息有序和高度可预测,熵就低。熵用来衡量一个随机变量的不确定性。在信息理论中,熵通常用H表示,表示一个随机事件中信息的平均不确定性。如果一个事件的概率分布是均匀的,那么熵最高;如果概率分布是确定的,熵为零。
  2. 相对熵(Kullback-Leibler Divergence,KL散度):相对熵用来衡量两个概率分布之间的差异。具体来说,如果我们有两个概率分布P和Q,相对熵D(P || Q)用来表示当我们使用Q来近似描述P时所带来的信息损失。如果P和Q完全相同,相对熵为零,表示没有信息损失。但如果它们不同,相对熵就会大于零,表示用Q来近似P会引入一些误差。
  3. 互信息(Mutual Information):互信息用来衡量两个随机变量之间的关联性。如果我们有两个随机变量X和Y,它们的互信息I(X; Y)表示知道了一个变量的值后,对另一个变量的不确定性的减少程度。互信息越大,表示X和Y之间的关联性越强。如果X和Y是完全独立的,互信息为零,表示它们之间没有关联。

现在来解释它们之间的关系:

  • 相对熵可以用来衡量两个概率分布的差异,它可以用来衡量一个概率分布Q对另一个分布P的逼近程度。
  • 互信息可以用来衡量两个随机变量之间的关联性,它可以看作是一个随机变量X和Y的联合分布与它们各自的分布之间的相对熵之和减去它们的联合分布的相对熵。具体而言, I ( X ; Y ) = D ( P ( X , Y ) ∣ ∣ P ( X ) P ( Y ) ) I(X; Y) = D(P(X, Y) || P(X)P(Y)) I(X;Y)=D(P(X,Y)∣∣P(X)P(Y))

总之,这些概念在信息论和统计学中有广泛的应用,用来量化信息、概率分布之间的关系以及随机变量之间的关联性。相对熵和互信息都是用来衡量信息的不同方面,而熵则是其中一个基础概念,用来衡量不确定性。

当谈到相对熵(KL散度)、互信息和熵时,以下是它们的公式表示:

  1. 熵(Entropy):熵用H表示,对于一个随机变量X,它的熵H(X)可以表示为:
    H ( X ) = − ∑ x P ( x ) log ⁡ P ( x ) H(X) = -\sum_{x} P(x) \log P(x) H(X)=xP(x)logP(x)
    这里,P(x)是随机变量X取某个值x的概率,\log表示自然对数。
  2. 相对熵(Kullback-Leibler Divergence,KL散度):对于两个概率分布P和Q,它们之间的相对熵D(P || Q)可以表示为:
    D ( P ∣ ∣ Q ) = ∑ x P ( x ) log ⁡ ( P ( x ) Q ( x ) ) D(P || Q) = \sum_{x} P(x) \log\left(\frac{P(x)}{Q(x)}\right) D(P∣∣Q)=xP(x)log(Q(x)P(x))
    这个公式用来衡量P和Q之间的差异。
  3. 互信息(Mutual Information):对于两个随机变量X和Y,它们的互信息I(X; Y)可以表示为:
    I ( X ; Y ) = ∑ x , y P ( x , y ) log ⁡ ( P ( x , y ) P ( x ) P ( y ) ) I(X; Y) = \sum_{x, y} P(x, y) \log\left(\frac{P(x, y)}{P(x)P(y)}\right) I(X;Y)=x,yP(x,y)log(P(x)P(y)P(x,y))
    这个公式用来衡量X和Y之间的关联性。

需要注意的是,相对熵和互信息的公式都包括对概率分布的取值进行求和,而熵的公式只涉及一个随机变量的概率分布。这些公式在信息理论和统计学中有广泛的应用,用来量化信息、概率分布之间的关系以及随机变量之间的关联性。

2.1 熵

2.2联合熵与条件熵

2.3相对熵与互信息

2.4熵与互信息的关系

2.5熵、相对熵与互信息的链式法则

2.6Jensen不等式及其结果

2.7对数和不等式及其应用

2.8数据处理不等式

2.9充分统计量

2.10费诺不等式

你可能感兴趣的:(笔记,机器学习,人工智能)