周报1_20230707

1.上周回顾

这周刚开始写

2. 本周计划

完成信息熵与互信息的理论部分,继续完成论文第三部分方法论的书写。

3. 完成情况

3.1 信息熵简单介绍

信息熵是信息论中的一个概念,用于衡量一个随机变量的不确定性或信息量的平均值。它是由香农于1948年提出的,被广泛应用于信息理论、统计学和通信领域。

在信息论中,一个随机变量的熵表示为H(X),其中X是该随机变量。熵的单位通常用比特(bits)来衡量,也可以用纳特(nats)或其他适当的单位。

熵的计算公式为:
H ( x ) = − Σ P ( x ) log ⁡ P ( x ) H(x)=-\Sigma P(x)\log P(x) H(x)=ΣP(x)logP(x)
其中, P ( x ) P(x) P(x)是随机变量X取值为x的概率, Σ \Sigma Σ表示对所有可能的取值求和, log ⁡ \log log是以某个基数为底的对数运算。

信息熵的直观解释是,如果一个随机变量的熵较高,表示该变量的取值具有较大的不确定性,即我们需要更多的信息来描述或预测它。相反,如果一个随机变量的熵较低,表示该变量的取值具有较小的不确定性,即我们需要较少的信息来描述或预测它。

信息熵在数据压缩、数据传输、密码学等领域具有重要的应用。在数据压缩中,熵被用来衡量数据的冗余性,从而实现更高效的压缩算法。在数据传输中,熵被用来衡量信道的容量,以确定最大可靠传输速率。在密码学中,熵被用来衡量密码算法的安全性,以评估密码密钥的强度。

3.1.1 信息熵公式推导

信息熵的公式推导可以从信息量的基本定义开始,并应用一些概率和信息论的基本原理。

  1. 信息量的基本定义: 首先,我们引入一个事件的信息量的概念,记作 l ( x ) l(x) l(x),表示事件x发生时所提供的信息量。根据直觉,我们可以假设信息量与事件发生的概率成反比,即事件发生的概率越低,提供的信息量越大。于是,我们可以使用事件的概率的倒数来表示信息量,即 l ( x ) = 1 / P ( x ) l(x) =1/P(x) l(x)=1/P(x)
  2. 信息量的期望:对于一个随机变量 X X X,它可以取多个不同的取值 x 1 , x 2 , x 3 ⋯ x n x_{1},x_{2},x_{3}\cdots x_{n} x1,x2,x3xn, 对应的概率分别为 P ( x 1 ) , P ( x 2 ) , P ( x 3 ) , ⋯ P ( x n ) P(x_{1}),P(x_{2}),P(x_{3}),\cdots P(x_{n}) P(x1),P(x2),P(x3),P(xn)。我们可以计算每个取值的信息量,并根据概率加权求和得到期望信息量。即 E [ I ( x ) ] = Σ P ( x ) ∗ I ( x ) = Σ P ( x ) ∗ ( 1 / P ( x ) ) = Σ 1 = n \begin{aligned} E\left [I(x)\right ]&=\Sigma P(x)\ast I(x)\\ &=\Sigma P(x)\ast(1/P(x))\\ &=\Sigma 1\\ &=n \end{aligned} E[I(x)]=ΣP(x)I(x)=ΣP(x)(1/P(x))=Σ1=n
    其中, Σ \Sigma Σ表示对所有可能的取值求和, n n n表示随机变量的取值个数。
  3. 引入对数运算:
    由于信息量的期望是随机变量的取值个数,它通常较大且不直观。为了得到一个更直观的度量,我们引入对数运算。
    a)对数的性质:
    log ⁡ ( a b ) = log ⁡ ( a ) + log ⁡ ( b ) log ⁡ ( a / b ) = log ⁡ ( a ) − log ⁡ ( b ) \log(ab)=\log(a)+\log(b)\\ \log(a/b)=\log(a)-\log(b) log(ab)=log(a)+log(b)log(a/b)=log(a)log(b)
    b) 使用对数运算的信息量公式:
    根据上述对数的性质,我们可以将信息量的期望进行变形:
    E [ I ( x ) ] = Σ P ( x ) ∗ I ( x ) = Σ P ( x ) ∗ log ⁡ ( 1 / P ( x ) ) = − Σ P ( x ) ∗ log ⁡ ( P ( x ) ) \begin{aligned} E\left [I(x)\right ]&=\Sigma P(x)\ast I(x)\\ &=\Sigma P(x)\ast\log(1/P(x))\\ &=-\Sigma P(x) \ast \log(P(x)) \end{aligned} E[I(x)]=ΣP(x)I(x)=ΣP(x)log(1/P(x))=ΣP(x)log(P(x))
    这个形式就是信息熵的公式。

综上所述,通过信息量的基本定义和对数运算的引入,我们可以推导出信息熵的公式为: H ( x ) = − Σ P ( x ) log ⁡ P ( x ) H(x)=-\Sigma P(x)\log P(x) H(x)=ΣP(x)logP(x)

这个公式可以用来计算一个随机变量的信息熵,衡量其不确定性或信息量的平均值。

3.2 互信息

互信息(Mutual Information)是信息论中用于衡量两个随机变量之间相互依赖程度的指标。它测量了两个变量之间的信息共享量,或者说通过观察一个变量可以提供多少关于另一个变量的信息。
给定两个随机变量 X X X Y Y Y,它们的互信息记作 I ( X ; Y ) I(X;Y) I(X;Y)。互信息可以通过它们的联合概率分布和各自的边缘概率分布来计算。互信息的公式如下:
I ( X ; Y ) = Σ Σ P ( x , y ) ∗    l o g ( P ( x , y ) / ( P ( x ) ∗ P ( y ) ) ) I(X;Y) = \Sigma\Sigma P(x,y) \ast \;log(P(x,y)/(P(x) \ast P(y))) I(X;Y)=ΣΣP(x,y)log(P(x,y)/(P(x)P(y)))
其中, Σ \Sigma Σ表示对所有可能的取值求和, P ( x , y ) P(x,y) P(x,y)表示 X X X Y Y Y同时取值为 x x x y y y的联合概率, P ( x ) P(x) P(x) P ( y ) P(y) P(y)分别表示 X X X Y Y Y的边缘概率。
互信息的值越大,表示X和Y之间的依赖程度越高;值为零表示 X X X Y Y Y是独立的;而负值表示 X X X Y Y Y之间存在反相关关系。

互信息在许多领域有广泛的应用,包括特征选择、聚类分析、图像处理、自然语言处理等。在特征选择中,互信息可用于衡量一个特征与目标变量之间的相关性,从而帮助选择最相关的特征。在聚类分析中,互信息可以用于度量聚类结果与真实标签之间的一致性。在图像处理和自然语言处理中,互信息可以用于图像分割、文本分类等任务中的特征提取和特征权重计算。

总之,互信息是衡量两个随机变量之间依赖程度的指标,可以用于描述它们之间的信息共享量。

3.2.1互信息公式推导

从信息熵的角度出发,并使用条件熵的概念。

  1. 信息熵: 两个随机变量X和Y的信息熵分别表示为 H ( X ) H(X) H(X) H ( Y ) H(Y) H(Y),它们的定义如下: H ( X ) = − Σ P ( x ) ∗ log ⁡ ( P ( x ) ) H ( Y ) = − Σ P ( y ) ∗ log ⁡ ( P ( y ) ) H(X)=-\Sigma P(x) \ast \log(P(x))\\ H(Y)=-\Sigma P(y) \ast \log(P(y)) H(X)=ΣP(x)log(P(x))H(Y)=ΣP(y)log(P(y))

  2. 条件熵:
    条件熵是在给定一个随机变量的条件下,另一个随机变量的不确定性或信息量。给定随机变量 X X X的条件下,随机变量Y的条件熵表示为 H ( Y ∣ X ) H(Y|X) H(YX),它的定义如下: H ( Y ∣ X ) = − Σ Σ P ( x , y ) ∗ log ⁡ ( P ( y ∣ x ) ) H(Y|X)= -\Sigma\Sigma P(x,y)\ast \log(P(y|x)) H(YX)=ΣΣP(x,y)log(P(yx))

  3. 互信息的定义:
    互信息 I ( X ; Y ) I(X;Y) I(X;Y)表示随机变量X和Y之间的信息共享量,可以用条件熵和边缘熵表示: I ( X ; Y ) = H ( Y ) − H ( Y ∣ X ) I(X;Y) = H(Y) - H(Y|X) I(X;Y)=H(Y)H(YX)

  4. 边缘概率和联合概率:
    随机变量X和Y的边缘概率分布可以通过联合概率分布来计算:
    P ( x ) = Σ P ( x , y ) P(x)=\Sigma P(x,y) P(x)=ΣP(x,y)(对所有y求和)
    P ( y ) = Σ P ( x , y ) P(y)=\Sigma P(x,y) P(y)=ΣP(x,y)(对所有y求和)
    注意: P ( x , y ) P(x, y) P(x,y)表示 X X X Y Y Y同时取值为x和y的联合概率。

  5. 这一步推导还有一些,来不及写了

4. 存在的主要问题

之前代码写的方案放太久了,忘了当时怎么做的了,现在正在回看代码,倒推自己的方案。。

5. 下一步工作

继续对互信息评分系统和网络创新部分的方法论进行写作。
但是下两周要离校自驾旅游一趟,请个假,暂停一下周报,回来后会全力继续。

你可能感兴趣的:(概率论,信息熵,互信息)