深度学习之基础-概率和信息论

第三章 概率和信息论

3.13 信息论

量化信息需要满足的性质:

  • 非常可能发生的事件信息量要比较少,并且极端情况下,确保能够发生的事件
    应该没有信息量。

  • 较不可能发生的事件具有更高的信息量。

  • 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量,
    应该是投掷一次硬币正面朝上的信息量的两倍。

  • 自信息:
    I ( x ) = − l o g P ( x ) I(x) = -log P(x) I(x)=logP(x)

  • 香农熵:对整个概率分布中的不确定性总量量化,也即遵循这个分布的时间的期望信息总量
    H ( x ) = E X − P [ I ( x ) ] = − E X − P [ l o g ( P ( x ) ) ] H(x) = E_{X-P}[I(x)] = -E_{X-P}[log(P(x))] H(x)=EXP[I(x)]=EXP[log(P(x))]

  • KL散度:衡量两个独立分布的差异,在离散变量的情况下,KL散度衡量的是,当我们使用一种被设计成能够使得概率分布 Q 产生的消息的长度最小的编码,发送包含由概率分布 P 产生的符号的消息时,所需要的额外信息量。
    D K L ( P ∣ ∣ Q ) = E X − P [ l o g P ( x ) Q ( x ) ] = E X − P [ l o g P ( x ) − l o g Q ( x ) ] D_{KL}(P||Q) = E_{X-P}[log\frac{P(x)}{Q(x)}] = E_{X-P}[logP(x) - logQ(x)] DKL(PQ)=EXP[logQ(x)P(x)]=EXP[logP(x)logQ(x)]

  • 交叉熵:香农熵和KL散度综合变量,对Q交叉熵的最小化等价于对KL散度最小化,因为省略的一项和Q无关
    H ( P , Q ) = H ( P ) + D K L ( P ∣ ∣ Q ) H(P,Q) = H(P) + D_{KL}(P||Q) H(P,Q)=H(P)+DKL(PQ)

3.14 结构化概率模型

机器学习的算法经常会涉及到在非常多的随机变量上的概率分布。通常,这些概率分布涉及到的直接相互作用都是介于非常少的变量之间的。使用单个函数来描述整个联合概率分布是非常低效的 (无论是计算上还是统计上)。
我们可以把概率分布分解成许多因子的乘积形式,而不是使用单一的函数来表示概率分布。例如,假设我们有三个随机变量 a, b 和 c,并且 a 影响 b 的取值,b 影响 c 的取值,但是 a 和 c 在给定 b 时是条件独立的。我们可以把全部三个变量的概率分布重新表示为两个变量的概率分布的连乘形式:
p(a, b, c) = p(a)p(b | a)p(c | b).

  • 结构化概率模型:使用图来表示概率分布的分解

你可能感兴趣的:(深度学习阅读笔记)