通用的说,熵(Entropy)被用于描述一个系统中的不确定性(the uncertainty of a system)。在不同领域熵有不同的解释,比如热力学的定义和信息论也不大相同。
要想明白交叉熵(Cross Entropy)的意义,可以从熵(Entropy) -> KL散度(Kullback-Leibler Divergence) -> 交叉熵这个顺序入手。 当然,也有多种解释方法[1]。
先给出一个“接地气但不严谨”的概念表述:
一句话总结的话:KL散度可以被用于计算代价,而在特定情况下最小化KL散度等价于最小化交叉熵。而交叉熵的运算更简单,所以用交叉熵来当做代价。
我知道你现在看着有点晕,但请保持耐心继续往下看。
为了通俗易懂,我没有严格按照数学规范来命名概念,比如文中的“事件”指的是“消息”,望各位严谨的读者理解。
放在信息论的语境里面来说,就是一个事件所包含的信息量。我们常常听到“这句话信息量好大”,比如“昨天花了10万,终于在西二环买了套四合院”。
这句话为什么信息量大?因为它的内容出乎意料,违反常理。由此引出:
因此熵被定义为
s ( x ) = − ∑ i P ( x i ) l o g b P ( x i ) s(x) = - \sum_{i}P(x_i)log_b P(x_i) s(x)=−i∑P(xi)logbP(xi)
x x x指的不同的事件比如喝茶, P ( x i ) P(x_i) P(xi)指的是某个事件发生的概率比如喝红茶的概率。对于一个一定会发生的事件,其发生概率为1, S ( x ) = − l o g ( 1 ) ∗ 1 = − 0 ∗ 1 = 0 S(x) = - log(1)*1 = -0*1 =0 S(x)=−log(1)∗1=−0∗1=0,信息量为0。
我们上面说的是对于一个随机变量x的事件A的自信息量,如果我们有另一个独立的随机变量x相关的事件B,该怎么计算它们之间的区别?
此处我们介绍默认的计算方法:KL散度,有时候也叫KL距离,一般被用于计算两个分布之间的不同。看名字似乎跟计算两个点之间的距离也很像,但实则不然,因为KL散度不具备有对称性。在距离上的对称性指的是A到B的距离等于B到A的距离。
举个不恰当的例子,事件A:张三今天买了2个土鸡蛋,事件B:李四今天买了6个土鸡蛋。我们定义随机变量x:买土鸡蛋,那么事件A和B的区别是什么?有人可能说,那就是李四多买了4个土鸡蛋?这个答案只能得50分,因为忘记了"坐标系"的问题。换句话说,对于张三来说,李四多买了4个土鸡蛋。对于李四来说,张三少买了4个土鸡蛋。选取的参照物不同,那么得到的结果也不同。更严谨的说,应该是说我们对于张三和李四买土鸡蛋的期望不同,可能张三天天买2个土鸡蛋,而李四可能因为孩子满月昨天才买了6个土鸡蛋,而平时从来不买。
KL散度的数学定义:
对于离散事件我们可以定义事件A和B的差别为(2.1):
D K L ( A ∣ ∣ B ) = ∑ i P A ( x i ) l o g ( P A ( x i ) P B ( x i ) ) = ∑ i P A ( x i ) l o g ( P A ( x i ) ) − P A ( x i ) l o g ( P B ( x i ) ) D_{KL}(A||B) = \sum_{i}P_{A}(x_i) log\bigg(\frac{P_{A}(x_i)}{P_{B}(x_i)} \bigg) = \sum_{i}P_{A}(x_i)log(P_{A}(x_i ))- P_{A}(x_i)log(P_{B}(x_i)) DKL(A∣∣B)=i∑PA(xi)log(PB(xi)PA(xi))=i∑PA(xi)log(PA(xi))−PA(xi)log(PB(xi))
对于连续事件,那么我们只是把求和改为求积分而已(2.2)。
D K L ( A ∣ ∣ B ) = ∫ a ( x ) l o g ( a ( x ) b ( x ) ) D_{KL}(A||B) = \int a(x) log\bigg(\frac{a(x)}{b(x)} \bigg) DKL(A∣∣B)=∫a(x)log(b(x)a(x))
从公式中可以看出:
如果 P A = P B P_A=P_B PA=PB ,即两个事件分布完全相同,那么KL散度等于0。
观察公式2.1,可以发现减号左边的就是事件A的熵,请记住这个发现。
换句话说,KL散度由A自己的熵与B在A上的期望共同决定。当使用KL散度来衡量两个事件(连续或离散),上面的公式意义就是求 A与B之间的对数差 在 A上的期望值。
如果我们默认了用KL散度来计算两个分布间的不同,那还要交叉熵做什么?
事实上交叉熵和KL散度的公式非常相近,其实就是KL散度的后半部分(公式2.1):A和B的交叉熵 = A与B的KL散度 - A的熵。
D K L ( A ∣ ∣ B ) = − S ( A ) + H ( A , B ) D_{KL}(A||B) = -S(A)+H(A,B) DKL(A∣∣B)=−S(A)+H(A,B)
对比一下这是KL散度的公式:
D K L ( A ∣ ∣ B ) = ∑ i P A ( x i ) l o g ( P A ( x i ) P B ( x i ) ) = ∑ i P A ( x i ) l o g ( P A ( x i ) ) − P A ( x i ) l o g ( P B ( x i ) ) D_{KL}(A||B) = \sum_{i}P_{A}(x_i) log\bigg(\frac{P_{A}(x_i)}{P_{B}(x_i)} \bigg) = \sum_{i}P_{A}(x_i)log(P_{A}(x_i ))- P_{A}(x_i)log(P_{B}(x_i)) DKL(A∣∣B)=i∑PA(xi)log(PB(xi)PA(xi))=i∑PA(xi)log(PA(xi))−PA(xi)log(PB(xi))
这是熵的公式:
S ( A ) = − ∑ i P A ( x i ) l o g P A ( x i ) S(A) = -\sum_{i}P_A(x_{i})logP_A(x_{i}) S(A)=−i∑PA(xi)logPA(xi)
这是交叉熵公式:
H ( A , B ) = − ∑ i P A ( x i ) l o g ( P B ( x i ) ) H(A,B)= -\sum_{i}P_{A}(x_i)log(P_{B}(x_i)) H(A,B)=−i∑PA(xi)log(PB(xi))
此处最重要的观察是,如果 S ( A ) S(A) S(A)是一个常量,那么 D K L ( A ∣ ∣ B ) = H ( A , B ) D_{KL}(A||B) = H(A,B) DKL(A∣∣B)=H(A,B),也就是说KL散度和交叉熵在特定条件下等价。这个发现是这篇回答的重点。
同时补充交叉熵的一些性质:
那么问题来了,为什么有KL散度和交叉熵两种算法?为什么他们可以用来求分布的不同?什么时候可以等价使用?
一种信息论的解释是:
对于大部分读者,我觉得可以不用深入理解。感谢评论区@王瑞欣的指正,不知道为什么@不到他。
一些对比与观察:
等价条件(章节3):当 A A A 固定不变时,那么最小化KL散度 D K L ( A ∣ ∣ B ) D_{KL}(A||B) DKL(A∣∣B) 等价于最小化交叉熵 H ( A , B ) H(A,B) H(A,B)。
D K L ( A ∣ ∣ B ) = H ( A , B ) D_{KL}(A||B) = H(A,B) DKL(A∣∣B)=H(A,B)
既然等价,那么我们优先选择更简单的公式,因此选择交叉熵。
机器学习的过程就是希望在训练数据上模型学到的分布 P ( m o d e l ) P(model) P(model)和真实数据的分布 P ( r e a l ) P(real) P(real) 越接近越好,那么我们已经介绍过了…怎么最小化两个分布之间的不同呢?用默认的方法,使其KL散度最小!
但我们没有真实数据的分布,那么只能退而求其次,希望模型学到的分布和训练数据的分布 $P(training)$ 尽量相同,也就是把训练数据当做模型和真实数据之间的代理人。
假设训练数据是从总体中独立同步分布采样(Independent and identically distributed sampled)而来,那么我们可以利用最小化训练数据的经验误差来降低模型的泛化误差。简单说:
接着上一点说,最小化模型分布 P ( m o d e l ) P(model) P(model) 与 训练数据上的分布 P ( t r a i n i n g ) P(training) P(training) 的差异 等价于 最小化这两个分布间的KL散度,也就是最小化 K L ( P ( t r a i n i n g ) ∣ ∣ P ( m o d e l ) ) KL(P(training)||P(model)) KL(P(training)∣∣P(model))。
比照第四部分的公式:
巧的是,训练数据的分布A是给定的。那么根据我们在第四部分说的,因为A固定不变,那么求 D K L ( A ∣ ∣ B ) D_{KL}(A||B) DKL(A∣∣B) 等价于求 H ( A , B ) H(A,B) H(A,B) ,也就是A与B的交叉熵。
得证,交叉熵可以用于计算“学习模型的分布”与“训练数据分布”之间的不同。当交叉熵最低时(等于训练数据分布的熵),我们学到了“最好的模型”。
但是,完美的学到了训练数据分布往往意味着过拟合,因为训练数据不等于真实数据,我们只是假设它们是相似的,而一般还要假设存在一个高斯分布的误差,是模型的泛化误差下线。
因此在评价机器学习模型时,我们往往不能只看训练数据上的误分率和交叉熵,还是要关注测试数据上的表现。如果在测试集上的表现也不错,才能保证这不是一个过拟合或者欠拟合的模型。交叉熵比照误分率还有更多的优势,因为它可以和很多概率模型完美的结合。
所以逻辑思路是,为了让学到的模型分布更贴近真实数据分布,我们最小化 模型数据分布 与 训练数据之间的KL散度,而因为训练数据的分布是固定的,因此最小化KL散度等价于最小化交叉熵。
因为等价,而且交叉熵更简单更好计算,当然用它咯 ʕ•ᴥ•ʔ
[1] 不同的领域都有不同解释,更传统的机器学习说法是似然函数的最大化就是交叉熵。正所谓横看成岭侧成峰,大家没必要非说哪种思路是对的,有道理就好。
原文转载自https://www.zhihu.com/question/65288314,感谢作者“微调”分享!