相对熵,交叉熵

1:熵:

相对熵,交叉熵_第1张图片

2:相对熵:我理解p(x)/ q(x) 其实就是表达的q相对于p的距离,从log函数的图可以看出来,p和q只有完全相等时,log1 = 0,所以当两者不等时,无论是q,p谁大谁小,都能体现出两者的相对距离。而且这个距离越大,log值越大,可以理解为熵越大,其实也可以理解为两者越不相等。

还可以理解为相对熵D(Q||P),就是用P来表达Q分布,比用Q的一个采样来表达Q的分布所多出来的信息长度(简单理解为用P来近似Q所花费的代价);参考自:如何理解KL散度的不对称性? (baidu.com)

相对熵,交叉熵_第2张图片

另一方面关于相对熵的不对称性:参考自

z(11 封私信 / 87 条消息) KL散度不对称。如果分布P和Q,KL(P||Q)很大而KL(Q||P)很小表示什么现象? - 知乎 (zhihu.com)

相对熵,交叉熵_第3张图片

这里理解一下当P很小的时候,Q的影响不大;可以举例,比如P为0.01,Q为0.9的情况和Q为0.01,p为0.9的情况,可以发现,文中所说是正确的,Q只影响P中概率较大的地方。

3:交叉熵:神经网络用的更多的是交叉熵,其实我们可以理解为是在

求相对熵,为了相对熵越小,交叉熵必须越小

相对熵,交叉熵_第4张图片

参考自:(1条消息) 交叉熵损失函数原理详解_Cigar-CSDN博客_交叉熵损失函数

你可能感兴趣的:(CV笔记,深度学习,机器学习,人工智能)