关于交叉熵的一点点思考

交叉熵

信息量怎么度量呢?是为了反应消息的不确定性的量,一个事情发生的概率很小,但是如果发生了,那么这个消息量就很大。信息量度量如下:I(x)=-log(p(x))
为什么取对数呢?两个独立的信息传播的信息可以相加了。
那么交叉熵是什么呢?反应两个概率分布的差异,交叉熵在人工智能领域大名鼎鼎如雷贯耳。从经久不衰大名鼎鼎的逻辑回归,到前些年机器学习的大杀器xgboost,以及各大厂争先恐后的在图像识别,图像分割,图像检测,语音识别的深度学习应用,几乎在各个行业都能看到交叉熵身影。
H(P, Q) = – (P(cat) * log(Q(cat)) + P(dog) * log(Q(dog)))
当两个分布完全相同的时候取最小。那么为什么两个分布取最小呢?其实交叉熵可以看作归一化到【0,1】的概率分布的余弦相似度,只是多了log函数。在损失函数中log完全可以替换为不改变单调性的任何函数,甚至不用log,当然为了工程,越简单越好。

你可能感兴趣的:(笔记,自然语言处理,机器学习,神经网络,自动驾驶,深度学习)