多层神经网络,从零开始——(八)、分类问题中为什么使用交叉熵作为损失函数

多层神经网络,从零开始——(八)、分类问题中为什么使用交叉熵作为损失函数_第1张图片

“There were many at Bell Labs and MIT who compared Shannon’s insight to Einstein’s. Others found that comparison unfair—unfair to Shannon.”

“贝尔实验室和MIT有很多人将香农和爱因斯坦相提并论,而其他人则认为这种对比是不公平的——对香农不公平。”

前言

将熵这个概念用于信息是一位天才的杰作,作为信息论的创始人,大概是因为他掌控了信息传播所以他的成就才不为一般公众所知吧[1]。知乎有专栏介绍了香农的工作[2],他的硕士论文《A Symbolic Analysis of Relay and Switching Circuits》(继电器与开关电路的符号分析),被评“这可能是本世纪最重要、最著名的一篇硕士论文。”,大概天才都是年轻的时候就光芒万丈吧。

在分类任务中,使用交叉熵作为损失函数就与信息熵有关[3][4]

交叉熵

多层神经网络,从零开始——(八)、分类问题中为什么使用交叉熵作为损失函数_第2张图片
多层神经网络,从零开始——(八)、分类问题中为什么使用交叉熵作为损失函数_第3张图片
多层神经网络,从零开始——(八)、分类问题中为什么使用交叉熵作为损失函数_第4张图片

附录

多层神经网络,从零开始——(一)、Fortran读取MNIST数据集
多层神经网络,从零开始——(二)、Fortran随机生成“双月”分类问题数据
多层神经网络,从零开始——(三)、BP神经网络公式的详细推导
多层神经网络,从零开始——(四)、多层BP神经网络的矩阵形式
多层神经网络,从零开始——(五)、定义数据结构
多层神经网络,从零开始——(六)、激活函数
多层神经网络,从零开始——(七)、损失函数
多层神经网络,从零开始——(八)、分类问题中为什么使用交叉熵作为损失函数
多层神经网络,从零开始——(九)、优化函数
多层神经网络,从零开始——(十)、参数初始化
多层神经网络,从零开始——(十一)、实现训练类
多层神经网络,从零开始——(十二)、实现算例类
多层神经网络,从零开始——(十三)、关于并行计算的简单探讨


  1. Quora. Why is Claude Shannon so underappreciated compared to other great thinkers of his day like Turing and Einstein? ↩

  2. https://zhuanlan.zhihu.com/p/22010182. ↩

  3. https://en.m.wikipedia.org/wiki/Entropy_in_thermodynamics_and_information_theory ↩

  4. https://en.m.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence ↩

你可能感兴趣的:(多层神经网络,从零开始——(八)、分类问题中为什么使用交叉熵作为损失函数)