作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客
本文网址:https://blog.csdn.net/HiWangWenBing/article/details/120575018
目录
第1章 sigmoid函数在多分类中的困境
第2章 softmax函数在多分类中的应用
2.1 什么是softmax
2.2 softmax的几何意义
2.3 softmax在多分类中的应用
2.4 softmax与sigmoid比较
输入案例:(X1, X2, X3....... X728)
输出案例:【0.1, 0.6, 0.1, 0.1, 0.2, 0.4, 0.8, 0.2, 0.1, 0.9】
输出索引: 【 0, 1, 2 , 3 , 4 , 5, 6 , 7 , 8 9】
输出案例1:【0.1, 0.6, 0.1, 0.1, 0.2, 0.4, 0.8, 0.2, 0.1, 0.9】=》0.9最大, index9的输出最接近样本标签1.
输出案例2:【0.1, 0.5, 0.1, 0.1, 0.2, 0.4, 0.1, 0.2, 0.1, 0.1 =》 0.5最大, index1的输出最接近样.
更尴尬的,同一路输出,如index1,第一次输出为0.6, 第二次输出为0.5,从绝对值的角度看,即0.6>0.5, 0.6比0.5更接近1, 尴尬的是,0.6反而没有0.5起到的作用大。
这里的根本原因是:多分类的每一路的输出是独立的,它们之间没有相对关系,没有对他们进行联合处理,相对性处理。
这里的根本原因是:
softmax就是这样的函数,能够解决上述两个问题。
(1)数学公式
(2)softmax的作用与效果
如X7=2, 经过e^2放到后,变成了7.3890.
如X7=9, 经过e^9放到后,变成了1096.62.
用一个softmax替代每个神经元原先的每个sigmoid函数,最后通过ArgMax选择一路最大值输出。
(1)相同点
(2)不同点
作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客
本文网址:https://blog.csdn.net/HiWangWenBing/article/details/120575018