二分类任务为什么常见用softmax而不是sigmoid

在搭建深度学习模型处理二分类任务的时候,我们常常想到的是定义模型一个输出,然后sigmoid激活输出结果,映射到0-1之间,然后二分类交叉熵损失函数进行训练即可,但是我常常看到的很多别人写的工程代码中,二分类他们都是定义2个输出,然后softmax映射成0和1的概率,再用多分类的交叉熵损失函数进行训练,我就很奇怪为啥要这样,直到最近在跑一个任务,搭建的模型非常复杂,用的一个输出后面接sigmoid,然后。。。。。就出锅了,原因很简单,数据爆炸了,一个输出的内容为-1000到1000多这样的范围(在深度模型训练这种范围数据波动很常见),然后对sigmoid的计算而言,就直接数据爆炸了,要么全0要么全1,导致模型根本没法训练,而输出2个节点后面接softmax会好很多,因为计算方式不一样,导致softmax对这种数据爆炸问题会相对鲁棒性更好,我直接修改成softmax训练模型,很快就收敛了,扎心了,也算一个很大的收获了,以后尽量用softmax了。。。。。。。。。

你可能感兴趣的:(深度学习,深度学习)