机器学习 | 为什么softmax函数需要减去一个max值

机器学习 | 为什么softmax函数需要减去一个max值_第1张图片
softmax

背景:在softmax函数对vector值进行计算,转换为[0, 1]区间的概率值的时候,往往会先对vector中每个元素减去一个max(vector)值。本文主要记录下对神经网络学习中,关于softmax函数计算的track背后的原因。


  1. Softmax函数介绍
    首先来看一下softmax函数的公式:

    机器学习 | 为什么softmax函数需要减去一个max值_第2张图片

    可以看到,softmax函数对vector处理的主要目的就是将vector的所有value处理到[0, 1]之间的类概率值。那么,为什么叫softmax呢?根据CS224n的说法,主要是因为softmax函数的效果是能够让vector中最大的数被取到的概率非常大,同时又不至于像max函数那么极端使得取到其他数的概率为0,所以叫softmax。

  2. 为什么要减去max
    那么为什么要对每一个x减去一个max值呢?从需求上来说,如果x的值没有限制的情况下,当x线性增长,e指数函数下的x就呈现指数增长,一个较大的x(比如1000)就会导致程序的数值溢出,导致程序error。所以需求上来说,如果能够将所有的x数值控制在0及0以下,则不会出现这样的情况,这也是为什么不用min而采用max的原因。

  3. 数学上如何保证正确性?
    正确性的关键就是要证明:softmax(x)=softmax(x+c)

    机器学习 | 为什么softmax函数需要减去一个max值_第3张图片

    上面就是简单的数学推导过程,不难发现,对任意常数c来说,都不会影响softmax的结果。所以只要把常数c设置为-max就可以实现上面的优化效果。

你可能感兴趣的:(机器学习 | 为什么softmax函数需要减去一个max值)