sigmoid/softmax指数运算溢出问题的解决方法

今天用tensorflow的代码的时候,看到了tensorflow中计算cross
entropy方法的,不由得赞叹起来开发人员的巧妙构思。顺便捋了一下sigmoid/softmax指数运算溢出问题的解决方法。

sigmoid和softmax函数在计算中,都会用到指数运算 e − x e^{-x} ex或者 e x e^{x} ex,这个时候,如果前一步计算得到的 x x x非常小或者非常大的时候,都有溢出的风险,同时在计算cross entropy的时候,也要考虑下溢出,因为如果softmax分子太小近似为0,前面取log也是一个近似于无穷小的数,也会造成精度的减少。

而同时sigmoid和softmax本身就是一个在0~1之间的值,所以可以看到这种溢出只是一种中间过程,对于结果来说并不会有溢出,来看下如何去解决这个问题

  1. 对于sigmoid的计算,则可以分成一个判断

    a. 如果 x > 0 x>0 x>0 y = 1 1 + e − x y=\frac{1}{1+e^{-x}} y=1+ex1
    b. 如果 x < 0 x<0 x<0 y = e x 1 + e x y=\frac{e^x}{1+e^x} y=1+exex

  2. 对于sigmoid的log计算(如cross entropy):
    a. label 记为z
    b. c r o s s   e n t r o p y = z × − log ⁡ ( s i g m o i d ( x ) ) + ( 1 − z ) × − log ⁡ ( 1 − s i g m o i d ( x ) ) = z × − log ⁡ ( 1 1 + e − x ) + ( 1 − z ) ∗ − log ⁡ ( e − x 1 + e − x ) = z × log ⁡ ( 1 + e − x ) + ( 1 − z ) × ( − log ⁡ ( e − x ) + log ⁡ ( 1 + e − x ) ) = z × log ⁡ ( 1 + e − x ) + ( 1 − z ) × ( x + log ⁡ ( 1 + e − x ) ) = ( 1 − z ) × x + log ⁡ ( 1 + e − x ) = x − x × z + log ⁡ ( 1 + e − x ) cross\ entropy = z \times -\log(sigmoid(x)) + (1 - z) \times -\log(1 - sigmoid(x)) \\= z \times -\log(\frac{1}{1+e^{-x}}) + (1 - z) * -\log(\frac{e^{-x}}{1+e^{-x}}) \\= z \times \log(1 + e^{-x}) + (1 - z) \times (-\log(e^{-x}) + \log(1 + e^{-x})) \\= z \times \log(1 + e^{-x}) + (1 - z) \times (x + \log(1 + e^{-x})) \\= (1 - z) \times x + \log(1 + e^{-x}) \\= x - x \times z + \log(1 + e^{-x}) cross entropy=z×log(sigmoid(x))+(1z)×log(1sigmoid(x))=z×log(1+ex1)+(1z)log(1+exex)=z×log(1+ex)+(1z)×(log(ex)+log(1+ex))=z×log(1+ex)+(1z)×(x+log(1+ex))=(1z)×x+log(1+ex)=xx×z+log(1+ex)

    c. 对于 x < 0 x<0 x<0有溢出风险时,变换 x x x l o g ( e x ) log(e^x) log(ex)

    d. 上式可以变换为
    x − x × z + l o g ( 1 + e − x ) = l o g ( e x ) − x × z + log ⁡ ( 1 + e − x ) = − x × z + l o g ( 1 + e x ) x - x \times z + log(1 + e^{-x}) \\= log(e^x) - x \times z + \log(1 + e^{-x}) \\= - x \times z + log(1 + e^{x}) xx×z+log(1+ex)=log(ex)x×z+log(1+ex)=x×z+log(1+ex)

    e. 综合起来,对于 c r o s s   e n t r o p y = m a x ( x , 0 ) − x × z + log ⁡ ( 1 + e − ∣ a b s ( x ) ∣ ) cross\ entropy = max(x, 0)-x\times z+\log(1+e^{-|abs(x)|}) cross entropy=max(x,0)x×z+log(1+eabs(x))

  3. 对于softmax的计算 y = e x i ∑ j e x j y=\frac{e^{x_i}}{\sum_j e^{x_j}} y=jexjexi

    a. 取所有 x j x_j xj的最大值为M,则计算 { x j } \{x_j\} { xj}这组数的softmax等同于计算 { x j − M } \{x_j-M\} { xjM}这么一组数的softmax,非常容易推导的,分子分母同时除以 e M e^{M} eM即可
    b. 所以这样softmax改成计算 y = e x i − M ∑ j e x j − M y=\frac{e^{x_i-M}}{\sum_j e^{x_j-M}} y=jexjMexiM,就解决了上溢出的问题,因为中间每一项都是小于等于1的值。

  4. 对于softmax的log计算(如cross entropy)
    a. cross entropy的时候的下溢出问题,依然是前面的变换,变成 { x j − M } \{x_j-M\} { xjM},这时变换一下log softmax的公式就能得到 ( x i − M ) − l o g ( ∑ j e x j − M ) (x_i-M)-log(\sum_j e^{x_j-M}) (xiM)log(jexjM)这时,log中的求和式字里,最大的一个肯定为1,所以其和少是大于1的,所以就不会有下溢出问题

你可能感兴趣的:(机器学习,深度学习,机器学习)