dby_freedom

CTR 预测理论（十一）：神经网络激活函数优缺点总结

1. 激活函数的定义与作用

在人工神经网络中，神经元节点的激活函数定义了对神经元输出的映射，简单来说，神经元的输出（例如，全连接网络中就是输入向量与权重向量的内积再加上偏置项）经过激活函数处理后再作为输出。加拿大蒙特利尔大学的Bengio教授在 ICML 2016 的文章[1]中给出了激活函数的定义：激活函数是映射 h:R→R，且几乎处处可导。

神经网络中激活函数的主要作用是提供网络的非线性建模能力，如不特别说明，激活函数一般而言是非线性函数。假设一个示例神经网络中仅包含线性卷积和全连接运算，那么该网络仅能够表达线性映射，即便增加网络的深度也依旧还是线性映射，难以有效建模实际环境中非线性分布的数据。加入（非线性）激活函数之后，深度神经网络才具备了分层的非线性映射学习能力。因此，激活函数是深度神经网络中不可或缺的部分。

从定义来看，几乎所有的连续可导函数都可以用作激活函数。但目前常见的多是分段线性和具有指数形状的非线性函数。下文将依次对它们进行总结。

2. 背景

深度学习的基本原理是基于人工神经网络，信号从一个神经元进入，经过非线性的activation function，传入到下一层神经元；再经过该层神经元的activate，继续往下传递，如此循环往复，直到输出层。正是由于这些非线性函数的反复叠加，才使得神经网络有足够的capacity来抓取复杂的pattern，在各个领域取得state-of-the-art的结果。显而易见，activation function在深度学习中举足轻重，也是很活跃的研究领域之一。目前来讲，选择怎样的activation function不在于它能否模拟真正的神经元，而在于能否便于优化整个深度神经网络。下面我们简单聊一下各类函数的特点以及为什么现在优先推荐ReLU函数。

3. 激活函数及优缺点

3.1 Sigmoid函数

$\sigma(x) = \frac{1}{1 + e^{-x}}$

下图展示了 Sigmoid 函数及其导数：

Sigmoid 激活函数

Sigmoid 导数

Sigmoid函数是深度学习领域开始时使用频率最高的activation function。它是便于求导的平滑函数，其导数为

$\sigma(x)(1- \sigma(x))$ ，这是优点。

优点：

便于求导的平滑函数；
能压缩数据，保证数据幅度不会有问题；
适合用于前向传播。

缺点：

容易出现梯度消失（gradient vanishing）
Sigmoid 的输出不是 0 均值（zero-centered）
幂运算相对耗时

Gradient Vanishing:

当激活函数接近饱和区时，变化太缓慢，导数接近0，根据后向传递的数学依据是微积分求导的链式法则，当前导数需要之前各层导数的乘积，几个比较小的数相乘，导数结果很接近0，从而无法完成深层网络的训练。

为了防止饱和，必须对于权重矩阵的初始化特别留意。比如，如果初始化权重过大，那么大多数神经元将会饱和，导致网络就几乎不学习。
输出不是zero-centered
Sigmoid函数的输出值恒大于0，这会导致模型训练的收敛速度变慢。举例来讲，对 $\sigma(\sum_i w_i x_i + b)$ ，如果所有 $x_i$ 均为正数或负数，那么其对 $w_i$ 的导数总是正数或负数，这会导致如下图红色箭头所示的阶梯式更新，这显然并非一个好的优化路径。深度学习往往需要大量时间来处理大量数据，模型的收敛速度是尤为重要的。所以，总体上来讲，训练深度学习网络尽量使用 zero-centered 数据 (可以经过数据预处理实现) 和zero-centered 输出。

幂运算相对耗时:

相对于前两项，这其实并不是一个大问题，我们目前是具备相应计算能力的，但面对深度学习中庞大的计算量，最好是能省则省)。之后我们会看到，在ReLU函数中，需要做的仅仅是一个thresholding，相对于幂运算来讲会快很多。

3.2 Tanh函数

tanh 表达式：
$\frac{e^{x} - e^{-x}}{e^{x} + e^{-x}}$
tanh 变形：
$t a n h (x) = 2 s i g m o i d (2 x) - 1$

这个变换从图像上可直接得出.

Tanh 激活函数

Tanh 导数

tanh 读作 Hyperbolic Tangent，tanh 函数将输入值压缩到 -1~1 的范围，**因此它是0均值的，解决了Sigmoid函数的非zero-centered问题，**但是它也存在梯度消失和幂运算的问题。

缺点：

容易出现梯度消失问题，在饱和时也会「杀死」梯度。
幂运算相对耗时

3.3 修正线性单元（ReLU）

Relu 表达式：
$\begin{cases} x& \text{x >= 0}\\ 0& \text{x < 0} \end{cases}$
即：
$f (x) = m a x (0, x)$

ReLU 激活函数

ReLU 导数

从上图可以看到，ReLU 是从底部开始半修正的一种函数。

当输入 x<0 时，输出为 0，当 x> 0 时，输出为 x。该激活函数使网络更快速地收敛。它不会饱和，即它可以对抗梯度消失问题，至少在正区域（x> 0 时）可以这样，因此神经元至少在一半区域中不会把所有零进行反向传播。由于使用了简单的阈值化（thresholding），ReLU 计算效率很高。

优点：

解决了gradient vanishing问题 (在正区间)
计算速度非常快，只需要判断输入是否大于0
收敛速度远快于sigmoid和tanh

缺点：

ReLU的输出不是zero-centered：

和 Sigmoid 激活函数类似，ReLU 函数的输出不以零为中心。
Dead ReLU Problem

指的是某些神经元可能永远不会被激活，导致相应的参数永远不能被更新。有两个主要原因可能导致这种情况产生:

(1) 不合理的参数初始化，这种情况比较少见；

(2) learning rate太高导致在训练过程中参数更新太大，不幸使网络进入这种状态。

Dead neuron 问题阐述:
作者：尹相楠
链接：https://www.zhihu.com/question/67151971/answer/434079498
假设某层网络权重为 $W$ ，输入为 $x$ ，经过 $\mathrm{ReLU}$ 激活后为 $a$ 。
首先复习一下神经网络的前向传播公式和反向传播公式。对反向传播公式，记忆方法是根据维度法，即求某个向量或矩阵的导数，乘完后看看这个导数的维度是否和原向量/矩阵相同。
前向传播公式为：
$z=W\cdot x \\ \ \\ \ a = \mathrm{ReLU}(z)$
设损失函数为 $L$ ，反向传播公式为：
$\frac{\partial L}{\partial z}=\frac{\partial L}{\partial a}\cdot\frac{\partial a}{\partial z} \\ \ \\ \ \frac{\partial L}{\partial W}=\frac{\partial L}{\partial z}\cdot x^T \\ \ \\ \ \frac{\partial L}{\partial x} = W^T\cdot \frac{\partial L}{\partial z}$
对固定的学习率 $l r$ ，梯度 $\frac{\partial L}{\partial W}$ 越大，权重 $W$ 更新的越多:
$W=W+lr\cdot \frac{\partial L}{\partial W}$
如果梯度太大，而学习率又不小心设置得太大，就会导致权重一下子更新过多，就有可能出现这种情况：对于任意训练样本 $x_i$ ，网络的输出都是小于0的。
$z_i = W\cdot x_i<0,\forall x_i\in D_{training}$
此时，根据 $\mathrm{ReLU}$ 的激活函数
$a_i = \mathrm{max}(z_i, 0)=0$
这会导致什么后果呢？我们不妨举下面这个简单的网络层为例：

对于上面的网络结构， $W$ 为 $2\times4$ 的矩阵，单个训练样本 $x$ 为 $4\times 1$ 的向量。
为了方便，只研究红线连接的神经元（也就是权重矩阵 $W$ 中的一行）。
$z_1=\begin{bmatrix} W_{11}&W_{12}&W_{13}&W_{14} \end{bmatrix} \cdot \begin{bmatrix} x_{1}\\x_{2}\\x_{3}\\x_{4} \end{bmatrix}$
假设这个时候的 $W$ 是坏掉的，对所有的训练样本 $\vec{x}$ ，输出的这个 z_1 始终是小于零的数。那么，
$a_1 = \mathrm{ReLU}(z_1)=\mathrm{max}(z_1, 0)=0$
即，对于上面这个神经元，激活函数的输出始终为常数0 。回到前面的反向传播公式：
$\frac{\partial L}{\partial z_1} = \frac{\partial L}{\partial a_1}\cdot\frac{\partial a_1}{\partial z_1}$
其中，由于 $z_1$ 小于0时， $a_1$ 是常数 0。所以在 $z_1$ 小于0时始终有：
$\frac{\partial a_1}{\partial z_1}=0$
所以导致：
$\frac{\partial L}{\partial z_1} = \frac{\partial L}{\partial a_1}\cdot\frac{\partial a_1}{\partial z_1}=\frac{\partial L}{\partial a_1}\cdot 0=0$
而：
$\frac{\partial L}{\partial W_{11}}=\frac{\partial L}{\partial z_1}\cdot x_1 \\ \ \\ \ \frac{\partial L}{\partial W_{12}}=\frac{\partial L}{\partial z_1}\cdot x_2 \\ \ \\ \ \frac{\partial L}{\partial W_{13}}=\frac{\partial L}{\partial z_1}\cdot x_3 \\ \ \\ \ \frac{\partial L}{\partial W_{14}}=\frac{\partial L}{\partial z_1}\cdot x_4$
向量化后即是：
$\frac{\partial L}{\partial W_{1\cdot}}=\frac{\partial L}{\partial z_1}\cdot x^T$
可以发现：
$\frac{\partial L}{\partial W_{1\cdot}}=\vec{0}^T$
这就出问题了，对于权重矩阵 $W$ 的第一行的参数，在整个训练集上，损失函数对它的导数始终为零，也就是说，遍历了整个训练集，它的参数都没有更新。因此就说该神经元死了……

解决方案：
1. 把 $\mathrm{ReLU}$ 换成 $\mathrm{Leaky}$ $\mathrm{ReLU}$ ，保证让激活函数在输入小于零的情况下也有非零的输出。
2. 采用较小的学习率
3. adagrad 等自动调节 learning rate 的优化算法，动态调整学习率
4. 可以采用 Xavier 初始化方法

当 x = 0 时，该点的梯度未定义，但是这个问题在实现中得到了解决，通过采用左侧或右侧的梯度的方式。

实际操作中，如果你的learning rate 很大，那么很有可能你网络中的40%的神经元都”dead”了。
当然，如果你设置了一个合适的较小的learning rate，这个问题发生的情况其实也不会太频繁。

尽管存在这两个问题，ReLU目前仍是最常用的activation function，在搭建人工神经网络的时候推荐优先尝试！

3.4 Leaky ReLU

Leaky ReLU 激活函数：

该函数试图缓解 dead ReLU 问题。数学公式为：
$f (x) = m a x (0.1 x, x)$
Leaky ReLU 的概念是：当 x < 0 时，它得到 0.1 的正梯度。该函数一定程度上缓解了 dead ReLU 问题，但是使用该函数的结果并不连贯。尽管它具备 ReLU 激活函数的所有特征，如计算高效、快速收敛、在正区域内不会饱和。

Leaky ReLU 可以得到更多扩展。不让 x 乘常数项，而是让 x 乘超参数，这看起来比 Leaky ReLU 效果要好。该扩展就是 Parametric ReLU，即 PRelu。

3.5 Parametric ReLU

PReLU 函数的数学公式为：
$f (x) = m a x (a x, x)$
其中 $\alpha$ 是超参数。这里引入了一个随机的超参数 $\alpha$ ，它可以被学习，因为你可以对它进行反向传播。这使神经元能够选择负区域最好的梯度，有了这种能力，它们可以变成 ReLU 或 Leaky ReLU。

总之，最好使用 ReLU，但是你可以使用 Leaky ReLU 或 Parametric ReLU 实验一下，看看它们是否更适合你的问题。

3.6 ELU (Exponential Linear Units) 函数

ELU也是为解决ReLU存在的问题而提出，显然，ELU有ReLU的基本所有优点，以及：

不会有Dead ReLU问题
输出的均值接近0，zero-centered

它的一个小问题在于计算量稍大。类似于Leaky ReLU，理论上虽然好于ReLU，但在实际使用中目前并没有好的证据ELU总是优于ReLU。

3.7 softmax函数（也称归一化指数函数）

可以看到，Sigmoid函数实际上就是把数据映射到一个(0,1)的空间上，也就是说，Sigmoid函数如果用来分类的话，只能进行二分类，而这里的softmax函数可以看做是Sigmoid函数的一般化，可以进行多分类。

Softmax - 用于多分类神经网络输出：

$\sigma(x) = \frac{e^{z_j}}{\sum_{k=1}^{K}e^{z_k}}$
举个例子来看公式的意思：

为什么要取指数，第一个原因是要模拟 max 的行为，所以要让大的更大。
第二个原因是需要一个可导的函数。

3.7 Maxout

Maxout出现在ICML2013上，作者Goodfellow将maxout和dropout结合后，号称在MNIST, CIFAR-10, CIFAR-100, SVHN这4个数据上都取得了start-of-art的识别率。

Maxout可以看做是在深度学习网络中加入一层激活函数层,包含一个参数k.这一层相比ReLU,sigmoid等,其特殊之处在于增加了k个神经元,然后输出激活值最大的值.

我们常见的隐含层节点输出：
$h_i(x)=\text{sigmoid}(x^TW_{…i}+b_i)$
而在Maxout网络中，其隐含层节点的输出表达式为：
$f_i(x)=max_{j\in [1,k]}z_{ij}$
其中 $z_{ij}=x^TW_{…ij}+b_{ij}, W\in R^{d\times m\times k}$

假设 $w$ 是 2 维，那么有：
$f(x)=max(w_1^Tx+b_1,w_2^Tx+b_2)$

可以注意到，ReLU 和 Leaky ReLU 都是它的一个变形（比如， $w_1, b_1 = 0$ 的时候，就是 ReLU）.

以如下最简单的多层感知器(MLP)为例:

Maxout激活函数

与常规激活函数不同的是,它是一个可学习的分段线性函数.

然而任何一个凸函数，都可以由线性分段函数进行逼近近似。其实我们可以把以前所学到的激活函数：ReLU、abs激活函数，看成是分成两段的线性函数，如下示意图所示：

实验结果表明Maxout与Dropout组合使用可以发挥比较好的效果。

Maxout的拟合能力是非常强的，它可以拟合任意的的凸函数。作者从数学的角度上也证明了这个结论，即只需2个 maxout 节点就可以拟合任意的凸函数了（相减），前提是”隐隐含层”节点的个数可以任意多.

这样 Maxout 神经元就拥有 ReLU 单元的所有优点（线性和不饱和），而没有它的缺点（死亡的ReLU单元）。然而和 ReLU 对比，它每个神经元的参数数量增加了一倍，这就导致整体参数的数量激增。

Maxout 激活函数特点：

maxout激活函数并不是一个固定的函数，不像Sigmod、Relu、Tanh等函数，是一个固定的函数方程
它是一个可学习的激活函数，因为我们 W 参数是学习变化的。
它是一个分段线性函数：

优点：

Maxout的拟合能力非常强，可以拟合任意的凸函数。
Maxout具有ReLU的所有优点，线性、不饱和性。
同时没有ReLU的一些缺点。如：神经元的死亡。

缺点：
从上面的激活函数公式中可以看出，每个神经元中有两组(w,b)参数，那么参数量就增加了一倍，这就导致了整体参数的数量激增。

详细解释可参考此博客：https://blog.csdn.net/hjimce/article/details/50414467

4. 小结

建议使用ReLU函数，但是要注意初始化和learning rate的设置；可以尝试使用Leaky ReLU或ELU函数；不建议使用tanh，尤其是sigmoid函数。

参考资料

Udacity Deep Learning Courses
Stanford CS231n Course
激活函数(ReLU, Swish, Maxout)
[机器学习] 常用激活函数的总结与比较
一文概览深度学习中的激活函数
【机器学习】神经网络-激活函数-面面观(Activation Function)
常用激活函数比较
深度学习（二十三）Maxout网络学习

你可能感兴趣的:(推荐系统理论进阶)

PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

CTR 预测理论（十一）：神经网络激活函数优缺点总结

1. 激活函数的定义与作用

2. 背景

3. 激活函数及优缺点

3.1 Sigmoid函数

3.2 Tanh函数

3.3 修正线性单元（ReLU）

3.4 Leaky ReLU

3.5 Parametric ReLU

3.6 ELU (Exponential Linear Units) 函数

3.7 softmax函数 （也称归一化指数函数）

3.7 Maxout

4. 小结

参考资料

你可能感兴趣的:(推荐系统理论进阶)

3.7 softmax函数（也称归一化指数函数）