weixin_30950607

激活函数(ReLU, Swish, Maxout)

神经网络中使用激活函数来加入非线性因素，提高模型的表达能力。

ReLU(Rectified Linear Unit,修正线性单元)

形式如下:
\[ \begin{equation} f(x)= \begin{cases} 0, & {x\leq 0} \\\\ x, & {x\gt 0} \end{cases} \end{equation} \]

ReLU公式近似推导::

\[ \begin{align} f(x) &=\sum_{i=1}^{\inf}\sigma(x-i+0.5) &\text{(stepped sigmoid)} \\\\ &\approx\log(1+e^x) &\text{(softplus function)} \\\\ &\approx\max(0,x+N(0,1)) &\text{(ReL function)} \\\\ 其中\sigma(z) &={1\over 1+e^{-z}} &\text{(sigmoid)} \end{align} \]

下面解释上述公式中的softplus,Noisy ReLU.

softplus函数与ReLU函数接近,但比较平滑, 同ReLU一样是单边抑制,有宽广的接受域(0,+inf), 但是由于指数运算,对数运算计算量大的原因,而不太被人使用.并且从一些人的使用经验来看(Glorot et al.(2011a)),效果也并不比ReLU好.
softplus的导数恰好是sigmoid函数.softplus 函数图像:

Noisy ReLU¹
ReLU可以被扩展以包括高斯噪声(Gaussian noise):
$f(x)=\max(0,x+Y), Y\sim N(0,\sigma(x))$
Noisy ReLU 在受限玻尔兹曼机解决计算机视觉任务中得到应用.

ReLU上界设置: ReLU相比sigmoid和tanh的一个缺点是没有对上界设限.在实际使用中,可以设置一个上限,如ReLU6经验函数: $f(x)=\min(6,\max(0,x))$. 参考这个上限的来源论文: Convolutional Deep Belief Networks on CIFAR-10. A. Krizhevsky

ReLU的稀疏性（摘自这里）：

当前，深度学习一个明确的目标是从数据变量中解离出关键因子。原始数据（以自然数据为主）中通常缠绕着高度密集的特征。然而，如果能够解开特征间缠绕的复杂关系，转换为稀疏特征，那么特征就有了鲁棒性（去掉了无关的噪声）。稀疏特征并不需要网络具有很强的处理线性不可分机制。那么在深度网络中，对非线性的依赖程度就可以缩一缩。一旦神经元与神经元之间改为线性激活，网络的非线性部分仅仅来自于神经元部分选择性激活。
对比大脑工作的95%稀疏性来看，现有的计算神经网络和生物神经网络还是有很大差距的。庆幸的是，ReLu只有负值才会被稀疏掉，即引入的稀疏性是可以训练调节的，是动态变化的。只要进行梯度训练，网络可以向误差减少的方向，自动调控稀疏比率，保证激活链上存在着合理数量的非零值。

ReLU 缺点

坏死: ReLU 强制的稀疏处理会减少模型的有效容量（即特征屏蔽太多，导致模型无法学习到有效特征）。由于ReLU在x < 0时梯度为0，这样就导致负的梯度在这个ReLU被置零，而且这个神经元有可能再也不会被任何数据激活，称为神经元“坏死”。
无负值: ReLU和sigmoid的一个相同点是结果是正值，没有负值.

ReLU变种

Leaky ReLU

当$x<0$时,$f(x)=\alpha x$,其中$\alpha$非常小,这样可以避免在$x<0$时,不能够学习的情况：

\[ f(x)=\max(\alpha x,x) \]
称为Parametric Rectifier(PReLU),将 $\alpha$ 作为可学习的参数.

当 $\alpha$ 从高斯分布中随机产生时称为Random Rectifier（RReLU）。

当固定为$\alpha=0.01$时,是Leaky ReLU。

优点:

不会过拟合(saturate)
计算简单有效
比sigmoid/tanh收敛快

指数线性单元ELU

\[ \begin{equation} f(x)= \begin{cases} \alpha(e^x-1), & \text{$x\leq 0$} \\ x, & \text{$x\gt 0$} \end{cases} \end{equation} \]

\[ \begin{equation} f'(x)= \begin{cases} f(x)+\alpha, & \text{$x\leq 0$} \\ 1, & \text{$x\gt 0$} \end{cases} \end{equation} \]

exponential linear unit，该激活函数由Djork等人提出,被证实有较高的噪声鲁棒性,同时能够使得使得神经元
的平均激活均值趋近为 0,同时对噪声更具有鲁棒性。由于需要计算指数,计算量较大。
ReLU family:

Leaky ReLU $\alpha$是固定的;PReLU的$\alpha$不是固定的,通过训练得到;RReLU的$\alpha$是从一个高斯分布中随机产生,并且在测试时为固定值，与Noisy ReLU类似（但是区间正好相反）。

ReLU系列对比：

SELU

论文: 自归一化神经网络(Self-Normalizing Neural Networks)中提出只需要把激活函数换成SELU就能使得输入在经过一定层数之后变成固定的分布. 参考对这篇论文的讨论.

SELU是给ELU乘上系数 $\lambda$, 即 $\rm{SELU}(x)=\lambda\cdot \rm{ELU}(x)$
\[ f(x)=\lambda \begin{cases} \alpha(e^x-1) & x \le 0 \\ x & x>0 \end{cases} \]

Swish

paper Searching for Activation functions(Prajit Ramachandran,Google Brain 2017)
\[ f(x) = x · \text{sigmoid}(βx) \]
β是个常数或可训练的参数.Swish 具备无上界有下界、平滑、非单调的特性。
Swish 在深层模型上的效果优于 ReLU。例如，仅仅使用 Swish 单元替换 ReLU 就能把 Mobile NASNetA 在 ImageNet 上的 top-1 分类准确率提高 0.9%，Inception-ResNet-v 的分类准确率提高 0.6%。

导数:

当β = 0时,Swish变为线性函数$f(x) ={x\over 2}$.
β → ∞, $ σ(x) = (1 + \exp(−x))^{−1} $为0或1. Swish变为ReLU: f(x)=2max(0,x)
所以Swish函数可以看做是介于线性函数与ReLU函数之间的平滑函数.

工程实现:
在TensorFlow框架中只需一行代码: x * tf.sigmoid(beta * x)或tf.nn.swish(x).
在Caffe中使用Scale+Sigmoid+EltWise(PROD)来实现或者合并成一个层.代码参考.

Maxout

论文Maxout Networks(Goodfellow,ICML2013)

Maxout可以看做是在深度学习网络中加入一层激活函数层,包含一个参数k.这一层相比ReLU,sigmoid等,其特殊之处在于增加了k个神经元,然后输出激活值最大的值.

我们常见的隐含层节点输出：
\[h_i(x)=\text{sigmoid}(x^TW_{…i}+b_i)\]

而在Maxout网络中，其隐含层节点的输出表达式为：
\[h_i(x)=\max_{j\in[1,k]}z_{ij}\]

其中$z_{ij}=x^TW_{…ij}+b_{ij}, W\in R^{d\times m\times k}$

以如下最简单的多层感知器(MLP)为例:

图片来源:slides

假设网络第i层有2个神经元x1、x2，第i+1层的神经元个数为1个.原本只有一层参数,将ReLU或sigmoid等激活函数替换掉,引入Maxout,将变成两层参数,参数个数增为k倍.

优点：

Maxout的拟合能力非常强，可以拟合任意的凸函数。
Maxout具有ReLU的所有优点，线性、不饱和性。
同时没有ReLU的一些缺点。如：神经元的死亡。

缺点：
从上面的激活函数公式中可以看出，每个神经元中有两组(w,b)参数，那么参数量就增加了一倍，这就导致了整体参数的数量激增。

Maxout激活函数

与常规激活函数不同的是,它是一个可学习的分段线性函数.

然而任何一个凸函数，都可以由线性分段函数进行逼近近似。其实我们可以把以前所学到的激活函数：ReLU、abs激活函数，看成是分成两段的线性函数，如下示意图所示：

实验结果表明Maxout与Dropout组合使用可以发挥比较好的效果。

那么,前边的两种ReLU便是两种Maxout,函数图像为两条直线的拼接,$f(x)=\max(w_1^Tx+b_1,w_2^Tx+b_2)$.

sigmoid & tanh

sigmoid/logistic 激活函数:

\[ \sigma(x) ={1\over 1+e^{-x}} \]

tanh 函数是sigmoid函数的一种变体，以0点为中心。取值范围为 [-1,1] ，而不是sigmoid函数的 [0,1] 。
\[ \tanh(x) ={e^x-e^{-x}\over e^x+e^{-x}} \]

tanh 是对 sigmoid 的平移和收缩: $\tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1$.
你可能会想平移使得曲线以0点为中心,那么为什么还要收缩呢? 如果不拉伸或收缩得到 $f(x)={e^x-1\over e^x+1}$ 不行吗? 我猜想是因为 tanh 更加著名吧。

那么 tanh 这个双曲正切函数与三角函数 tan 之间是什么关系呢?

在数学中，双曲函数是一类与常见的三角函数（也叫圆函数）类似的函数。最基本的双曲函数是双曲正弦函数 sinh 和双曲余弦函数 cosh ，从它们可以导出双曲正切函数 tanh 等，其推导也类似于三角函数的推导。²
根据欧拉公式: $e^{ix} = \cos x + i\cdot\sin x$ (其中i是虚数$\sqrt{-1}$) 有³,
\[ e^{-ix} = \cos x - i\cdot\sin x \\ \sin x=(e^{ix} - e^{-ix})/(2i) \\ \cos x=(e^{ix} + e^{-ix})/2 \\ \tan\ x=\tanh(ix)/i \\ \tanh(ix)=i\tan\ x \]

hard tanh 限界: g(z) = max(-1, min(1,z))

sigmoid & tanh 函数图像如下:

sigmoid作激活函数的优缺点

历史上很流行(Historically popular since they have nice interpretation as a saturating “firing rate” of a neuron),梯度计算较为方便:
\[ \nabla\sigma = {e^{-x}\over(1+e^{-x})^2}=({1+e^{-x}-1\over 1+e^{-x}})({1\over 1+e^{-x}})= \sigma(x)(1-\sigma(x)) \]

优势是能够控制数值的幅度,在深层网络中可以保持数据幅度不会出现大的变化;而ReLU不会对数据的幅度做约束.

存在三个问题:

饱和的神经元会"杀死"梯度,指离中心点较远的x处的导数接近于0,停止反向传播的学习过程.
sigmoid的输出不是以0为中心,而是0.5,这样在求权重w的梯度时,梯度总是正或负的.
指数计算耗时

为什么tanh相比sigmoid收敛更快:

梯度消失问题程度
$\tanh'( x ) = 1-\tanh( x )^2 \in (0,1)$
$\text{sigmoid: } s'(x)=s(x)\times(1-s(x))\in(0,1/4)$
可以看出tanh(x)的梯度消失问题比sigmoid要轻.梯度如果过早消失,收敛速度较慢.
以零为中心的影响
如果当前参数(w0,w1)的最佳优化方向是(+d0, -d1),则根据反向传播计算公式,我们希望 x0 和 x1 符号相反。但是如果上一级神经元采用 Sigmoid 函数作为激活函数，sigmoid不以0为中心，输出值恒为正，那么我们无法进行最快的参数更新，而是走 Z 字形逼近最优解。⁴

激活函数的作用

加入非线性因素
充分组合特征

下面说明一下为什么有组合特征的作用.

一般函数都可以通过泰勒展开式来近似计算, 如sigmoid激活函数中的指数项可以通过如下的泰勒展开来近似计算:
\[ e^z=1+{1\over 1!}z+{1\over 2!}z^2+{1\over 3!}z^3+o(z^3) \]
其中有平方项,立方项及更更高项, 而 $z=wx+b$, 因此可以看作是输入特征 x 的组合. 以前需要由领域专家知识进行特征组合,现在激活函数能起到一种类似特征组合的作用. (思想来源: 微博@算法组)

为什么ReLU,Maxout等能够提供网络的非线性建模能力？它们看起来是分段线性函数，然而并不满足完整的线性要求：加法f(x+y)=f(x)+f(y)和乘法f(ax)=a×f(x)或者写作$f(\alpha x_1+\beta x_2)=\alpha f(x_1)+\beta f(x_2)$。非线性意味着得到的输出不可能由输入的线性组合重新得到（重现）。假如网络中不使用非线性激活函数，那么这个网络可以被一个单层感知器代替得到相同的输出，因为线性层加起来后还是线性的，可以被另一个线性函数替代。

梯度消失与梯度爆炸

梯度消失/爆炸原因及解决办法

原因,浅层的梯度计算需要后面各层的权重及激活函数导数的乘积,因此可能出现前层比后层的学习率小(vanishing gradient)或大(exploding)的问题,所以具有不稳定性.那么如何解决呢?

需要考虑几个方面:

权重初始化
使用合适的方式初始化权重, 如ReLU使用MSRA的初始化方式, tanh使用xavier初始化方式.
激活函数选择
激活函数要选择ReLU等梯度累乘稳定的.
学习率
一种训练优化方式是对输入做白化操作(包括正规化和去相关), 目的是可以选择更大的学习率. 现代深度学习网络中常使用Batch Normalization(包括正规化步骤,但不含去相关). (All you need is a good init. If you can't find the good init, use Batch Normalization.)

由于梯度的公式包含每层激励的导数以及权重的乘积,因此让中间层的乘积约等于1即可.但是sigmoid这种函数的导数值又与权重有关系(最大值1/4,两边对称下降),所以含有sigmoid的神经网络不容易解决,输出层的activation大部分饱和,因此不建议使用sigmoid.
ReLU在自变量大于0时导数为1,小于0时导数为0,因此可以解决上述问题.

梯度爆炸
由于sigmoid,ReLU等函数的梯度都在[0,1]以内，所以不会引发梯度爆炸问题。而梯度爆炸需要采用梯度裁剪、BN、设置较小学习率等方式解决。

激活函数选择

首先尝试ReLU,速度快,但要注意训练的状态.
如果ReLU效果欠佳,尝试Leaky ReLU或Maxout等变种。
尝试tanh正切函数(以零点为中心,零点处梯度为1)
sigmoid/tanh在RNN（LSTM、注意力机制等）结构中有所应用，作为门控或者概率值.
在浅层神经网络中，如不超过4层的，可选择使用多种激励函数，没有太大的影响。

https://en.wikipedia.org/wiki/Rectifier_(neural_networks)↩
https://zh.wikipedia.org/wiki/%E5%8F%8C%E6%9B%B2%E5%87%BD%E6%95%B0↩
http://mathforum.org/library/drmath/view/54179.html↩
谈谈激活函数以零为中心的问题 https://liam0205.me/2018/04/17/zero-centered-active-function/↩

转载于:https://www.cnblogs.com/makefile/p/activation-function.html

深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
关于神经网络中的激活函数文弱_书生乱七八糟神经网络人工智能深度学习
激活函数（ActivationFunction）详解理解首先煮波解释一下这四个字，“函数”相信大家都不陌生，能点进来看这篇文章说明你一定经历至少长达十年的数学的摧残，关于这个概念煮波就不巴巴了，煮波主要说一下“激活”，大家可能或多或少的看过类似于古装，玄幻，修仙等类型的小说或者电视剧。剧中的主角往往是天赋异禀或则什么神啊仙啊的转世，但是这一世他却被当成了普通人，指导某一时刻才会迸发出全部的能量（主
基于python的ansys_基于python的感知机 weixin_39687990 基于python的ansys
一、1、感知机可以描述为一个线性方程，用python的伪代码可表示为：sum(weight_i*x_i)+bias->activation#activation表示激活函数，x_i和weight_i是分别为与当前神经元连接的其它神经元的输入以及连接的权重。bias表示当前神经元的输出阀值(或称偏置)。箭头(->)左边的数据，就是激活函数的输入2、定义激活函数f:deffunc_activator(
部分激活函数可视化 Keyshal_Wei python 机器学习开发语言
importnumpyasnpimportmatplotlib.pyplotasplt#定义激活函数defsigmoid(x):return1/(1+np.exp(-x))deftanh(x):returnnp.tanh(x)defrelu(x):returnnp.maximum(0,x)defleaky_relu(x,alpha=0.01):returnnp.where(x>0,x,alpha*
【深度学习基础】第二十四课：softmax函数的导数 x-jeff 深度学习基础深度学习人工智能
【深度学习基础】系列博客为学习Coursera上吴恩达深度学习课程所做的课程笔记。1.softmax函数softmax函数详解。2.softmax函数的导数假设神经网络输出层的激活函数为softmax函数，用以解决多分类问题。在反向传播时，就需要计算softmax函数的导数，这也就是本文着重介绍的内容。我们只需关注输出层即可，其余层和之前介绍的二分类模型一样，不再赘述。我们先考虑只有一个样本的情况
java实现卷积神经网络CNN（附带源码） Katie。 Java 实战项目 java
Java实现卷积神经网络（CNN）项目详解目录项目概述1.1项目背景与意义1.2什么是卷积神经网络（CNN）1.3卷积神经网络的应用场景相关知识与理论基础2.1神经网络与深度学习概述2.2卷积操作与卷积层原理2.3激活函数与池化层2.4全连接层与损失函数2.5前向传播、反向传播与梯度下降项目需求与分析3.1项目目标3.2功能需求分析3.3性能与扩展性要求3.4异常处理与鲁棒性考虑系统设计与实现思路
神经网络完成训练的详细过程每天五分钟玩转人工智能神经网络人工智能深度学习 pytorch 机器学习优化算法包括梯度下降法
神经网络完成训练的详细过程一、神经网络的基本概念神经网络是一种模拟人脑神经系统的计算模型，由大量的神经元（节点）和它们之间的连接（权重）组成。神经元接收输入信号，通过加权求和和激活函数的处理，产生输出信号。这些输出信号又可以作为其他神经元的输入，从而形成一个复杂的网络结构。神经网络的训练过程就是调整这些权重和偏置（每个神经元除了有权重外，还有一个偏置项，用于调整输出的阈值），使得网络的输出能够尽可
从Swish到SwiGLU：激活函数的进化与革命，qwen2.5应用的激活函数 KangkangLoveNLP qwen2.5 人工智能算法神经网络机器学习深度学习 cnn 自然语言处理
swiGLU和RMSNorm1.什么是swiGLUSwiGLU（Swish-GatedLinearUnit）是一种结合了Swish激活函数和GLU（GatedLinearUnit）门控机制的激活函数，广泛应用于现代大型语言模型中1.什么是Swish激活函数1.1Swish激活函数Swish激活函数是一种平滑的、非单调的激活函数，由GoogleBrain团队在2017年提出。它结合了ReLU的非线性
Simple Baselines for Image Restoration Adagrad paper 深度学习
Abstract.尽管近年来在图像恢复领域取得了长足的进步，但SOTA方法的系统复杂性也在不断增加，这可能会阻碍对方法的分析和比较。在本文中，我们提出了一个简单的基线，超过了SOTA方法，是计算效率。为了进一步简化基线，我们揭示了非线性激活函数，如Sigmoid、ReLU、GELU、Softmax等是不必要的:它们可以用乘法替换或删除。因此，我们从基线推导出一个非线性激活自由网络，即NAFNet。
动手学深度学习V2.0(Pytorch)——10.感知机（激活函数）吨吨不打野动手学深度学习pytorch pytorch 深度学习机器学习
文章目录1.感知机2.多层感知机2.1异或问题2.2单隐藏层2.3激活函数2.3.1logistics函数/sigmoid激活函数2.3.2tanh函数2.3.3sigmoid函数和tanh函数的异同/优缺点2.3.4relu2.4多类分类2.5多隐藏层3Q&A3.1神经网络中一层的定义是什么3.2感知机无法解决XOR问题，多层感知机虽然可以解决，但是还是被SVM替代是为什么?3.3不同任务的激活
卷积神经网络（笔记01）天行者@ cnn 人工智能深度学习
视觉处理三大任务：分类、目标检测、图像分割CNN网络主要有三部分构成：卷积层（ConvolutionalLayer）、池化层（PoolingLayer）和激活函数一、解释卷积层中的偏置项是什么，并讨论在神经网络中引入偏置项的好处。在卷积神经网络（CNN）的卷积层里，卷积操作本质上是输入数据与卷积核（滤波器）进行逐元素相乘再求和的过程。偏置项（Bias）是一个额外的可学习参数，对于每个卷积核而言，都
【NLP 39、激活函数 ⑤ Swish激活函数】 L_cl NLP 自然语言处理人工智能
我的孤独原本是座荒岛，直到你称成潮汐，原来爱是让个体失序的永恒运动——25.2.25Swish激活函数是一种近年来在深度学习中广泛应用的激活函数，由GoogleBrain团队在2017年提出。其核心设计结合了Sigmoid门控机制和线性输入的乘积，通过引入平滑性和非单调性来提升模型性能。一、数学定义与变体1.基础形式Swish的标准表达式为：Swish(x)=x⋅σ(βx)其中：σ(x)是Sigm
Python第十六课：深度学习入门 | 神经网络解密程之编 Python全栈通关秘籍 python 神经网络青少年编程
本节目标理解生物神经元与人工神经网络的映射关系掌握激活函数与损失函数的核心作用使用Keras构建手写数字识别模型可视化神经网络的训练过程掌握防止过拟合的基础策略一、神经网络基础（大脑的数字化仿生）1.神经元对比生物神经元人工神经元树突接收信号输入层接收特征数据细胞体整合信号加权求和（∑(权重×输入)+偏置）轴突传递电信号激活函数处理输出2.核心组件解析激活函数：神经元的"开关"（如ReLU：max
基于PyTorch的深度学习——机器学习3 Wis4e 深度学习机器学习 pytorch
激活函数在神经网络中作用有很多，主要作用是给神经网络提供非线性建模能力。如果没有激活函数，那么再多层的神经网络也只能处理线性可分问题。在搭建神经网络时，如何选择激活函数？如果搭建的神经网络层数不多，选择sigmoid、tanh、relu、softmax都可以；而如果搭建的网络层次较多，那就需要小心，选择不当就可导致梯度消失问题。此时一般不宜选择sigmoid、tanh激活函数，因它们的导数都小于1
深度学习在SSVEP信号分类中的应用分析自由的晚风深度学习分类人工智能
目录前言1.SSVEP信号分类的处理流程2.模型输入和数据预处理3.模型结构设计3.1卷积神经网络（CNN）3.2长短期记忆网络（LSTM）4.训练方法与激活函数5.性能评估与挑战6.未来方向前言随着脑机接口（BCI）技术的发展，SSVEP（稳态视觉诱发电位）因其高信息传输速率和短训练时间而成为最受欢迎的BCI范式之一。近年来，深度学习方法在SSVEP信号分类中取得了显著的成果。本文通过对31个深
【ShuQiHere】解密诺奖得主：约翰·霍普菲尔德与人工神经网络的革命 ShuQiHere 机器学习深度学习
【ShuQiHere】目录引言：跨界的传奇科学家诺贝尔奖的背后：人工神经网络的崛起约翰·霍普菲尔德的开创性工作神经网络的寒冬与突破霍普菲尔德网络的工作原理代码示例：实现霍普菲尔德网络激活函数的出现与神经网络的复兴杰弗里·辛顿的扩展与影响人工神经网络的现实应用总结与未来展望互动时间：你的看法额外资源与延伸阅读引言：跨界的传奇科学家‍2024年，诺贝尔物理学奖首次颁给了计算机科学家！约翰·霍普菲尔德（
神经网络|(十四)|霍普菲尔德神经网络-Hebbian训练西猫雷婶人工智能 python学习笔记神经网络人工智能深度学习
【1】引言前序学习进程中，除了对基本的神经网络知识进行了学习，还掌握了SOM神经网络原理，文章链接包括且不限于：神经网络|(十一)|神经元和神经网络-CSDN博客神经网络|(十二)|常见激活函数-CSDN博客神经网络|(十三)|SOM神经网络-CSDN博客在此基础上，本篇文章学习一个新的神经网络：霍普菲尔德神经网络。【2】霍普菲尔德神经网络原理霍普菲尔德神经网络和SOM神经网络一样不走寻常路，SO
深度学习笔记——神经网络肆—— 深度学习深度学习笔记神经网络人工智能 python
本文为在拓尔思智能举办的训练营中学习内容的总结，部分内容摘自百度百科个人在这里推荐一个好用的软件，Trae，主要是免费。人工神经元是人工神经网络的基本单元。模拟生物神经元，人工神经元有1个或者多个输入（模拟多个树突或者多个神经元向该神经元传递神经冲动）；对输入进行加权求和（模拟细胞体将神经信号进行积累和树突强度不同）；对输入之和使用激活函数计算活性值（模拟细胞体产生兴奋或者抑制）；输出活性值并传递
深度学习的数学之魂：传统机器学习的超越者洋葱蚯蚓机器学习深度学习机器学习人工智能经验分享个人开发数据挖掘
深度学习的数学之魂：传统机器学习的超越者前言第一部分：神经元的数学语言1.1神经元模型的启示1.2激活函数的非线性魔法第二部分：网络结构的层次之美2.1网络结构的多样性2.2层次结构的力量第三部分：图像的力量与直观理解3.1图表与动图的辅助作用3.2直观理解的桥梁第四部分：深度与专业的对话4.1深度学习与传统机器学习的比较4.2专业性强的技术分析第五部分：数学原理的深度剖析5.1神经网络的数学表达
Pytorch实现之LSRGAN，轻量化SRGAN超分辨率SAR 这张生成的图像能检测吗优质GAN模型训练自己的数据集超分辨率重建人工智能图像处理计算机视觉深度学习 pytorch 机器学习
简介简介：在SRGAN的基础上设计了一个轻量化的SRGAN模型结构，通过DSConv+CA与残差结构的设计来减少参数量，同时利用SeLU激活函数构造。与多类SRGAN改进不同的是，很少使用BN层。论文题目：LightweightSuper-ResolutionGenerativeAdversarialNetworkforSARImages（SAR图像的轻量级超分辨率生成对抗网络）期刊：Remote
DiNN学习笔记1-理论部分瓜皮37 同态加密密码学信息安全神经网络
DiNN学习笔记1-理论部分背景知识机器学习即服务MLaaS中的全同态加密神经网络Fhe-DiNN中的默认设定Fhe-DiNN方案神经元中的计算离散神经网络DiNN评估步骤自举的引入激活函数的同态评估对TFHE的改进明文的打包密钥转换的前置动态变化的消息空间优化盲旋步骤DiNN方案的整体流程参考资料背景知识机器学习即服务机器学习即服务(MachineLearningasaService,MLaaS
数学建模：MATLAB极限学习机解决回归问题 DesolateGIS 数学建模数学建模 matlab 开发语言
一、简述极限学习机是一种用于训练单隐层前馈神经网络的算法，由输入层、隐藏层、输出层组成。基本原理：输入层接受传入的样本数据。在训练过程中随机生成从输入层到隐藏层的所有连接权重以及每个隐藏层神经元的偏置值，这些参数在整个训练过程中不会被修改。前向传播：输入数据通过已设定的权重和偏置传递给隐藏层，经过激活函数处理后产生隐藏层的输出。在得到隐藏层输出后，需找到从隐藏层到输出层的最佳权重。隐藏层到输出层的
pytorch与深度学习随记——AlexNet 黑色的山岗在沉睡深度学习随记深度学习 pytorch 人工智能
AlexNet和LeNet的设计理念非常相似，但也存在显著差异：基本结构对比网络深度：AlexNet比LeNet-5要深得多，AlexNet由八层组成：五个卷积层、两个全连接隐藏层和一个全连接输出层。激活函数：AlexNet使用ReLU而不是sigmoid作为其激活函数，这有助于缓解梯度消失问题并加速训练过程。AlexNet架构的创新点局部响应归一化(LRN)：AlexNet引入LRN层，可以创建
建筑兔零基础人工智能自学记录34|深度学习与神经网络2 阿克兔人工智能toto学习人工智能深度学习神经网络
1、人工神经网络ANN从生物课上学到的有关神经元、突触的生物神经网络，被模仿出了简化的人工神经网络（ANN,artificialneuralnetwork）。ANN结构为：输入层、隐藏层、输出层人工神经元：基于生物神经元的数学模型ANN过程：输入---加权求和---激活函数激活函数：类似生物神经元的阈值，达到阈值输出信号（‘神经网络的万能逼近定理’---两层以上神经网络可以逼近任意函数）2、深度学
全过程带你从入门到精通《动手学PyTorch深度学习建模与应用》第二章：2.1-2.3节详解，篇幅超了，缺的后面再补吧环工人学Python 深度学习 pytorch 人工智能 python 机器学习
写在前面：点点关注不迷路，免费的赞和收藏走起来！后续更新第一时间提示哦，每周会更新不同内容，下周更新如何用各种模态的大模型去为你服务，编写代码。在深度学习的世界里，理解基础概念是构建复杂模型的关键。第二章“深度学习基础与PyTorch实现”将帮助我们深入理解深度学习的核心概念，并通过PyTorch实现这些概念。这一章的内容非常重要，因为它不仅涵盖了神经网络的基本原理，还介绍了激活函数、损失函数和优
机器幻觉产生的原因人机与认知实验室机器学习人工智能
机器幻觉是指模型生成的不符合现实的内容，比如图像生成中的错误或者不合理的输出。线性函数在神经网络中的作用通常是传递梯度，但如果每一层都是线性的，整个网络就相当于一个单层的线性模型，无法学习复杂的模式。所以如果只有线性层而没有非线性激活函数的话，网络将无法处理复杂任务。对于激活函数而言，常见的如ReLU、sigmoid、tanh。激活函数引入非线性，让网络有能力学习复杂的特征。但是如果没有合适的激活
深度学习进阶：构建多层神经网络孤寂大仙v 深度学习神经网络人工智能
在上一篇文章中，我们从零开始构建了一个简单的两层神经网络，并通过异或问题（XOR）展示了神经网络的强大能力。今天，我们将进一步深入，构建一个更复杂的多层神经网络，并引入更多高级概念，如多隐藏层、激活函数选择、正则化等。我们还会使用更复杂的分类任务来训练模型，并评估其性能。1.多层神经网络的结构在实际应用中，深度学习模型通常包含多个隐藏层，这种结构被称为深度神经网络（DNN）。多层神经网络能够学习更
【漫话机器学习系列】106.线性激活函数（Linear Activation Function） IT古董漫话机器学习系列专辑机器学习人工智能激活函数
1.什么是线性激活函数？线性激活函数是一种最简单的激活函数，数学表达式为：即输出与输入保持完全线性关系。这意味着对于任何输入值x，其输出将等于输入值本身，函数图像为一条通过原点的直线。在神经网络中，激活函数的作用是将网络的线性组合映射到某种非线性输出。传统的线性激活函数常用于一些特定场景，比如回归问题，其中预测的目标值与输入特征之间可能存在线性关系。2.线性激活函数的特点线性关系：与其他常见的激活
深度学习：从神经网络到智能应用 Jason_Orton 深度学习神经网络人工智能机器学习
目录引言一.什么是深度学习？二.深度学习的基本原理1.神经网络的组成2.激活函数3.反向传播（Backpropagation）三.深度学习的常见模型四.深度学习的应用场景五.深度学习的挑战与未来结语引言深度学习（DeepLearning）作为机器学习的一个分支，近年来在人工智能领域取得了革命性的进展。无论是语音识别、图像识别，还是自动驾驶、自然语言处理，深度学习都在推动着技术的发展和行业的变革。那
神经网络八股（3） SylviaW08 神经网络人工智能深度学习
1.什么是梯度消失和梯度爆炸梯度消失是指梯度在反向传播的过程中逐渐变小，最终趋近于零，这会导致靠前层的神经网络层权重参数更新缓慢，甚至不更新，学习不到有用的特征。梯度爆炸是指梯度在方向传播过程中逐渐变大，权重参数更新变化较大，导致损失函数的上下跳动，导致训练不稳定可以使用一些合理的损失函数如relu,leakRelu，归一化处理，batchnorm,确保神经元的输出值在合理的范围内2.为什么需要特
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户