算法妖怪

盘点深度学习妖怪之激活函数妖

哈哈，捉妖师的我这次给大家简单盘点一下那些在深度神经网络中兴风作浪的激活函数都有哪些妖怪吧，个个身手不凡，狡猾狡猾滴！

在此之前先给说下我们在使用神经网络的时候为啥要用到激活函数，什么？！激活函数是什么你都不知道？哈哈哈，太正常了，字面意思就是脑细胞之间相连接的树突和轴突（高中生物都没忘吧？）相当于电路中的导线。想想看你是不在肢解电子设备的时候会遇到各种五颜六色不同形状接口的线？它们的作用还千奇百怪，这就是我们要讲的激活函数了，要说它们的功能吧。。。嗯就是让脑细胞，让电子设备一下就启动，就活过来了。怎么激活？专业上讲，说的是运行在神经元之间的函数，它们将非线性引入到神经网络中（其实线性函数也是一种激活函数，也是一种激活形式，他们叫这种网络感知机，但是大家都嫌弃它笨，只会一刀切，不会拐弯，解决不了异或问题，然后它就有很多进化版本成了各种非线性形式啦），为啥要用非线性函数呢？因为有个哥们证明了如果使用非线性函数，那么神经网络可以逼近任意非线性函数，用途一下子就很广，吃得开了。但是花花世界非线性无处不在，什么样子的非线性函数好呢？在什么情况下使用什么样的激活函数效果最好？这就是本次捉妖师的我给大家要讲的内容啦！赶紧掏出不离身的小本本记下来。

再讲讲常见激活函数的一些性质，大部分激活函数具有一定的共性，也存在个性，如何要去评价一个激活函数的好坏呢？除了跑模型看结果外，大概可以参考以下介绍的几种性质：

-非线性：即导数不是常数；

-可微性：保证优化中梯度的可计算性，可以存在有限个点处不可微，但处处subgradient；

-计算是否简单；

-非饱和性：就是在某些区间梯度接近于0，参数无法更新，饱和分为软饱和（sigmoid/tanh）和硬饱和；

-单调性：导数符号不变，如果激活函数是单调的，单层网络可以保证是凸函数，但是这并不必须，因为神经网络本来是非凸的；

-参数计算量：激活函数有的自带参数，有的会计算原参数的k倍（没错说的就是Maxout）。

A. Sigmoid

首先介绍我们的老朋友老伙计Sigmoid(西戈莫伊)，哈哈哈，想必大家对它十分熟悉了，它原本是在生物学中常见的S 型生长曲线，由于其单调递增以及反函数也递增等性质，可以用来做阈值函数，不管你什么来头先直接原子空间一顿骚操作将变量映射（0, 1）之间。看一下公式先：
$\sigma(x)=\frac{1}{1+e^{-x}}$
sigmoid 函数是一个 logistic 函数，其图像长这样：

导数为：
$\dot{\sigma}(x)=\sigma(x)(1-\sigma(x))$
导数的图像长这样：

特点：

-梯度平滑；

-输出值在(0,1)之间；

-计算量较大；

-梯度消失：在sigmoid两侧，函数导数趋近于0，梯度趋近于0，无法更新参数；

-梯度爆炸发生概率很小：当网络权值初始化为 (1,+∞)(1,+∞) 区间内的值，则会出现梯度爆炸情况；

-输出不是0为中心；

B. Tanh

Tanh激活函数是Sigmoid的“胞弟”，很像，是一个双曲函数（大名双曲正切），是由基本双曲函数双曲正弦与双曲余弦推导而来，公式如下：

$tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}=2sigmoid(2x)-1$
tanh函数的图像长这样：

其导数为：
$\dot{tanh(x)}=1-tanh(x)^2$
其导数图像长这样：

特点：

-梯度平滑；

-输出在（-1，+1）之间；

-梯度消失问题较轻（还是会饱和），收敛更快；

-输出以0为中心；

-计算量不小；

C. ReLU

ReLU（修正线性单元函数，什么鬼？）可是大家津津乐道的好妖怪，既熟悉有简单，对于深度学习刚入门的小白小青来说真是友好的不得了，哈哈，简单来回顾一下公式：
$r e l u (x) = m a x (0, x)$
图像嘛，就是感觉没啥的这个：

其导数公式我就不写了，也来个图吧：

特点：

-简单高效；

-不是以0为中心；

-一定程度缓解梯度消失问题（正区间内不会饱和），因为导数为1，连乘梯度不会消失（x≥0）；

-负响应导致神经元dead，但是这也叫稀疏性，有时候不见得是坏事；

-如果学习率设的过大，神经元会死的很多，较小学习率会降低这种情况的发生。

D. Softplus

Softplus这个激活函数小妖怪，大家可能有的不熟悉，但是它的“辈分”可不低呢，与ReLU一起竞争过“C位”，虽然Softplus相比于ReLU更加平滑，还能保存小于0的数，可惜由于自己计算量过大，且效果真不比ReLU好，所以地位不保，不像前辈sigmoid和tanh毕竟曾今辉煌过。不过我们也来学习一下它的公式吧：
$Softplus(x)=\ln(1+e^x)$
图像长这样：

其导数是什么呢？哈哈不是别的妖怪就是前辈sigmoid函数！惊不惊喜？意不意外？！（一点都不意外，毕竟俺们可都是学过微积分的人儿），这里就不再赘述了（懒）

E. ReLU6

ReLU6就好比“山寨版”的ReLU，类似情节有真假美猴王哈哈，它是是什么呢？就是在ReLU无穷大上面加了限制约束，实验上限是6比较好（毕竟要666嘛），这是为了在移动端设备float16的低精度的时候，也能有很好的数值分辨率，如果对ReLU的激活范围不加限制，输出范围为0到正无穷，如果激活值非常大，分布在一个很大的范围内，则低精度的float16无法很好地精确描述如此大范围的数值，带来精度损失（原来是部署工程师想偷懒，呵呵）。来看下公式：
$r e l u (x) = m i n (m a x (0, x), 6)$
函数图像及导数公式和图像就不赘述啦，相信屏幕前的你早就明白了，哈哈。

F. PReLU & RReLU & Leaky ReLU

PReLU（ Parametric Rectifier ）， RReLU（ Randomized Leaky ReLU ）和 Leaky ReLU，那可是形影不离的ReLU进阶版本三兄弟，彼此差别很微小到不好意思单独讲，我们先上个公式瞅瞅：
$f (x) = m a x (a x, x)$
当x<0时候，f(x)=αx，其中α很小，这样可以避免在x<0时，神经元dead的现象，这个就称为PReLU，α是可以学习的参数（测试时候要固定下来）。

当固定α=0.01（常用范围0.1-0.3）时（α值固定），变成Leaky ReLU。

当α服从高斯分布中随机产生时，就变成RReLU。

哈哈，感觉α怎么那么调皮？一会会变来变去换马甲。当然他们的优缺点都是类似的：

-简单，速度快，没有指数运算；

-比sigmoid/tanh前辈收敛快；

-避免神经元dead问题；

-无法避免梯度爆炸问题；

-两部分都是线性，Leaky ReLU的α还需要人工指定。

最后来张对比图感受一下：

G. CReLU

CReLU(余弦相似ReLU)这也算是新朋友啦。大家知道余弦相似度（cos距离）的概念吧？余弦相似度的取值范围在[-1, +1]，越接近-1说明两个向量是负相关，越接近+1说明两个向量是正相关关系。然后有人就统计了不同层的卷积核之间的最小相似度卷积核，然后绘制出下面这幅图：（paper: http://cn.arxiv.org/abs/1603.05201 ）

上图的意思就是在网络的浅层参数分布又更强的负相关性，越深这种负相关关系越弱，但是如果用ReLU不是会抹掉负响应嘛，这就不好了呀，造成卷积核冗余，一半为负的卷积核都白干了！

所以CReLU就上场了，它是怎么解决的？很简单：
$C R e L U (x) = [R e L U (x), R e L U (- x)]$
输出维度会自动加倍，不过你观察也发现这个最好用在浅层效果较好。

H. ELU

ELU(exponential linear unit)指数线性单元，被证实有偶较高的噪声鲁棒性，同时能够使神经元的平均激活均值趋于0，但是计算量大，公式：
$ELU(x)=\begin{cases}\alpha(e^x-1),&x\le0\\x,&x>0 \end{cases}$
导数为：
$\dot{ELU}(x)=\begin{cases}ELU(x)+\alpha,&x\le0 \\ 1,&x>0\end{cases}$

ELU为解决ReLU存在问题而存在，所以它不会有神经元dead问题，输出的均值接近0。α是不学习的。

I. SELU

SELU(扩展型指数线性单元激活函数)，其实就是ELU乘上λ，且这个λ大于1，在论文《 Self-Normalizing Neural Networks》中，作者给出λ和α的值：

λ=1.0507…

α=1.67326…

这两个谜之数值可不是乱猜的，是十分复杂的推导得出的(懒得不想去推导)，SELU公式及其导数如下：
$SELU(x)=\lambda\begin{cases}\alpha(e^x-1),&x\le0\\x,&x>0 \end{cases}$

$\dot{SELU}(x)=\lambda\begin{cases}\alpha e^x,&x\le0\\1,&x>0 \end{cases}$

特点：

-对神经元进行自归一化（self-normalizing）；

-内部归一化的速度比外部归一化快，这意味着网络能更快收敛；

-不太可能出现梯度消失或爆炸问题，原文提供了证明（俺也不知道咋个证明，感兴趣就去看看论文）；

-计算量大，而且如果想用dropout，必须使用α-dropout版本。

J. GELU

GELU(Gaussian Error Linear Unit)，高斯误差线性单元激活函数在 Transformer 模型（谷歌的 BERT 和 OpenAI 的 GPT-2）中得到了应用。GELU在x(服从标准正态分布)的基础上乘以一个伯努利分布φ(x)=P(X≤x)。因此GELU(x)=x*P(X≤x)。

随着x降低，它被归0的概率会升高，将当前输入x在其他所有输入中的位置做参考缩放x。

但是这个函数无法直接计算，只能来逼近，所以作者得出俩逼近函数：
$GELU(x)=0.5x(1+tanh(\sqrt{2/\pi}(x+0.044715x^3)))$

其导数大概长这样：
$\\(0.0535161x3+0.398942x)sech2(0.0356774x3+0.797885x)+0.5$

还有另一个：
$x\sigma(1.702x)$
第二个逼近函数很像之后要讲的swish，这里不再赘述。

-也是涉及指数运算，计算量大。

K. Maxout

在众多激活函数中，Maxout可算是最特别的一个了，为啥这么说呢？因为它可以看作是在神经网络中加入一层激活函数层，包含一个参数k，这一层的特殊之处在于增加了k个神经元，然后输出激活值最大的值，看一个经典的PPT介绍：

再一个与其他常规激活函数不同的是它是一个可学习的分段线性函数！

我们应该知道任何一个凸函数都可以由线性分段函数进行逼近，看一下其它函数是怎么被逼近的：

上图前两种激活函数ReLU，abs函数就可以用Maxout来逼近，k=2。

再来数一数Maxout的优缺点吧：

优点：

-拟合能力强，可以拟合任意凸函数；

-具有ReLU所有有点，线性，不饱和性；

-没有ReLU的神经元dead的缺点；

缺点：

-从PPT图像中就可以看出，参数量多增加了k倍，这样整体参数的数量噌的一下就上去了！

L. Swish

Swish是Sigmoid的改良版（google2017）或者说是ReLU的另一个改良版（ReLU竟然有这么多改良版，是有多受欢迎啊！），其计算公式是：
$\cdot{sigmoid(\beta x)}$
β 是个常数或可训练的参数，Swish具备无上界有下界、平滑、非单调的特性，且在深层模型上效果好于ReLU，当β=0时，Swish变为线性函数：
$f(x)=\frac{x}{2}$
β→∞时，σ(x)为0或1，Swish变为ReLU：
$f (x) = 2 m a x (0, x)$
所以Swish函数可以看作是介于线性函数与ReLU之间的平滑函数。

其函数图像为：

Swish的导数为：
$\dot{swish(x)}=\beta f(x)+\sigma (\beta x)(1-\beta f(x))$
导数图像如下：

Swish很能打，是个十分优秀的激活函数，除了计算量有点大，所以才有下面要介绍的这个。

M. H-Swish

H-Swish是Swish的低精度化版本，“硬”Swish，论文称可以比使用ReLU或Swish的过滤器减少一半通道数（32→16）而达到相同的精度。这么优秀的吗？先看看其公式：
$H.Swish(x)=x\frac{ReLU6(x+3)}{6}$
其图像和sigmid,swish的比较：

N. Mish

Mish激活函数是2019年新出的激活函数（据说差点干掉Swish），有效性有待验证，类似于Swish，其公式如下：
$Mish(x)=x*tanh(\ln(1+e^x))$
图像如下：

Mish 函数保证在曲线上几乎所有点上的平滑度；
随着层深的增加，ReLU 精度迅速下降，其次是 Swish。而 Mish 能更好地保持准确性。

等等等等，此外还有很多其他的不常用的激活函数，比如abs函数，Noisy ReLU， Softsign，SQNL，Thresholded ReLU，Hard Sigmoid，Aria-2，Dice, 软阈值化等等吧，这里就不一一展开讲了（懒！），当然你完全可以自己创造激活函数，只要它表现够好！哈哈哈，其实容易，也不容易。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LE2xM2Ub-1594539852283)(激活函数总览.gif)]

https://github.com/casperbh96/Activation-Functions-Search 这个开源项目可以让你测试自己想要哪个激活函数，感兴趣的童鞋可以去试试。

那么接下来，探讨几个问题：

激活函数输出是不是以0为中心

以Sigmoid函数为例，如果所有的输入均为正数或负数，那么其对输入的导数也总是正数或负数，这会导致如下图所见的阶梯式更新，显然不是一个很好的优化路径。当然，如果按照Batch去训练，输入有正有负，这个问题可以缓解，影响不是很大。

关于梯度消失和梯度爆炸问题

本质上讲，当 01 时，我们可能遇到梯度爆炸问题。但是，当一个层遇到这个问题时，必然有更多权重满足梯度消失或爆炸的条件，梯度爆炸需要采用梯度裁剪、BN、设置较小学习率等方式解决。

SELU进行网络自归一化

归一化首先是减去均值，然后除以标准差。因此，经过归一化之后，网络的组件（权重、偏置和激活）的均值为 0，标准差为 1。而这正是 SELU 激活函数的输出值，当乘或加这样的网络分量时，网络仍被视为符合高斯分布。我们就称之为归一化。SELU输出可称为内部归一化（外部归一化如BN），内部归一化速度快于外部归一化，一段论文翻译：

SELU 允许构建一个映射 g，其性质能够实现 SNN（自归一化神经网络）。SNN 不能通过（扩展型）修正线性单元（ReLU）、sigmoid 单元、tanh 单元和 Leaky ReLU 实现。这个激活函数需要有：（1）负值和正值，以便控制均值；（2）饱和区域（导数趋近于零），以便抑制更低层中较大的方差；（3）大于 1 的斜率，以便在更低层中的方差过小时增大方差；（4）连续曲线。后者能确保一个固定点，其中方差抑制可通过方差增大来获得均衡。我们能通过乘上指数线性单元（ELU）来满足激活函数的这些性质，而且 λ>1 能够确保正值净输入的斜率大于 1。

(使用SELU论文： https://arxiv.org/pdf/1905.01338.pdf )

Dead ReLU产生的原因

假设有一个神经网络的输入W遵循某种分布，对于一组固定的参数（样本），w的分布也就是ReLU的输入的分布。假设ReLU输入是一个低方差中心在+0.1的高斯分布。

在这个场景下：

大多数ReLU的输入是正数，因此
大多数输入经过ReLU函数能得到一个正值（ReLU is open），因此
大多数输入能够反向传播通过ReLU得到一个梯度，因此
ReLU的输入（w）一般都能得到更新通过随机反向传播（SGD）

现在，假设在随机反向传播的过程中，有一个巨大的梯度经过ReLU，由于ReLU是打开的，将会有一个巨大的梯度传给输入（w）。这会引起输入w巨大的变化，也就是说输入w的分布会发生变化，假设输入w的分布现在变成了一个低方差的，中心在-0.1高斯分布。

在这个场景下：

大多数ReLU的输入是负数，因此
大多数输入经过ReLU函数能得到一个0（ReLU is close）,因此
大多数输入不能反向传播通过ReLU得到一个梯度，因此
ReLU的输入w一般都得不到更新通过随机反向传播（SGD）

激活函数选择不成熟建议：

-首先尝试ReLU，注意训练状态；

-再次尝试LReLU，或Maxout 等及其变种；

-尝试tanh；

-sigmoid/tanh在RNN(LSTM，attention， transfomer)结构中有所应用；

-浅层网络可以选择多种激活函数，影响不大；

-试试Wish？Mish？GELU等，哈哈。

参考：

Leaky ReLU论文：https://ai.stanford.edu/~amaas/papers/relu_hybrid_icml2013_final.pdf

ELU 论文：https://arxiv.org/pdf/1511.07289.pdf

SELU 论文：https://arxiv.org/pdf/1706.02515.pdf

GELU 论文：https://arxiv.org/pdf/1606.08415.pdf

https://mlfromscratch.com/activation-functions-explained/#/

https://www.cnblogs.com/makefile/p/activation-function.html

https://zhuanlan.zhihu.com/p/25110450

https://blog.csdn.net/tyhj_sf/article/details/79932893

https://liam.page/2018/04/17/zero-centered-active-function/

https://blog.csdn.net/disiwei1012/article/details/79204243

https://www.quora.com/What-is-the-dying-ReLU-problem-in-neural-networks

https://www.cnblogs.com/wzdLY/p/9710478.html

https://www.zhihu.com/question/29021768

https://www.sohu.com/a/147936491_465975

https://my.oschina.net/u/4505302/blog/3230965

关于激活函数如果存在不可微的有限点，该如何反向传播问题：

https://www.zhihu.com/question/297337220/answer/936415957

最后，该博文同步微信公众号，知乎社区，大家可以点点关注哦！直接搜索“算法妖怪”，一起来抓妖！

Open-Sora - 为所有人实现高效的视频制作大众化小众AI AI开源音视频人工智能 AI编程
GitHub：https://github.com/hpcaitech/Open-Sora更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI这是一款开源的SOTA（State-of-the-Art）视频生成模型，仅用20万美元（224张GPU）就能训练出商业级11B参数的视频生成大模型。它采用Python语言和PyTorch深度学习框架开发，具有生成速度快、资源消
Adam-mini：深度学习内存效率新突破 XianxinMao 人工智能深度学习人工智能
标题：Adam-mini：深度学习内存效率新突破文章信息摘要：Adam-mini优化器在深度学习领域展现出突破性潜力，尤其在内存效率和计算性能上表现卓越。相比AdamW，Adam-mini将内存效率提升了一倍，并通过减少学习率数量显著降低了内存消耗，同时保持了与AdamW相当甚至更好的性能。在训练十亿参数级别的大语言模型（LLM）时，Adam-mini实现了49.6%的吞吐量提升，并减少了33%的
Transformer与图神经网络的融合与应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。其中，Transformer模型和图神经网络（GraphNeuralNetworks,GNNs）是两个备受关注的研究方向。Transformer最初应用于自然语言处理领域，通过自注意力机制实现了并行计
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
群体智能优化算法-粒子群优化算法（Particle Swarm Optimization, PSO，含Matlab源代码） HR Zhou 算法 matlab 智能优化算法优化
摘要（Abstract）粒子群优化（PSO）是一种基于群体智能的优化算法，受鸟群觅食行为的启发。PSO通过模拟粒子（个体）在搜索空间中的运动来寻找最优解。每个粒子根据自身的历史最优位置（pBest）和全局最优位置（gBest）动态调整速度和位置，从而在全局搜索和局部搜索之间取得平衡。PSO具有收敛速度快、实现简单、计算复杂度低等优点，广泛应用于函数优化、神经网络训练、工程优化等领域。算法介绍1.主
高性能计算:GPU加速与分布式训练 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的飞速发展，深度学习模型的规模和复杂度不断提升，对计算能力的需求也越来越高。传统的CPU架构已经难以满足深度学习模型训练的需求，因此，GPU加速和分布式训练成为了高性能计算领域的研究热点。1.1.深度学习与计算挑战深度学习模型通常包含数百万甚至数十亿个参数，训练过程需要进行大量的矩阵运算和梯度更新，对计算资源的需求非常高。传统的CPU架构虽然具有较强的通用性，但其并行计
【ai】mocap：conda 安装python3.8+ cuda+ pytorch+torchaudio、torchvision 等风来不如迎风去 AI入门与实战人工智能 ubuntu conda
MotionCapubuntu18.04不知道为啥会依赖于ffmpeg、xorg渲染？安装pytorch就是会带上cudacudnn啥的pytorch【ai】tx2nx：安装torch、torchvisionforyolov5这里就发现pytorch和torchvision有依赖关系的，还涉及到rapidjson所以python的环境隔离很重要。核心库-cudatoolkit=11.3-pytor
Pytorch使用手册—扩展 TorchScript 使用自定义 C++ 操作符（专题五十三） AI专题精讲 Pytorch入门到精通 pytorch c++人工智能
提示本教程自PyTorch2.4起已弃用。有关PyTorch自定义操作符的最新指南，请参阅PyTorch自定义操作符。PyTorch1.0版本引入了一种名为TorchScript的新编程模型。TorchScript是Python编程语言的一个子集，可以被TorchScript编译器解析、编译和优化。此外，编译后的TorchScript模型可以选择序列化为磁盘文件格式，随后你可以从纯C++（以及Py
使用 MistralAI 平台进行开源模型托管与调用 VYSAHF python
MistralAI是一个提供开放源码模型托管的平台，致力于帮助开发者更轻松地使用和管理开源模型。通过该平台，你可以方便地调用强大的深度学习模型，并将其集成到你的应用中。本文将带你了解如何利用MistralAI提供的服务来进行模型的托管和调用。技术背景介绍MistralAI的服务包括了如聊天模型和嵌入模型等，这些模型适用于聊天机器人、文本嵌入等各种场景。使用这些模型需要注册并获取一个有效的API密钥
部分标签数据集生成与过滤特定标签方法阳光明媚大男孩机器学习人工智能
完整代码总结这段代码的目的是通过构建一个部分标签学习（PartialLabelLearning,PLL）框架来生成一个包含部分标签的数据集，并且支持根据给定的标签列表对数据集进行筛选和过滤。代码包含了多个类和函数，主要分为以下几部分：数据预处理与加载：使用PyTorch和torchvision来加载CIFAR-10数据集，并对其进行标准化处理。部分标签数据集的生成：为每个样本生成多个候选标签，并模
DeepLabv3+改进18:在主干网络中添加REP_BLOCK AICurator 深度学习 python 机器学习 deeplabv3+语义分割
【DeepLabv3+改进专栏！探索语义分割新高度】你是否在为图像分割的精度与效率发愁？本专栏重磅推出：✅独家改进策略：融合注意力机制、轻量化设计与多尺度优化✅即插即用模块：ASPP+升级、解码器PS:订阅专栏提供完整代码论文简介我们提出了一种通用的卷积神经网络（ConvNet）构建模块，可在不增加推理时间成本的情况下提升性能。该模块名为多样化分支块（DBB），通过结合不同尺度和复杂度的多样化分支
暗光增强技术研究进展与产品落地综合分析（2023-2025） AndrewHZ 深度学习新浪潮图像处理算法动态范围计算机视觉深度学习 transformer 暗光增强
一、引言暗光增强技术作为计算机视觉与移动影像领域的核心研究方向之一，近年来在算法创新、硬件适配及产品落地方面取得了显著进展。本文从技术研究与产业应用两个维度，系统梳理近三年（2023-2025）该领域的关键突破，并对比分析主流手机厂商的影像技术优劣势。二、暗光增强技术研究进展1.算法创新：从传统模型到深度学习（1）Retinex理论的深度结合清华与ETH联合提出的Retinexformer（202
Postman高级功能深度解析：Mock Server与自动化监控——构建高效API测试与监控体系测试渣测试工具 postman
引言：Postman在API开发中的核心价值在数字化时代，API（应用程序编程接口）已成为系统间交互的“神经网络”，其质量直接影响用户体验与业务连续性。然而，传统API测试面临两大挑战：开发阶段依赖：前端与后端团队需同步开发，导致进度延迟；测试环境复杂：生产数据敏感、测试场景覆盖不全、性能压力模拟困难。Postman作为全球领先的API开发与测试工具，通过其MockServer与自动化监控两大核心
模型部署实战：PyTorch生产化指南小诸葛IT课堂 pytorch 人工智能 python
‌一、为什么要做模型部署？‌模型部署是将训练好的模型‌投入实际应用‌的关键步骤，涉及：模型格式转换（TorchScript/ONNX）性能优化（量化/剪枝）构建API服务移动端集成本章使用ResNet18实现图像分类，并演示完整部署流程。‌二、模型转换：TorchScript与ONNX‌‌1.准备预训练模型importtorchimporttorchvision#加载预训练模型model=torc
金融风控算法透明度与可解释性优化智能计算研究中心其他
内容概要金融风控算法的透明化研究面临模型复杂性提升与监管合规要求的双重挑战。随着深度学习框架在特征提取环节的广泛应用，算法可解释性与预测精度之间的平衡成为核心议题。本文从联邦学习架构下的数据协作机制出发，结合特征工程优化与超参数调整技术，系统性分析逻辑回归、随机森林等传统算法在召回率、F1值等关键指标上的表现差异。研究同时探讨数据预处理流程对风控决策鲁棒性的影响，并提出基于注意力机制的特征权重可视
下一代模型技术演进与场景应用突破智能计算研究中心其他
内容概要当前模型技术正经历多维度的范式跃迁，可解释性模型与自动化机器学习（AutoML）成为突破传统黑箱困境的核心路径。在底层架构层面，边缘计算与量子计算的融合重构了算力分配模式，联邦学习技术则为跨域数据协作提供了安全可信的解决方案。主流框架如TensorFlow和PyTorch持续迭代优化能力，通过动态参数压缩与自适应超参数调优策略，显著提升模型部署效率。应用层创新呈现垂直化特征，医疗诊断模型通
H800核心性能优化技术智能计算研究中心其他
内容概要作为新一代AI加速卡的核心创新载体，H800通过异构计算架构与动态能效管理技术的协同设计，实现了从硬件底层到应用层的系统性优化。其技术突破聚焦于张量核心重构带来的计算密度提升、混合精度运算对资源利用率的增强，以及智能散热方案在复杂负载场景下的稳定性保障。这些创新不仅显著提升了30%以上的能效比，更通过精细化任务调度机制，解决了深度学习训练中高并发数据处理与模型参数同步的效率瓶颈。值得关注的
TikTokenizer 项目常见问题解决方案齐飞锴Timothea
TikTokenizer项目常见问题解决方案tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目基础介绍TikTokenizer是一个开源项目，主要用于文本处理，特别是将文本转化为可用于深度学习的格式。该项目是基于TensorFlow和Keras开发
DeepSeek混合专家架构赋能智能创作智能计算研究中心其他
内容概要在人工智能技术加速迭代的当下，DeepSeek混合专家架构（MixtureofExperts）通过670亿参数的动态路由机制，实现了多模态处理的范式突破。该架构将视觉语言理解、多语言语义解析与深度学习算法深度融合，构建出覆盖文本生成、代码编写、学术研究等场景的立体化能力矩阵。其核心优势体现在三个维度：精准化内容生产——通过智能选题、文献综述自动生成等功能，将学术论文写作效率提升40%以上；
YOLO11改进-模块-引入频率谱动态聚合模块FSDA 去除噪声一勺汤 YOLOv11模型改进系列目标检测魔改模块 YOLO YOLOv11 YOLOv11改进改进
在图像去雾领域，深度学习在白天图像去雾方面成果显著，但夜间雾图研究较少。夜间雾图面临诸多挑战，其中包括雾、辉光和噪声因多个低强度有源彩色光源而具有复杂特性，以及模拟与真实数据的域差异导致的亮度问题。为解决这些，我们使用FSDA模块，处理频率不一致特性。FSDA先对频谱信息聚合，再计算通道权重并应用，最后映射回空间域，以此优化频谱信息，使模型更好处理复杂干扰。本文将其与YOLOv11相结合，增强YO
基于多头注意机制的多尺度特征融合的GCN的序列数据（功率预测、故障诊断）模型及代码详解清风AI 深度学习算法详解及代码复现人工智能神经网络深度学习 python conda pip pandas
GCN基础在深度学习领域中，图卷积网络(GCN)是一种强大的图数据处理工具。它将卷积操作扩展到图结构上，能够有效捕捉图中节点之间的关系信息。GCN的核心思想是通过聚合邻居节点的特征来更新目标节点的表示，这种局部聚合机制使得GCN能够学习到图的拓扑结构和节点属性。GCN的主要构成要素包括节点特征矩阵、邻接矩阵和卷积核。通过多次迭代，GCN可以逐步学习到图中节点的高阶表示，为后续的分类、预测等任务提供
YOLO魔改之频率分割模块（FDM）清风AI YOLO算法魔改系列 YOLO 人工智能计算机视觉目标检测 python 深度学习
目标检测原理目标检测是一种将目标分割和识别相结合的图像处理技术，旨在从图像中定位并识别特定目标。深度学习方法，如FasterR-CNN和YOLO系列，已成为主流解决方案。这些方法通常采用两阶段或单阶段策略，通过卷积神经网络(CNN)提取特征并进行分类和定位。在小目标检测中，为克服分辨率低和特征不明显的问题，模型设计中会特别注重特征融合和多尺度处理，以增强对小目标的感知能力。YOLOv8基础YOLO
PyTorch模型训练实战指南：掌握动态图特性与工业级部署技巧 lmtealily pytorch 人工智能 python
前言在深度学习领域，PyTorch凭借其动态计算图、高效的自动微分系统及高度Pythonic的设计哲学，已成为学术界与工业界的主流框架。其即时执行模式大幅简化了模型调试流程，而灵活的模块化设计则为复杂模型的构建提供了坚实基础。然而，从实验原型到工业级部署的全链路实践中，开发者仍需系统性掌握框架核心特性与工程化技巧。本文以实战为导向，深入剖析PyTorch动态图机制与自动微分原理，详解从数据预处理、
目标检测YOLO实战应用案例100讲-基于毫米波雷达与摄像头协同的道路目标检测与识别（续）林聪木目标检测 YOLO 人工智能
目录3.2实测数据采集与分析3.2.1回波数据处理3.2.2毫米波雷达数据采集实验3.3基于传统图像特征的目标识别算法3.3.1基于灰度共生矩阵的时频图特征提取3.3.2支持向量机分类器3.3.3实验及结果分析3.4基于卷积神经网络的目标识别算法3.4.1卷积神经网络的基本理论3.4.2卷积神经网络框架设计3.4.3实验及结果分析基于图像的目标检测算法4.1目标检测算法一般流程4.2典型目标检测算
PyTorch 深度学习实战（19）：离线强化学习与 Conservative Q-Learning (CQL) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们探讨了分布式强化学习与IMPALA算法，展示了如何通过并行化训练提升强化学习的效率。本文将聚焦离线强化学习（OfflineRL）这一新兴方向，并实现ConservativeQ-Learning(CQL)算法，利用Minari提供的静态数据集训练安全的强化学习策略。一、离线强化学习与CQL原理1.离线强化学习的特点无需环境交互：直接从预收集的静态数据集学习数据效率高：复用历史经验
一切皆是映射：DQN训练加速技术：分布式训练与GPU并行 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用
大规模语言模型从理论到实践分布式训练的集群架构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModels,LLMs）在自然语言处理（NaturalLanguageProcessing,NLP）领域取得了突破性进展。LLMs，如BERT、GPT-3等，通
图生视频技术的发展与展望：从技术突破到未来图景 Liudef06 Stable Diffusion 音视频人工智能深度学习 stable diffusion
一、技术发展现状图生视频（Image-to-VideoGeneration）是生成式人工智能（AIGC）的重要分支，其核心是通过单张或多张静态图像生成动态视频序列。近年来，随着深度学习、多模态融合和计算硬件的进步，图生视频技术经历了从基础研究到商业落地的快速演进。早期探索与GAN的奠基早期图生视频技术主要基于生成对抗网络（GAN），通过对抗训练生成低分辨率的视频片段。例如，DeepMind的DVD
Hugging Face 模型格式全解析：从 PyTorch 到 GGUF mingo_敏 Deep Learning pytorch 人工智能 python
HuggingFace模型格式全解析：从PyTorch到GGUFHuggingFace生态支持多种模型格式，以满足不同场景下的存储、部署和推理需求。以下是主流格式的技术解析与演进脉络：1.PyTorch原生格式（.pt/.pth）特性：直接保存PyTorch的state_dict（模型参数）或完整模型（含结构）。兼容性强，与PyTorch训练/推理流程深度集成。文件体积较大，加载速度较慢，存在安全
Moodle + Websoft9：创新教育的强大组合，助力教学与学习开源软件
Moodle+Websoft9：构建未来课堂的技术基石一、Moodle：开源生态的深度解析•模块化设计：支持超800个官方插件，如H5P交互内容创作、BigBlueButton虚拟课堂，满足个性化教学需求。•学习分析引擎：内置LearningAnalyticsAPI，可集成Python/R语言进行深度学习，预测学生学业风险。•移动优先战略：MoodleApp支持离线学习、扫码签到，2023年新增A
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

盘点 深度学习妖怪 之 激活函数妖