softmax退化

Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术

Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。

Mark White·2025-03-21 17:01

c++高性能多进程 cuda编程: safe_softmax实现 + cub::BlockReduce自定义归约操作

目录cub::BlockReduce自定义归约操作(`cub::BlockReduce::Reduce`)1.语法safe_softmax实现cub::BlockReducecub::BlockReduce

FakeOccupational·2025-03-20 06:35

做电池寿命预测有福了---2024最新退化数据集，来自cell子刊

优化算法侠Swarm-Opti·2025-03-19 21:52

知识蒸馏：从软标签压缩到推理能力迁移的工程实践(基于教师-学生模型的高效压缩技术与DeepSeek合成数据创新)

在实际应用中，无论是大规模语言模型（LLMs）还是其他类型的神经网络模型，都会通过softmax

AI仙人掌·2025-03-19 17:20

深度学习框架PyTorch——从入门到精通（5）构建神经网络

构建神经网络获取训练设备定义类模型层nn.Flattennn.Linearnn.ReLUnn.Sequentialnn.Softmax模型参数补充说明argmax神经网络是由一些层或者模块组成的，这些层和模块会对数据进行各种操作

Fansv587·2025-03-19 11:58

假设arr是一个int型数组，为什么int (p)[4]=arr报错initialization of ‘int ()[4]‘ from incompatible pointer type ‘i‘

数组名在大多数情况下会退化为指向其首元素的指针。一维数组会退化指向数组第一个元素的地址，二维数组会退化指向第一行的指针。

freshman_y·2025-03-18 22:11

计算数组的sizeof的大小

inta[]={1,2,3,4};printf("%d\n",sizeof(a));//16printf("%d\n",sizeof(a+0));//8//a+0的含义：在C语言中，数组名a在表达式中会退化为指向其第一个元素的指针

莫西子诗.·2025-03-18 16:57

【深度学习基础】第二十四课：softmax函数的导数

1.softmax函数softmax函数详解。2.softmax函数的导数假设神经网络输出层的激活函数为softmax函数，用以解决多分类问题。

x-jeff·2025-03-17 21:15

DIFFERENTIAL TRANSFORMER

具体而言，差分注意力机制将注意力得分计算为两个单独的softmax注意力图

UnknownBody·2025-03-17 21:44

self-attention为什么要除以根号d_k

self-attention的公式为attention(Q,K,V)=Softmax(QKdk)Vattention(Q,K,V)=Softmax(\frac{QK}{\sqrt{d_{k}}})Vattention

想念@思恋·2025-03-16 09:22

算法手撕面经系列(1)--手撕多头注意力机制

一个简单的多头注意力模块可以分解为以下几个步骤：先不分多头，对输入张量分别做变换，得到Q,K,VQ,K,VQ,K,V对得到的Q,K,VQ,K,VQ,K,V按头的个数进行split；用Q,KQ,KQ,K计算向量点积考虑是否要添因果mask利softmax

夜半罟霖·2025-03-16 07:37

CCF CSP 第30次（2023.05）（2_矩阵运算_C++）（暴力破解）(矩阵相乘)

++）题目背景：题目描述：输入格式：输出格式：样例输入样例输出：样例解释：子任务：提示：解题思路：思路一（暴力破解）：代码实现代码实现：部分代码解读时间限制：5.0s空间限制：512.0MB题目背景：Softmax

Dream it possible！·2025-03-15 05:41

【PyTorch】torch.nn.functional.log_softmax() 函数：计算 log(softmax)，用于多分类任务

torch.nn.functional.log_softmaxtorch.nn.functional.log_softmax是PyTorch提供的用于计算log(softmax)的函数，通常用于多分类任务和计算交叉熵损失

彬彬侠·2025-03-14 23:54

3.13 YOLO V3

-softmax改进，预测多标签任务。-多scale-为了能检测到不同大小的物体，设计了3个scale。-scale变换经典方法-左图：图像金字塔；右图：单一的输入。-scale变换

不要不开心了·2025-03-14 11:44

知识蒸馏中的温度参数 T（Temperature）的作用

在知识蒸馏（KnowledgeDistillation,KD）过程中，教师模型的输出通常是一个概率分布（通过softmax计算得到）。

彬彬侠·2025-03-14 11:09

[Base]DIFFERENTIAL TRANSFORMER

Time202410Author微软研究院和清华大学提出Codehttps://aka.ms/Diff-TransformerRead2411112.CreativeQ&A减少对无关上下文的关注；通过计算两个Softmax

Xy-unu·2025-03-13 18:09

Simple Baselines for Image Restoration

为了进一步简化基线，我们揭示了非线性激活函数，如Sigmoid、ReLU、GELU、Softmax等是不必要的:它们可以用乘法替换或删除。因此，我们从基线推导出一个非线性激活自由网络，即NAFNet。

Adagrad·2025-03-12 15:58

【每日论文】Forgetting Transformer: Softmax Attention with a Forget Gate

下载PDF或查看论文，请点击：LlamaFactory-huggingfacedailypaper-每日论文解读|LlamaFactory|LlamaFactory摘要现代循环序列模型的一个关键组件是遗忘门。虽然Transformer没有显式的循环形式，但我们展示了一种通过以数据依赖的方式降低未归一化注意力分数的自然方法，将遗忘门融入Transformer。我们称这种注意力机制为“遗忘注意力”，并

WHATEVER_LEO·2025-03-12 08:12

基于Pytorch深度学习——Softmax回归

所以这里将代码进行尽量逐行详细解释并且由于pytorch的语法有些小伙伴可能并不熟悉，所以我们会采用逐行解释+小实验的方式来给大家解释代码大家都知道二分类问题我们在机器学习里面使用到的是逻辑回归这个算法，但是针对于多分类问题，我们常用的是Softmax

EchoToMe·2025-03-12 00:08

SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language

UnknownBody·2025-03-11 12:29

基于PyTorch的深度学习——机器学习3

如果搭建的神经网络层数不多，选择sigmoid、tanh、relu、softmax都可以；而如果搭建的网络层次较多，那就需要小心，选择不当就可导致梯度消失问题。

Wis4e·2025-03-11 07:47

学习总结项目

近段时间学习了机器学习、线性回归和softmax回归、多层感知机、卷积神经网络、Pytorch神经网络工具箱、Python数据处理工具箱、图像分类等的知识，学习了利用神经网络实现cifar10的操作、手写图像识别项目以及其对应的实验项目报告总结

苏小夕夕·2025-03-10 18:07

Pytorch 第九回：卷积神经网络——ResNet模型

该模型是基于解决因网络加深而出现的梯度消失和网络退化而进行设计的。接下来给大家分享具体思路。

Start_Present·2025-03-10 09:05

【Transformer优化】Transformer的局限在哪？

一、全局注意力的"诅咒"：从**O(n²)**到O(n³)的计算困境自注意力机制的数学表达式：Attention(Q,K,V)=softmax(QK⊤dk)V\text{

T-I-M·2025-03-10 04:26

（Pytorch）动手学深度学习：基础内容（持续更新）

创建环境下载所需的包下载代码并执行(课件代码)关于线性代数内积(数量积、点乘)外积关于数据操作X.sum(0,keepdim=True)和X.sum(1,keepdim=True)广播机制(broadcast)Softmax

孔表表uuu·2025-03-09 01:48

char data[len_row][len_col]能直接讲data传递给char **吗？

voidfunc(char**);chardata[len_row][len_col];func(data);数组名会“退化”为指向其首元素的指针。也就是char(*)[len_col]。

冰箱里有碗·2025-03-04 06:36

python valueerror函数使用_python – 具有张量流的语义分段 – 损失函数中的ValueError(稀疏 – softmax)...

我的输入图像数据暂时是750x750x3RGB图像.在通过网络运行后,我使用shape[batch_size,750,2]的logits进行损失计算.这是一个二进制分类–我这里有两个类,[0,1]在我的标签中(形状[batch_sizex750x750].这些进入损失函数,如下：defloss(logits,labels,num_classes):withtf.name_scope('lossmi

创新工场·2025-03-04 02:00

强化学习探索与利用：多臂老虎机的UCB与Softmax策略

目录引言多臂老虎机问题概述ε-贪心算法（ε-Greedy）上置信界（UCB，UpperConfidenceBound）软max策略（Softmax）算法对比与评估实验与结果总结与展望参考文献引言多臂老虎机问题

海棠AI实验室·2025-03-01 23:42

第11章：泛型黑洞：类型撕裂

海面突然裂开无数rawtype的深渊，我们的船体开始出现可怕的类型退化：List原始列表=newArrayList();//原始类型污染原始列表.add("字符串");原始列表.add(123);//引发

PM简读馆·2025-02-28 20:35

ELMo ，LM：一串词序列的概率分布probability distribution over sequences of words

Languagemodelisaprobabilitydistributionoversequencesofwords.GPT与ELMo当成特征的做法不同，OpenAIGPT不需要再重新对任务构建新的模型结构，而是直接在transformer这个语言模型上的最后一层接上softmax

强化学习曾小健·2025-02-27 22:05

【pytorch_geometric报错】RuntimeError: softmax() Expected a value of type

如果pytorch_geometric中的softmax函数报错，声明一下num_nodes变量即可。

一穷二白到年薪百万·2025-02-27 11:11

那些排序算法和初始序列的状态有关

快速排序的话，如果每次选的基准都能均匀划分数组，那么是O(nlogn)，但最坏情况下比如已经有序，可能会退化成O(n²)，所以这也和初始状态有关。

Smile灬凉城666·2025-02-26 22:31

GPT-2源码实现及GPT-3、GPT-3.5、GPT-4及GPT-5内幕解析(二)

内幕解析(二)Gavin大咖微信：NLP_Matrix_Space5.2GPT-2源码实现逐行解析本节讲解GPT-2源码，gpt2.py是一个使用NumPy实现的代码，在代码中实现了GELU激活函数、softmax

段智华·2025-02-25 09:35

word2vec之skip-gram算法原理

skip-gram算法原理1.input,output,targetinput的某个单词的one-hot编码（11000词汇量的总数目）output其他所有单词的概率（softmax输出也是11000）

cuixuange·2025-02-22 18:52

神经网络的学习求梯度

importsys,ossys.path.append(os.pardir)importnumpyasnpfromcommon.functionsimportsoftmax,cross_entropy_errorfromcommon.gradientimportnumerical_gradient

阿崽meitoufa·2025-02-22 17:19

DeepSeek 新注意力架构NSA

DeepSeek新注意力架构NSA概要研究背景：实现高效长上下文建模的自然方法是利用softmax注意力的固有稀疏性，通过选择性计算关键query-key对，可以显著减少计算开销，同时保持性能。

Twilight-pending·2025-02-22 00:47

PyTorch torch.logsumexp 详解：数学原理、应用场景与性能优化（中英双语）

PyTorchtorch.logsumexp详解：数学原理、应用场景与性能优化在深度学习和概率模型中，我们经常需要计算数值稳定的对数概率操作，特别是在处理softmax归一化、对数似然计算、损失函数优化等任务时

阿正的梦工坊·2025-02-21 20:22

软件可靠性基础知识

软件系统在应用或系统错误面前，在意外或错误的使用情况下维持软件系统的功能特性的基本能力可用性定义：系统能够正常运行的时间比例软件可靠性不等于硬件可靠性，有如下几点区别：软件硬件复杂性高（大部分失效来源于软件失效）低物理退化不存在存在唯一性唯一

xuegao0807·2025-02-21 10:23

别让 AI 编程毁了你的职业生涯，请把它们当作你的实习生，而不是员工/老师！

提取下这些表达忧虑的论点：AI辅助编程导致解决问题能力退化，自己主动思考的机会少了对AI编程有“戒断”反

·2025-02-21 10:52

【自然语言处理|迁移学习-08】：中文语料完型填空

中文语料完型填空任务介绍任务介绍：完成中文语料完型填空完型填空是一个分类问题，[MASK]单词有21128种可能数据构建实现分析：使用迁移学习方式完成使用预训练模型bert模型提取文特征，后面添加全连接层和softmax

爱学习不掉头发·2025-02-20 14:50

线性回归理论

###线性回归与Softmax回归####线性回归线性回归是一种用于估计连续值的回归方法。

狂踹瘸子那条好脚·2025-02-20 11:21

图像识别技术与应用第三课

一、感知机感知机由美国学者FrankRosenblatt在1957年提出，它根据输入x、权重w和偏差b进行输出，输出结果是二分类（0或1），这和输出实数的回归以及输出概率用于多分类的Softmax不同。

哈哈~156·2025-02-20 01:25

【深度学习入门：基于python的理论与实现读书笔记】第五章误差反向传播法

目录摘要第五章误差反向传播法简单层的实现乘法层的实现加法层的实现激活函数层的实现ReLU层Sigmoid层Affine层和Softmax层的实现Affine层Softmax-with-Loss层误差反向传播法的实现摘要该文章简要介绍了神经网络的误差反向传播法

Bin二叉·2025-02-19 19:37

机器学习和线性回归、softmax回归

监督学习监督学习（supervisedlearning）擅⻓在“给定输⼊特征”的情况下预测标签。每个“特征-标签”对都称为一个样本（example）。我们的目标是生成一个模型，能够将任何输⼊特征映射到标签（即预测）。回归——平方误差损失函数回归（regression）是最简单的监督学习任务之一。分类——交叉熵样本属于“哪一类”的问题称为分类问题回归是训练一个回归函数来输出一个数值；分类是训练一个分

小名叫咸菜·2025-02-18 13:53

算法竞赛备赛——【背包DP】多重背包

这里每一种物品只有s+1种状态即“拿0个、1个、2个…s个”在基础版模型中，多重背包就是将每种物品的s个摊开，变为s种相同的物品，从而退化成01背包处理只需要在01背包的基础上稍加改动，对每一个物品循环更新

Aurora_wmroy·2025-02-17 17:50

【学习记录】AVL树及相关链表，线程池实现

本来打算使用avl树套链表的结构，来避免优先级相等的情况，但是最后发现当绝大多数优先级都相等，avl树还是不可避免的退化成单链表，而需求中也确实是绝大多数都是优先级相等。

liarsup·2025-02-16 19:55

Web项目测试专题（六）压力测试

：模拟高负载情况测试系统的稳定性和响应时间峰值测试：测试系统在瞬时高峰负载下的表现，观察系统是否崩溃或性能显著下降持久性压力测试：长时间持续高负载运行，观察系统性能随时间的变化趋势，有无内存泄漏或性能退化现象

2025年一定要上岸·2025-02-15 10:47

23、深度学习-自学之路-激活函数relu、tanh、sigmoid、softmax函数的正向传播和反向梯度。

在使用这个非线性激活函数的时候，其实我们重点还是学习的是他们的正向怎么传播，以及反向怎么传递的。如下图所示：第一：relu函数的正向传播函数是：当输入值（隐藏层）值大于了，就输出自己本身的值。反向梯度传播：当输出值大于0，那么反向梯度值就等于输出值乘以1如果小于0，那反向梯度值就等于0.通俗的来说就是，如果输入值是0或小于0，那么输出值的反向增强就没有。如果输入值大于0，那么输出值的方向增强就有。

小宇爱·2025-02-13 13:22

基于计算图的Softmax层反向传播推导

Python的理论与实现》，书本十分通俗易懂，在Chapter5——反向传播部分，作者以计算图方式给出了Sigmoid函数，全连接层的反向传播过程，但是在给出Softxmax层的反向传播推导过程的时候，将Softmax

KaiMing Zhu·2025-02-11 21:25

AI时代，程序员究竟是懒了，还是更强了？

在不远的过去，当IDE刚刚诞生时，老一代程序员曾担心程序员的基本功会退化，认为IDE限制了程序员的灵活性，担心代码质量会因此下降。“使用IDE就像小学生在考试时带计算器，它让程序员变懒。”

·2025-02-11 12:46

推荐频道