Softmax

【人脸识别中的“类内差异”和“类间差异】

对应DeepID1：只用SoftmaxLoss训练模型分类，模型只学会“爸爸和妈妈是不同的人”。

学渣67656·2025-04-13 00:34

LogSoftmax和Softmax的核心区别及使用场景

在PyTorch中，LogSoftmax和Softmax的核心区别及使用场景如下：1.数学定义Softmax：σ(zi)=ezi∑j=1Kezj\sigma(z_i)=\frac{e^{z_i}}{\sum

code 旭·2025-04-06 01:01

LLM 优化技术(4)——flash_attention 原理

FlashAttention:FastandMemory-EfficientExactAttentionwithIO-Awareness如上图所示，Flash-attention采用了矩阵分块和算子融合(safesoftmaxreducetion

哦豁灬·2025-04-05 22:37

基于Softmax回归完成鸢尾花分类任务

1.任务概述1.1Softmax回归原理Softmax回归是一种用于多分类问题的线性分类模型。其核心思想是将线性回归的输出通过Softmax函数转换为概率分布，从而实现多分类。

阿尔法星球·2025-04-05 12:06

pytorch调用手写CUDA算子和pybind11的使用

下面我们先介绍一下代码结构：代码架构softmax.cupy::array_t

谨慎付费（看不懂试读博客不要订阅）·2025-04-01 03:09

【深度学习】Self-Attention机制详解：Transformer的核心引擎

Self-Attention的数学原理1.计算查询(Query)、键(Key)和值(Value)2.计算注意力分数3.缩放并应用Softmax4.加权求和多头注意力(Mu

烟锁池塘柳0·2025-03-26 19:05

Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术

Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。

Mark White·2025-03-21 17:01

c++高性能多进程 cuda编程: safe_softmax实现 + cub::BlockReduce自定义归约操作

目录cub::BlockReduce自定义归约操作(`cub::BlockReduce::Reduce`)1.语法safe_softmax实现cub::BlockReducecub::BlockReduce

FakeOccupational·2025-03-20 06:35

知识蒸馏：从软标签压缩到推理能力迁移的工程实践(基于教师-学生模型的高效压缩技术与DeepSeek合成数据创新)

在实际应用中，无论是大规模语言模型（LLMs）还是其他类型的神经网络模型，都会通过softmax

AI仙人掌·2025-03-19 17:20

深度学习框架PyTorch——从入门到精通（5）构建神经网络

构建神经网络获取训练设备定义类模型层nn.Flattennn.Linearnn.ReLUnn.Sequentialnn.Softmax模型参数补充说明argmax神经网络是由一些层或者模块组成的，这些层和模块会对数据进行各种操作

Fansv587·2025-03-19 11:58

【深度学习基础】第二十四课：softmax函数的导数

1.softmax函数softmax函数详解。2.softmax函数的导数假设神经网络输出层的激活函数为softmax函数，用以解决多分类问题。

x-jeff·2025-03-17 21:15

DIFFERENTIAL TRANSFORMER

具体而言，差分注意力机制将注意力得分计算为两个单独的softmax注意力图

UnknownBody·2025-03-17 21:44

self-attention为什么要除以根号d_k

self-attention的公式为attention(Q,K,V)=Softmax(QKdk)Vattention(Q,K,V)=Softmax(\frac{QK}{\sqrt{d_{k}}})Vattention

想念@思恋·2025-03-16 09:22

算法手撕面经系列(1)--手撕多头注意力机制

一个简单的多头注意力模块可以分解为以下几个步骤：先不分多头，对输入张量分别做变换，得到Q,K,VQ,K,VQ,K,V对得到的Q,K,VQ,K,VQ,K,V按头的个数进行split；用Q,KQ,KQ,K计算向量点积考虑是否要添因果mask利softmax

夜半罟霖·2025-03-16 07:37

CCF CSP 第30次（2023.05）（2_矩阵运算_C++）（暴力破解）(矩阵相乘)

++）题目背景：题目描述：输入格式：输出格式：样例输入样例输出：样例解释：子任务：提示：解题思路：思路一（暴力破解）：代码实现代码实现：部分代码解读时间限制：5.0s空间限制：512.0MB题目背景：Softmax

Dream it possible！·2025-03-15 05:41

【PyTorch】torch.nn.functional.log_softmax() 函数：计算 log(softmax)，用于多分类任务

torch.nn.functional.log_softmaxtorch.nn.functional.log_softmax是PyTorch提供的用于计算log(softmax)的函数，通常用于多分类任务和计算交叉熵损失

彬彬侠·2025-03-14 23:54

3.13 YOLO V3

-softmax改进，预测多标签任务。-多scale-为了能检测到不同大小的物体，设计了3个scale。-scale变换经典方法-左图：图像金字塔；右图：单一的输入。-scale变换

不要不开心了·2025-03-14 11:44

知识蒸馏中的温度参数 T（Temperature）的作用

在知识蒸馏（KnowledgeDistillation,KD）过程中，教师模型的输出通常是一个概率分布（通过softmax计算得到）。

彬彬侠·2025-03-14 11:09

[Base]DIFFERENTIAL TRANSFORMER

Time202410Author微软研究院和清华大学提出Codehttps://aka.ms/Diff-TransformerRead2411112.CreativeQ&A减少对无关上下文的关注；通过计算两个Softmax

Xy-unu·2025-03-13 18:09

Simple Baselines for Image Restoration

为了进一步简化基线，我们揭示了非线性激活函数，如Sigmoid、ReLU、GELU、Softmax等是不必要的:它们可以用乘法替换或删除。因此，我们从基线推导出一个非线性激活自由网络，即NAFNet。

Adagrad·2025-03-12 15:58

【每日论文】Forgetting Transformer: Softmax Attention with a Forget Gate

下载PDF或查看论文，请点击：LlamaFactory-huggingfacedailypaper-每日论文解读|LlamaFactory|LlamaFactory摘要现代循环序列模型的一个关键组件是遗忘门。虽然Transformer没有显式的循环形式，但我们展示了一种通过以数据依赖的方式降低未归一化注意力分数的自然方法，将遗忘门融入Transformer。我们称这种注意力机制为“遗忘注意力”，并

WHATEVER_LEO·2025-03-12 08:12

基于Pytorch深度学习——Softmax回归

所以这里将代码进行尽量逐行详细解释并且由于pytorch的语法有些小伙伴可能并不熟悉，所以我们会采用逐行解释+小实验的方式来给大家解释代码大家都知道二分类问题我们在机器学习里面使用到的是逻辑回归这个算法，但是针对于多分类问题，我们常用的是Softmax

EchoToMe·2025-03-12 00:08

基于PyTorch的深度学习——机器学习3

如果搭建的神经网络层数不多，选择sigmoid、tanh、relu、softmax都可以；而如果搭建的网络层次较多，那就需要小心，选择不当就可导致梯度消失问题。

Wis4e·2025-03-11 07:47

学习总结项目

近段时间学习了机器学习、线性回归和softmax回归、多层感知机、卷积神经网络、Pytorch神经网络工具箱、Python数据处理工具箱、图像分类等的知识，学习了利用神经网络实现cifar10的操作、手写图像识别项目以及其对应的实验项目报告总结

苏小夕夕·2025-03-10 18:07

【Transformer优化】Transformer的局限在哪？

一、全局注意力的"诅咒"：从**O(n²)**到O(n³)的计算困境自注意力机制的数学表达式：Attention(Q,K,V)=softmax(QK⊤dk)V\text{

T-I-M·2025-03-10 04:26

（Pytorch）动手学深度学习：基础内容（持续更新）

创建环境下载所需的包下载代码并执行(课件代码)关于线性代数内积(数量积、点乘)外积关于数据操作X.sum(0,keepdim=True)和X.sum(1,keepdim=True)广播机制(broadcast)Softmax

孔表表uuu·2025-03-09 01:48

python valueerror函数使用_python – 具有张量流的语义分段 – 损失函数中的ValueError(稀疏 – softmax)...

我的输入图像数据暂时是750x750x3RGB图像.在通过网络运行后,我使用shape[batch_size,750,2]的logits进行损失计算.这是一个二进制分类–我这里有两个类,[0,1]在我的标签中(形状[batch_sizex750x750].这些进入损失函数,如下：defloss(logits,labels,num_classes):withtf.name_scope('lossmi

创新工场·2025-03-04 02:00

强化学习探索与利用：多臂老虎机的UCB与Softmax策略

目录引言多臂老虎机问题概述ε-贪心算法（ε-Greedy）上置信界（UCB，UpperConfidenceBound）软max策略（Softmax）算法对比与评估实验与结果总结与展望参考文献引言多臂老虎机问题

海棠AI实验室·2025-03-01 23:42

ELMo ，LM：一串词序列的概率分布probability distribution over sequences of words

Languagemodelisaprobabilitydistributionoversequencesofwords.GPT与ELMo当成特征的做法不同，OpenAIGPT不需要再重新对任务构建新的模型结构，而是直接在transformer这个语言模型上的最后一层接上softmax

强化学习曾小健·2025-02-27 22:05

【pytorch_geometric报错】RuntimeError: softmax() Expected a value of type

如果pytorch_geometric中的softmax函数报错，声明一下num_nodes变量即可。

一穷二白到年薪百万·2025-02-27 11:11

GPT-2源码实现及GPT-3、GPT-3.5、GPT-4及GPT-5内幕解析(二)

内幕解析(二)Gavin大咖微信：NLP_Matrix_Space5.2GPT-2源码实现逐行解析本节讲解GPT-2源码，gpt2.py是一个使用NumPy实现的代码，在代码中实现了GELU激活函数、softmax

段智华·2025-02-25 09:35

word2vec之skip-gram算法原理

skip-gram算法原理1.input,output,targetinput的某个单词的one-hot编码（11000词汇量的总数目）output其他所有单词的概率（softmax输出也是11000）

cuixuange·2025-02-22 18:52

神经网络的学习求梯度

importsys,ossys.path.append(os.pardir)importnumpyasnpfromcommon.functionsimportsoftmax,cross_entropy_errorfromcommon.gradientimportnumerical_gradient

阿崽meitoufa·2025-02-22 17:19

DeepSeek 新注意力架构NSA

DeepSeek新注意力架构NSA概要研究背景：实现高效长上下文建模的自然方法是利用softmax注意力的固有稀疏性，通过选择性计算关键query-key对，可以显著减少计算开销，同时保持性能。

Twilight-pending·2025-02-22 00:47

PyTorch torch.logsumexp 详解：数学原理、应用场景与性能优化（中英双语）

PyTorchtorch.logsumexp详解：数学原理、应用场景与性能优化在深度学习和概率模型中，我们经常需要计算数值稳定的对数概率操作，特别是在处理softmax归一化、对数似然计算、损失函数优化等任务时

阿正的梦工坊·2025-02-21 20:22

【自然语言处理|迁移学习-08】：中文语料完型填空

中文语料完型填空任务介绍任务介绍：完成中文语料完型填空完型填空是一个分类问题，[MASK]单词有21128种可能数据构建实现分析：使用迁移学习方式完成使用预训练模型bert模型提取文特征，后面添加全连接层和softmax

爱学习不掉头发·2025-02-20 14:50

线性回归理论

###线性回归与Softmax回归####线性回归线性回归是一种用于估计连续值的回归方法。

狂踹瘸子那条好脚·2025-02-20 11:21

图像识别技术与应用第三课

一、感知机感知机由美国学者FrankRosenblatt在1957年提出，它根据输入x、权重w和偏差b进行输出，输出结果是二分类（0或1），这和输出实数的回归以及输出概率用于多分类的Softmax不同。

哈哈~156·2025-02-20 01:25

【深度学习入门：基于python的理论与实现读书笔记】第五章误差反向传播法

目录摘要第五章误差反向传播法简单层的实现乘法层的实现加法层的实现激活函数层的实现ReLU层Sigmoid层Affine层和Softmax层的实现Affine层Softmax-with-Loss层误差反向传播法的实现摘要该文章简要介绍了神经网络的误差反向传播法

Bin二叉·2025-02-19 19:37

机器学习和线性回归、softmax回归

监督学习监督学习（supervisedlearning）擅⻓在“给定输⼊特征”的情况下预测标签。每个“特征-标签”对都称为一个样本（example）。我们的目标是生成一个模型，能够将任何输⼊特征映射到标签（即预测）。回归——平方误差损失函数回归（regression）是最简单的监督学习任务之一。分类——交叉熵样本属于“哪一类”的问题称为分类问题回归是训练一个回归函数来输出一个数值；分类是训练一个分

小名叫咸菜·2025-02-18 13:53

23、深度学习-自学之路-激活函数relu、tanh、sigmoid、softmax函数的正向传播和反向梯度。

在使用这个非线性激活函数的时候，其实我们重点还是学习的是他们的正向怎么传播，以及反向怎么传递的。如下图所示：第一：relu函数的正向传播函数是：当输入值（隐藏层）值大于了，就输出自己本身的值。反向梯度传播：当输出值大于0，那么反向梯度值就等于输出值乘以1如果小于0，那反向梯度值就等于0.通俗的来说就是，如果输入值是0或小于0，那么输出值的反向增强就没有。如果输入值大于0，那么输出值的方向增强就有。

小宇爱·2025-02-13 13:22

基于计算图的Softmax层反向传播推导

Python的理论与实现》，书本十分通俗易懂，在Chapter5——反向传播部分，作者以计算图方式给出了Sigmoid函数，全连接层的反向传播过程，但是在给出Softxmax层的反向传播推导过程的时候，将Softmax

KaiMing Zhu·2025-02-11 21:25

torch.nn.CrossEntropyLoss()的一些小细节（原理和数学，softmax与dim，ignore_index，报错：0D or 1D target tensor expecte）

目录关于torch.nn.CrossEntropyLoss()数学原理关于熵数学公式pytorch中的torch.nn.CrossEntropyLoss()torch.nn.CrossEntropyLoss()交叉熵函数的使用类别索引代码示例结果关于ignore_index类别概率（独热编码属于此类）代码示例结果和数学公式之间的关系代码展示结果关于报错提示0Dor1Dtargettensorexp

老肝犯·2025-02-09 22:49

图神经网络实战（8）——图注意力网络(Graph Attention Networks, GAT)

图神经网络实战（8）——图注意力网络0.前言1.图注意力层原理1.1线性变换1.2激活函数1.3Softmax归一化1.4多头注意力1.5改进图注意力层2.使用NumPy中实现图注意力层3.使用PyTorchGeometric

盼小辉丶·2025-02-08 12:09

空间注意力模块（SAM）和时间注意力模块（TAM）详解及代码复现

在神经网络中，注意力机制主要通过Softmax函数实现，它能够将输入特征映射到0到1之间的概率分布，从而实现特征的加权。空间注意力与时间注意力在

清风AI·2025-02-06 21:47

TypeError: unsupported operand type(s) for +=: ‘Dense‘ and ‘str‘

tensorflow2.0报这个错误因为你在定义模型的时候model=Sequential(SimpleRNN(3),Dense(5,activation='softmax'))是不是感觉少了点什么，没加

开始King·2025-02-04 03:13

Task01：线性回归；Softmax与分类模型、多层感知机

恰人陈·2025-02-03 14:56

【深度学习】softmax回归的简洁实现

softmax回归的简洁实现我们发现(通过深度学习框架的高级API能够使实现)(softmax)线性(回归变得更加容易)。同样，通过深度学习框架的高级API也能更方便地实现softmax回归模型。

熙曦Sakura·2025-02-03 02:22

Keras TypeError: unsupported operand type(s) for : 'int' and 'Dimension'

在使用keras时，需要取出一个tensor的某一维作为下一层的维度（这里，我是在写attention）代码：dim=input.shape[1]dense=Dense(dim,activation=‘softmax

Yolo_C·2025-02-03 01:40

python 求导实现_python – NumPy中的Softmax导数接近0(实现)

这是如何以更加矢量化的numpy方式计算softmax函数的导数的答案.然而,偏导数逼近零的事实可能不是数学问题,并且只是学习率或复杂深度神经网络的已知死亡权重问题.像ReLU这样的图层有助于防止后一问题

非凡运营笔记·2025-01-31 23:22

推荐频道