softmax

预训练语言模型之：Encoder-only PLM

1.基础架构：TransformerEncoder所有模型的基石都是TransformerEncoder结构，其核心是自注意力机制：Attention(Q,K,V)=softmax(QKTdk)V\text

抱抱宝·2025-06-25 10:36

【动手学深度学习】4.2~4.3 多层感知机的实现

为了与之前softmax回归获得的结果进行比较，我们将继续使用Fashion-MNIST图像分类数据集。importtorchfromtorchimportnnfromd2limporttorcha

XiaoJ1234567·2025-06-23 06:08

BERT-NER-Pytorch 深度学习教程

BERT-NER-Pytorch深度学习教程BERT-NER-PytorchChineseNER(NamedEntityRecognition)usingBERT(Softmax,CRF,Span)项目地址

富茉钰Ida·2025-06-22 10:52

激活层为softmax时，CrossEntropy损失函数对激活层输入Z的梯度

∂L∂Z=y^−y\frac{\partialL}{\partialZ}=\hat{y}-y∂Z∂L=y^−y其中yyy为真实值，采用one-hot编码，y^\hat{y}y^为softmax输出的预测值证明

Jcldcdmf·2025-06-20 19:42

理解Logits、Softmax和softmax_cross_entropy_with_logits的区别

理解Logits、Softmax和softmax_cross_entropy_with_logits的区别技术背景在机器学习尤其是深度学习中，分类问题是一个常见的任务。

1010n111·2025-06-19 08:00

LLM输出优化秘籍：Dify参数调节技巧大揭秘！

一、核心参数详解1.温度（Temperature）作用机制：通过softmax函数调整预测分布调节范围：0-1效果对比：温度值生成质量多样

AI大模型-大飞·2025-06-17 17:08

MSE做多分类任务如何

输出：配合softmax激活函数，输出每个类别的概率（和为1）。判卷逻辑：看「预测概率是否接近真实类别」，比

·2025-06-16 15:14

PyTorch张量操作中dim参数的核心原理与应用技巧：

今天在搭建神经网络模型中重写forward函数时，对输出结果在最后一个维度上应用Softmax函数，将输出转化为概率分布。但对于dim的概念不是很熟悉，经过查阅后整理了一下内容。

AI扶我青云志·2025-06-16 11:12

26 - UFO模块

论文《UFO-ViT:HighPerformanceLinearVisionTransformerwithoutSoftmax》1、作用UFO-ViT旨在解决传统Transformer在视觉任务中所面临的主要挑战之一

Leo Chaw·2025-06-15 22:46

多分类与多标签分类的损失函数

使用神经网络处理多分类任务时，一般采用softmax作为输出层的激活函数，使用categorical_crossentropy（多类别交叉熵损失函数）作为损失函数，输出层包含k个神经元对应k个类别。

麦格芬230·2025-06-13 21:24

缩放点积模型：如何巧妙化解Softmax梯度消失难题？

在Transformer模型中，缩放点积注意力（ScaledDot-ProductAttention）通过一个看似简单的操作——除以维度的平方根——解决了Softmax梯度消失的核心问题。

摘取一颗天上星️·2025-06-13 14:05

机器学习专栏（36）：逻辑回归与Softmax回归全解析（附完整代码与可视化）

概率世界的"温度计"1.1核心原理：从线性到概率的魔法转换1.2Sigmoid函数：概率转换的核心引擎1.3实战案例：鸢尾花二分类二、模型训练：损失函数的艺术2.1对数损失函数解析2.2正则化实战技巧三、Softmax

Sonal_Lynn·2025-06-11 04:46

【OpenCV】cv::exp函数详解

cv::exp是OpenCV中用于对矩阵中的每个元素进行自然指数运算（即ex）的函数，常用于图像增强、概率计算或机器学习中的激活函数（如Softmax）。

浩瀚之水_csdn·2025-06-09 23:16

KV Cache：大模型推理加速的核心机制

标准的self-attention计算公式大家都很熟悉：Attention(Q,K,V)=softmax

非常大模型·2025-06-04 04:54

人工智能与大模型技术：从理论到实践的黄金指南

其核心公式可表示为：Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V)=softmax(dkQKT)V其中QQ（Query）、KK（Key）、V

NIHILISM DAMN·2025-06-02 12:41

人工智能与大模型技术：从理论到实践的黄金指南

其核心公式可表示为：Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V)=softmax(dkQKT)V其中QQ（Query）、KK（Key）、V

NIHILISM DAMN·2025-06-02 12:40

triton学习笔记2: 循环优化术

Puzzles8:Longsoftmaxpuzzles8是计算batch的softmax，题目如下：Softmaxofabatchoflogits.Usesoneprogramblockaxis.BlocksizeB0representsthebatchofxoflengthN0

·2025-05-30 13:16

人工智能与大模型技术：从理论到实践的黄金指南

其核心公式可表示为：Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V)=softmax(dkQKT)V其中QQ（Query）、KK（Key）、V

张家铭02·2025-05-27 09:08

【知识点】大模型面试题汇总（持续更新）

答案：•核心原因：防止点积结果过大导致softmax进入饱和区（梯度消失）。•数学解释：假设Q、K的每个维度是独立零均值、方差为1的随机变量，点积结果的方差为d。缩放后方差恢复为1，稳定梯度。

XD742971636·2025-05-16 07:41

大模型中的KV Cache

原理：自注意力机制：在Transformer中，注意力计算基于公式：Attention(Q,K,V)=softmax(QK⊤dk)V=∑i=1nwivi（加权

为啥全要学·2025-05-15 23:16

python pytorch 模型构造函数、连接函数通俗版

`nn.ReLU`（激活函数）2.nn.Sigmoid3.nn.Softmax三、组合示例（搭积木）.分类模型模板2.生成模型模板**五、常见问题**Q1：为什么要有激活函数？

Python虫·2025-05-15 15:48

电商直播实时字幕生成：语音-视觉同步对齐技术详解与实战

一、技术原理与数学建模1.1多模态特征同步机制核心公式：声学特征提取：X_audio=CNN1D(MFCC(wav))视觉特征提取：X_vision=ResNet(frame)同步对齐：A=softmax

燃灯工作室·2025-05-14 07:12

pytorch验算CrossEntropyLoss ，BCELoss 和 BCEWithLogitsLoss

一.手动计算、log_softmax+nll_loss、nn.CrossEntropyLoss三种方式计算交叉熵：(classtorch.nn.CrossEntropyLoss(weight=None,

咕噜咕噜day·2025-05-11 05:08

Qwen2.5模型结构

config.hidden_size,config.vocab_size,bias=False)这个是用来干嘛的输出层，词汇投影层，将模型输出的隐藏状态向量映射回词表空间，用于预测下一个token#预测logits，未经过softmaxlm_logits

AloneCat2012·2025-05-10 01:35

【机器学习】gumbel softmax的介绍

一、介绍Gumbel-Softmax是一种技术，用于在离散选择中引入可微分的近似。这对于需要在神经网络中进行离散采样（如分类任务或生成离散数据）而不破坏梯度计算非常有用。

追风赶月。·2025-05-08 16:22

李沐《动手学深度学习》softmax回归python代码实现

一、手动实现softmax回归#手动实现softmax回归#%matplotlibinlineimporttorchfromd2limporttorchasd2limportmatplotlib.pyplotaspltfromIPythonimportdisplay

阿万音玲羽·2025-05-06 16:04

零基础-动手学深度学习-3.6softmax回归的从零开始实现

目录一、初始化模型参数二、定义softmax操作三、定义模型四、定义损失函数五、分类精度六、训练七、一点补充鄙人生医转码，道行浅薄，请多谅解~感觉这章的内容超量，代码和详解都非常长，细嚼慢咽ing~首先导入需要的库和上一章讲的训练和测试集

生医转码，四海为家·2025-05-06 16:03

Transformer：颠覆性架构的二次革命与全模态实践指南

一、认知跃迁：全局建模的数学革命1.1注意力机制本质解构Attention(Q,K,V)=softmax(QKTdk⊙M)VAttention(Q,K,V)=softmax(dkQKT⊙M)V（M为因

Gupao123·2025-05-03 06:07

解密分类模型的核心：Sigmoid与SoftMax的应用与奥秘

SigmoidSigmoid针对多标签分类问题=答案可共存（如生病和住院）Sigmoid(x)=11+e−xSigmoid(x)=\frac{1}{1+e^{-x}}Sigmoid(x)=1+e−x1输入得分值，输出概率值二、SoftMax

北上ing·2025-05-01 05:14

人工智能与大模型技术：从理论到实践的黄金指南

其核心公式可表示为：Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V)=softmax(dkQKT)V其中QQ（Query）、KK（Key）、V

张家铭02·2025-04-20 00:23

Python----深度学习（Softmax与交叉熵）

一、SoftmaxSoftmax是一种常见的激活函数，可以将计算出来的数值通过公式变成概率，通常用在分类中。Softmax从字面上来说，可以分成soft和max两个部分。

蹦蹦跳跳真可爱589·2025-04-18 15:17

Neural Network from Scratch in Cangjie: Part 4 - 仓颉从头开始的神经网络：第四部分

Today,wewilltrytorecreatetheoutputlayerforatypicalclassificationnetworkwiththehelpofthe`Softmax`activationfunction.Itwillletusnormalizetheoutputofthefinallayerinournetworkanddisplayprobabilitiesofwhic

研究编程·2025-04-18 13:01

nlp面试重点

如果不使用softmax计算交叉熵，是不行的。损失函数可能会非常大，或者预测的概率是[-0.1,0.3,0.5],log不接收负值。pytorch默认给你加softmax。

heine162·2025-04-14 23:13

TensorFlow自然语言处理深度解析：从理论到工业级实践

1.NLP数学基础与TensorFlow实现原理1.1注意力机制的数学本质注意力机制的核心是学习一个动态权重分布，其数学表达为：Attention(Q,K,V)=softmax((QK^T)/

qq_16226939·2025-04-14 09:09

【人脸识别中的“类内差异”和“类间差异】

对应DeepID1：只用SoftmaxLoss训练模型分类，模型只学会“爸爸和妈妈是不同的人”。

学渣67656·2025-04-13 00:34

LogSoftmax和Softmax的核心区别及使用场景

在PyTorch中，LogSoftmax和Softmax的核心区别及使用场景如下：1.数学定义Softmax：σ(zi)=ezi∑j=1Kezj\sigma(z_i)=\frac{e^{z_i}}{\sum

code 旭·2025-04-06 01:01

LLM 优化技术(4)——flash_attention 原理

FlashAttention:FastandMemory-EfficientExactAttentionwithIO-Awareness如上图所示，Flash-attention采用了矩阵分块和算子融合(safesoftmaxreducetion

哦豁灬·2025-04-05 22:37

基于Softmax回归完成鸢尾花分类任务

1.任务概述1.1Softmax回归原理Softmax回归是一种用于多分类问题的线性分类模型。其核心思想是将线性回归的输出通过Softmax函数转换为概率分布，从而实现多分类。

阿尔法星球·2025-04-05 12:06

pytorch调用手写CUDA算子和pybind11的使用

下面我们先介绍一下代码结构：代码架构softmax.cupy::array_t

谨慎付费（看不懂试读博客不要订阅）·2025-04-01 03:09

【深度学习】Self-Attention机制详解：Transformer的核心引擎

Self-Attention的数学原理1.计算查询(Query)、键(Key)和值(Value)2.计算注意力分数3.缩放并应用Softmax4.加权求和多头注意力(Mu

烟锁池塘柳0·2025-03-26 19:05

Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术

Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。

Mark White·2025-03-21 17:01

c++高性能多进程 cuda编程: safe_softmax实现 + cub::BlockReduce自定义归约操作

目录cub::BlockReduce自定义归约操作(`cub::BlockReduce::Reduce`)1.语法safe_softmax实现cub::BlockReducecub::BlockReduce

FakeOccupational·2025-03-20 06:35

知识蒸馏：从软标签压缩到推理能力迁移的工程实践(基于教师-学生模型的高效压缩技术与DeepSeek合成数据创新)

在实际应用中，无论是大规模语言模型（LLMs）还是其他类型的神经网络模型，都会通过softmax

AI仙人掌·2025-03-19 17:20

深度学习框架PyTorch——从入门到精通（5）构建神经网络

构建神经网络获取训练设备定义类模型层nn.Flattennn.Linearnn.ReLUnn.Sequentialnn.Softmax模型参数补充说明argmax神经网络是由一些层或者模块组成的，这些层和模块会对数据进行各种操作

Fansv587·2025-03-19 11:58

【深度学习基础】第二十四课：softmax函数的导数

1.softmax函数softmax函数详解。2.softmax函数的导数假设神经网络输出层的激活函数为softmax函数，用以解决多分类问题。

x-jeff·2025-03-17 21:15

DIFFERENTIAL TRANSFORMER

具体而言，差分注意力机制将注意力得分计算为两个单独的softmax注意力图

UnknownBody·2025-03-17 21:44

self-attention为什么要除以根号d_k

self-attention的公式为attention(Q,K,V)=Softmax(QKdk)Vattention(Q,K,V)=Softmax(\frac{QK}{\sqrt{d_{k}}})Vattention

想念@思恋·2025-03-16 09:22

算法手撕面经系列(1)--手撕多头注意力机制

一个简单的多头注意力模块可以分解为以下几个步骤：先不分多头，对输入张量分别做变换，得到Q,K,VQ,K,VQ,K,V对得到的Q,K,VQ,K,VQ,K,V按头的个数进行split；用Q,KQ,KQ,K计算向量点积考虑是否要添因果mask利softmax

夜半罟霖·2025-03-16 07:37

CCF CSP 第30次（2023.05）（2_矩阵运算_C++）（暴力破解）(矩阵相乘)

++）题目背景：题目描述：输入格式：输出格式：样例输入样例输出：样例解释：子任务：提示：解题思路：思路一（暴力破解）：代码实现代码实现：部分代码解读时间限制：5.0s空间限制：512.0MB题目背景：Softmax

Dream it possible！·2025-03-15 05:41

【PyTorch】torch.nn.functional.log_softmax() 函数：计算 log(softmax)，用于多分类任务

torch.nn.functional.log_softmaxtorch.nn.functional.log_softmax是PyTorch提供的用于计算log(softmax)的函数，通常用于多分类任务和计算交叉熵损失

彬彬侠·2025-03-14 23:54

推荐频道

softmax

预训练语言模型之：Encoder-only PLM

【动手学深度学习】4.2~4.3 多层感知机的实现

BERT-NER-Pytorch 深度学习教程

激活层为softmax时，CrossEntropy损失函数对激活层输入Z的梯度

理解Logits、Softmax和softmax_cross_entropy_with_logits的区别

LLM输出优化秘籍：Dify参数调节技巧大揭秘！

MSE做多分类任务如何

PyTorch张量操作中dim参数的核心原理与应用技巧：

26 - UFO模块

多分类与多标签分类的损失函数

缩放点积模型：如何巧妙化解Softmax梯度消失难题？

机器学习专栏（36）：逻辑回归与Softmax回归全解析（附完整代码与可视化）

【OpenCV】cv::exp函数详解

KV Cache：大模型推理加速的核心机制

人工智能与大模型技术：从理论到实践的黄金指南

人工智能与大模型技术：从理论到实践的黄金指南

triton学习笔记2: 循环优化术

人工智能与大模型技术：从理论到实践的黄金指南

【知识点】大模型面试题汇总（持续更新）

大模型中的KV Cache

python pytorch 模型构造函数、连接函数 通俗版

电商直播实时字幕生成：语音-视觉同步对齐技术详解与实战

pytorch验算CrossEntropyLoss ，BCELoss 和 BCEWithLogitsLoss

Qwen2.5模型结构

【机器学习】gumbel softmax的介绍

李沐《动手学深度学习》softmax回归python代码实现

零基础-动手学深度学习-3.6softmax回归的从零开始实现

Transformer：颠覆性架构的二次革命与全模态实践指南

解密分类模型的核心：Sigmoid与SoftMax的应用与奥秘

人工智能与大模型技术：从理论到实践的黄金指南

Python----深度学习（Softmax与交叉熵）

Neural Network from Scratch in Cangjie: Part 4 - 仓颉从头开始的神经网络：第四部分

nlp面试重点

TensorFlow自然语言处理深度解析：从理论到工业级实践

【人脸识别中的“类内差异”和“类间差异】

LogSoftmax和Softmax的核心区别及使用场景

LLM 优化技术(4)——flash_attention 原理

基于Softmax回归完成鸢尾花分类任务

pytorch调用手写CUDA算子和pybind11的使用

【深度学习】Self-Attention机制详解：Transformer的核心引擎

Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术

c++高性能多进程 cuda编程: safe_softmax实现 + cub::BlockReduce自定义归约操作

知识蒸馏：从软标签压缩到推理能力迁移的工程实践(基于教师-学生模型的高效压缩技术与DeepSeek合成数据创新)

深度学习框架PyTorch——从入门到精通（5）构建神经网络

【深度学习基础】第二十四课：softmax函数的导数

DIFFERENTIAL TRANSFORMER

self-attention为什么要除以根号d_k

算法手撕面经系列(1)--手撕多头注意力机制

CCF CSP 第30次（2023.05）（2_矩阵运算_C++）（暴力破解）(矩阵相乘)

【PyTorch】torch.nn.functional.log_softmax() 函数：计算 log(softmax)，用于多分类任务

python pytorch 模型构造函数、连接函数通俗版