机器学习深度学习神经网络注意力第5页

深度学习批次数据处理的理解

基础介绍在计算机视觉深度学习网络中，在训练阶段数据输入通常是一个批次，即不是一次输入单张图片，而是一次性输入多张图片，而神经网络的结构内部一次只能处理一张图片，这时候很自然就会考虑为什么要这样的输入？

_DCG_·2025-02-26 22:28

技术硬核：突出FP8、3倍速度、90%成本暴降等技术参数，强化可信度

DeepSeek近期开源项目详细分析1.FlashMLA：大模型推理效率革命技术特点：首个开源项目FlashMLA是针对英伟达Hopper架构GPU（如H800）优化的高效多头潜在注意力（MLA）解码内核

guzhoumingyue·2025-02-26 20:45

AI岗位面试指南：高频文档问题解析与应答策略

应答框架：背景与目标："项目源于客户需要将文本生成延迟从2秒压缩至800ms以内，同时保证BLEU分数不低于0.82"技术创新点："采用知识蒸馏+动态量化方案，设计分层注意力裁剪策略"量化成果："推理速度提升

阿三0812·2025-02-26 19:07

HarmonyOS Next典型布局案例：运营横幅（Banner）

在HarmonyOSNext应用开发中，运营横幅（Banner）是吸引用户注意力、展示重要信息的关键元素。而Swiper组件则是实现Banner轮播效果的得力助手。今天，咱

·2025-02-26 19:02

云原生周刊：云原生和 AI

FlashMLA是专为NVIDIAHopper架构GPU（如H100、H800）优化的高效多头潜在注意力（MLA）解码内核，旨在提升大模型推理性能，特别是针对可变长度序列进行了优化。

·2025-02-26 19:58

【人工智能数学基础篇】线性代数基础学习：深入解读矩阵及其运算

矩阵不仅在数据科学中广泛应用，更是神经网络、图像处理、自然语言处理等领域的重要工具。

猿享天开·2025-02-26 14:33

大模型知识蒸馏：技术突破与应用范式重构——从DeepSeek创新看AI基础设施演进路径

大模型服务器厂商·2025-02-26 13:20

训练神经网络出现nan

在理解和修改QARV的代码时，出现了训练会因为nan而终止的问题，因此学习记录。参考资料Pytorch训练模型损失Loss为Nan或者无穷大（INF）原因Pytorch训练模型损失Loss为Nan或者无穷大（INF）原因_pytorchnan-CSDN博客文章浏览阅读5.6w次，点赞135次，收藏489次。常见原因-1一般来说，出现NaN有以下几种情况：相信很多人都遇到过训练一个deepmodel

崧小果·2025-02-26 11:12

【TVM教程】为 NVIDIA GPU 自动调度神经网络

本文介绍如何使用auto-scheduler为NVIDIAGPU调优整个神经网络。为自动调优神经网络，需要将网络划分为小的子图并独立调优。每个子图被视为

HyperAI超神经·2025-02-26 09:57

从零开始玩转TensorFlow：小明的机器学习故事 4

有一天，小明在学校图书馆翻看杂志时，看到这样一句话：“就像人的大脑有上百亿神经元，神经网络能够学习复杂的信息映射，从而取得卓越的表现。”他瞬间来了灵感：“或许我

山海青风·2025-02-26 07:42

GAN（Generative Adversarial Network）—生成对抗网络

GAN（GenerativeAdversarialNetwork）代表了深度学习中生成建模的尖端方法，通常利用卷积神经网络等架构。

算法资料吧！·2025-02-26 06:06

在PyTorch中使用插值法来优化卷积神经网络（CNN）所需硬件资源

适用场景：在卷积神经网络（CNN）中的应用场景中，经常遇到计算资源有限，比如显存不够或者处理速度慢，需要用插值来降低计算量。

mosquito_lover1·2025-02-26 03:45

BP算法的python实现 + 男女生分类器

BP算法是神经网络中十分经典的算法之一，要把它解释清楚实在需要很多时间，我只想重点讲一下基于BP算法的男女生分类器python实现，理论方面推荐看知乎大

乐宝不是酒·2025-02-26 00:21

Pytorch:以CIFAR-10分类为例，给出了神经网络的训练流程

下面给出了神经网络的训练流程，包括数据加载与预处理、网络定义、损失函数和优化器定义、网络训练和网络测试。

Xiao_Ya__·2025-02-25 23:49

梯度累加（结合DDP）梯度检查点

梯度累加目的梯度累积是一种训练神经网络的技术，主要用于在内存有限的情况下处理较大的批量大小（batchsize）。

糖葫芦君·2025-02-25 23:16

Tensorflow2.x框架-神经网络八股扩展-acc曲线与loss曲线

loss/loss可视化，可视化出准确率上升、损失函数下降的过程博主微信公众号（左）、Python+智能大数据+AI学习交流群（右）：欢迎关注和加群，大家一起学习交流，共同进步！目录摘要一、acc曲线与loss曲线二、完整代码摘要loss/loss可视化，可视化出准确率上升、损失函数下降的过程一、acc曲线与loss曲线history=model.fit(训练集数据,训练集标签,batch_siz

诗雨时·2025-02-25 23:15

卷积神经网络八股（一）------20行代码搞定鸢尾花分类

卷积神经网络八股（一）------20行代码搞定鸢尾花分类引言用TensorflowAPI：tf.keras实现神经网络搭建八股Sequential的用法compile的用法fit的用法（batch是每次喂入神经网络的样本数

有幸添砖java·2025-02-25 22:11

深度学习笔记——循环神经网络RNN

本文详细介绍面试过程中可能遇到的循环神经网络RNN知识点。

好评笔记·2025-02-25 22:10

第三讲-神经网络八股

一、搭建神经网络六部法tf.keras搭建神经网络六部法1、import相关模块 2、train,test #训练集、测试集3、model=tf.keras.models.Sequential #逐层搭建网络结构

loveysuxin·2025-02-25 22:38

神经网络八股（3）

1.什么是梯度消失和梯度爆炸梯度消失是指梯度在反向传播的过程中逐渐变小，最终趋近于零，这会导致靠前层的神经网络层权重参数更新缓慢，甚至不更新，学习不到有用的特征。

SylviaW08·2025-02-25 22:37

机器学习笔记——特征工程

好评笔记·2025-02-25 22:37

【PyTorch 实战2：UNet 分割模型】10min揭秘 UNet 分割网络如何工作以及pytorch代码实现（详细代码实现）

UNet是一种常用于图像分割的卷积神经网络架构，其特点在于其U型结构，包括一个收缩路径

xiaoh_7·2025-02-25 22:37

【PyTorch项目实战】图像分割 —— U-Net：Semantic segmentation with PyTorch

、环境搭建2.1.1、下载源码2.1.2、下载预训练模型2.1.3、下载训练集2.2、环境配置2.3、代码优化+架构优化2.4、模型预测：predict.pyU-Net是一种用于生物医学图像分割的卷积神经网络架构

胖墩会武术·2025-02-25 21:04

【YOLOv11改进[注意力]】引入YOLOv12的A2C2f模块改进v11

目录一YOLOv121区域注意力(AreaAttention)2R-ELAN(残差高效层聚合网络)3架构优化4实验二魔改YOLOv111整体修改

Jackilina_Stone·2025-02-25 19:20

为AI聊天工具添加一个知识系统之122 详细设计之63 实体范畴论和神经元元模型：命名法函子

神经元元模型（三层含义）暨三种神经网络构造型既神经元三个功能约束即神经细胞元元模型。”注：第一行是实体的范畴论的三种论法。

一水鉴天·2025-02-25 16:59

月之暗面开源新一代注意力机制：处理1000万token能快16倍，已在Kimi上进行验证

❤️如果你也关注AI的发展现状，且对AI应用开发感兴趣，我会每日分享大模型与AI领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！AI在线答疑->智能检索历史文章和开源项目->尽在微信公众号->搜一搜：蚝油菜花「你的LLM还在为长文本「爆内存」？Moonshot突破性方案：千万token推理速度提升16倍！」大家好，我是蚝油菜花。当同行还在为以下问题头疼时——32k上下文跑批处

蚝油菜花·2025-02-25 15:53

论文学习3：深度学习增强的光声成像（PAI）的最新进展（综述）

详细说明代表性DL架构：卷积神经网络（CNN）、U-形神经网络（U-Net）和

superace7911·2025-02-25 15:50

即插即用的注意力机制21种

提示：谬误之处请指出更正摘要随着深度学习特别是自然语言处理领域的飞速发展，注意力机制（AttentionMechanism）已成为提升模型表现的关键技术，本文主要记录了即插即用的注意力机制结构的功能、出处及核心代码

@Mr_LiuYang·2025-02-25 14:40

GPT-2源码实现及GPT-3、GPT-3.5、GPT-4及GPT-5内幕解析(二)

NLP_Matrix_Space5.2GPT-2源码实现逐行解析本节讲解GPT-2源码，gpt2.py是一个使用NumPy实现的代码，在代码中实现了GELU激活函数、softmax函数、层归一化、线性层、前馈神经网络

段智华·2025-02-25 09:35

PyTorch实现DARTS：可微分架构搜索指南

DARTS（DifferentiableArchitectureSearch）是一种创新的神经网络架构

余伊日Estra·2025-02-25 05:07

神经网络与深度学习入门：理解ANN、CNN和RNN

shandianfk_com·2025-02-25 03:49

深度学习与搜索引擎优化的结合：DeepSeek的创新与探索

目录引言1.传统搜索引擎的局限性2.深度学习在搜索引擎中的作用3.DeepSeek实现搜索引擎优化的关键技术3.1神经网络与搜索引擎优化3.2自然语言处理与查询理解3.3深度强化学习与搜索结果排序4.DeepSeek

m0_74825634·2025-02-25 01:37

深度学习入门篇--来瞻仰卷积神经网络的鼻祖LeNet

B站视频讲解:深度学习入门篇:使用pytorch搭建LeNet网络并代码详解实战前言大家在学习神经网络的时候肯定会有这样的感受,有很多的文章和视频,有的文章也很好,但是总是不成体系,总是学起来东一榔锤,

智算学术·2025-02-25 00:31

轻量级网络设计原理与代码实战案例讲解

轻量级网络设计原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习在各个领域的广泛应用，神经网络模型变得越来越庞大和复杂

AI天才研究院·2025-02-25 00:00

YOLOv12：以注意力为中心的物体检测

那雨倾城·2025-02-24 23:21

大模型学习完整路径（一站式汇总），从零基础到精通！新手友好级指南

先来一张整体结构图，越是下面部分，越是基础：可以按以下步骤学习：1.理解基础概念需要了解深度学习的基本原理和常见术语，如神经网络、梯度下降、反向传播、监督学习、无监督学习、分类、回归、聚类

Python程序员罗宾·2025-02-24 22:45

DeepSeek-R1秘籍轻松迁移，只需原始数据0.3% | 邱锡鹏团队联合出品

DeepSeek-R1背后关键——多头潜在注意力机制（MLA），现在也能轻松移植到其他模型了！而且只需原始数据的0.3%~0.6%。

·2025-02-24 19:13

TMI‘24 | 注意力感知的非刚性图像配准加速磁共振成像

论文信息题目：Attention-AwareNon-RigidImageRegistrationforAcceleratedMRImaging注意力感知的非刚性图像配准加速磁共振成像作者：AyaGhoul

小白学视觉·2025-02-24 17:11

为什么词向量和权重矩阵dot运算就能得到想要的效果呢？

词向量（WordEmbeddings）和权重矩阵的点积运算之所以能够帮助我们实现特定的效果，主要是因为它们在神经网络架构中扮演的角色以及背后的数学原理。

cjl30804·2025-02-24 15:02

浅显介绍图像识别的算法卷积神经网络（CNN）中的激活函数

激活函数的作用激活函数在神经网络中扮演着至关重要的角色，其主要作用包括但不限于以下几点：引入非线性：如果没有激活函数或仅使用线性激活函数，无论神经网络有多少层或多复杂，整个模型仍然只能表达线性映射。

cjl30804·2025-02-24 15:31

Engineering A Large Language Model From Scratch

Atinuke是一种基于Transformer的神经网络，通过使用独特的配置来优化各种语

UnknownBody·2025-02-24 15:31

深度学习（5）-卷积神经网络

我们将深入理解卷积神经网络的原理，以及它为什么在计算机视觉任务上如此成功。我们先来看一个简单的卷积神经网络示例，它用干对MNIST数字进行分类。

yyc_audio·2025-02-24 14:26

深度学习（2)-深度学习关键网络架构

关键网络架构深度学习有4种类型的网络架构：密集连接网络、卷积神经网络、循环神经网络和Transformer。

yyc_audio·2025-02-24 14:26

如何在Java中实现多头注意力机制：从Transformer模型入手

如何在Java中实现多头注意力机制：从Transformer模型入手大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！

省赚客app开发者·2025-02-24 14:26

Transformer大模型实战教师学生架构

其中，Transformer模型作为一种基于自注意力机制的深度神经网络结构，因其优越的性能和灵活的适用性，在NLP任务中得到了广泛应用。然而，Trans

AI智能涌现深度研究·2025-02-24 14:19

如何在Java中设计高效的Transformer模型架构

Transformer的核心在于其自注意力机制和位置编码，它使得模型能够处理长距离依赖，并有效地进行序列到序列的转换。本文将介绍如何在Ja

省赚客app开发者·2025-02-24 13:43

LLM的MoE架构的“动态路由”为什么能训练出来？

以下是具体原因和技术原理的解析：一、动态路由的可微分性与端到端优化门控网络的可训练性动态路由的核心是门控网络（GatingNetwork），它是一个可训练的神经网络，通过输入数据生成专家权重分布。

互联网之路.·2025-02-24 09:46

解锁机器学习核心算法｜朴素贝叶斯：分类的智慧法则

这十大算法包括线性回归、逻辑回归、决策树、随机森林、K-近邻算法、K-平均算法、支持向量机、朴素贝叶斯算法、主成分分析（PCA）、神经网络。

紫雾凌寒·2025-02-24 08:05

深入探索连续变量量子神经网络：开启量子计算新纪元

深入探索连续变量量子神经网络：开启量子计算新纪元quantum-neural-networksThisrepositorycontainsthesourcecodeusedtoproducetheresultspresentedinthepaper"Continuous-variablequantumneuralnetworks

倪姿唯Kara·2025-02-23 23:08

YOLOv8与DAttention机制的融合：复杂场景下目标检测性能的增强

文章目录1.YOLOv8简介2.DAttention(DAT)注意力机制概述2.1DAttention机制的工作原理3.YOLOv8与DAttention(DAT)的结合3.1引入DAT的动机3.2集成方法

向哆哆·2025-02-23 21:22

推荐频道

机器学习深度学习神经网络注意力