人工智能深度学习注意力神经网络第2页

Python中LLM的稀疏Transformer架构：Longformer与BigBird

文章目录1.Transformer架构的挑战2.稀疏Transformer架构的提出2.1Longformer2.1.1局部注意力2.1.2全局注意力2.1.3实现2.2BigBird2.2.1随机注意力

二进制独立开发·2025-02-17 22:36

《高效学习法：如何通过“案例学习法”提升应用能力？》

课堂上，我拼命想要集中注意力，可思绪总是不由自主地飘走。老师讲的内容，我只能一知半解，笔记也记得乱七八糟。

·2025-02-17 20:00

MobPush智能推送系统的用户行为分析：驱动精准运营的核心引擎

MobPush智能推送系统的用户行为分析：驱动精准运营的核心引擎在移动应用竞争白热化的今天，用户注意力成为最稀缺的资源。

·2025-02-17 20:59

AIMv2：多模态自回归预训练的视觉新突破

AIMv2：多模态自回归预训练的视觉新突破阅读时长：19分钟发布时间：2025-02-17近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM

·2025-02-17 20:28

一文理解大模型，并对当前流行模型做对比

大模型就像是一个“超级智能大脑”，它通过海量数据和复杂的计算结构（比如神经网络）学习人类语言、图像、声音等信息的规律。

Jing_saveSlave·2025-02-17 19:41

计算机视觉中图像的基础认知

第一章：计算机视觉中图像的基础认知第二章：计算机视觉：卷积神经网络(CNN)基本概念(一)第三章：计算机视觉：卷积神经网络(CNN)基本概念(二)第四章：搭建一个经典的LeNet5神经网络一、图像/视频的基本属性在计算机视觉中

全栈你个大西瓜·2025-02-17 15:38

【深度学习】计算机视觉（CV）-图像分类-ResNet（Residual Network，残差网络）

ResNet（ResidualNetwork，残差网络）是一种深度卷积神经网络（CNN）架构，由何恺明（KaimingHe）等人在2015年提出，最初用于ImageNet竞赛，并在分类任务上取得了冠军。

IT古董·2025-02-17 14:57

【深度学习基础】什么是注意力机制

文章目录一、注意力机制的核心地位：从补充到主导二、技术突破：从Transformer到多模态融合三、跨领域应用：从NLP到通用人工智能四、未来挑战与趋势结语参考链接注意力机制：深度学习的核心革命与未来基石在深度学习的发展历程中

我的青春不太冷·2025-02-17 14:26

Python 循环神经网络（RNN）算法详解与应用案例

目录Python循环神经网络（RNN）算法详解与应用案例引言一、RNN的基本原理1.1RNN的结构1.2RNN的优势与挑战二、Python中RNN的面向对象实现2.1`RNNCell`类的实现2.2`RNNModel

闲人编程·2025-02-17 13:48

DeepSeek 混合专家（MoE）架构技术原理剖析

在这个团队里，每个专家都是一个小型神经网络，各自擅长处理特定

计算机学长·2025-02-17 13:15

使用多模态大语言模型进行深度学习的图像、文本和语音数据增强

在过去的五年里，研究方向已从传统的机器学习（ML）和深度学习（DL）方法转向利用大语言模型（LLMs），包括多模态方法，用于数据增强，以提高泛化能力，并在训练深度卷积神经网络时防止过拟合。

数行天下·2025-02-17 12:42

【论文精读】Sparse4D v2: Recurrent Temporal Fusion with Sparse Model

2存在的问题2.1其他稀疏3D检测的问题PETR是query-based方法，但是为了实现特征融合，进行了全局注意力机制，导致高计算量。

EEPI·2025-02-17 12:36

DeepSeek底层揭秘——多头潜在注意力MLA

目录1.多头潜在注意力（MLA）2.核心功能3.技术要素4.难点挑战暨含解决方案5.技术路径6.应用场景7.实际案例：DeepSeek8.最新研究与技术进展9.未来趋势猫哥说1.多头潜在注意力（MLA）

9命怪猫·2025-02-17 11:33

全面解析：AI大模型入门教程，让你的学习之路不再迷茫，这个大模型学习路线非常详细收藏这篇就够了！

基础知识大模型概述定义：AI大模型是一种拥有海量参数和强大计算能力的神经网络模型，能够处理复杂的数据和任务。应用：广泛应用于自然语言处理、图像识别、生成等领域。学习大模型的意义提升技术能力：掌握大模

AGI大模型老王·2025-02-17 11:03

第N11周：seq2seq翻译实战-Pytorch复现

搭建语言类2.文本处理函数3.文件读取函数二、Seq2Seq模型1.编码器（encoder）2.解码器（decoder）三、训练1.数据预处理2.训练函数3.评估四、评估与训练1.Loss图2.可视化注意力五

计算机真好丸·2025-02-17 07:57

AI大模型的技术突破与传媒行业变革

这一突破的核心在于三大技术创新：MoE架构升级：通过部署256个细粒度专家网络，减少知识冗余，提升模型效率；MLA注意力机制：动态压缩推理过程中的缓存需求，降低GPU内存

AIQL·2025-02-17 07:52

神经网络常见激活函数 12-Swish函数

Swish函数+导函数Swish函数Swish(x)=x⋅σ(βx)=x1+e−βx\begin{aligned}\rmSwish(x)&=x\cdot\sigma(\betax)\\&=\frac{x}{1+e^{-\betax}}\end{aligned}Swish(x)=x⋅σ(βx)=1+e−βxxSwish函数导数ddxSwish=(x⋅σ(βx))′=σ(βx)+x⋅(σ(βx))′∵

亲持红叶·2025-02-17 05:37

【Stable Diffusion部署至GNU/Linux】安装流程

显卡与计算架构介绍CUDA是NVIDIAGPU的专用并行计算架构技术层级说明CUDAToolkit提供GPU编译器(nvcc)、数学库(cuBLAS)等开发工具cuDNN深度神经网络加速库（需单独下载）

星星点点洲·2025-02-17 00:34

轻量级的注意力网络（LANMSFF）模型详解及代码复现

注意力机制：引入了一种新的注意力机制，能够有效地捕捉图像中的关键特征，提高模型的表达能力。多尺度特

清风AI·2025-02-17 00:02

深度学习（1)-简单神经网络示例

我们来看一个神经网络的具体实例：使用Python的Keras库来学习手写数字分类。在这个例子中，我们要解决的问题是，将手写数字的灰度图像（28像素×28像素）划分到10个类别中（从0到9）。

yyc_audio·2025-02-16 21:41

人工智能的本质解构：从二进制桎梏到造物主悖论

即使深度神经网络看似模拟人脑突触，其本质仍是矩阵乘法的迭代游戏——波士顿动力机器人的空翻动作不过是微分方程求解的物理引擎呈现，AlphaGo的围棋神话只是蒙特卡洛树搜索的概率统计。

Somnolence.·.·.·.·2025-02-16 18:18

文本生成型人工智能：逻辑算法与文字组合的重构艺术

一、数据训练：从概率统计到仿生逻辑的跨越文本生成型AI的核心在于通过神经网络模型对语言

Somnolence.·.·.·.·2025-02-16 17:13

麒麟SoC的详细架构组成介绍

目录麒麟SoC的主要组成部分1.应用处理器（ApplicationProcessor,AP）2.图形处理单元（GPU）3.神经网络处理单元（NPU）4.图像信号处理器（ISP）5.调制解调器（Modem

小蘑菇二号·2025-02-16 16:33

AI：236-基于RCS-OSA的YOLOv8改进 | 增强空间对象注意力实现小物体检测精度提升

本文收录于专栏：精通AI实战千例专栏合集https://blog.csdn.net/weixin_52908342/category_11863492.html从基础到实践，深入学习。无论你是初学者还是经验丰富的老手，对于本专栏案例和项目实践都有参考学习意义。每一个案例都附带关键代码，详细讲解供大家学习，希望可以帮到大家。正在不断更新中~文章目录1.通过RCS-OSA替换C2f实现暴力涨点2.理论

一键难忘·2025-02-16 13:14

AI 大模型创业：如何利用市场优势？

大模型是指在特定领域中应用广泛、参数量巨大的神经网络模型，如BERT、GPT-3、DALL-E等。

SuperAGI2025·2025-02-16 12:37

字节跳动实习生和校招生内推

机器学习算法实习生-平台治理1、2026届硕士及以上学位在读，计算机等相关专业优先；2、有扎实的代码能力，熟悉深度学习/图神经网络/机器学习框架，如Pytorch、Tensorflow、DGL、Pyg、

飞300·2025-02-16 10:15

清华大学KVCache.AI团队联合趋境科技联合的KTransformers开源项目为什么那么厉害

以下是KTransformers的详细介绍：1.核心特点高性能优化：KTransformers通过内核级优化、多GPU并行策略和稀疏注意力等技术，显著加速模型推理速度，降低硬件门槛。

魔王阿卡纳兹·2025-02-16 03:52

DQN的原理和代码实现

DQN结合了Q学习和深度学习，通过使用神经网络来近似Q值函数，解决了传统Q学习在高维状态空间中的问题。2.DQN的训练步骤2.1初始化环境：定义环境（例如，Atari游戏

SmallerFL·2025-02-15 15:23

【python语言应用】最新全流程Python编程、机器学习与深度学习实践技术应用（帮助你快速了解和入门 Python）

理解和掌握深度学习的基础知识，深入了解其与经典机器学习算法的区别与联系，并系统掌握包括迁移学习、循环神经网络（RNN）、长短时记忆网络（L

赵钰老师·2025-02-15 14:20

短视频矩阵系统源码接口新规搭建部署分享

用户粘性增强：短视频通常节奏快，信息量大，能够快速吸引并保持用户的注意力，形成持续的观看习惯。数据驱动运营：短视频平台提

会飞的程序猿丫·2025-02-15 13:42

点云从入门到精通技术详解100篇-基于 CBCT 与口内扫描数据的牙齿点云配准

目录前言国内外研究现状传统牙齿配准点云配准2牙齿数据的深度学习点云配准基础2.1牙齿数据获取方法2.1.1口腔印模2.1.2辐射成像2.1.3口内扫描2.2深度学习网络2.2.1全连接神经网络2.2.2

格图素书·2025-02-15 12:01

PyTorch入门实战：从零搭建你的第一个神经网络

二、环境搭建：5分钟快速安装三、核心概念：张量与自动求导1.张量（Tensor）：深度学习的数据基石2.自动求导（Autograd）：神经网络训练的核心四、实战：手写数字识别（MNIST）1.数据集加载与预处理

不打滑的西瓜皮·2025-02-15 08:58

基于深度学习YOLOv8的海洋动物检测系统（Python+PySide6界面+训练代码）

深度学习，尤其是卷积神经网络（CNN）的出现，极大地提高了计算机处理图像和视频的能力。

深度学习&目标检测实战项目·2025-02-15 04:57

Bengio新作Aaren：探索Transformer性能与RNN效率的融合

论文链接：https://arxiv.org/pdf/2405.13956一、摘要总结：本文提出了一种新的注意力机制，名为Aaren，它将注意力视为一种特殊的递归神经网络（RNN），能够高效地计算其多对一

AI记忆·2025-02-15 03:17

发文新思路！双通道CNN的惊人突破，准确率接近100%！

双通道CNN作为一种创新的卷积神经网络架构，正引领深度学习领域的新趋势。其核心优势在于并行卷积层设计，能够同时处理更多特征信息，从而显著提升模型的特征表示能力和识别精度。

沃恩智慧·2025-02-15 03:45

基于华为自研NPU Ascend 910的TensorFlow 1.x训练脚本迁移和使能混合精度记录

硬件介绍华为自研NPUAscend910，即昇腾910AI处理器（简称NPU），根据官方介绍，是在2019年发布的人工智能（AI）专用的神经网络处理器，其算力高达256T，最新款算力高达310T，是业界主流芯片算力的

Tianyi Li 1997·2025-02-15 02:07

一个基于python的简化版深度学习框架，包括深度学习神经网络的设计和深度学习模型的设计，适用于中小型项目的开发和实现

一、运用Python技术开发深度学习框架需要具备的基础知识总结开发一个基于Python的深度学习框架是一个复杂的任务，需要具备多方面的基础知识。以下是一些关键领域的总结，帮助你更好地准备和理解开发深度学习框架所需的知识。1.Python编程基础语法和数据结构：掌握Python的基本语法、数据类型（如列表、字典、元组等）和控制流（如循环、条件语句等）。函数和模块：理解函数的定义和使用，以及如何组织代

大懒猫软件·2025-02-14 22:43

焦损函数（Focal Loss）与RetinaNet目标检测模型详解

焦损函数（FocalLoss）与RetinaNet目标检测模型详解阅读时长：19分钟发布时间：2025-02-14近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容

·2025-02-14 22:31

一个AI应用的开发、上线流程解析

文件格式1.3.mindir文件格式1.4.onnx文件格式2.推理（Inference）2.1.pth(PyTorch模型格式)2.2.mindir(MindSpore模型格式)2.3.onnx(开放神经网络交换格式

終不似少年遊*·2025-02-14 17:03

【深入探讨 ResNet：解决深度神经网络训练问题的革命性架构】

深入探讨ResNet：解决深度神经网络训练问题的革命性架构随着深度学习的快速发展，卷积神经网络（CNN）已经成为图像识别、目标检测等计算机视觉任务的主力军。

机器学习司猫白·2025-02-14 16:26

LowCode 低代码平台集成 AI 大模型会产生怎样的化学反应？

而AI大模型（AIBigModel）则是一种利用深度学习技术构建的大规模神经网络，它可以对海量数据进行训练和预测，从而实现各种智能化的应用。本文将探讨低代码平台集成AI大模型

AI天才研究院·2025-02-14 15:43

上下文扩展技术-详细解释Longformer和BigBird的主要创新；详细说明bert原理，并说一说他的上下文限制是怎么来的

答案LongformerLongformer是为有效处理长文本序列而设计的Transformer模型，它通过结合滑动窗口注意力机制和扩张注意力模式来捕捉局部和远距离的上下文信息，并通过全局注意力来捕捉整个文档的广泛背景和联系

AI生成曾小健·2025-02-14 12:22

【机器学习】探索未来科技的前沿：人工智能、机器学习与大模型

机器学习的定义2.2机器学习的分类2.3机器学习的实现原理2.4机器学习的应用2.5机器学习的示例代码2.6解释代码三、大模型：推动AI前沿发展的关键技术3.1大模型的定义3.2大模型的发展历程3.3深度学习与神经网络

E绵绵·2025-02-14 11:18

26、深度学习-自学之路-NLP自然语言处理-理解加程序，怎么把现实的词翻译给机器识别。

一、怎么能让机器能够理解我们的语言呢，我们可以利用神经网络干很多的事情，那么我们是不是也可以用神经元做自然语言处理呢，现在很多的实际应用已经说明了这个问题，可以这么做。

小宇爱·2025-02-14 11:17

25、深度学习-自学之路-卷积神经网络基于MNIST数据集的程序展示

importkeras#添加Keraskuimportsys,numpyasnpfromkeras.utilsimportnp_utilsimportosfromkeras.datasetsimportmnistprint("licheng："+"20"+'\n')np.random.seed(1)(x_train,y_train),(x_test,y_test)=mnist.load_data(

小宇爱·2025-02-14 11:47

24、深度学习-自学之路-卷积神经网络

一、你怎么理解卷积神经网络呢，我的理解是当你看一个东西的时候，你的眼睛距离图片越近，你看到的东西就越清晰，但是如果你看到的图片只是整个物体的一小部分，那么你将不知道你看到的物品是什么，因为关注整体更容易知道物品是什么

小宇爱·2025-02-14 11:46

深度学习-10-深度学习发展简介

他曾在1969年出版了Perceptron（感知器）一书，指出了神经网络技术（就是深度学习的前身）的局限

皮皮冰燃·2025-02-14 10:43

【故障诊断】基于RIME-CNN-SVM霜冰算法优化卷积神经网络结合支持向量机的故障诊断模型（matlab)

【故障诊断】基于RIME-CNN-SVM霜冰算法优化卷积神经网络结合支持向量机的故障诊断模型（matlab)文章目录【故障诊断】基于RIME-CNN-SVM霜冰算法优化卷积神经网络结合支持向量机的故障诊断模型

天天科研工作室·2025-02-14 10:12

cnn以及例子

cnnCNN即卷积神经网络（ConvolutionalNeuralNetwork），是一种专门为处理具有网格结构数据（如图像、音频）而设计的深度学习模型，在计算机视觉、语音识别等诸多领域都有广泛应用。

阿拉斯攀登·2025-02-14 10:41

大脑神经网络与机器神经网络的区别

大脑神经网络（生物神经网络）与机器神经网络（人工神经网络，ANN）虽然名称相似，但在结构、功能、学习机制等方面存在显著差异。

天机️灵韵·2025-02-14 10:40

推荐频道

人工智能深度学习注意力神经网络