机器学习深度学习神经网络注意力

Python从0到100（三十九）：数据提取之正则（文末免费送书）

想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识

是Dream呀·2025-02-20 17:20

深度学习工厂的蓝图：拆解CUDA驱动、PyTorch与OpenCV的依赖关系

想象一下，你正在建造一座深度学习工厂，这座工厂专门用于高效处理深度学习任务（如训练神经网络）和计算机视觉任务（如图像处理）。

时光旅人01号·2025-02-20 17:46

【CUDA】Pytorch_Extensions

当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA

joker D888·2025-02-20 15:28

Transformer 模型架构

以下是详细解释：1.架构vs框架的区别概念定义示例模型架构定义神经网络的结构设计Transformer、CNN、RNN开发框架提供实现模型的工具和库PyTorch、TensorFlow2.Transformer

2401_89793006·2025-02-20 15:24

《神经网络与深度学习》(邱锡鹏) 内容概要【不含数学推导】

深度学习：一种基于对数据进行表征学习的方法，通过构建具有很多层的神经网络模型，自动从大量数据中学习复杂的模式和特征。第2章机器学习概述基本概念：

code_stream·2025-02-20 13:12

BP 神经网络在考古数据分析中的应用

BP神经网络在考古数据分析中的应用摘要：本文深入探讨了BP神经网络在考古数据分析领域的应用。首先阐述了考古数据分析的重要性以及传统分析方法的局限性。随后详细介绍了BP神经网络的结构、原理与训练算法。

fanxbl957·2025-02-20 13:42

图像识别与应用

图像识别作为人工智能领域的重要分支，近年来取得了显著进展，其中卷积神经网络（CNN）功不可没。

狂踹瘸子那条好脚·2025-02-20 13:10

Mamba超绝创新！搭上异常检测准确率99%+！一区秒了！

但CNN在处理长距离依赖性方面存在困难，Transformer虽然表现出色，但由于其自注意力机制，计算复杂度较高。

人工智能学起来·2025-02-20 13:10

线性回归理论

在神经网络中，线性回归可以看作是一个单层神经网络。通过损失函数来衡量预测值与真实值之间的差异，常用的损失函数包

狂踹瘸子那条好脚·2025-02-20 11:21

基于python深度学习遥感影像地物分类与目标识别、分割实践技术应用

专题一：深度学习发展与机器学习深度学习的历史发展过程机器学习，深度学习等任务的基本处理流程梯度下降算法讲解不同初始化，学习率对梯度下降算法的实例分析从机器学习到深度学习算法专题二深度卷积网络、卷积神经网络

xiao5kou4chang6kai4·2025-02-20 11:20

muzero 算法原理

Muzero算法的核心部分是一个叫做模型的神经网络，它会对游戏的状态进行预测，预测未来的游戏状态。另一部分是策略网络，它会根据当前状态预测每一步的最优决策。

战神哥·2025-02-20 11:45

卷积神经网络之AlexNet经典神经网络，实现手写数字0~9识别

深度学习中较为常见的神经网络模型AlexNet，AlexNet是一个采用GPU训练的深层CNN，本质是种LeNet变体。由特征提取层的5个卷积层两个下采样层和分类器中的三个全连接层构成。

知识鱼丸·2025-02-20 08:24

用 TensorFlow 搭建简单的手写数字识别模型

在这篇博客中，我们将使用TensorFlow构建一个简单的神经网络模型，用于识别手写数字。二、环境准备在开始之前，你需要安

lozhyf·2025-02-20 07:48

训练与优化

训练与优化损失函数与反向传播损失函数能够衡量神经网络输出与目标值之间的误差，同时为反向传播提供依据，计算梯度来优化网络中的参数。torch.nn.L1Loss计算所有预测值与真实值之间的绝对差。

钰见梵星·2025-02-20 04:23

KTransformers如何通过内核级优化、多GPU并行策略和稀疏注意力等技术显著加速大语言模型的推理速度？

KTransformers通过内核级优化、多GPU并行策略和稀疏注意力等技术显著加速大语言模型的推理速度，具体体现在以下几个方面：内核级优化：KTransformers采用了高效的内核级优化技术，包括对

魔王阿卡纳兹·2025-02-20 04:53

【深度学习pytorch-93】Transformer 相比 RNN 的优势

Transformer相比RNN的优势Transformer和RNN（循环神经网络）都是自然语言处理（NLP）领域的重要架构，但它们的工作原理和应用方式有很大不同。

华东算法王·2025-02-20 02:04

Python从0到100（四）：Python中的运算符介绍(补充)

想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识

是Dream呀·2025-02-20 00:24

Python从0到100（三十五）：beautifulsoup的学习

想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识

是Dream呀·2025-02-20 00:24

从零到入门：人工智能学习路径全解析

对于初学者而言，建立正确的认知框架至关重要：1.技术图谱解析：机器学习（ML）：AI的核心驱动力，使计算机具备从数据中学习的能力深度学习（DL）：基于神经网络的进阶技术，擅长处理图像、语音等

这题有点难度·2025-02-19 21:24

从代码到专利：如何用自注意力机制实现高效序列转换？——深度解析Google的Transformer架构

US201816021971A，ATTENTION-BASEDSEQUENCETRANSDUCTIONNEURALNETWORKS一、技术问题：为什么需要自注意力机制？

CodePatentMaster·2025-02-19 21:53

ColD Fusion，分布式多任务微调的协同 “密码”

ColDFusion，分布式多任务微调的协同“密码”发布时间：2025-02-19近日热文：1.全网最全的神经网络数学原理（代码和公式）直观解释2.大模型进化史：从Transformer到DeepSeek-R1

·2025-02-19 20:46

【TVM教程】为 x86 CPU 自动调优卷积网络

·2025-02-19 20:45

【深度学习入门：基于python的理论与实现读书笔记】第五章误差反向传播法

目录摘要第五章误差反向传播法简单层的实现乘法层的实现加法层的实现激活函数层的实现ReLU层Sigmoid层Affine层和Softmax层的实现Affine层Softmax-with-Loss层误差反向传播法的实现摘要该文章简要介绍了神经网络的误差反向传播法

Bin二叉·2025-02-19 19:37

PyTorch与TensorFlow的对比：哪个框架更适合你的项目？

一、概述PyTorch和TensorFlow都是深度学习框架，它们为构建、训练和部署神经网络提供了强大的工具。尽管它们的最终目标相同，但其设计哲学和实现方式有所不同。

木觞清·2025-02-19 18:59

新发布原生稀疏注意力（NSA）机制，重新定义AI效率天花板

大家好，我是Shelly，一个专注于输出AI工具和科技前沿内容的AI应用教练，体验过300+款以上的AI应用工具。关注科技及大模型领域对社会的影响10年+。关注我一起驾驭AI工具，拥抱AI时代的到来。人工智能&AIGC术语100条Shelly聊AI-重磅发布Shelly聊AI：年度展望：2025年AI与社会发展关键事件的深度思考（每年一篇，十年为期）2025年2月18日，中国AI领域迎来一枚“技术

shelly聊AI·2025-02-19 17:51

遥感影像目标检测：从CNN（Faster-RCNN）到Transformer（DETR）

一：深度卷积网络知识1.深度学习在遥感图像识别中的范式和问题2.深度学习的历史发展历程3.机器学习，深度学习等任务的基本处理流程4.卷积神经网络的基本原理5

岁月如歌，青春不败·2025-02-19 15:05

RadioTransformer：用于视觉注意力引导疾病分类的级联全局焦点Transformer

但即使是那些依赖注意力机制的框架，也不会利用这种丰富的领域信息来进行诊断。RadioTransformer通过学习放射科医生的视觉搜索模式，在级联的全局焦点Transfo

托比-马奎尔·2025-02-19 14:24

DeepSeek与ChatGPT：AI语言模型的全面对决

以下从多个维度对两者进行对比分析：一、技术路线与核心优势DeepSeek：算法创新与成本优化混合专家模型（MoE）与MLA技术：DeepSeek采用混合专家模型框架，通过动态选择专家模型处理复杂任务，结合多头潜在注意力机制

芯作者·2025-02-19 08:38

《大模型应用开发极简入门》随记

术语：自然语言处理（NLP)人工智能（AI）大预言模型（LLM）机器学习（ML)深度学习（DL)内容LLM概述ML算法被称为人工神经网络DL是ML的一个分支最先开始简单语言模型吗，例如：n-gram模型

hoypte·2025-02-19 08:34

用deepseek学大模型08-卷积神经网络(CNN)

yuanbao.tencent.com从入门到精通卷积神经网络(CNN),着重介绍的目标函数，损失函数，梯度下降标量和矩阵形式的数学推导，pytorch真实能跑的代码案例以及模型,数据，预测结果的可视化展示

wyg_031113·2025-02-19 07:30

【人工智能】AI现状分析 || 神经网络的数学基础 || 人工智能交叉领域的发展和技术应用 || 附：小白入门人工智能学习步骤

目录1.AI现状分析（人工智能基础入门概念）1.1人工智能基础概念1.2人工智能的技术发展路线1.3产业发展的驱动因素1.4人工智能薪资岗位介绍2.神经网络的数学基础2.1神经网络的生物表示2.2神经网络的数学表示

追光者♂·2025-02-19 05:15

一文读懂！深度学习 + PyTorch 的超实用学习路线

例如，在神经网络中，矩阵乘法用于神经元之间的

a小胡哦·2025-02-19 03:27

Python 用pytorch从头写Transformer源码，一行一解释；机器翻译实例代码；Transformer源码解读与实战

为了解决这个问题，Transformer模型被设计出来，内核思想是利用自注意力机制，这样模型可以直接对输入序列的任意两个位置建立直

医学小达人·2025-02-19 03:24

DeepSeek大模型的发展的十问十答

大模型是由杭州深度求索人工智能基础技术研究有限公司开发的一款基于Transformer架构的大型语言模型，具体介绍如下：1.架构基础Transformer架构：DeepSeek大模型基于Transformer架构，该架构由Google在2017年提出，以自注意力机制为核心

科技互联人生·2025-02-19 00:25

什么是神经网络

概述简而言之，神经网络就是函数：输入数据，输出结果。

jerryjee·2025-02-18 20:09

【有啥问啥】DeepSeek 技术原理详解

DeepSeek技术原理详解DeepSeek是一款具有突破性技术的大型语言模型，其背后的技术原理涵盖了多个方面，以下是对其主要技术原理的详细介绍：架构创新多头潜在注意力机制（MLA）传送门链接:DeepSeekV3

有啥问啥·2025-02-18 19:34

DeepSeek系列模型：高效能推理与多模态处理的技术突破与实践路径

一、高效能推理的核心技术路径轻量化模型架构设计动态稀疏注意力机

张3蜂·2025-02-18 19:00

Decoder-Only、Encoder-Only、Encoder-Decoder 区别

Decoder-Only、Encoder-Only和Encoder-Decoder是三种常见的神经网络架构，主要用于自然语言处理（NLP）任务。它们在结构和应用上有显著的区别。

会喘气的粽子丶·2025-02-18 18:44

【YOLOv11改进- 主干网络】YOLOv11+CSWinTransformer: 交叉窗口注意力Transformer助力YOLOv11有效涨点；

本文给大家带来的改进内容是在YOLOv11中更换主干网络为CSWinTransformer，助力YOLOv11有效涨点，通过创新性地开发了十字形窗口自注意力机制。

算法conv_er·2025-02-18 15:43

【YOLO模型】（1）--YOLO是什么

1.核心思想它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位置。

方世恩·2025-02-18 15:41

神经网络常见激活函数 10-GELU函数

GELU高斯误差线性单元（Gaussianerrorlinearunit）函数+导函数GELU函数的公式(近似表达式)GELU(x)=x∗P(X<=x)=x∗Φ(x)\rmGELU(x)=x*P(X<=x)=x*\Phi(x)GELU(x)=x∗P(X<=x)=x∗Φ(x)其中Φ(x)\Phi(x)Φ(x)指的是x的高斯正太分布的累积分布函数(CDF),进一步地，可得该函数的具体表达为x∗P(X<

亲持红叶·2025-02-18 15:11

深度学习下的图像分割

基于学习的图像分割算法主要依赖于深度神经网络，经典的深度神经网络分为如下几种：2.1卷积神经网络CNN：卷积神经网络是图像处理领域应用最为广泛的网络，其权值共享，局部连接等特性

人工智能大讲堂·2025-02-18 14:01

LSTM-SVM故障诊断 | 基于长短期记忆神经网络-支持向量机多特征分类预测/故障诊断Matlab代码实现

LSTM-SVM故障诊断|基于长短期记忆神经网络-支持向量机多特征分类预测/故障诊断Matlab代码实现完整代码私信回复LSTM-SVM故障诊断|基于长短期记忆神经网络-支持向量机多特征分类预测/故障诊断

机器学习之心·2025-02-18 11:38

OpenCV机器学习（1）人工神经网络 - 多层感知器类cv::ml::ANN_MLP

操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::ml::ANN_MLP是OpenCV库中的一部分，用于实现人工神经网络

村北头的码农·2025-02-18 04:51

《DeepSeek训练算法：开启高效学习的新大门》

Transformer架构的核心是注意力机制，这让模型在处理序列数

·2025-02-18 04:41

DeepSeek推理模型架构以及DeepSeek爆火的原因

大家好，我是微学AI，今天给大家介绍一下DeepSeek推理模型架构以及DeepSeek爆火的原因，DeepSeek推理模型凭借其创新的混合专家（MoE）架构和优化的Transformer架构，融合稀疏注意力机制

微学AI·2025-02-18 03:06

大语言模型（LLM）如何实现上下文的长期记忆？

传统LLM的上下文长度通常受限于计算资源和架构设计（如注意力机制），这限制了其处理长文档或保持复杂对话连续性的能力。本篇文章将深入探讨大语言模型的上下文记忆问题，分析其技术难点，并

·2025-02-18 00:06

python 学习曲线函数_如何使用学习曲线来诊断你的LSTM模型的行为？（附代码）...

LSTM是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。在自然语言处理、语言识别等一系列的应用上都取得了很好的效果。

weixin_39576066·2025-02-17 23:49

翻译Deep Learning and the Game of Go（14）第十二章采用actor-critic方法的强化学习

本章包括:利用优势使强化学习更有效率用actor-critic方法来实现自我提升AI设计和训练Keras的多输出神经网络如果你正在学习下围棋，最好的改进方法之一是让一个水平更高的棋手给你复盘。

idol_watch·2025-02-17 22:16

【漫话机器学习系列】041.信息丢失（dropout）

信息丢失（Dropout）Dropout是一种广泛应用于神经网络训练中的正则化技术，旨在减少过拟合（overfitting），提高模型的泛化能力。

IT古董·2025-02-17 22:40

推荐频道

机器学习深度学习神经网络注意力

Python从0到100（三十九）：数据提取之正则（文末免费送书）

深度学习工厂的蓝图：拆解CUDA驱动、PyTorch与OpenCV的依赖关系

【CUDA】Pytorch_Extensions

Transformer 模型架构

《神经网络与深度学习》(邱锡鹏) 内容概要【不含数学推导】

BP 神经网络在考古数据分析中的应用

图像识别与应用

Mamba超绝创新！搭上异常检测准确率99%+！一区秒了！

线性回归理论

基于python深度学习遥感影像地物分类与目标识别、分割实践技术应用

muzero 算法原理

卷积神经网络之AlexNet经典神经网络，实现手写数字0~9识别

用 TensorFlow 搭建简单的手写数字识别模型

训练与优化

KTransformers如何通过内核级优化、多GPU并行策略和稀疏注意力等技术显著加速大语言模型的推理速度？

【深度学习pytorch-93】Transformer 相比 RNN 的优势

Python从0到100（四）：Python中的运算符介绍(补充)

Python从0到100（三十五）：beautifulsoup的学习

从零到入门：人工智能学习路径全解析

从代码到专利：如何用自注意力机制实现高效序列转换？——深度解析Google的Transformer架构

ColD Fusion，分布式多任务微调的协同 “密码”

【TVM教程】为 x86 CPU 自动调优卷积网络

【深度学习入门：基于python的理论与实现读书笔记】第五章误差反向传播法

PyTorch与TensorFlow的对比：哪个框架更适合你的项目？

新发布原生稀疏注意力（NSA）机制，重新定义AI效率天花板

遥感影像目标检测：从CNN（Faster-RCNN）到Transformer（DETR）

RadioTransformer：用于视觉注意力引导疾病分类的级联全局焦点Transformer

DeepSeek与ChatGPT：AI语言模型的全面对决

《大模型应用开发极简入门》随记

用deepseek学大模型08-卷积神经网络(CNN)

【人工智能】AI现状分析 || 神经网络的数学基础 || 人工智能交叉领域的发展和技术应用 || 附：小白入门人工智能 学习步骤

一文读懂！深度学习 + PyTorch 的超实用学习路线

Python 用pytorch从头写Transformer源码，一行一解释；机器翻译实例代码；Transformer源码解读与实战

DeepSeek大模型的发展的十问十答

什么是神经网络

【有啥问啥】DeepSeek 技术原理详解

DeepSeek系列模型：高效能推理与多模态处理的技术突破与实践路径

Decoder-Only、Encoder-Only、Encoder-Decoder 区别

【YOLOv11改进- 主干网络】YOLOv11+CSWinTransformer: 交叉窗口注意力Transformer助力YOLOv11有效涨点；

【YOLO模型】（1）--YOLO是什么

神经网络常见激活函数 10-GELU函数

深度学习下的图像分割

LSTM-SVM故障诊断 | 基于长短期记忆神经网络-支持向量机多特征分类预测/故障诊断Matlab代码实现

OpenCV机器学习（1）人工神经网络 - 多层感知器类cv::ml::ANN_MLP

《DeepSeek训练算法：开启高效学习的新大门》

DeepSeek推理模型架构以及DeepSeek爆火的原因

大语言模型（LLM）如何实现上下文的长期记忆？

python 学习曲线函数_如何使用学习曲线来诊断你的LSTM模型的行为？（附代码）...

翻译Deep Learning and the Game of Go（14）第十二章 采用actor-critic方法的强化学习

【漫话机器学习系列】041.信息丢失（dropout）

【人工智能】AI现状分析 || 神经网络的数学基础 || 人工智能交叉领域的发展和技术应用 || 附：小白入门人工智能学习步骤

翻译Deep Learning and the Game of Go（14）第十二章采用actor-critic方法的强化学习