E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
TRANSFORMER
论文阅读笔记——π0: A Vision-Language-Action Flow Model for General Robot Control
架构受到Transfusion的启发:通过单一
Transformer
处理多目标任务
寻丶幽风
·
2025-03-13 01:33
论文阅读笔记
论文阅读
笔记
人工智能
机器人
语言模型
Adobe Firefly 技术浅析(二):
Transformer
生成模型
AdobeFirefly的图像生成技术不仅依赖于生成式对抗网络(GAN),还引入了基于
Transformer
的生成模型。
爱研究的小牛
·
2025-03-12 20:32
AIGC——图像
transformer
深度学习
人工智能
AIGC
机器学习
基于hf的trl框架的deepseek-r1-zero实现与训练
导入模块和promt格式"""Reference:"""importreimporttorchfromdatasetsimportload_dataset,Datasetfrom
transformer
simportAutoTokenizer
喂喂喂喂位
·
2025-03-12 20:00
deepseek
python
AIGC
如何增强机器学习基础,提升大模型面试通过概率
我的好朋友没有通过面试所以我给我的好朋友准备了这一篇学习路线随着大模型(如
Transformer
、GPT-4、LLaMA等)在自然语言处理(NLP)、计算机视觉(CV)和多模态任务中的广泛应用,AI行业的招聘竞争愈发激烈
weixin_40941102
·
2025-03-12 19:55
机器学习
面试
人工智能
Transformer
的原理是什么?
环境:
Transformer
问题描述:
Transformer
的原理是什么?通俗易懂一点。
玩人工智能的辣条哥
·
2025-03-12 11:08
人工智能
transformer
深度学习
人工智能
扩散
Transformer
策略:用于通才视觉-语言-动作学习的规模化扩散
Transformer
25年2月来自上海AI实验室、浙大、香港中文大学、北大、商汤科技、清华和中科院香港科学创新研究院的论文“Diffusion
Transformer
Policy:ScalingDiffusion
Transformer
forGeneralistVision-Language-ActionLearning
三谷秋水
·
2025-03-12 10:27
计算机视觉
大模型
智能体
transformer
深度学习
计算机视觉
语言模型
人工智能
机器学习
LLM大模型技术实战4:热门开源LLMs对比和选型
1.1主要特点架构特点LLM主要基于
Transformer
架构,
Transformer
通过自注意力机制(Self-Attention)
大模型学习教程
·
2025-03-12 08:44
机器学习
开源
人工智能
职场和发展
大模型面试--大模型(LLMs)基础面
目前主流的开源大模型体系有以下几种:1.
Transformer
系列
Transformer
模型是深度学习中的一类重要模型,尤其在自然语言处理(NLP)领域。
TAICHIFEI
·
2025-03-12 08:13
大模型面试
语言模型
人工智能
【每日论文】Forgetting
Transformer
: Softmax Attention with a Forget Gate
虽然
Transformer
没有显式的循环形式,但我们展示了一种通过以数据依赖的方式降低未归一化注意力分数的自然方法,将遗忘门融入
Transformer
。我们称这种注意力机制为“遗忘注意力”,并
WHATEVER_LEO
·
2025-03-12 08:12
每日论文
transformer
深度学习
人工智能
自然语言处理
计算机视觉
语言模型
【AI深度学习网络】
Transformer
时代,RNN(循环神经网络)为何仍是时序建模的“秘密武器”?
引言:什么是循环神经网络(RNN)?循环神经网络(RecurrentNeuralNetwork,RNN)是一种专门处理序列数据(如文本、语音、时间序列)的深度学习模型。与传统神经网络不同,RNN具有“记忆”能力,能够通过内部状态(隐藏状态)保留历史信息,从而捕捉序列中的时间依赖关系。在自然语言处理、语音识别、时间序列预测等领域,数据本质上是序列化的——即当前数据点与前后数据点存在依赖关系。传统的前
arbboter
·
2025-03-12 02:18
人工智能
rnn
人工智能
深度学习
循环神经网络
记忆
序列数据
循环连接
第6篇:
Transformer
架构详解(下):多头注意力机制与位置编码
Transformer
模型自提出以来,已经在自然语言处理(NLP)领域取得了巨大的成功。其核心创新包括多头注意力机制和位置编码,这些技术使得
Transformer
能够高效处理长序列数据。
Gemini技术窝
·
2025-03-12 00:00
transformer
深度学习
人工智能
自然语言处理
机器学习
chatgpt
nlp
仅仅使用pytorch来手撕
transformer
架构(4):解码器和解码器模块类的实现和向前传播
仅仅使用pytorch来手撕
transformer
架构(4):解码器和解码器模块类的实现和向前传播仅仅使用pytorch来手撕
transformer
架构(1):位置编码的类的实现和向前传播最适合小白入门的
KangkangLoveNLP
·
2025-03-11 17:07
手撕系列
#transformer
pytorch
transformer
人工智能
深度学习
python
机器学习
基于
transformer
实现机器翻译(日译中)
使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三、使用
Transformer
小白_laughter
·
2025-03-11 15:46
课程学习
transformer
机器翻译
深度学习
【Hugging Face】
transformer
s 库中 model 的常用方法和属性
HuggingFace
transformer
s库中model的常用方法和属性在
transformer
s库中,model代表预训练的
Transformer
模型,可用于文本分类、问答、文本生成等任务。
彬彬侠
·
2025-03-11 11:53
Hugging
Face
model
模型的属性和方法
transformers
Hugging
Face
python
【Hugging Face】
transformer
s 库中 model.generate() 方法:自回归模型的文本生成方法
HuggingFacemodel.generate方法model.generate是
transformer
s库中的文本生成(TextGeneration)方法,适用于自回归模型(如GPT-2、T5、BART
彬彬侠
·
2025-03-11 11:52
Hugging
Face
model.generate
transformers
Hugging
Face
文本生成
自回归模型
GPT
LLAMA
BERT(Bidirectional Encoder Representations from
Transformer
s)的序列分类模型,简单学习记录
一、代码#本地离线模型使用from
transformer
simportAutoModelForCausalLM,AutoTokenizer,pipeline,BertForSequenceClassification
努力努力再努力呐
·
2025-03-11 11:16
BERT
bert
分类
学习
【大模型开发】大模型背后的基础组件与生态概览
本文将介绍其中几大核心组件和框架,包括HuggingFace
Transformer
s、DeepSpeed、Megatron-LM,以及其他相关工具和方法,展示它们在训练效率
云博士的AI课堂
·
2025-03-11 08:56
深度学习
哈佛博后带你玩转机器学习
大模型技术开发与实践
大模型开发
Hugging
Face
DeepSpeed
大模型生态
机器学习
深度学习
大模型技术栈
大语言模型原理基础与前沿 挑战与机遇
它们通过深度学习技术,特别是基于变换器(
Transformer
)架构的模型,能够在自然语言处理(NLP)任务中表现出色。大语言模型的出现不仅推动了学术研究的发展,也在实际应用中展现了巨大的潜力。
AI大模型应用之禅
·
2025-03-11 02:07
DeepSeek
R1
&
AI大模型与大数据
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
Google力作 | Infini-attention无限长序列处理
Transformer
更多文章,请关注微信公众号:NLP分享汇原文链接:Google力作|Infini-attention无限长序列处理
Transformer
https://mp.weixin.qq.com/s?
NLP分享汇
·
2025-03-10 23:46
transformer
深度学习
在Ubuntu系统下部署大语言模型
前言在Ubuntu系统下部署大语言模型,可以使用HuggingFace的
Transformer
s库来加载和使用预训练的模型。
脱泥不tony
·
2025-03-10 22:39
ubuntu
语言模型
linux
人工智能
大数据
产品经理
transformer
周报 | 25.3.3-25.3.9文章汇总
从
Transformer
(2017)到DeepSeek-R1(2025)--建议收藏!
双木的木
·
2025-03-10 21:04
大模型专栏
深度学习拓展阅读
人工智能
linux
服务器
deepseek
llama
YOLO
transformer
文本向量化-词嵌入方法系列1:静态词嵌入(Word2Vec+GloVe)
静态词嵌入有Word2Vec,Sen2Vec,Doc2Vec,以及GloVe模型;而动态词嵌入有ELMO,
Transformer
,GPT,Bert和XLNet等等。
学习ml的小菜鸡
·
2025-03-10 19:15
nlp
自然语言处理
word2vec
Training-Free
Transformer
Architecture Search WithZero-Cost Proxy Guided Evolution(预览版本)
摘要
Transformer
s已表现出卓越的性能,然而,其架构设计是一个耗时的过程,需要专业知识和反复试验。
境心镜
·
2025-03-10 18:05
transformer
深度学习
人工智能
Vision
Transformer
分类水果图片集 Python 代码(可训练自己数据集)
代码链接:https://github.com/Illusionna/ComputerVision/tree/main/Efficient
Transformer
ArepositoryforViT.ContributetoIllusionna
Illusionna.
·
2025-03-10 14:37
transformer
深度学习
人工智能
大语言模型引擎全解析:
Transformer
s、vLLM、Llama.cpp等,最佳选择全攻略!
本文将带你深入了解
Transformer
s、vLLM、Llama.cpp、SGLang、MLX和Ollama这些引擎,帮助你找到最适合的工具,释放大语言模型的全部潜力!作为技术人员,不仅
大模型入门教程
·
2025-03-10 12:29
语言模型
llama
人工智能
DeepSeek
prompt
AI大模型
大模型
论文阅读笔记——Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
ALOHA论文ALOHA解决了策略中的错误可能随时间累积,且人类演示可能是非平稳的,提出了ACT(ActionChunkingwith
Transformer
s)方法。
寻丶幽风
·
2025-03-10 09:09
论文阅读笔记
论文阅读
笔记
人工智能
深度学习
机器人
RoPE——
Transformer
的旋转位置编码
在自然语言处理领域,
Transformer
是现代深度学习模型的基础,而位置编码(PositionEmbedding)则是
Transformer
处理序列数据的关键模块之一。
机智的小神仙儿
·
2025-03-10 09:34
深度学习
大模型
transformer
深度学习
人工智能
构建一个完整的视觉
Transformer
(ViT)图像分类模型 VIT (vision
transformer
)图像分类
构建一个完整的视觉
Transformer
(ViT)图像分类模型VIT(vision
transformer
)图像分类根据提供的截图内容,我们可以看到一个名为VitNet的视觉
Transformer
(Vision
Transformer
Jackie_AI
·
2025-03-10 04:29
transformer
分类
深度学习
【
Transformer
优化】
Transformer
的局限在哪?
自2017年
Transformer
横空出世以来,它几乎重写了自然语言处理的规则。但当我们在享受其惊人的并行计算能力和表征能力时,是否真正理解了它的局限性?
T-I-M
·
2025-03-10 04:26
transformer
深度学习
人工智能
AIGC实战——
Transformer
模型
AIGC实战——
Transformer
模型0.前言1.T52.GPT-3和GPT-43.ChatGPT小结系列链接0.前言我们在GPT(GenerativePre-trained
Transformer
)
盼小辉丶
·
2025-03-10 01:31
AIGC
transformer
深度学习
2022IJCAI速读:SparseTT,使用稀疏
Transformer
s进行视觉跟踪
原文标题:SparseTT:VisualTrackingwithSparse
Transformer
s中文标题:SparseTT:使用稀疏
Transformer
s进行视觉跟踪代码地址:GitHub-fzh0917
夜深人静打代码
·
2025-03-10 00:53
目标检测跟踪论文速读专栏
视觉跟踪
计算机视觉
目标检测
人工智能
Transformer
工作原理图文详解和实践:在生成式对话系统中的核心技术剖析
v=wjZofJX0v4M&t=33s
Transformer
在生成式对话系统中的核心技术剖析作者:禅与计算机程序设计艺术文章目录
Transformer
在生成式对话系统中的核心技术剖析1.背景介绍2.核心概念与联系
AI天才研究院
·
2025-03-09 18:03
ChatGPT
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
搜广推校招面经三十八
二、
Transformer
中对梯度消失或者梯度爆炸的处理在
Transformer
模型中,梯度消失和梯度爆炸是深度学习中常见的问题,尤其是在处理长序列数据时。
Y1nhl
·
2025-03-09 12:45
搜广推面经
算法
pytorch
推荐算法
搜索算法
机器学习
2025最新
Transformer
模型及深度学习前沿技术应用
第一章、注意力(Attention)机制1、注意力机制的背景和动机(为什么需要注意力机制?注意力机制的起源和发展里程碑)。2、注意力机制的基本原理(什么是注意力机制?注意力机制的数学表达与基本公式、用机器翻译任务带你了解Attention机制、如何计算注意力权重?)3、注意力机制的主要类型:键值对注意力机制(Key-ValueAttention)、自注意力(Self-Attention)与多头注意
weixin_贾
·
2025-03-09 06:35
Python
MATLAB
python
深度学习
MATLAB编程
深度学习模型
图神经网络
自编码
物理信息神经网络
目标检测
大语言模型
深度解析SSD2351核心板:硬核视频处理+工业级可靠性设计
芯片技术细节:视频处理能力:IVE引擎支持高斯滤波、膨胀/腐蚀等图像预处理;IPU支持人脸识别、运动检测及
Transformer
网络推理;显示接口支持MIPIDSI2560x1600@60fps,适配工业
明远智睿嵌入式方案商
·
2025-03-09 05:16
arm开发
嵌入式硬件
人工智能
机器人
PyTorch深度学习框架60天进阶学习计划第14天:循环神经网络进阶
今天,我们将深入探讨循环神经网络的进阶内容,包括BiLSTM的工作机制、注意力机制的数学原理,以及
Transformer
编码层的实现。
凡人的AI工具箱
·
2025-03-09 00:03
深度学习
pytorch
学习
人工智能
python
AI编程
1.6 从 GPT-1 到 GPT-3.5:一路的风云变幻
从GPT-1到GPT-3.5:一路的风云变幻人工智能的进步一直是科技领域的一个重要话题,而在自然语言处理(NLP)领域,GPT(GenerativePre-trained
Transformer
)系列模型的发布
少林码僧
·
2025-03-08 23:03
AI大模型应用实战专栏
gpt
gpt-3
使用 DeepSeek 训练属于自己写小说的模型
我们将基于DeepSeek的API和工具,结合HuggingFace的
Transformer
s库,完成模型的训练和部署。
xinxiyinhe
·
2025-03-08 23:02
DeepSeek
人工智能
python
Qwen1.5-7B-实现RAG应用详细步骤
Transformer
s:HuggingFace提供的库,支持加载和运行预训练模型。FAISS:用于向量检索的高效库。GPTQ支持库:如auto-gptq或gptqmodel。
大数据追光猿
·
2025-03-08 23:01
大模型
数据库
AI编程
语言模型
人工智能
深度学习
论文阅读:Recipe for a General, Powerful, Scalable Graph
Transformer
RecipeforaGeneral,Powerful,ScalableGraph
Transformer
论文和代码地址1介绍与贡献2GPS模型2.1模型框架图2.2PE和SE2.3GPSlayer:一种MPNN
不会&编程
·
2025-03-08 16:53
图神经网络论文阅读
论文阅读
transformer
深度学习
图神经网络
人工智能
自然语言处理(NLP)领域大语言模型学习目录大全
GPT系列GPT-1(GenerativePre-trained
Transformer
1)模型GPT-1(GenerativePre-trained
Transformer
1)是OpenAI在2018年6
彬彬侠
·
2025-03-08 13:45
大模型
自然语言处理
NLP
大模型
LLM
GPT
BERT
GLM
深入浅出的理解deepseek类大模型(附运行代码)
深入理解之运行代码:from
transformer
s.models.qwen2importQwen2Config,Qwen2Modelimporttorchdefrun_qwen2():#根据模型需求配置参数
AI人工智能时代
·
2025-03-08 08:47
人工智能
transformer
机器人
深度学习
深度解构:DeepSeek大模型架构与前沿应用的未来探秘
1.DeepSeek大模型的架构设计DeepSeek大模型采用的是基于
Transformer
威哥说编程
·
2025-03-08 05:15
架构
ai
新型模型架构(参数化状态空间模型、状态空间模型变种)
文章目录参数化状态空间模型状态空间模型变种
Transformer
模型自问世以来,在自然语言处理、计算机视觉等多个领域得到了广泛应用,并展现出卓越的数据表示与建模能力。
三月七꧁ ꧂
·
2025-03-08 00:28
LLM
语言模型
gpt
文心一言
prompt
embedding
AIGC
agi
人工智能基础知识
首先分为两大类:一:机器视觉cv1.特征比较明显2.经典模型:cnn,resnet,deepface,yolov(1-12),vi-
transformer
。缺点:不能解决收听问题。
yzx991013
·
2025-03-07 16:24
人工智能
Bert学习笔记
一、Bert架构BERT使用了双向的
Transformer
GPT使用从左到右的单向信息ELMo把单独训练的从左到右及从右到左的LSTM模型进行合并二、Bert预训练任务2.1遮蔽语言模型MLM任务:随机屏蔽
缓释多巴胺。
·
2025-03-07 09:05
大模型相关知识
语言模型
bert
YOLOv12改进之A2(区域注意力)
已有研究成果包括:
Transformer
架构:引入了自注意力机制,有效捕捉输入序列中的长距离依赖关系。CBAM模块:提出了通道和空间注意力的结合,显著提升了图像分类和目标检测的性能。
清风AI
·
2025-03-07 00:39
深度学习算法详解及代码复现
深度学习
机器学习
计算机视觉
人工智能
算法
目前市场上的人工智能大模型有哪些?
Google的
Transformer
系列:BERT(Bidirection
国货崛起
·
2025-03-06 19:48
大模型
人工智能
人工智能
自动驾驶---LSTM模型用于轨迹预测
1前言在下面几篇博客中,笔者简单介绍过
Transformer
,
Transformer
的内部结构虽然比较清晰,但对于入门者来说还是复杂了一些。《人工智能---什么是
Transformer
?》
智能汽车人
·
2025-03-06 18:14
自动驾驶
lstm
人工智能
自然语言处理
大模型入门
Transformer
架构的持续演进体现在位置编码改进(如RoPE旋转位置编码)、注意力机制优化(FlashAttention算法提升30%训练速度)以及层级结构创新(深度
24k小善
·
2025-03-06 17:05
AI编程
AI写作
prompt
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他