E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
transformer
大模型-FlashAttention 算法分析
随着
Transformer
变得越来越大、越来越深,但它在长序列上仍然处理的很慢、且耗费内存。(自注意力时间和显存复杂度与序列长度成二次方),现有近似注意力方法,
清风lsq
·
2025-07-03 05:46
大模型推理
算法
算法
大模型推理
LLM
flashattention
大模型学习 (Datawhale_Happy-LLM)笔记7: Encoder-Decoder PLM
大模型学习(Datawhale_Happy-LLM)笔记7:Encoder-DecoderPLM1.Encoder-Decoder架构概述1.1架构基础Encoder-DecoderPLM是基于原始
Transformer
lxltom
·
2025-07-02 23:31
学习
笔记
language
model
自然语言处理
神经网络
人工智能
深度学习
SOTA是什么意思?
最近看到一篇关于
Transformer
模型的论文,谷歌推出的BERT模型在11项NLP(naturallanguageprocessing)任务中夺得SOTA结果,引爆了整个NLP界。
有奇妙能力吗
·
2025-07-02 21:45
AI
知识分享
自然语言处理
人工智能
ai
AI人工智能领域深度学习的跨模态检索技术
AI人工智能领域深度学习的跨模态检索技术关键词:跨模态检索、深度学习、多模态学习、特征提取、相似度计算、注意力机制、
Transformer
摘要:本文深入探讨了AI领域中基于深度学习的跨模态检索技术。
AI学长带你学AI
·
2025-07-02 18:20
AI人工智能与大数据应用开发
AI应用开发高级指南
人工智能
深度学习
ai
Dimba:
Transformer
-Mamba Diffusion Models————3 Methodology
图解图片中的每个模块详解1.文本输入(Text)描述:输入的文本描述了一个具有具体特征的场景。功能:提供关于要生成图像的详细信息。2.T5模型(TexttoFeature)描述:使用T5模型将文本转换为特征向量。功能:提取文本中的语义信息,为后续的图像生成提供条件。3.图像输入(Image)描述:输入图像通过变分自编码器(VAE)编码器处理。功能:将图像转换为潜在表示,用于添加噪声并进行扩散过程。
·
2025-07-02 12:05
从零开始理解
Transformer
模型:架构与应用
引言近年来,
Transformer
模型席卷了自然语言处理(NLP)领域,成为了深度学习中的明星架构。
淮橘√
·
2025-07-02 11:29
transformer
深度学习
人工智能
『大模型笔记』KV缓存:
Transformer
中的内存使用!
『大模型笔记』KV缓存:
Transformer
中的内存使用!文章目录一.KV缓存:
Transformer
中的内存使用!
AI大模型前沿研究
·
2025-07-02 05:46
大模型笔记
缓存
transformer
KVcache
大模型
LLM
大语言模型(LLM)笔记
LLM(LargeLanguageModel)是基于
Transformer
架构构建,并在海量文本语料上训练出的具备自然语言理解和生成能力的深度神经网络模型。
笑衬人心。
·
2025-07-02 03:59
大模型学习
语言模型
笔记
人工智能
【
Transformer
论文】通过蒙面多模态聚类预测学习视听语音表示
文献题目:LEARNINGAUDIO-VISUALSPEECHREPRESENTATIONBYMASKEDMULTIMODALCLUSTERPREDICTION发表时间:2022发表期刊:ICLR摘要语音的视频记录包含相关的音频和视觉信息,为从说话者的嘴唇运动和产生的声音中学习语音表示提供了强大的信号。我们介绍了视听隐藏单元BERT(AV-HuBERT),这是一种用于视听语音的自我监督表示学习框架
Wwwilling
·
2025-07-01 13:24
推荐系统论文阅读
Transformer系列论文
transformer
聚类
多模态
告别GPU焦虑:如何在纯CPU服务器上,打造高性能Embedding服务?
一开始,我们图方便,直接从HuggingFace上拉了当时效果最好的BAAI/bge-m3模型,用
transformer
s库一把梭。结果呢?
ezl1fe
·
2025-07-01 10:02
embedding
后端
人工智能
当前最好的0样本文本转语音是哪个模型?
MegaTTS3(字节跳动&浙江大学)核心优势:仅需3-10秒参考音频即可精准克隆音色,支持中英混合语音自然切换1112轻量化设计(0.45B参数),实时生成延迟低于400ms11采用Diffusion
Transformer
skywalk8163
·
2025-07-01 05:00
多媒体
人工智能
人工智能
MegaTTS3
DiNA:扩张邻域注意力
Transformer
摘要
Transformer
正迅速成为跨模态、跨领域和跨任务中应用最广泛的深度学习架构之一。
AI专题精讲
·
2025-06-30 13:44
Paper阅读
transformer
人工智能
Java使用documents4j将word和excel转pdf
pom.xml添加documents4j依赖com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-
transformer
-msoffice-word1.0.3&
药岩
·
2025-06-30 12:37
工作中的那些问题
java
word
excel
DeepSeek:AI驱动的效率革命与实战案例解
一、技术革新:DeepSeek的核心竞争力深度学习赋能DeepSeek的技术架构基于BERT、
Transformer
等先进深度学习模型,通过构建复
weixin_45788582
·
2025-06-30 10:52
人工智能
ai
DeepSeek
nlp遇到的问题
1.AttributeError:'CodeGenTokenizer'objecthasnoattribute'encoder'pipinstall
transformer
s==4.33.22.ImportError
·
2025-06-30 04:49
【大模型】
Transformer
架构完全解读:从“盲人摸象“到“通晓万物“的AI进化论
Transformer
架构完全解读:从"盲人摸象"到"通晓万物"的AI进化论——一位大模型探索者的技术日记☕第一章:为什么说
Transformer
是AI界的"蒸汽机革命"?
全栈追梦人
·
2025-06-29 23:21
大模型
#
提示工程
transformer
架构
深度学习
【2024 CVPR-Backbone】RepViT: Revisiting Mobile CNN From ViT Perspective
摘要近期,轻量级视觉
Transformer
(ViT)在资源受限的移动设备上表现出比轻量级卷积神经网络(CNN)更优异的性能和更低的延迟。
无敌悦悦王
·
2025-06-29 10:45
文献阅读
cnn
人工智能
神经网络
计算机视觉
图像处理
python
深度学习
使用vllm部署 Nanonets-OCR-s
一、环境准备与依赖安装1.安装vLLM与多模态依赖#安装vLLM(含CUDA加速)pipinstallvllm==0.3.21#建议使用稳定版本pipinstall
transformer
s==4.35
没刮胡子
·
2025-06-28 23:20
软件开发技术实战专栏
Linux服务器技术
人工智能AI
ocr
python
深度学习
LLaMA Factory 微调后,迁移模型
方法1:使用HuggingFaceHub(最推荐)from
transformer
simportAutoModelForCausalLM,AutoTokenizer#在源服务器上保存模型到Hubmodel.push_to_hub
激进小猪1002
·
2025-06-28 18:17
llama
llamafactory
人工智能
python
Transformer
底层原理解析及基于pytorch的代码实现
1.
Transformer
底层原理解析1.1核心架构突破
Transformer
是自然语言处理领域的革命性架构,其核心设计思想完全摒弃了循环结构,通过自注意力机制实现全局依赖建模。
LiRuiJie
·
2025-06-28 11:24
人工智能
transformer
pytorch
深度学习
大模型笔记10:LoRA微调
Transformer
中微调哪些参数:LoRA的改进版本
errorwarn
·
2025-06-28 09:41
笔记
大语言模型(LLM)量化基础知识(一)
随着大型语言模型(LLM)的参数数量的增长,与其支持硬件(加速器内存)增长速度之间的差距越来越大,如下图所示:上图显示,从2017年到2022年,语言模型的大小显著增加:2017年:
Transformer
-派神-
·
2025-06-27 23:42
RAG
NLP
ChatGPT
语言模型
人工智能
自然语言处理
基于
Transformer
实现机器翻译
目录一、前言1.1什么是
Transformer
?
yyyyurina.
·
2025-06-27 20:17
transformer
机器翻译
深度学习
LLM推理入门实践:基于 Hugging Face
Transformer
s 和 vLLM
文章目录1.HuggingFace模型下载2.HuggingFace
Transformer
s库模型推理3.关于prompt的组成:system、user、assistant4.vLLM模型推理vLLM的多卡推理踩坑
ctrl A_ctrl C_ctrl V
·
2025-06-27 17:57
#
大模型llm
python
自然语言处理
人工智能
用生活例子讲透
Transformer
,大模型为何强大
想象一下,你现在是个翻译员,手头有一本厚厚的英文书,要把它翻译成中文。这可不是个轻松活儿!以前的翻译方法(老派翻译官:RNNs)过去,我们的电脑(也就是老模型,比如RNNs)是这样翻译的:就像一个超级认真的翻译官,他会逐字逐句地读英文书。他读到一个英文词时,会琢磨这个词之前讲了什么,以及他到现在为止记住了多少内容,然后才决定怎么翻译。这种方法有两个大毛病:太慢,不能分工合作:就像一个翻译官,他必须
九章云极DataCanvas
·
2025-06-27 15:13
技术干货
人工智能
GRU与
Transformer
结合:新一代序列模型
GRU与
Transformer
结合:新一代序列模型关键词:GRU、
Transformer
、序列模型、结合、深度学习摘要:本文深入探讨了GRU与
Transformer
结合所形成的新一代序列模型。
AI大模型应用工坊
·
2025-06-27 11:48
gru
transformer
深度学习
ai
⼤模型(LLMs)基础⾯
⽬前主流的开源LLM(语⾔模型)模型体系包括以下⼏个:1.GPT(GenerativePre-trained
Transformer
)系列:由OpenAI发布的⼀系列基于
Transformer
架构的语⾔模型
cv2016_DL
·
2025-06-27 01:04
LLM大模型
计算机视觉
人工智能
llama
PD分离与EP分离技术
一、Prefill与Decode的底层原理剖析1.1Prefill阶段的数学本质(以
Transformer
架构为例)计算密集型的核心原因:#自注意力计算伪代码Q=X@W_Q#[batch,seq_len
静谧之心
·
2025-06-27 00:33
LLM
AI相关
算力调度
k8s
pd
分离
llm
ep
专家并行
kvcache
Java如何导出word(根据模板生成),通过word转成pdf,放压缩包
betaorg.apache.poipoi4.1.2org.apache.poipoi-ooxml4.1.2org.apache.poipoi-scratchpad4.1.2com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-
transformer
-msoffice-wor
R-sz
·
2025-06-26 20:31
java
word
pdf
使用Hugging Face的Sentence
Transformer
s进行文本嵌入
概述HuggingFace的Sentence
Transformer
s是一种用于生成文本和图像嵌入的Python框架,提供了最新的技术。
2501_92325368
·
2025-06-26 11:34
语言模型
langchain
Kaggle金牌方案复现:CGO-
Transformer
-GRU多模态融合预测实战
1背景分析在2023年Kaggle"GlobalMultimodalDemandForecastingChallenge"竞赛中,CGO-
Transformer
-GRU方案以领先第二名1.8个百分点的绝对优势夺冠
·
2025-06-26 03:04
LSTM、GRU 与
Transformer
网络模型参数计算
hidden_size+hidden_size²+hidden_size)4个门控结构GRU3×(embed_dim×hidden_size+hidden_size²+hidden_size)3个门控结构
Transformer
suixinm
·
2025-06-26 00:44
lstm
gru
transformer
多头注意力机制中全连接函数
在神经网络(特别是
Transformer
中的多头注意力机制)中,全连接函数(FullyConnectedLayer,FCLayer)通常指的是一个线性变换层,即nn.Linear在PyTorch中的实现
不知更鸟
·
2025-06-25 23:05
深度学习
大语言模型全流程开发技术详解:从架构、训练到对齐与量化
github.com/mlabonne/llm-course大语言模型全流程开发技术详解:从架构、训练到对齐与量化大模型实战指南:多模型生态实战与论文解读一、LLM架构(TheLLMarchitecture)不需要对
Transformer
艾墨舟启航
·
2025-06-25 20:46
大模型实战
架构
人工智能
大语言模型
预训练语言模型
1.1Encoder-onlyPLMEncoder-only架构是
Transformer
的重要分支,专注于自然语言理解(NLU)任务,核心代表是BERT及其优化模型(RoBERTa、ALBERT)。
lynnzon
·
2025-06-25 11:10
语言模型
人工智能
自然语言处理
大模型学习 (Datawhale_Happy-LLM)笔记4: 预训练语言模型
大模型学习(Datawhale_Happy-LLM)笔记4:预训练语言模型一、概述本章按Encoder-Only、Encoder-Decoder、Decoder-Only的顺序来依次介绍
Transformer
lxltom
·
2025-06-25 11:09
学习
笔记
语言模型
人工智能
bert
gpt
预训练语言模型之:Encoder-only PLM
1.基础架构:
Transformer
Encoder所有模型的基石都是
Transformer
Encoder结构,其核心是自注意力机制:Attention(Q,K,V)=softmax(QKTdk)V\text
抱抱宝
·
2025-06-25 10:36
大模型
语言模型
人工智能
自然语言处理
CVPR2025
CVPR论文列表大论文相关,abstactSphereUFormer:AU-Shaped
Transformer
forSpherical360Perception对360rgb图的深度进行估计CroCoDL
摸鱼的肚子
·
2025-06-25 10:06
论文阅读
深度学习
CVPR 2024 图像处理方向总汇(图像去噪、图像增强、图像分割和图像恢复等)
1、ImageProgress(图像处理)去鬼影GeneratingContentforHDRDeghostingfromFrequencyView去阴影HomoFormer:Homogenized
Transformer
forImageShadowRemoval
点云SLAM
·
2025-06-25 10:35
图形图像处理
深度学习
计算机视觉
图像分割
图像增强
CVPR2024
人工智能
Python 调用大模型:解锁人工智能的无限可能
(四)大模型的发展历史二、Python调用大模型的实现方法(一)使用OpenAIAPI设置API密钥定义提示文本调用OpenAIAPI输出生成的文本加载预训练模型和分词器2.使用HuggingFace
Transformer
s
CarlowZJ
·
2025-06-25 10:04
AI应用落地+Python
python
人工智能
第8章:智能菜谱生成器——语言模型如何解析烹饪秘方
当传统NLP系统将其简单译为"煮浓",新一代
Transformer
模型却精准解析出粘度为1500-2000cP的物性指标,并据此生成控温方案。这背后的核心技术便是基于烹饪
白嫖不白嫖
·
2025-06-25 07:44
深度求索-DeepSeek
语言模型
人工智能
自然语言处理
LeRobot: 让机械臂接入大模型
这一项目通过整合最先进的机器学习算法和便捷的开发工具链,为开发者提供了一个高效、易用的机器人AI开发平台,堪称机器人领域的“
Transformer
时刻”。
小众AI
·
2025-06-25 05:57
AI开源
人工智能
AI编程
一起学习swin-
transformer
(一)
Transform学习链接从零开始设计
Transformer
模型(1/2)——剥离RNN,保留Attention-CSDN博客
Transformer
-PyTorch实战项目——文本分类_
transformer
Vertira
·
2025-06-24 01:14
pytorch
学习
transformer
深度学习
Transformer
中 QKV 流向全解析(含注意力机制箭头图示)
Transformer
中注意力模块分布
Transformer
结构中含有三种注意力机制,每个机制都会涉及Q、K、V的构建和使用:编码器自注意力(EncoderSelf-Attention)解码器自注意力(
Accelemate
·
2025-06-23 15:02
transformer
人工智能
深度学习
基础RAG实现,最佳入门选择(二)
初次创建embeddings向量安装相关依赖pipinstallsentence-
transformer
storchprotobufsentencepiecepipinstallsentence-
transformer
storchprotobufsentencepiecepipinstallsentence-
transformer
storchprotobufsentencepiece
·
2025-06-23 14:05
人工智能
从零到一RedisVL 安装与运行全攻略
使用pip(推荐)需求指令说明核心功能pipinstall-Uredisvl仅依赖redis-py≥5与pydantic≥2向量化器pipinstallredisvl[all]额外安装sentence-
transformer
s
·
2025-06-23 03:16
Patch Position Embedding (PPE) 在医疗 AI 中的应用编程分析
一、PPE的核心原理与医疗场景适配性位置编码的本质需求在医疗影像(如CT、MRI、病理切片)中,
Transformer
需要将图像划分为若干Patch并作为序列输入。
Allen_Lyb
·
2025-06-22 20:55
数智化教程(第二期)
embedding
人工智能
机器学习
健康医疗
Transformer
-LSTM+SHAP可解释性分析的回归预测Matlab代码
代码示例:%基于
Transformer
-LSTM+SHAP可解释性分析的回归预测Matlab代码%多输入单输出版本%步骤1:数据预处理function[X_train,y_train,X_test,y_test
默默科研仔
·
2025-06-22 19:51
SHAP分析
transformer
lstm
回归
llamafactory 微调模型出现TypeError: argument of type ‘NoneType‘ is not iterable
问题介绍本文作者碰到的问题是File“/root/miniconda3/lib/python3.12/site-packages/
transformer
s/modeling_utils.py”,line1969
成都犀牛
·
2025-06-22 14:19
python
开发语言
人工智能
深度学习
神经网络
LoRA
LLama
Factory
深度解析 ImportError: cannot import name AdamW from
transformer
s——从报错原理到完美解决方案
在自然语言处理(NLP)领域,HuggingFace的
transformer
s库已成为事实上的标准工具。
Tadas-Gao
·
2025-06-22 12:35
机器学习
人工智能
机器学习
pytorch
LLM
python
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他