E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Transformer?
Day44
预训练概念:在大规模数据上训练模型学习通用知识,再迁移到下游任务微调2.常见模型:图像有AlexNet、ResNet、ViT;NLP有BERT、GPT3.图像模型发展:从手工特征到深度学习,从CNN到
Transformer
·
2025-07-04 12:19
Qwen3 Embedding 结构-加载-训练 看透模型设计哲学
1Qwen3-Embedding模型结构拆解说明:目录包含了运行一个基于
Transformer
的句向量模型所需的所有组件文件类别核心文件作用核心模型model.safetensors,config.jsonmodel.safetensors
·
2025-07-04 04:25
Llama改进之——RoPE旋转位置编码
引言旋转位置编码(RotaryPositionEmbedding,RoPE)将绝对相对位置依赖纳入自注意力机制中,以增强
Transformer
架构的性能。
愤怒的可乐
·
2025-07-04 01:37
NLP项目实战
#
LLaMA
RoPE
旋转位置编码
Llama改进之——分组查询注意力
Transformer
中的多头注意力在解码阶段来说是一个性能瓶颈。多查询注意力2通过共享单个key和value头,同时不减少query头来提升性能。
愤怒的可乐
·
2025-07-04 01:37
#
NLP项目实战
自然语言处理
llama
深度学习
人工智能
分组查询注意力
旋转位置编码
Llama改进之——均方根层归一化RMSNorm
LayerNorm层归一化(LayerNorm)对
Transformer
等模型来说非常重要,它可以帮助稳定训练并提升模型收敛性。LayerNorm针对一个样本所有特征计算
愤怒的可乐
·
2025-07-04 01:36
NLP项目实战
#
llama
强人工智能是否会诞生于现在的AI之中
然而,作为一名人工智能领域的算法工程师,我反而越来越确信:现有的技术路径——以
Transformer
为核心的深度神经网络,可能已经达到了它的能力上限。
一花·一叶
·
2025-07-04 01:06
人工智能
语言模型
从零实现Llama3:深入解析
Transformer
架构与实现细节
从零实现Llama3:深入解析
Transformer
架构与实现细节llama3-from-scratchllama3一次实现一个矩阵乘法。
祁婉菲Flora
·
2025-07-04 00:05
解密GPT工作原理:
Transformer
架构详解与自注意力机制剖析
解密GPT工作原理:
Transformer
架构详解与自注意力机制剖析关键词:GPT、
Transformer
、自注意力机制、神经网络、语言模型、深度学习、人工智能摘要:本文将深入浅出地解析GPT模型的核心架构
AI智能应用
·
2025-07-03 23:25
gpt
transformer
架构
ai
讯飞星火深度推理模型X1,为教育医疗带来革新
技术原理与创新讯飞星火深度推理模型X1基于
Transformer
架构,并在此基础上进行了一系列创新。它通过大规模多阶段强化学习训练方法,在复杂推理、数学、代码、语言理解等场景全面
·
2025-07-03 21:42
Hamiltonian
Transformer
理论:融合哈密顿力学与
Transformer
架构的新范式
Hamiltonian
Transformer
理论是一种将经典哈密顿力学原理与现代
Transformer
架构相结合的新型神经网络范式。
墨顿
·
2025-07-03 20:37
transformer
架构
深度学习
结合LangGraph、DeepSeek-R1和Qdrant 的混合 RAG 技术实践
然而,单一的稠密向量检索(如基于
Transformer
的嵌入模型)在处理关键词匹配和多义词歧义时存在局限性,而稀疏向量检索(如BM25)虽擅长精确关键词匹配,却缺乏语义理
大模型之路
·
2025-07-03 17:45
RAG
rag
解释LLM怎么预测下一个词语的
解释LLM怎么预测下一个词语的通过上文词的向量进行映射在
Transformer
架构的大语言模型(如GPT系列、BERT等)中,词语会先被转化为词向量。
ZhangJiQun&MXP
·
2025-07-03 14:23
教学
2024大模型以及算力
2021
AI
python
语言模型
python
深度学习
人工智能
机器学习
【人工智能】 AI的进化之路:大模型如何重塑技术格局
从早期神经网络到现代大模型的突破,文章分析了关键技术进步,如
Transformer
架构、预训练机制和分布式计算。结合数学公式和代码示例,详细阐述了大模型的训练原理、优化方法及实际应用场景。文
蒙娜丽宁
·
2025-07-03 12:32
Python杂谈
人工智能
人工智能
python
ReBEL模型的本地部署与运行,用于三元组抽取任务(事件抽取、知识抽取)
建议与CUDA11.7配合)pipinstalltorchtorchvisiontorchaudio--index-urlhttps://download.pytorch.org/whl/cu117#安装
Transformer
s
·
2025-07-03 09:46
大模型-FlashAttention 算法分析
随着
Transformer
变得越来越大、越来越深,但它在长序列上仍然处理的很慢、且耗费内存。(自注意力时间和显存复杂度与序列长度成二次方),现有近似注意力方法,
清风lsq
·
2025-07-03 05:46
大模型推理
算法
算法
大模型推理
LLM
flashattention
大模型学习 (Datawhale_Happy-LLM)笔记7: Encoder-Decoder PLM
大模型学习(Datawhale_Happy-LLM)笔记7:Encoder-DecoderPLM1.Encoder-Decoder架构概述1.1架构基础Encoder-DecoderPLM是基于原始
Transformer
lxltom
·
2025-07-02 23:31
学习
笔记
language
model
自然语言处理
神经网络
人工智能
深度学习
SOTA是什么意思?
最近看到一篇关于
Transformer
模型的论文,谷歌推出的BERT模型在11项NLP(naturallanguageprocessing)任务中夺得SOTA结果,引爆了整个NLP界。
有奇妙能力吗
·
2025-07-02 21:45
AI
知识分享
自然语言处理
人工智能
ai
AI人工智能领域深度学习的跨模态检索技术
AI人工智能领域深度学习的跨模态检索技术关键词:跨模态检索、深度学习、多模态学习、特征提取、相似度计算、注意力机制、
Transformer
摘要:本文深入探讨了AI领域中基于深度学习的跨模态检索技术。
AI学长带你学AI
·
2025-07-02 18:20
AI人工智能与大数据应用开发
AI应用开发高级指南
人工智能
深度学习
ai
Dimba:
Transformer
-Mamba Diffusion Models————3 Methodology
图解图片中的每个模块详解1.文本输入(Text)描述:输入的文本描述了一个具有具体特征的场景。功能:提供关于要生成图像的详细信息。2.T5模型(TexttoFeature)描述:使用T5模型将文本转换为特征向量。功能:提取文本中的语义信息,为后续的图像生成提供条件。3.图像输入(Image)描述:输入图像通过变分自编码器(VAE)编码器处理。功能:将图像转换为潜在表示,用于添加噪声并进行扩散过程。
·
2025-07-02 12:05
从零开始理解
Transformer
模型:架构与应用
引言近年来,
Transformer
模型席卷了自然语言处理(NLP)领域,成为了深度学习中的明星架构。
淮橘√
·
2025-07-02 11:29
transformer
深度学习
人工智能
『大模型笔记』KV缓存:
Transformer
中的内存使用!
『大模型笔记』KV缓存:
Transformer
中的内存使用!文章目录一.KV缓存:
Transformer
中的内存使用!
AI大模型前沿研究
·
2025-07-02 05:46
大模型笔记
缓存
transformer
KVcache
大模型
LLM
大语言模型(LLM)笔记
LLM(LargeLanguageModel)是基于
Transformer
架构构建,并在海量文本语料上训练出的具备自然语言理解和生成能力的深度神经网络模型。
笑衬人心。
·
2025-07-02 03:59
大模型学习
语言模型
笔记
人工智能
【
Transformer
论文】通过蒙面多模态聚类预测学习视听语音表示
文献题目:LEARNINGAUDIO-VISUALSPEECHREPRESENTATIONBYMASKEDMULTIMODALCLUSTERPREDICTION发表时间:2022发表期刊:ICLR摘要语音的视频记录包含相关的音频和视觉信息,为从说话者的嘴唇运动和产生的声音中学习语音表示提供了强大的信号。我们介绍了视听隐藏单元BERT(AV-HuBERT),这是一种用于视听语音的自我监督表示学习框架
Wwwilling
·
2025-07-01 13:24
推荐系统论文阅读
Transformer系列论文
transformer
聚类
多模态
告别GPU焦虑:如何在纯CPU服务器上,打造高性能Embedding服务?
一开始,我们图方便,直接从HuggingFace上拉了当时效果最好的BAAI/bge-m3模型,用
transformer
s库一把梭。结果呢?
ezl1fe
·
2025-07-01 10:02
embedding
后端
人工智能
当前最好的0样本文本转语音是哪个模型?
MegaTTS3(字节跳动&浙江大学)核心优势:仅需3-10秒参考音频即可精准克隆音色,支持中英混合语音自然切换1112轻量化设计(0.45B参数),实时生成延迟低于400ms11采用Diffusion
Transformer
skywalk8163
·
2025-07-01 05:00
多媒体
人工智能
人工智能
MegaTTS3
DiNA:扩张邻域注意力
Transformer
摘要
Transformer
正迅速成为跨模态、跨领域和跨任务中应用最广泛的深度学习架构之一。
AI专题精讲
·
2025-06-30 13:44
Paper阅读
transformer
人工智能
Java使用documents4j将word和excel转pdf
pom.xml添加documents4j依赖com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-
transformer
-msoffice-word1.0.3&
药岩
·
2025-06-30 12:37
工作中的那些问题
java
word
excel
DeepSeek:AI驱动的效率革命与实战案例解
一、技术革新:DeepSeek的核心竞争力深度学习赋能DeepSeek的技术架构基于BERT、
Transformer
等先进深度学习模型,通过构建复
weixin_45788582
·
2025-06-30 10:52
人工智能
ai
DeepSeek
nlp遇到的问题
1.AttributeError:'CodeGenTokenizer'objecthasnoattribute'encoder'pipinstall
transformer
s==4.33.22.ImportError
·
2025-06-30 04:49
【大模型】
Transformer
架构完全解读:从“盲人摸象“到“通晓万物“的AI进化论
Transformer
架构完全解读:从"盲人摸象"到"通晓万物"的AI进化论——一位大模型探索者的技术日记☕第一章:为什么说
Transformer
是AI界的"蒸汽机革命"?
全栈追梦人
·
2025-06-29 23:21
大模型
#
提示工程
transformer
架构
深度学习
【2024 CVPR-Backbone】RepViT: Revisiting Mobile CNN From ViT Perspective
摘要近期,轻量级视觉
Transformer
(ViT)在资源受限的移动设备上表现出比轻量级卷积神经网络(CNN)更优异的性能和更低的延迟。
无敌悦悦王
·
2025-06-29 10:45
文献阅读
cnn
人工智能
神经网络
计算机视觉
图像处理
python
深度学习
使用vllm部署 Nanonets-OCR-s
一、环境准备与依赖安装1.安装vLLM与多模态依赖#安装vLLM(含CUDA加速)pipinstallvllm==0.3.21#建议使用稳定版本pipinstall
transformer
s==4.35
没刮胡子
·
2025-06-28 23:20
软件开发技术实战专栏
Linux服务器技术
人工智能AI
ocr
python
深度学习
LLaMA Factory 微调后,迁移模型
方法1:使用HuggingFaceHub(最推荐)from
transformer
simportAutoModelForCausalLM,AutoTokenizer#在源服务器上保存模型到Hubmodel.push_to_hub
激进小猪1002
·
2025-06-28 18:17
llama
llamafactory
人工智能
python
Transformer
底层原理解析及基于pytorch的代码实现
1.
Transformer
底层原理解析1.1核心架构突破
Transformer
是自然语言处理领域的革命性架构,其核心设计思想完全摒弃了循环结构,通过自注意力机制实现全局依赖建模。
LiRuiJie
·
2025-06-28 11:24
人工智能
transformer
pytorch
深度学习
大模型笔记10:LoRA微调
Transformer
中微调哪些参数:LoRA的改进版本
errorwarn
·
2025-06-28 09:41
笔记
大语言模型(LLM)量化基础知识(一)
随着大型语言模型(LLM)的参数数量的增长,与其支持硬件(加速器内存)增长速度之间的差距越来越大,如下图所示:上图显示,从2017年到2022年,语言模型的大小显著增加:2017年:
Transformer
-派神-
·
2025-06-27 23:42
RAG
NLP
ChatGPT
语言模型
人工智能
自然语言处理
基于
Transformer
实现机器翻译
目录一、前言1.1什么是
Transformer
?
yyyyurina.
·
2025-06-27 20:17
transformer
机器翻译
深度学习
LLM推理入门实践:基于 Hugging Face
Transformer
s 和 vLLM
文章目录1.HuggingFace模型下载2.HuggingFace
Transformer
s库模型推理3.关于prompt的组成:system、user、assistant4.vLLM模型推理vLLM的多卡推理踩坑
ctrl A_ctrl C_ctrl V
·
2025-06-27 17:57
#
大模型llm
python
自然语言处理
人工智能
用生活例子讲透
Transformer
,大模型为何强大
想象一下,你现在是个翻译员,手头有一本厚厚的英文书,要把它翻译成中文。这可不是个轻松活儿!以前的翻译方法(老派翻译官:RNNs)过去,我们的电脑(也就是老模型,比如RNNs)是这样翻译的:就像一个超级认真的翻译官,他会逐字逐句地读英文书。他读到一个英文词时,会琢磨这个词之前讲了什么,以及他到现在为止记住了多少内容,然后才决定怎么翻译。这种方法有两个大毛病:太慢,不能分工合作:就像一个翻译官,他必须
九章云极DataCanvas
·
2025-06-27 15:13
技术干货
人工智能
GRU与
Transformer
结合:新一代序列模型
GRU与
Transformer
结合:新一代序列模型关键词:GRU、
Transformer
、序列模型、结合、深度学习摘要:本文深入探讨了GRU与
Transformer
结合所形成的新一代序列模型。
AI大模型应用工坊
·
2025-06-27 11:48
gru
transformer
深度学习
ai
⼤模型(LLMs)基础⾯
⽬前主流的开源LLM(语⾔模型)模型体系包括以下⼏个:1.GPT(GenerativePre-trained
Transformer
)系列:由OpenAI发布的⼀系列基于
Transformer
架构的语⾔模型
cv2016_DL
·
2025-06-27 01:04
LLM大模型
计算机视觉
人工智能
llama
PD分离与EP分离技术
一、Prefill与Decode的底层原理剖析1.1Prefill阶段的数学本质(以
Transformer
架构为例)计算密集型的核心原因:#自注意力计算伪代码Q=X@W_Q#[batch,seq_len
静谧之心
·
2025-06-27 00:33
LLM
AI相关
算力调度
k8s
pd
分离
llm
ep
专家并行
kvcache
Java如何导出word(根据模板生成),通过word转成pdf,放压缩包
betaorg.apache.poipoi4.1.2org.apache.poipoi-ooxml4.1.2org.apache.poipoi-scratchpad4.1.2com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-
transformer
-msoffice-wor
R-sz
·
2025-06-26 20:31
java
word
pdf
使用Hugging Face的Sentence
Transformer
s进行文本嵌入
概述HuggingFace的Sentence
Transformer
s是一种用于生成文本和图像嵌入的Python框架,提供了最新的技术。
2501_92325368
·
2025-06-26 11:34
语言模型
langchain
Kaggle金牌方案复现:CGO-
Transformer
-GRU多模态融合预测实战
1背景分析在2023年Kaggle"GlobalMultimodalDemandForecastingChallenge"竞赛中,CGO-
Transformer
-GRU方案以领先第二名1.8个百分点的绝对优势夺冠
·
2025-06-26 03:04
LSTM、GRU 与
Transformer
网络模型参数计算
hidden_size+hidden_size²+hidden_size)4个门控结构GRU3×(embed_dim×hidden_size+hidden_size²+hidden_size)3个门控结构
Transformer
suixinm
·
2025-06-26 00:44
lstm
gru
transformer
多头注意力机制中全连接函数
在神经网络(特别是
Transformer
中的多头注意力机制)中,全连接函数(FullyConnectedLayer,FCLayer)通常指的是一个线性变换层,即nn.Linear在PyTorch中的实现
不知更鸟
·
2025-06-25 23:05
深度学习
大语言模型全流程开发技术详解:从架构、训练到对齐与量化
github.com/mlabonne/llm-course大语言模型全流程开发技术详解:从架构、训练到对齐与量化大模型实战指南:多模型生态实战与论文解读一、LLM架构(TheLLMarchitecture)不需要对
Transformer
艾墨舟启航
·
2025-06-25 20:46
大模型实战
架构
人工智能
大语言模型
预训练语言模型
1.1Encoder-onlyPLMEncoder-only架构是
Transformer
的重要分支,专注于自然语言理解(NLU)任务,核心代表是BERT及其优化模型(RoBERTa、ALBERT)。
lynnzon
·
2025-06-25 11:10
语言模型
人工智能
自然语言处理
大模型学习 (Datawhale_Happy-LLM)笔记4: 预训练语言模型
大模型学习(Datawhale_Happy-LLM)笔记4:预训练语言模型一、概述本章按Encoder-Only、Encoder-Decoder、Decoder-Only的顺序来依次介绍
Transformer
lxltom
·
2025-06-25 11:09
学习
笔记
语言模型
人工智能
bert
gpt
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他