E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
扩散Transformer
详解DeepSeek模型底层原理及和ChatGPT区别点
一、DeepSeek大模型原理架构基础DeepSeek基于
Transformer
架构,
Transformer
架构主要由编码器和解码器组成,在自然语言处理任务中,通常使用的是
Transformer
的解码器部分
瞬间动力
·
2025-03-06 01:16
语言模型
机器学习
AI编程
云计算
阿里云
2万字长文,九篇论文读懂大语言模型的前世今生
如果感兴趣的话,感谢关注,点赞转发在看收藏,五键四连,谢谢~更多LLM架构文章:LLM架构专栏近日热文:1.全网最全的神经网络数学原理(代码和公式)直观解释2.大模型进化史:从
Transformer
到DeepSeek-R1
·
2025-03-06 00:32
人工智能
Transformer
架构简略:DeepSeek 的底层基石
2017年,一篇名为《AttentionisAllYouNeed》的论文横空出世,提出了
Transformer
架构,彻底改变了自然语言处理(NLP)领域的格局。
windwant
·
2025-03-05 14:16
人工智能
人工智能
transformer
架构
QKV 注意力机制在
Transformer
架构中的作用,和卷积在卷积神经网络中的地位,有哪些相似之处?
QKV注意力机制在
Transformer
架构中的作用,和卷积在卷积神经网络中的地位,有哪些相似之处?
安意诚Matrix
·
2025-03-05 08:56
机器学习笔记
transformer
cnn
深度学习
AAAI 2024 | Attentive Eraser:通过自注意力重定向引导释放
扩散
模型的物体移除潜力
UnleashingDiffusionModel’sObjectRemovalPotentialviaSelf-AttentionRedirectionGuidanceAttentiveEraser:通过自注意力重定向引导释放
扩散
模型的物体移除潜力作者
小白学视觉
·
2025-03-05 06:14
计算机顶会论文解读
人工智能
计算机视觉
AAAI
论文解读
计算机顶会
深入理解
Transformer
:用途、原理和示例
深入理解
Transformer
:用途、原理和示例一、
Transformer
是什么
Transformer
是一种基于注意力机制(AttentionMechanism)的深度学习架构,在2017年的论文“AttentionIsAllYouNeed
范吉民(DY Young)
·
2025-03-05 01:55
简单AI学习
transformer
深度学习
人工智能
DeepSeek到TinyLSTM的知识蒸馏
一、架构设计与适配模型结构对比:DeepSeek(教师模型):基于
Transformer
,多头自注意力机制,层数≥12,隐藏层维度≥768TinyLSTM(学生模型):单层双向LSTM,隐藏单元128,
猴的哥儿
·
2025-03-04 21:29
笔记
python
机器学习
深度学习
神经网络
AI编程
Deepseek的底层架构思维构成
专业解释一、核心架构组件:注意力机制与专家模型的革新1.多头潜在注意力机制(MLA)功能与作用:MLA是DeepSeek对传统
Transformer
注意力机制的创新改进。
堕落年代
·
2025-03-04 19:09
AI
架构
人工智能
计算机视觉|ConvNeXt:CNN 的复兴,
Transformer
的新对手
然而,随着Vision
Transformer
(ViT)的出现,计算机视觉领域的格局发生了重大变化。ViT通过自注意力机制,打破了传统卷积神经网络的局部感知局限,能够捕捉长距离依赖关系,在图
紫雾凌寒
·
2025-03-04 16:20
AI
炼金厂
#
计算机视觉
#
深度学习
机器学习
计算机视觉
人工智能
transformer
ConvNeXt
动态网络
神经网络
BERT 和 Milvus 构建智能问答系统的全面技术解析,涵盖从原理到实践的完整流程
下面Python代码示例和优化策略:一、技术栈协作原理BERT的语义编码能力BERT作为预训练语言模型,通过双向
Transformer
结构将文本转换为高维向量(如768维),捕捉上下文语义信息。
·
2025-03-04 14:28
BERT 模型 和 Milvus 向量数据库分步骤讲解如何实现「文本相似度搜索」
1️⃣环境准备安装必要的库:pipinstallpymilvus
transformer
storch2️⃣流程图解BERT模型↓将文本转为向量Milvus数据库(存储所有向量)↓输入问题文本Milvus搜索相似向量
·
2025-03-04 10:23
终于等来能塞进手机的文生图模型!十分之一体量,SnapGen实现百分百的效果
近些年来,以StableDiffusion为代表的
扩散
模型为文生图(T2I)任务树立了新的标准,Pi
ytsoft001
·
2025-03-04 01:22
ai
人工智能
计算机视觉
图像处理
AI作画
DALL·E
2
chatgpt
stable
diffusion
【深度学习】Hopfield网络:模拟联想记忆
Transformer
优化,什么是稀疏注意力?
Transformer
模型自2017年被提出以来,已经成为自然语言处理(NLP)领域的核心架构,并在计算机视觉、语音处理等其他领域也取得了显著的成功。
T-I-M
·
2025-03-03 22:32
深度学习
人工智能
创新引领的人工智能模型系列:MiniMax-01 系列震撼登场
MiniMax-01MiniMax-01MiniMax-01系列模型首次大规模实现线性注意力机制,传统
Transformer
架构不再是唯一的选择。这个模型的参数量高达4560亿,其中单次激活459亿。
·
2025-03-03 17:52
transformer
s.deepspeed
报错:nomodulenamed
transformer
s.deepspeed原因:版本更新后,已取消
transformer
s.deepspeed新版本中更改为
transformer
s.integrations.deepspeed
icesord
·
2025-03-03 02:56
人工智能
python
【AI大模型】
Transformer
s大模型库(九):大模型微调之计算微调参数占比
目录一、引言二、计算微调参数占比2.1概述2.2模型参数结构一览2.3微调参数占比计算三、总结一、引言这里的
Transformer
s指的是huggingface开发的大模型库,为huggingface上数以万计的预训练大模型提供预测
LDG_AGI
·
2025-03-03 01:45
人工智能
大模型微调入门(
Transformer
s + Pytorch)
目标输入:你是谁?输出:我们预训练的名字。训练为了性能好下载小参数模型,普通机器都能运行。下载模型#方式1:使用魔搭社区SDK下载#down_deepseek.pyfrommodelscopeimportsnapshot_downloadmodel_dir=snapshot_download('deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B')#方式2:gitl
昵称不能为null
·
2025-03-03 00:06
python
llm
机器学习
人工智能
大语言模型技术专栏(三):Attention机制——从RNN到
Transformer
的惊世一跃!
文章目录概要一、Attention机制:让AI学会「划重点」二、Attention机制的核心原理三、Self-Attention:
Transformer
的核心四、代码实战:用PyTorch实现Attention
北海yy
·
2025-03-02 22:53
大语言模型技术专栏
语言模型
rnn
transformer
Transformer
代码剖析7 - 词元嵌入(TokenEmbedding) (pytorch实现)
一、类定义与继承关系剖析1.1代码结构图示神经网络基础模块词嵌入基类自定义词元嵌入构造函数定义基类初始化词汇量参数维度参数填充标识参数1.2代码实现精讲"""@author:Hyunwoong@when:2019-10-22@homepage:https://github.com/gusdnd852"""fromtorchimportnnclassTokenEmbedding(nn.Embeddi
lczdyx
·
2025-03-02 22:50
Transformer代码剖析
transformer
pytorch
深度学习
人工智能
python
Transformer
模型详解
导读
Transformer
在许多的人工智能领域,如自然语言处理(NaturalLanguageProcessing,NLP)、计算机视觉(ComputerVision,CV)和语音处理(SpeechProcessing
Yuki-^_^
·
2025-03-02 21:46
Transformer模型详解
人工智能
transformer
深度学习
人工智能
Transformer
架构深度研究报告(二、分层原理)
一、
Transformer
不同层作用剖析1.1低层作用在
Transformer
架构中,低层(1-3层)主要承担着局部语法建模的关键任务,其对语言基础结构的理解和处理为后续高层语义分析奠定了坚实基础。
jiaojieran
·
2025-03-02 20:36
transformer
深度学习
人工智能
1.7 Kaggle大白话:Eedi竞赛
Transformer
框架解决方案07-调用AI模型输出结果
目录0.本栏目竞赛汇总表1.本文主旨2.调用AI模型输出结果架构3.模型准备3.1代码实现3.2大白话模型准备4.数据处理4.1代码实现4.2大白话数据处理5.特征提取5.1代码实现5.2大白话特征提取6.相似度匹配6.1代码实现6.2大白话相似度匹配7.系列总结7.1章节回顾7.2竞赛排名7.3其他优秀项目(皆为竞赛金牌)0.本栏目竞赛汇总表Kaggle竞赛汇总1.本文主旨大白话:上一篇文章中,
AI量金术师
·
2025-03-02 19:59
Kaggle竞赛
人工智能
transformer
深度学习
python
算法
深度学习五大模型:CNN、
Transformer
、BERT、RNN、GAN解析
今天探讨它们各自适用的场景,让您知道在何种情况下选择何种模型;同时分析它们的优势与局限,助您全面评估这些模型的性能。一、卷积神经网络(ConvolutionalNeuralNetwork,CNN)原理:CNN主要由卷积层、池化层和全连接层组成。卷积层通过卷积核在输入数据上进行卷积运算,提取局部特征;池化层则对特征图进行下采样,降低特征维度,同时保留主要特征;全连接层将特征图展开为一维向量,并进行分
大模型_学习路线
·
2025-03-02 16:04
深度学习
cnn
transformer
人工智能
AI大模型
大模型
LLM
Llama 2架构深度解析:Meta开源的70B参数大模型设计哲学
7B/13B/70B参数规模下保持线性计算复杂度扩展性强化:通过改进注意力机制支持4k上下文长度安全性内嵌:在预训练阶段融入5%安全语料,降低有害输出概率(较前代下降34%)二、核心模块创新1.改进型
Transformer
AI时代已来!
·
2025-03-02 14:46
llama
架构
【Pytorch】基于LSTM-KAN、BiLSTM-KAN、GRU-KAN、TCN-KAN、
Transformer
-KAN(各种KAN修改一行代码搞定)的共享单车租赁预测研究(数据可换)Python
目录⛳️赠与读者1概述一、研究背景与意义二、TCN与KAN简介三、基于TCN-KAN的共享单车租赁预测模型四、研究挑战与展望基于LSTM-KAN、BiLSTM-KAN、GRU-KAN、TCN-KAN、
Transformer
-KAN
冒泡芳
·
2025-03-02 13:08
python
pytorch
lstm
Transformer
代码剖析9 - 解码器模块Decoder (pytorch实现)
一、模块架构全景图1.1核心功能定位
Transformer
解码器是序列生成任务的核心组件,负责根据编码器输出和已生成序列预测下一个目标符号。
lczdyx
·
2025-03-02 13:05
Transformer代码剖析
transformer
pytorch
深度学习
人工智能
python
Transformer
预测 | 基于TCN-
Transformer
的股票价格预测(Pytorch)
文章目录预测效果文章概述程序设计参考资料预测效果文章概述
Transformer
预测|基于TCN-
Transformer
的股票价格预测(Python)
Transformer
模型本质上都是预训练语言模型,大都采用自监督学习
机器学习之心
·
2025-03-02 13:35
#
Transformer模型
transformer
pytorch
深度学习
TCN-Transformer
股票价格预测
如何用AI写程序
一、AI写程序之工具选择(一)主流AI编程工具介绍如今市面上有诸多AI编程工具可供选择,以下为大家介绍几种常见且实用的工具:ChatGPT:由OpenAI开发的一款基于
Transformer
架构的预训练模型
Honmaple
·
2025-03-02 11:46
人工智能
实体识别处理--在给定的文本中识别特定类型的实体
代码结构和模块分析1.导入必要的库importtorchfromtorchimportnnfrom
transformer
simportBertTokenizer,BertModelfro
风清扬【coder】
·
2025-03-01 21:04
自然语言分析处理
算法
深度学习
人工智能
nlp
自然语言处理
【大模型】大模型分类
计算机视觉(CV)模型如ResNet、EfficientNet、Vision
Transformer
(ViT)等,用于图
IT古董
·
2025-03-01 16:29
人工智能
人工智能
大模型
Stable Diffusion(SD)系列模型及关联算法深度解析
一、基础模型架构演进SDv1.5核心架构:基于LatentDiffusionModel(LDM),通过VAE将图像压缩至潜空间进行
扩散
训练,支持512x512分辨率生成,兼容二次元与写实风格混合创作
Liudef06
·
2025-03-01 08:59
Stable
Diffusion
stable
diffusion
算法
全方位解析:大语言模型评测方法的综合指南
自2017年
Transformer
模型提出以来,自然语言处理研究逐步转向基于该框架的预训练模型,如BERT、GPT、BART和T5等。这些预训练模型与下游任务适配后,持续刷新最优结果。
大模型玩家
·
2025-03-01 08:28
语言模型
人工智能
自然语言处理
深度学习
agi
大模型
搜索引擎
Transformer
代码剖析1 - 数据处理 (pytorch实现)
引言
Transformer
架构自《AttentionIsAllYouNeed》论文发表以来,在自然语言处理领域引起了巨大的变革。
lczdyx
·
2025-03-01 06:18
Transformer代码剖析
人工智能
transformer
深度学习
pytorch
python
BERT模型深入理解——自然语言处理的里程碑
1BERT的诞生背景2018年谷歌团队发布了BERT(BidirectionalEncoderRepresentationsfrom
Transformer
s)模型,在自然语言处理领域引领了技术性的革命。
cufewxy2018
·
2025-03-01 06:47
自然语言处理
bert
人工智能
大模型技术在电商平台商品评价分析中的应用
大模型技术在电商平台商品评价分析中的应用关键词:大模型技术电商平台商品评价分析情感分析商品推荐
Transformer
模型BERT模型摘要:本文详细探讨了大模型技术在电商平台商品评价分析中的应用。
AI天才研究院
·
2025-03-01 05:35
计算
DeepSeek
R1
&
大数据AI人工智能大模型
AI大模型企业级应用开发实战
java
python
javascript
kotlin
golang
架构
人工智能
大厂程序员
硅基计算
碳基计算
认知计算
生物计算
深度学习
神经网络
大数据
AIGC
AGI
LLM
系统架构设计
软件哲学
Agent
程序员实现财富自由
Transformer
代码剖析8 - 编码器模块Encoder (pytorch实现)
一、代码结构总览
Transformer
Encoder__init__初始化Encoder类forward前向传播super()父类初始化构建词嵌入层self.emb=
Transformer
Embedding
lczdyx
·
2025-03-01 04:26
Transformer代码剖析
transformer
pytorch
深度学习
人工智能
python
Transformer
代码剖析4 - 编码器层实现 (pytorch实现)
一、EncoderLayer-类结构定义参考:项目代码classEncoderLayer(nn.Module):def__init__(self,d_model,ffn_hidden,n_head,drop_prob):super(EncoderLayer,self).__init__()self.attention=MultiHeadAttention(d_model=d_model,n_hea
lczdyx
·
2025-02-28 22:46
Transformer代码剖析
transformer
pytorch
深度学习
人工智能
python
【AI论文】SongGen:用于文本到歌曲生成的单阶段自回归
Transformer
模型
在本文中,我们提出了SongGen,一个完全开源的单阶段自回归
Transformer
模型,专为可控歌曲生成而设计。
东临碣石82
·
2025-02-28 15:58
人工智能
回归
transformer
猿大师播放器:HTML内嵌VLC播放RTSP视频流,无需转码,300ms级延迟,碾压服务器转码方案
然而,行业普遍面临三大矛盾:实时性要求与高延迟矛盾:火灾蔓延速度达1米/秒,化工泄漏
扩散
仅需数秒,传统方案3秒以上的延迟可能导致应急决策失效;高清化趋势与成本压力矛盾:4K/H.265设备普及率超
猿大师播放器
·
2025-02-28 15:57
网页播放RTSP视频流
猿大师播放器
服务器
运维
vue.js
h.265
transformer
中seq_len参数的设置
在
Transformer
模型中,seq_len(序列长度)是一个关键的超参数,下面从不同方面详细介绍它的具体含义和作用:一、基本定义seq_len表示输入到
Transformer
模型中的序列所允许的最大长度
yuweififi
·
2025-02-28 10:49
transformer
深度学习
人工智能
pytorch基础 nn.embedding
这是许多NLP模型(包括
Transformer
)中的基本组件。
yuweififi
·
2025-02-28 10:49
pytorch
人工智能
nlp
Transformer
代码剖析2 - 模型训练 (pytorch实现)
一、模型初始化模块参考:项目代码1.1参数统计函数defcount_parameters(model):returnsum(p.numel()forpinmodel.parameters()ifp.requires_grad)遍历模型参数筛选可训练参数统计参数数量返回总数技术解析:numel()方法计算张量元素总数requires_grad筛选需要梯度更新的参数统计结果反映模型复杂度,典型Tran
lczdyx
·
2025-02-28 09:38
Transformer代码剖析
transformer
pytorch
深度学习
人工智能
python
《AI 大模型 ChatGPT 的传奇》
1.4算法层面的跃升1.4.1RNN到transformor1.4.2
扩散
模型diffusion1.4.3跨模态的CLIP框架1.5AIGC的耀眼成果1.5.1AI
武昌库里写JAVA
·
2025-02-28 04:33
面试题汇总与解析
课程设计
spring
boot
vue.js
算法
数据结构
大模型专栏博文汇总和索引
大模型专栏主要是汇总了我在学习大模型相关技术期间所做的一些总结和笔记,主要包括以下几个子专栏:DeepSeek-R1AIGC大模型实践
Transformer
多模态系统视频理解对比学习目标检测目标跟踪图神经网络大模型专栏汇总了以上所有子专栏的论文
Donvink
·
2025-02-28 03:53
大模型
transformer
深度学习
人工智能
语言模型
扩散
模型基本概念
1.核心思想从最原始的DDPM来讲,
扩散
模型是用变分估计训练的马尔可夫链,相当于VAE+流模型。与标准化流相比,
扩散
模型的正向过程为预先定义的加噪过程,负责将图像x∼p(x)x\sim{p(x)}x∼
AndrewHZ
·
2025-02-28 00:57
深度学习新浪潮
扩散模型
计算机视觉
流形学习
生成式模型
深度学习次
深度学习
人工智能
VQ-Diffusion 深度解析与实战指南
gitcode.com/gh_mirrors/vqd/VQ-Diffusion1.项目介绍VQ-Diffusion是一个用于文本到图像合成的深度学习模型,基于矢量量化变分自编码器(VQ-VAE)和去噪
扩散
概率模型
晏灵昀Odette
·
2025-02-27 23:45
ELMo ,LM:一串词序列的概率分布probability distribution over sequences of words
Languagemodelisaprobabilitydistributionoversequencesofwords.GPT与ELMo当成特征的做法不同,OpenAIGPT不需要再重新对任务构建新的模型结构,而是直接在
transformer
强化学习曾小健
·
2025-02-27 22:05
NLP自然语言处理
#
预训练语言模型
DeepSeek应用领域全景解析:驱动产业智能化升级的六大核心方向
本文基于官方技术文档与行业实践案例,深入剖析DeepSeek在六大核心领域的应用突破与商业价值实现二、技术底座:支撑多领域落地的三大创新架构1.
Transformer
-XL增强架构通过引入Multi-HeadLate
量子纠缠BUG
·
2025-02-27 21:32
DeepSeek部署
AI
DeepSeek
人工智能
AI编程
深度学习
Ollama本地私有化部署通义千问大模型Qwen2.5
目录Qwen2.5介绍Qwen2.5新闻Ollama介绍Linux安装Ollama一键安装Ollama手工安装Ollama卸载OllamaOllama运行Qwen2基于
Transformer
s进行推理本文复现环境
ErbaoLiu
·
2025-02-27 20:17
数据分析&大模型
机器学习&大模型
自然语言处理&大模型
大模型
LLM
Qwen2.5
Qwen2
Ollama
救命!论文被知网判定AI生成?别慌!手把手教你3分钟自救
上周有个同学写"
Transformer
模型"
chatpaper001
·
2025-02-27 18:37
人工智能
自然语言处理
深度学习
AIGC
AI写作
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他