E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
transformer论文阅读
大模型的底层逻辑及
Transformer
架构
其中,
Transformer
架构是目前主流的大模型架构,它通过自注意力机制和前馈神经网络来处理输入数据。这种架构能够高效地处理序列数据,如文本。3.自
搏博
·
2025-02-06 02:04
transformer
架构
深度学习
机器学习
人工智能
(14-6-03)基于Latent Diffusion
Transformer
的文生视频系统:实现模型(03)图像生成模型
它结合了
Transformer
架构和扩散模型的优势。
码农三叔
·
2025-02-05 22:30
训练
RAG
多模态)
人工智能
transformer
多模态
大模型
Transformer
s解决RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn
在使用
Transformer
s启动梯度检查点时,即:model.gradient_checkpointing_enable()时,会报错RuntimeError:element0oftensorsdoesnotrequiregradanddoesnothaveagrad_fn
怎么这么多名字都被占了
·
2025-02-05 18:06
transformer
pytorch
中国AI再放异彩!MiniMax01开源震撼全球
它突破了传统的
Transformer
架构,这可是AI领域的核心技术之一。对于咱们普通人来说,
盼达思文体科创
·
2025-02-05 15:15
经验分享
DeepSeek-R1全面超越OpenAI o1:开源大模型训练范式革新
OpenAI早期专注于强化学习(RL),但在
Transformer
结构问世后,迅速调整方向,借助Google的开源研究开发出强大的LLM。然而,尽
·
2025-02-05 02:16
前端javascript
unocss 添加支持使用本地 svg 预设图标,并支持更改大小
importpresetWeappfrom'unocss-preset-weapp'import{extractorAttributify,
transformer
Class}from'un
TangAcrab
·
2025-02-04 21:34
unocss
miniapp
揭秘DeepSeek R1大模型:它如何像人类一样“思考”?
DeepSeek官网:https://www.deepseek.com1.DeepSeekR1的“大脑结构”:
Transformer
进化版所有大模型的
大模型扬叔
·
2025-02-04 20:00
学习
自然语言处理
prompt
人工智能
hugging
face怎么用
AI大模型学习的七个阶段,学完你就是大模型大师!
Transformer
架构解析。预训练、SFT、RLHF。第三阶段:编程基础与工具使用目标:掌握大
AGI大模型老王
·
2025-02-04 19:48
人工智能
学习
大模型
大模型学习
AI大模型
RAG
大模型教程
站在Developer角度看DeepSeek:技术架构解析与开发实战指南
一、DeepSeek技术全景图:从实验室到生产环境1.1模型架构演进:重新定义
Transformer
可能性DeepSeek的分层动态稀疏
Transformer
架构在以下层面实现突破:硬件感知设计:根据GPU
嵌入式Jerry
·
2025-02-04 15:20
AI
架构
系统架构
AI编程
ai
学习
物联网
【声音场景分类--
论文阅读
】
1.基于小波时频图特征在声音场景分类基于小波时频图特征在声音场景分类任务中的表现2.增强增强高效音频分类网络https://arxiv.org/pdf/2204.11479v5https://github.com/Alibaba-MIIL/AudioClassfication音频分类网络如图4所示。在此阶段,主要重点是建立一个神经网络具有较大的感受野,同时保持较低的复杂性。可以将网络分解为两个主块
繁华落尽,寻一世真情
·
2025-02-04 12:21
分类
论文阅读
数据挖掘
Transformer
预测模型及其Python和MATLAB实现
2017年,Vaswani等人提出的
Transformer
模型在《AttentionisAllYouNeed》一文中引起
追蜻蜓追累了
·
2025-02-04 03:10
transformer
深度学习
人工智能
机器学习
算法
回归算法
神经网络
MOE模型入门
实现:将
transformer
模型中的每个前馈网络(FFN)层替换为MoE层,其中MoE层由两个核心部分组成:一个路由器(或者叫门控网络)和若干数量的专家。代表类型谷歌MOE,
云帆@
·
2025-02-04 01:29
AI
人工智能
DeepSeek的出现对全球GPT产业产生的冲击
特别是以GPT(GenerativePre-trained
Transformer
)系列模型为代表的大规模预训练语言模型,已经在全球范围内引发了广泛关注和应用。
不要em0啦
·
2025-02-03 23:07
机器学习
gpt
机器学习—大语言模型:推动AI新时代的引擎
2.
Transformer
架构3.模型训练二、大语言模型的应用场景1.文本生成2.问答系统3.编码助手4.多语言翻译三、大语言模型的最新进展1.GPT-42.开源模型四、构建和部署一个简单的大语言模型1
云边有个稻草人
·
2025-02-03 19:38
人工智能
机器学习
语言模型
周报 | 25.1.27-25.2.2文章汇总
-CSDN博客arXiv每日学术速递|强强联合:CNN与
Transformer
融合创新提升模型性能!!-CSDN博客AI生成未来|字节提出VideoWo
双木的木
·
2025-02-03 12:11
深度学习拓展阅读
python拓展学习
人工智能
transformer
算法
深度学习
YOLO
chatgpt
llama
Megatron:深度学习中的高性能模型架构
Megatron:深度学习中的高性能模型架构Megatron是由NVIDIA推出的深度学习大规模预训练模型框架,主要针对大规模
Transformer
架构模型的高效训练与推理。
gs80140
·
2025-02-03 08:06
基础知识科谱
AI
机器学习
人工智能
AIGC的底层框架和技术模块
以下是对AIGC底层框架和技术模块的详细解析:底层框架AIGC的底层框架主要基于深度学习的语言模型,特别是
Transformer
模型及其变种,如GPT(GenerativePre-trained
Transformer
五岔路口
·
2025-02-03 07:27
AIGC
Stable Diffusion 3 与 OpenAI 的 DALL-E 3 谁才是AI绘画的扛把子?
以下从多个角度详细比较这两种模型:1.开发背景与架构StableDiffusion3是由StabilityAI开发的开源模型,基于扩散
Transformer
架构和流匹配(FlowMatching)技术,
kcarly
·
2025-02-03 06:23
杂谈
Stable
Diffusion
使用
stable
diffusion
AI作画
『大模型笔记』视觉语言模型解释
2.开源视觉语言模型概览3.如何找到合适的视觉语言模型MMMUMMBench4.技术细节5.使用变压器(
transformer
s)运用视觉语言模型6.使用TRL微调视觉语言模型二.参考文章一.视觉语言模型解析视觉语言模型是一类能够同时从图像和文本中学习
AI大模型前沿研究
·
2025-02-03 05:40
大模型笔记
LLM
VLM
视觉语言模型
语言模型
大模型
人工智能
AI模型升级版0.02
我们将使用HuggingFace的
transformer
s库和torch库来实现这个目标。
pps-key
·
2025-02-03 02:51
python
AI写作
学习
gpt
DeepSeek-R1,DeepSeek-V3,DeepSeek-VL,DeepSeek-V2,DeepSeek-R1-Zero各个模型区别
目录1.各个模型架构2.训练方式3.模型参数与规模4.应用场景5.性能表现6.发布时间7.价格1.各个模型架构DeepSeek-R1:未明确有特殊架构说明,但属于推理模型,可能在
Transformer
架构基础上针对推理做了优化
fpga和matlab
·
2025-02-03 01:12
前言技术汇集
#
人工智能
大模型
DeepSeek
DeepSeek 使用的核心技术预测
1.大规模预训练模型架构
Transformer
变种与优化:基于
Transformer
架构进行改进,可能引入稀疏注意力机制(如Longform
eso1983
·
2025-02-02 18:22
人工智能
深度学习
机器学习
python
DiffuEraser: 一种基于扩散模型的视频修复技术
视频修复算法结合了基于流的像素传播与基于
Transformer
的生成方法,利用光流信息和相邻帧的信息来恢复纹理和对象,同时通过视觉
Transformer
完成被遮挡区域的修复。
扫地僧985
·
2025-02-02 15:01
音视频
transformer
之Attention机制及代码实现
目录异同点总结代码实现Self-AttentionCross-AttentionGatedSelf-AttentionGeneralizedQueryAttentionPagedAttentionSelf-Attention:一种Attention机制,用于处理单个输入序列中的依赖关系。Cross-Attention:一种Attention机制,用于处理两个或多个输入序列之间的依赖关系。Gated
AIVoyager
·
2025-02-02 15:30
NLP
AIGC
transformer
attention
LLM
【深度学习】Swin
Transformer
: Hierarchical Vision
Transformer
using Shifted Windows,论文
必读文章:https://blog.csdn.net/qq_37541097/article/details/121119988Swin
Transformer
:HierarchicalVision
Transformer
usingShiftedWindows
XD742971636
·
2025-02-02 14:54
深度学习机器学习
深度学习
transformer
人工智能
【llm对话系统】大模型 Llama 源码分析之 Flash Attention
1.写在前面近年来,基于
Transformer
架构的大型语言模型(LLM)在自然语言处理(NLP)领域取得了巨大的成功。
kakaZhui
·
2025-02-02 13:43
llama
人工智能
AIGC
chatgpt
JCR一区级 | Matlab实现蜣螂算法DBO-
Transformer
-LSTM多变量回归预测
本文提出了一种基于蜣螂算法(DungBeetleOptimizer,DBO)、DBO-
Transformer
和LSTM的多变量水质回归预测模型,旨在提高水质参数
Matlab机器学习之心
·
2025-02-02 13:13
算法
matlab
transformer
不同模型对 Emoji 和普通文本的处理表现,Emoji的向量嵌入(含测试代码)
验证代码from
transformer
simportAutoTokenizer#测试的模型列表models=["bert-base-uncased",#BERT"vinai/bertweet-base"
2301_79306982
·
2025-02-02 13:41
机器学习
人工智能
bert
transformer
【自然语言处理(NLP)】基于
Transformer
架构的预训练语言模型:BERT 训练之数据集处理、训练代码实现
文章目录介绍BERT训练之数据集处理BERT原理及模型代码实现数据集处理导包加载数据生成下一句预测任务的数据从段落中获取nsp数据生成遮蔽语言模型任务的数据从token中获取mlm数据将文本转换为预训练数据集创建Dataset加载WikiText-2数据集BERT训练代码实现导包加载数据构建BERT模型模型损失训练获取BERT编码器个人主页:道友老李欢迎加入社区:道友老李的学习社区介绍**自然语言
道友老李
·
2025-02-02 12:04
自然语言处理(NLP)
自然语言处理
transformer
使用
Transformer
模型实现股票走势预测:深入解析和实操案例(基于Python和PyTorch)
摘要:本文讨论了
Transformer
模型在股票市场预测中的应用,突出其自注意力机制在捕捉长期趋势和周期性变化方面的优势。文章详细介绍了模型理论、架构,并分析了其在股价预测中的优势和挑战。
AI_DL_CODE
·
2025-02-02 09:44
python
transformer
pytorch
股票预测
【llm对话系统】大模型 Llama、Qwen 和 ChatGLM 的网络结构和训练方法对比
它们都在
Transformer
架构的基础上进行了改进和优化,并在各种NLP任务上取得了优异的性能。本文将深入分析Llama、Qwen和ChatGLM的网络结构和训练方法,比较它们的异同以及各自的优势。
kakaZhui
·
2025-02-02 07:54
llama
人工智能
AIGC
chatgpt
python
Unet 改进:在encoder和decoder间加入
Transformer
Block
目录1.
Transformer
Block2.Unet改进3.完整代码Tips:融入模块后的网络经过测试,可以直接使用,设置好输入和输出的图片维度即可1.
Transformer
Block
Transformer
Block
听风吹等浪起
·
2025-02-01 23:11
AI
改进系列
transformer
图像分割
Unet
自然语言处理基础知识入门(四)
Transformer
模型整体最详解(self- attention机制,mask机制)
文章目录前言一、Seq2Seq1.1Seq2Seq的基本架构1.2Seq2Seq的框架实例二、
Transformer
2.1
Transformer
的整体架构2.2
Transformer
的输入2.2.1InputEmbeding2.2.2PositionalEncoder2.2.3
Transformer
这个男人是小帅
·
2025-02-01 18:33
NLP自然语言知识梳理入门
自然语言处理
transformer
人工智能
nlp
语言模型
机器翻译
深度学习
【小白学AI系列】NLP 核心知识点(五)
Transformer
介绍
Transformer
Transformer
是一种基于自注意力机制(Self-AttentionMechanism)的深度学习模型,首次由Vaswani等人于2017年在论文《AttentionisAllYouNeed
Blankspace空白
·
2025-02-01 18:58
人工智能
自然语言处理
transformer
pytorch基于
Transformer
预训练模型的方法实现词嵌入(tiansz/bert-base-chinese)
以下是一个完整的词嵌入(WordEmbedding)示例代码,使用modelscope下载tiansz/bert-base-chinese模型,并通过
transformer
s加载模型,获取中文句子的词嵌入
纠结哥_Shrek
·
2025-02-01 15:05
pytorch
transformer
bert
PyTorch中的unsqueeze函数(自用)
前言最近在学习swin_
transformer
的模型搭建,其中用到了广播机制,在理解广播机制的过程中发现自己对torch.unsqueeze()函数比较困惑,所以做了个小实验帮助自己理解。
黯岚岚岚岚岚
·
2025-02-01 15:58
pytorch
pytorch
python
经验分享
深度学习-笔记1
://gitee.com/paddlepaddle/PaddleNLPpaddle-nlp是一个自然语言处理NLP方面的工具包(代码库)ERNIEERNIE是百度基于BERT改进的预训练大模型,结合了
Transformer
·
2025-02-01 12:15
深度学习神经网络
DeepSeek大模型技术深度解析:揭开
Transformer
架构的神秘面纱
摘要DeepSeek大模型由北京深度求索人工智能基础技术研究有限公司开发,基于
Transformer
架构,具备卓越的自然语言理解和生成能力。
不一样的信息安全
·
2025-02-01 08:07
网络杂烩
AI
DeepSeek
LLM主要类别架构
LLM主要类别架构介绍LLM主要类别LLM本身基于
transformer
架构。
大模型微调实战
·
2025-02-01 08:36
人工智能
langchain
自然语言处理
神经网络
深度学习
深度解读大语言模型中的
Transformer
架构
一、
Transformer
的诞生背景传统的循环神经网络(RNN)和长短期记忆网络(LSTM)在处理自然语言时存在诸多局限性。RNN由于其递归的结构,在处理长序列时容易出现梯度消失和梯度爆炸的问题。
老三不说话、
·
2025-02-01 05:16
transformer
Transformer
模型结构分析:Encoder、Decoder以及注意力机制详解
作者:禅与计算机程序设计艺术1.简介
Transformer
模型由论文[1]提出,其基本思想是使用注意力机制代替循环神经网络(RNN)或卷积神经网络(CNN),是一种基于序列到序列(Seq2seq)的机器翻译
AI天才研究院
·
2025-02-01 04:59
Python实战
大数据AI人工智能
自然语言处理
人工智能
语言模型
编程实践
开发语言
架构设计
Transformer
模型解码器部分实现
说明:部分内容来自于网络教程,如有侵权请联系本人删除教程链接:2.4.2解码器-part2_哔哩哔哩_bilibili1.解码器层的作用作为解码器的组成单元,每个解码器层根据给定的输入向目标方向进行特征提取操作,即解码过程。代码实现:classDecoderLayer(nn.Module):def__init__(self,size,self_attn,src_attn,feed_forward,
APPLECHARLOTTE
·
2025-02-01 03:24
#
Transfomer模型
transformer
深度学习
人工智能
【人工智能】基于Python的机器翻译系统,从RNN到
Transformer
的演进与实现
在本篇文章中,我们将详细探讨如何使用Python实现从传统的循环神经网络(RNN)到现代
Transformer
模型的机器翻译系统。文章将从机
蒙娜丽宁
·
2025-01-31 23:24
Python杂谈
人工智能
人工智能
python
机器翻译
具身智能VLA(视觉-语言-动作)入门+RTX4060+Ubuntu22.04
第一个阶段:学习
transformer
和大模型:我喜欢刷微信的短视频,看到了入门的课程:GitHub-rasbt/LLMs-from-scra
铮铭
·
2025-01-31 19:51
transformer
pytorch
深度学习
linux
python
VLA
NLP模型大对比:
Transformer
>Seq2Seq > LSTM > RNN > n-gram
结论
Transformer
大于传统的Seq2Seq大于LSTM大于RNN大于传统的n-gramn-gramVS
Transformer
我们可以用一个图书馆查询的类比来解释它们的差异:一、核心差异对比维度n-gram
feifeikon
·
2025-01-31 19:14
自然语言处理
transformer
bert
DeepSeek-R1:多模态AGI的实践突破与场景革命
二、技术架构与创新亮点统一的多模态框架采用
Transformer
-bas
热爱分享的博士僧
·
2025-01-31 14:09
agi
DeepSeek优势方法策略
在训练阶段压缩时间空间复杂度的方法DeepSeek和ChatGPT在压缩时间空间复杂度上的不同之处DeepSeek能降低显卡使用的原因DeepSeek在训练阶段压缩时间空间复杂度的方法采用MLA架构:在传统的
Transformer
ZhangJiQun&MXP
·
2025-01-31 14:03
2021
论文
2021
AI
python
教学
人工智能
语言模型
自然语言处理
gpt
深度学习
利用去雾算法实现低光增强
[
论文阅读
](11)ACE算法和暗通道先验图像去雾算法(Rizzi|何恺明老师)_暗通道去雾算法-CSDN博客//https://zhuanlan.zhihu.com/p/500023711?
mytzs123
·
2025-01-31 14:32
图像增强
算法
opencv
人工智能
Llama大型语言模型原理详解
一、模型结构Llama模型采用了一种基于
Transformer
的架构,这是一种由多个自注意力机制和前馈神经网络组成的深度神经网络结构。
Transformer
架构通过自注意力机制捕
摆烂大大王
·
2025-01-31 11:40
llama
llama
语言模型
人工智能
基于
Transformer
的多通道肌电信号序列分类
本项目基于
Transformer
实现对表面肌电信号的分类,数据使用excel进行保存,使用Pytorch架构建立模型并训练,利用基于Paramiko库的SSH连接来实现对NAO机器人的远程控制。
咖啡百怪
·
2025-01-31 10:04
transformer
深度学习
人工智能
上一页
5
6
7
8
9
10
11
12
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他