E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
TRANSFORMER
深度学习的文本生成:从seq2seq到GPT2和GPT3
文章目录1.背景介绍1.1序列到序列(seq2seq)模型1.1.1编码器1.1.2解码器1.1.3训练1.2
Transformer
模型1.2.1自注意力机制1.2.2位置编码1.2.3多头注意力1.2.4
AI天才研究院
·
2025-02-08 11:33
AI大模型应用入门实战与进阶
ChatGPT
大数据
人工智能
语言模型
AI
LLM
Java
Python
架构设计
Agent
RPA
ACC-UNet网络学习笔记(2023 MICCAI )
同样,医学图像领域也发生了一样的变化,最具影响力的网络结构——U-Net已和
Transformer
相结合而被重新设计。
刘若里
·
2025-02-08 10:58
论文阅读
网络
学习
笔记
完整的671B R1塞进本地,详尽教程来了!
李锡涵(XihanLi)作者简介:伦敦大学学院(UCL)计算机系博士研究生,谷歌开发者专家,主要研究方向为学习优化,在NeurIPS、ICLR、AAMAS、CIKM等会议发表过学术论文,Circuit
Transformer
·
2025-02-08 10:08
datawhale
AI学习指南HuggingFace篇-项目实战:情感分析系统
HuggingFace的
Transformer
s库提供了强大的工具,使得情感分析变得简单高效。
俞兆鹏
·
2025-02-08 10:25
AI学习指南
ai
【Block总结】DFFN,门控机制选择性保留低频和高频信息
论文信息标题:EfficientFrequencyDomain-based
Transformer
sforHigh-QualityImageDeblurring论文链接:LingshunKong,JiangxinDong
AI浩
·
2025-02-08 08:36
Block总结
计算机视觉
transformer
人工智能
【AI原理解析】— Gemini模型
模型基础与架构模型架构模型尺寸3.多模态处理能力输入处理数据处理训练过程4.技术细节与优化预训练上下文长度注意机制5.安全性与编程能力安全性评估编程能力6.模型发布与应用发布时间应用方向7.性能评估8.数学基础8.1
Transformer
coolkidlan
·
2025-02-08 06:49
AI学习路径
AIGC
人工智能
AIGC
DeepSeek为什么采用与主流大模型不一样的MoE架构?一文搞懂什么是MoE模型
但像Qwen、LLama模型,用的却是Dense架构,也就是传统的
Transformer
架构。这两种架构有个很明显的区别。
大模型_学习路线
·
2025-02-08 04:39
架构
人工智能
AI大模型
大模型
自然语言处理
LLM
DeepSeek
Flash Attention介绍
FlashAttention是一种优化
Transformer
模型中注意力机制的技术,旨在提高计算效率并减少内存使用。
TAICHIFEI
·
2025-02-08 03:38
大模型面试
人工智能
AI商业化:如何包装技术并找到客户需求?
一、引言在过去几年里,从GPT、
Transformer
到DeepSeek,以及分布式训练和微调技术的发展,为AI技术带来了质的飞跃。然而,光有先进的技术并不足以实现商业成功。如何将这些技术包装成易于
hjy1821
·
2025-02-07 17:34
AI
人工智能
深度搜索MoE:利用大规模预训练模型提升信息检索效能
利用大规模预训练模型提升信息检索效能DeepSeek-MoE项目地址:https://gitcode.com/gh_mirrors/de/DeepSeek-MoE项目简介DeepSeek-MoE是一个基于
Transformer
杭律沛Meris
·
2025-02-07 15:20
SRMT:一种融合共享记忆与稀疏注意力的多智能体强化学习框架
自反射记忆
Transformer
(SRMT)作为一种新型记忆增强型
transformer
架构,专注于提升基于AI的决策能力和多智能体协同效果。
·
2025-02-07 13:28
DeepSeek 多模态大模型Janus-Pro本地部署教程
该框架通过将视觉编码解耦到不同的处理路径(同时仍使用单一统一的
Transformer
架构
·
2025-02-07 13:20
大模型参数量及其单位的概念
BERT(BidirectionalEncoderRepresentationsfrom
Transformer
s)模型有几种不同的版本,它们的参数量不同。
这个人有丶懒
·
2025-02-07 03:57
自然语言处理
语言模型
使用一个大语言模型对另一个大语言模型进行“调教”
以下是基于搜索结果整理的详细步骤和方法:1.准备工作安装必要的库•
Transformer
s:用于加载和训练模型。•Datasets:用于处理数据集。
大霸王龙
·
2025-02-07 03:25
python
人工智能
python
deepseek再爆大招,janus pro炸裂出场
januspro多模态大模型炸裂出场,
transformer
架构,没有走diffusion路线,再次颠覆行业认知,继续追着OpenAI打。家里有高配电脑的可以玩起来了,网上自己搜索吧。
caoz
·
2025-02-06 12:15
大模型的底层逻辑及
Transformer
架构
其中,
Transformer
架构是目前主流的大模型架构,它通过自注意力机制和前馈神经网络来处理输入数据。这种架构能够高效地处理序列数据,如文本。3.自
搏博
·
2025-02-06 02:04
transformer
架构
深度学习
机器学习
人工智能
(14-6-03)基于Latent Diffusion
Transformer
的文生视频系统:实现模型(03)图像生成模型
它结合了
Transformer
架构和扩散模型的优势。
码农三叔
·
2025-02-05 22:30
训练
RAG
多模态)
人工智能
transformer
多模态
大模型
Transformer
s解决RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn
在使用
Transformer
s启动梯度检查点时,即:model.gradient_checkpointing_enable()时,会报错RuntimeError:element0oftensorsdoesnotrequiregradanddoesnothaveagrad_fn
怎么这么多名字都被占了
·
2025-02-05 18:06
transformer
pytorch
中国AI再放异彩!MiniMax01开源震撼全球
它突破了传统的
Transformer
架构,这可是AI领域的核心技术之一。对于咱们普通人来说,
盼达思文体科创
·
2025-02-05 15:15
经验分享
DeepSeek-R1全面超越OpenAI o1:开源大模型训练范式革新
OpenAI早期专注于强化学习(RL),但在
Transformer
结构问世后,迅速调整方向,借助Google的开源研究开发出强大的LLM。然而,尽
·
2025-02-05 02:16
前端javascript
unocss 添加支持使用本地 svg 预设图标,并支持更改大小
importpresetWeappfrom'unocss-preset-weapp'import{extractorAttributify,
transformer
Class}from'un
TangAcrab
·
2025-02-04 21:34
unocss
miniapp
揭秘DeepSeek R1大模型:它如何像人类一样“思考”?
DeepSeek官网:https://www.deepseek.com1.DeepSeekR1的“大脑结构”:
Transformer
进化版所有大模型的
大模型扬叔
·
2025-02-04 20:00
学习
自然语言处理
prompt
人工智能
hugging
face怎么用
AI大模型学习的七个阶段,学完你就是大模型大师!
Transformer
架构解析。预训练、SFT、RLHF。第三阶段:编程基础与工具使用目标:掌握大
AGI大模型老王
·
2025-02-04 19:48
人工智能
学习
大模型
大模型学习
AI大模型
RAG
大模型教程
站在Developer角度看DeepSeek:技术架构解析与开发实战指南
一、DeepSeek技术全景图:从实验室到生产环境1.1模型架构演进:重新定义
Transformer
可能性DeepSeek的分层动态稀疏
Transformer
架构在以下层面实现突破:硬件感知设计:根据GPU
嵌入式Jerry
·
2025-02-04 15:20
AI
架构
系统架构
AI编程
ai
学习
物联网
Transformer
预测模型及其Python和MATLAB实现
2017年,Vaswani等人提出的
Transformer
模型在《AttentionisAllYouNeed》一文中引起
追蜻蜓追累了
·
2025-02-04 03:10
transformer
深度学习
人工智能
机器学习
算法
回归算法
神经网络
MOE模型入门
实现:将
transformer
模型中的每个前馈网络(FFN)层替换为MoE层,其中MoE层由两个核心部分组成:一个路由器(或者叫门控网络)和若干数量的专家。代表类型谷歌MOE,
云帆@
·
2025-02-04 01:29
AI
人工智能
DeepSeek的出现对全球GPT产业产生的冲击
特别是以GPT(GenerativePre-trained
Transformer
)系列模型为代表的大规模预训练语言模型,已经在全球范围内引发了广泛关注和应用。
不要em0啦
·
2025-02-03 23:07
机器学习
gpt
机器学习—大语言模型:推动AI新时代的引擎
2.
Transformer
架构3.模型训练二、大语言模型的应用场景1.文本生成2.问答系统3.编码助手4.多语言翻译三、大语言模型的最新进展1.GPT-42.开源模型四、构建和部署一个简单的大语言模型1
云边有个稻草人
·
2025-02-03 19:38
人工智能
机器学习
语言模型
周报 | 25.1.27-25.2.2文章汇总
-CSDN博客arXiv每日学术速递|强强联合:CNN与
Transformer
融合创新提升模型性能!!-CSDN博客AI生成未来|字节提出VideoWo
双木的木
·
2025-02-03 12:11
深度学习拓展阅读
python拓展学习
人工智能
transformer
算法
深度学习
YOLO
chatgpt
llama
Megatron:深度学习中的高性能模型架构
Megatron:深度学习中的高性能模型架构Megatron是由NVIDIA推出的深度学习大规模预训练模型框架,主要针对大规模
Transformer
架构模型的高效训练与推理。
gs80140
·
2025-02-03 08:06
基础知识科谱
AI
机器学习
人工智能
AIGC的底层框架和技术模块
以下是对AIGC底层框架和技术模块的详细解析:底层框架AIGC的底层框架主要基于深度学习的语言模型,特别是
Transformer
模型及其变种,如GPT(GenerativePre-trained
Transformer
五岔路口
·
2025-02-03 07:27
AIGC
Stable Diffusion 3 与 OpenAI 的 DALL-E 3 谁才是AI绘画的扛把子?
以下从多个角度详细比较这两种模型:1.开发背景与架构StableDiffusion3是由StabilityAI开发的开源模型,基于扩散
Transformer
架构和流匹配(FlowMatching)技术,
kcarly
·
2025-02-03 06:23
杂谈
Stable
Diffusion
使用
stable
diffusion
AI作画
『大模型笔记』视觉语言模型解释
2.开源视觉语言模型概览3.如何找到合适的视觉语言模型MMMUMMBench4.技术细节5.使用变压器(
transformer
s)运用视觉语言模型6.使用TRL微调视觉语言模型二.参考文章一.视觉语言模型解析视觉语言模型是一类能够同时从图像和文本中学习
AI大模型前沿研究
·
2025-02-03 05:40
大模型笔记
LLM
VLM
视觉语言模型
语言模型
大模型
人工智能
AI模型升级版0.02
我们将使用HuggingFace的
transformer
s库和torch库来实现这个目标。
pps-key
·
2025-02-03 02:51
python
AI写作
学习
gpt
DeepSeek-R1,DeepSeek-V3,DeepSeek-VL,DeepSeek-V2,DeepSeek-R1-Zero各个模型区别
目录1.各个模型架构2.训练方式3.模型参数与规模4.应用场景5.性能表现6.发布时间7.价格1.各个模型架构DeepSeek-R1:未明确有特殊架构说明,但属于推理模型,可能在
Transformer
架构基础上针对推理做了优化
fpga和matlab
·
2025-02-03 01:12
前言技术汇集
#
人工智能
大模型
DeepSeek
DeepSeek 使用的核心技术预测
1.大规模预训练模型架构
Transformer
变种与优化:基于
Transformer
架构进行改进,可能引入稀疏注意力机制(如Longform
eso1983
·
2025-02-02 18:22
人工智能
深度学习
机器学习
python
DiffuEraser: 一种基于扩散模型的视频修复技术
视频修复算法结合了基于流的像素传播与基于
Transformer
的生成方法,利用光流信息和相邻帧的信息来恢复纹理和对象,同时通过视觉
Transformer
完成被遮挡区域的修复。
扫地僧985
·
2025-02-02 15:01
音视频
transformer
之Attention机制及代码实现
目录异同点总结代码实现Self-AttentionCross-AttentionGatedSelf-AttentionGeneralizedQueryAttentionPagedAttentionSelf-Attention:一种Attention机制,用于处理单个输入序列中的依赖关系。Cross-Attention:一种Attention机制,用于处理两个或多个输入序列之间的依赖关系。Gated
AIVoyager
·
2025-02-02 15:30
NLP
AIGC
transformer
attention
LLM
【深度学习】Swin
Transformer
: Hierarchical Vision
Transformer
using Shifted Windows,论文
必读文章:https://blog.csdn.net/qq_37541097/article/details/121119988Swin
Transformer
:HierarchicalVision
Transformer
usingShiftedWindows
XD742971636
·
2025-02-02 14:54
深度学习机器学习
深度学习
transformer
人工智能
【llm对话系统】大模型 Llama 源码分析之 Flash Attention
1.写在前面近年来,基于
Transformer
架构的大型语言模型(LLM)在自然语言处理(NLP)领域取得了巨大的成功。
kakaZhui
·
2025-02-02 13:43
llama
人工智能
AIGC
chatgpt
JCR一区级 | Matlab实现蜣螂算法DBO-
Transformer
-LSTM多变量回归预测
本文提出了一种基于蜣螂算法(DungBeetleOptimizer,DBO)、DBO-
Transformer
和LSTM的多变量水质回归预测模型,旨在提高水质参数
Matlab机器学习之心
·
2025-02-02 13:13
算法
matlab
transformer
不同模型对 Emoji 和普通文本的处理表现,Emoji的向量嵌入(含测试代码)
验证代码from
transformer
simportAutoTokenizer#测试的模型列表models=["bert-base-uncased",#BERT"vinai/bertweet-base"
2301_79306982
·
2025-02-02 13:41
机器学习
人工智能
bert
transformer
【自然语言处理(NLP)】基于
Transformer
架构的预训练语言模型:BERT 训练之数据集处理、训练代码实现
文章目录介绍BERT训练之数据集处理BERT原理及模型代码实现数据集处理导包加载数据生成下一句预测任务的数据从段落中获取nsp数据生成遮蔽语言模型任务的数据从token中获取mlm数据将文本转换为预训练数据集创建Dataset加载WikiText-2数据集BERT训练代码实现导包加载数据构建BERT模型模型损失训练获取BERT编码器个人主页:道友老李欢迎加入社区:道友老李的学习社区介绍**自然语言
道友老李
·
2025-02-02 12:04
自然语言处理(NLP)
自然语言处理
transformer
使用
Transformer
模型实现股票走势预测:深入解析和实操案例(基于Python和PyTorch)
摘要:本文讨论了
Transformer
模型在股票市场预测中的应用,突出其自注意力机制在捕捉长期趋势和周期性变化方面的优势。文章详细介绍了模型理论、架构,并分析了其在股价预测中的优势和挑战。
AI_DL_CODE
·
2025-02-02 09:44
python
transformer
pytorch
股票预测
【llm对话系统】大模型 Llama、Qwen 和 ChatGLM 的网络结构和训练方法对比
它们都在
Transformer
架构的基础上进行了改进和优化,并在各种NLP任务上取得了优异的性能。本文将深入分析Llama、Qwen和ChatGLM的网络结构和训练方法,比较它们的异同以及各自的优势。
kakaZhui
·
2025-02-02 07:54
llama
人工智能
AIGC
chatgpt
python
Unet 改进:在encoder和decoder间加入
Transformer
Block
目录1.
Transformer
Block2.Unet改进3.完整代码Tips:融入模块后的网络经过测试,可以直接使用,设置好输入和输出的图片维度即可1.
Transformer
Block
Transformer
Block
听风吹等浪起
·
2025-02-01 23:11
AI
改进系列
transformer
图像分割
Unet
自然语言处理基础知识入门(四)
Transformer
模型整体最详解(self- attention机制,mask机制)
文章目录前言一、Seq2Seq1.1Seq2Seq的基本架构1.2Seq2Seq的框架实例二、
Transformer
2.1
Transformer
的整体架构2.2
Transformer
的输入2.2.1InputEmbeding2.2.2PositionalEncoder2.2.3
Transformer
这个男人是小帅
·
2025-02-01 18:33
NLP自然语言知识梳理入门
自然语言处理
transformer
人工智能
nlp
语言模型
机器翻译
深度学习
【小白学AI系列】NLP 核心知识点(五)
Transformer
介绍
Transformer
Transformer
是一种基于自注意力机制(Self-AttentionMechanism)的深度学习模型,首次由Vaswani等人于2017年在论文《AttentionisAllYouNeed
Blankspace空白
·
2025-02-01 18:58
人工智能
自然语言处理
transformer
pytorch基于
Transformer
预训练模型的方法实现词嵌入(tiansz/bert-base-chinese)
以下是一个完整的词嵌入(WordEmbedding)示例代码,使用modelscope下载tiansz/bert-base-chinese模型,并通过
transformer
s加载模型,获取中文句子的词嵌入
纠结哥_Shrek
·
2025-02-01 15:05
pytorch
transformer
bert
PyTorch中的unsqueeze函数(自用)
前言最近在学习swin_
transformer
的模型搭建,其中用到了广播机制,在理解广播机制的过程中发现自己对torch.unsqueeze()函数比较困惑,所以做了个小实验帮助自己理解。
黯岚岚岚岚岚
·
2025-02-01 15:58
pytorch
pytorch
python
经验分享
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他