E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Transformer】
AI学习专题(一)LLM技术路线
(贝叶斯定理、极大似然估计)最优化方法(梯度下降、拉格朗日乘子法)编程&框架Python(NumPy、Pandas、Matplotlib)PyTorch&TensorFlow基础HuggingFace
Transformer
s
王钧石的技术博客
·
2025-02-10 01:39
大模型
人工智能
学习
ai
AI大模型:一文搞懂大模型文件存储格式新宠GGUF
本文大介绍大模型文件存储格式新宠GGUF,目前Huggingface
Transformer
s已经支持了GGUF格式,同时,像谷歌的Gemma、阿里的Qwen等模型默认已经提供了GGUF格式
Llama-Turbo
·
2025-02-10 01:37
人工智能
llama
自然语言处理
知识图谱
语言模型
LLM
大模型
多头注意力机制的创新优化:MLA架构解析
摘要MLA(Multi-headLatentAttention)架构是对
Transformer
模型中多头注意力(MHA)结构的创新优化,旨在提高推理阶段的效率并降低资源消耗。
耶耶Norsea
·
2025-02-09 23:22
网络杂烩
Deepseek
动态词表采样:一种控制模型词表大小的新方法
背景介绍随着深度学习技术的发展,尤其是
Transformer
架构的成功应用,预训练语言模型如BERT、GPT等取得了
东方佑
·
2025-02-09 18:50
量子变法
pandas
python
T5模型-基于
Transformer
架构的通用文本到文本转换模型
T5(Text-to-TextTransfer
Transformer
)是由Google于2019年提出的一种基于
Transformer
架构的通用文本到文本转换模型。
Jiang_Immortals
·
2025-02-09 16:09
人工智能
python
transformer
深度学习
人工智能
混合专家模型 (MoE) 最全详细图解
随着Mixtral8x7B(announcement,modelcard)的推出,一种称为混合专家模型(MixedExpertModels,简称MoEs)的
Transformer
模型在开源人工智能社区引起了广泛关注
DFCED
·
2025-02-09 10:23
人工智能算法前沿
AIGC算法学术工业技术前沿
混合专家网络
MOE
DeepSeek
人工智能
深度学习
大模型
个性化音乐生成:生成式AI在音乐推荐与创作中的应用
文章目录引言生成式AI与个性化音乐生成1.变分自编码器(VAE)2.生成对抗网络(GAN)3.
Transformer
模型4.扩散模型(DiffusionModels)技术实现1.音乐特征提取2.基于VAE
二进制独立开发
·
2025-02-09 00:34
非纯粹GenAI
GenAI与Python
人工智能
python
语言模型
自然语言处理
生成对抗网络
知识图谱
神经网络
Vision
Transformer
学习笔记(2020 ICLR)
摘要(Abstract):简述了ViT(Vision
Transformer
)模型的设计和实验结果,展示了其在大规模图像数据集上进行训练时的优越性能。
刘若里
·
2025-02-08 21:15
论文阅读
学习
笔记
网络
计算机视觉
transformer
动手学图神经网络(12):MovieLens上的链接回归
环境设置使用pip安装pyg-lib、pytorch_geometric、sentence_
transformer
s、fuzzywuzzy、captum等。
段智华
·
2025-02-08 11:07
图神经网络
图神经网络
深度学习的文本生成:从seq2seq到GPT2和GPT3
文章目录1.背景介绍1.1序列到序列(seq2seq)模型1.1.1编码器1.1.2解码器1.1.3训练1.2
Transformer
模型1.2.1自注意力机制1.2.2位置编码1.2.3多头注意力1.2.4
AI天才研究院
·
2025-02-08 11:33
AI大模型应用入门实战与进阶
ChatGPT
大数据
人工智能
语言模型
AI
LLM
Java
Python
架构设计
Agent
RPA
ACC-UNet网络学习笔记(2023 MICCAI )
同样,医学图像领域也发生了一样的变化,最具影响力的网络结构——U-Net已和
Transformer
相结合而被重新设计。
刘若里
·
2025-02-08 10:58
论文阅读
网络
学习
笔记
完整的671B R1塞进本地,详尽教程来了!
李锡涵(XihanLi)作者简介:伦敦大学学院(UCL)计算机系博士研究生,谷歌开发者专家,主要研究方向为学习优化,在NeurIPS、ICLR、AAMAS、CIKM等会议发表过学术论文,Circuit
Transformer
·
2025-02-08 10:08
datawhale
AI学习指南HuggingFace篇-项目实战:情感分析系统
HuggingFace的
Transformer
s库提供了强大的工具,使得情感分析变得简单高效。
俞兆鹏
·
2025-02-08 10:25
AI学习指南
ai
【Block总结】DFFN,门控机制选择性保留低频和高频信息
论文信息标题:EfficientFrequencyDomain-based
Transformer
sforHigh-QualityImageDeblurring论文链接:LingshunKong,JiangxinDong
AI浩
·
2025-02-08 08:36
Block总结
计算机视觉
transformer
人工智能
【AI原理解析】— Gemini模型
模型基础与架构模型架构模型尺寸3.多模态处理能力输入处理数据处理训练过程4.技术细节与优化预训练上下文长度注意机制5.安全性与编程能力安全性评估编程能力6.模型发布与应用发布时间应用方向7.性能评估8.数学基础8.1
Transformer
coolkidlan
·
2025-02-08 06:49
AI学习路径
AIGC
人工智能
AIGC
DeepSeek为什么采用与主流大模型不一样的MoE架构?一文搞懂什么是MoE模型
但像Qwen、LLama模型,用的却是Dense架构,也就是传统的
Transformer
架构。这两种架构有个很明显的区别。
大模型_学习路线
·
2025-02-08 04:39
架构
人工智能
AI大模型
大模型
自然语言处理
LLM
DeepSeek
Flash Attention介绍
FlashAttention是一种优化
Transformer
模型中注意力机制的技术,旨在提高计算效率并减少内存使用。
TAICHIFEI
·
2025-02-08 03:38
大模型面试
人工智能
AI商业化:如何包装技术并找到客户需求?
一、引言在过去几年里,从GPT、
Transformer
到DeepSeek,以及分布式训练和微调技术的发展,为AI技术带来了质的飞跃。然而,光有先进的技术并不足以实现商业成功。如何将这些技术包装成易于
hjy1821
·
2025-02-07 17:34
AI
人工智能
深度搜索MoE:利用大规模预训练模型提升信息检索效能
利用大规模预训练模型提升信息检索效能DeepSeek-MoE项目地址:https://gitcode.com/gh_mirrors/de/DeepSeek-MoE项目简介DeepSeek-MoE是一个基于
Transformer
杭律沛Meris
·
2025-02-07 15:20
SRMT:一种融合共享记忆与稀疏注意力的多智能体强化学习框架
自反射记忆
Transformer
(SRMT)作为一种新型记忆增强型
transformer
架构,专注于提升基于AI的决策能力和多智能体协同效果。
·
2025-02-07 13:28
DeepSeek 多模态大模型Janus-Pro本地部署教程
该框架通过将视觉编码解耦到不同的处理路径(同时仍使用单一统一的
Transformer
架构
·
2025-02-07 13:20
大模型参数量及其单位的概念
BERT(BidirectionalEncoderRepresentationsfrom
Transformer
s)模型有几种不同的版本,它们的参数量不同。
这个人有丶懒
·
2025-02-07 03:57
自然语言处理
语言模型
使用一个大语言模型对另一个大语言模型进行“调教”
以下是基于搜索结果整理的详细步骤和方法:1.准备工作安装必要的库•
Transformer
s:用于加载和训练模型。•Datasets:用于处理数据集。
大霸王龙
·
2025-02-07 03:25
python
人工智能
python
deepseek再爆大招,janus pro炸裂出场
januspro多模态大模型炸裂出场,
transformer
架构,没有走diffusion路线,再次颠覆行业认知,继续追着OpenAI打。家里有高配电脑的可以玩起来了,网上自己搜索吧。
caoz
·
2025-02-06 12:15
大模型的底层逻辑及
Transformer
架构
其中,
Transformer
架构是目前主流的大模型架构,它通过自注意力机制和前馈神经网络来处理输入数据。这种架构能够高效地处理序列数据,如文本。3.自
搏博
·
2025-02-06 02:04
transformer
架构
深度学习
机器学习
人工智能
(14-6-03)基于Latent Diffusion
Transformer
的文生视频系统:实现模型(03)图像生成模型
它结合了
Transformer
架构和扩散模型的优势。
码农三叔
·
2025-02-05 22:30
训练
RAG
多模态)
人工智能
transformer
多模态
大模型
Transformer
s解决RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn
在使用
Transformer
s启动梯度检查点时,即:model.gradient_checkpointing_enable()时,会报错RuntimeError:element0oftensorsdoesnotrequiregradanddoesnothaveagrad_fn
怎么这么多名字都被占了
·
2025-02-05 18:06
transformer
pytorch
中国AI再放异彩!MiniMax01开源震撼全球
它突破了传统的
Transformer
架构,这可是AI领域的核心技术之一。对于咱们普通人来说,
盼达思文体科创
·
2025-02-05 15:15
经验分享
DeepSeek-R1全面超越OpenAI o1:开源大模型训练范式革新
OpenAI早期专注于强化学习(RL),但在
Transformer
结构问世后,迅速调整方向,借助Google的开源研究开发出强大的LLM。然而,尽
·
2025-02-05 02:16
前端javascript
unocss 添加支持使用本地 svg 预设图标,并支持更改大小
importpresetWeappfrom'unocss-preset-weapp'import{extractorAttributify,
transformer
Class}from'un
TangAcrab
·
2025-02-04 21:34
unocss
miniapp
揭秘DeepSeek R1大模型:它如何像人类一样“思考”?
DeepSeek官网:https://www.deepseek.com1.DeepSeekR1的“大脑结构”:
Transformer
进化版所有大模型的
大模型扬叔
·
2025-02-04 20:00
学习
自然语言处理
prompt
人工智能
hugging
face怎么用
AI大模型学习的七个阶段,学完你就是大模型大师!
Transformer
架构解析。预训练、SFT、RLHF。第三阶段:编程基础与工具使用目标:掌握大
AGI大模型老王
·
2025-02-04 19:48
人工智能
学习
大模型
大模型学习
AI大模型
RAG
大模型教程
站在Developer角度看DeepSeek:技术架构解析与开发实战指南
一、DeepSeek技术全景图:从实验室到生产环境1.1模型架构演进:重新定义
Transformer
可能性DeepSeek的分层动态稀疏
Transformer
架构在以下层面实现突破:硬件感知设计:根据GPU
嵌入式Jerry
·
2025-02-04 15:20
AI
架构
系统架构
AI编程
ai
学习
物联网
Transformer
预测模型及其Python和MATLAB实现
2017年,Vaswani等人提出的
Transformer
模型在《AttentionisAllYouNeed》一文中引起
追蜻蜓追累了
·
2025-02-04 03:10
transformer
深度学习
人工智能
机器学习
算法
回归算法
神经网络
MOE模型入门
实现:将
transformer
模型中的每个前馈网络(FFN)层替换为MoE层,其中MoE层由两个核心部分组成:一个路由器(或者叫门控网络)和若干数量的专家。代表类型谷歌MOE,
云帆@
·
2025-02-04 01:29
AI
人工智能
DeepSeek的出现对全球GPT产业产生的冲击
特别是以GPT(GenerativePre-trained
Transformer
)系列模型为代表的大规模预训练语言模型,已经在全球范围内引发了广泛关注和应用。
不要em0啦
·
2025-02-03 23:07
机器学习
gpt
机器学习—大语言模型:推动AI新时代的引擎
2.
Transformer
架构3.模型训练二、大语言模型的应用场景1.文本生成2.问答系统3.编码助手4.多语言翻译三、大语言模型的最新进展1.GPT-42.开源模型四、构建和部署一个简单的大语言模型1
云边有个稻草人
·
2025-02-03 19:38
人工智能
机器学习
语言模型
周报 | 25.1.27-25.2.2文章汇总
-CSDN博客arXiv每日学术速递|强强联合:CNN与
Transformer
融合创新提升模型性能!!-CSDN博客AI生成未来|字节提出VideoWo
双木的木
·
2025-02-03 12:11
深度学习拓展阅读
python拓展学习
人工智能
transformer
算法
深度学习
YOLO
chatgpt
llama
Megatron:深度学习中的高性能模型架构
Megatron:深度学习中的高性能模型架构Megatron是由NVIDIA推出的深度学习大规模预训练模型框架,主要针对大规模
Transformer
架构模型的高效训练与推理。
gs80140
·
2025-02-03 08:06
基础知识科谱
AI
机器学习
人工智能
AIGC的底层框架和技术模块
以下是对AIGC底层框架和技术模块的详细解析:底层框架AIGC的底层框架主要基于深度学习的语言模型,特别是
Transformer
模型及其变种,如GPT(GenerativePre-trained
Transformer
五岔路口
·
2025-02-03 07:27
AIGC
Stable Diffusion 3 与 OpenAI 的 DALL-E 3 谁才是AI绘画的扛把子?
以下从多个角度详细比较这两种模型:1.开发背景与架构StableDiffusion3是由StabilityAI开发的开源模型,基于扩散
Transformer
架构和流匹配(FlowMatching)技术,
kcarly
·
2025-02-03 06:23
杂谈
Stable
Diffusion
使用
stable
diffusion
AI作画
『大模型笔记』视觉语言模型解释
2.开源视觉语言模型概览3.如何找到合适的视觉语言模型MMMUMMBench4.技术细节5.使用变压器(
transformer
s)运用视觉语言模型6.使用TRL微调视觉语言模型二.参考文章一.视觉语言模型解析视觉语言模型是一类能够同时从图像和文本中学习
AI大模型前沿研究
·
2025-02-03 05:40
大模型笔记
LLM
VLM
视觉语言模型
语言模型
大模型
人工智能
AI模型升级版0.02
我们将使用HuggingFace的
transformer
s库和torch库来实现这个目标。
pps-key
·
2025-02-03 02:51
python
AI写作
学习
gpt
DeepSeek-R1,DeepSeek-V3,DeepSeek-VL,DeepSeek-V2,DeepSeek-R1-Zero各个模型区别
目录1.各个模型架构2.训练方式3.模型参数与规模4.应用场景5.性能表现6.发布时间7.价格1.各个模型架构DeepSeek-R1:未明确有特殊架构说明,但属于推理模型,可能在
Transformer
架构基础上针对推理做了优化
fpga和matlab
·
2025-02-03 01:12
前言技术汇集
#
人工智能
大模型
DeepSeek
DeepSeek 使用的核心技术预测
1.大规模预训练模型架构
Transformer
变种与优化:基于
Transformer
架构进行改进,可能引入稀疏注意力机制(如Longform
eso1983
·
2025-02-02 18:22
人工智能
深度学习
机器学习
python
DiffuEraser: 一种基于扩散模型的视频修复技术
视频修复算法结合了基于流的像素传播与基于
Transformer
的生成方法,利用光流信息和相邻帧的信息来恢复纹理和对象,同时通过视觉
Transformer
完成被遮挡区域的修复。
扫地僧985
·
2025-02-02 15:01
音视频
transformer
之Attention机制及代码实现
目录异同点总结代码实现Self-AttentionCross-AttentionGatedSelf-AttentionGeneralizedQueryAttentionPagedAttentionSelf-Attention:一种Attention机制,用于处理单个输入序列中的依赖关系。Cross-Attention:一种Attention机制,用于处理两个或多个输入序列之间的依赖关系。Gated
AIVoyager
·
2025-02-02 15:30
NLP
AIGC
transformer
attention
LLM
【深度学习】Swin
Transformer
: Hierarchical Vision
Transformer
using Shifted Windows,论文
必读文章:https://blog.csdn.net/qq_37541097/article/details/121119988Swin
Transformer
:HierarchicalVision
Transformer
usingShiftedWindows
XD742971636
·
2025-02-02 14:54
深度学习机器学习
深度学习
transformer
人工智能
【llm对话系统】大模型 Llama 源码分析之 Flash Attention
1.写在前面近年来,基于
Transformer
架构的大型语言模型(LLM)在自然语言处理(NLP)领域取得了巨大的成功。
kakaZhui
·
2025-02-02 13:43
llama
人工智能
AIGC
chatgpt
JCR一区级 | Matlab实现蜣螂算法DBO-
Transformer
-LSTM多变量回归预测
本文提出了一种基于蜣螂算法(DungBeetleOptimizer,DBO)、DBO-
Transformer
和LSTM的多变量水质回归预测模型,旨在提高水质参数
Matlab机器学习之心
·
2025-02-02 13:13
算法
matlab
transformer
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他