E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Transformer
《DeepSeek训练算法:开启高效学习的新大门》
一、独特的架构基础DeepSeek以
Transformer
架构为基石,但并非简单沿用,而是进行了深度创新。
Transformer
架构的核心是注意力机制,这让模型在处理序列数
·
2025-02-18 04:41
人工智能深度学习
DeepSeek推理模型架构以及DeepSeek爆火的原因
大家好,我是微学AI,今天给大家介绍一下DeepSeek推理模型架构以及DeepSeek爆火的原因,DeepSeek推理模型凭借其创新的混合专家(MoE)架构和优化的
Transformer
架构,融合稀疏注意力机制
微学AI
·
2025-02-18 03:06
架构
LLM
deepseek
书籍-《掌握
Transformer
:从BERT到大模型和Stable Diffusion(第二版)》
书籍:Mastering
Transformer
s:TheJourneyfromBERTtoLargeLanguageModelsandStableDiffusion,2ndEdition作者:SavaşYıldırım
·
2025-02-18 00:36
transformer
概述
Transformer
架构的提出,不仅在自然语言处理(NLP)领域掀起了革命,也在多个深度学习任务中获得了广泛应用。
沉墨的夜
·
2025-02-17 22:13
transformer
深度学习
人工智能
Python中LLM的稀疏
Transformer
架构:Longformer与BigBird
文章目录1.
Transformer
架构的挑战2.稀疏
Transformer
架构的提出2.1Longformer2.1.1局部注意力2.1.2全局注意力2.1.3实现2.2BigBird2.2.1随机注意力
二进制独立开发
·
2025-02-17 22:36
非纯粹GenAI
GenAI与Python
python
transformer
架构
开发语言
分布式
人工智能
自然语言处理
【深度学习基础】什么是注意力机制
文章目录一、注意力机制的核心地位:从补充到主导二、技术突破:从
Transformer
到多模态融合三、跨领域应用:从NLP到通用人工智能四、未来挑战与趋势结语参考链接注意力机制:深度学习的核心革命与未来基石在深度学习的发展历程中
我的青春不太冷
·
2025-02-17 14:26
深度学习
人工智能
注意力机制
<Attention Is All You Need>:全网首次提出
Transformer
模型论文中英文对照学习
论文摘要英文Thedominantsequencetransductionmodelsarebasedoncomplexrecurrentorconvolutionalneuralnetworksthatincludeanencoderandadecoder.Thebestperformingmodelsalsoconnecttheencoderanddecoderthroughanattenti
kingking44
·
2025-02-17 12:08
transformer
学习
人工智能
基于DeepSeek-R1的高效推理优化实战:从API封装到动态批处理
一、环境准备与模型加载优化1.1硬件感知的模型加载通过device_map自动分配计算资源,避免显存溢出from
transformer
simport
竹木有心
·
2025-02-17 11:29
人工智能
第TR5周:
Transformer
实战:文本分类
文章目录1.准备环境1.1环境安装1.2加载数据2.数据预处理2.1构建词典2.2生成数据批次和迭代器2.3构建数据集3.模型构建3.1定义位置编码函数3.2定义
Transformer
模型3.3初始化模型
计算机真好丸
·
2025-02-17 07:56
transformer
分类
深度学习
LightGBM+NRBO-
Transformer
-BiLSTM多变量回归预测 Matlab代码
LightGBM+NRBO-
Transformer
-BiLSTM多变量回归预测Matlab代码一、引言1.1、研究背景与意义在现代数据科学领域,多变量回归预测问题一直是一个研究热点。
前程算法屋
·
2025-02-17 01:09
私信获取源码
transformer
回归
matlab
K
Transformer
s:告别天价显卡!国产框架让单卡24G显存跑DeepSeek-R1 671B大模型:推理速度飙升28倍
❤️如果你也关注AI的发展现状,且对AI应用开发感兴趣,我会每日分享大模型与AI领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!微信公众号|搜一搜:蚝油菜花“还在为千亿模型租天价显卡?清华团队用CPU/GPU协同计算,让4090跑起671B参数全量模型!”大家好,我是蚝油菜花。如果你也经历过——看着API调用账单瑟瑟发抖,微调一次模型吃掉半月算力预算️盯着OOM报错抓狂,为了
蚝油菜花
·
2025-02-17 00:32
每日
AI
项目与应用实例
人工智能
开源
根据deepseek模型微调训练自动驾驶模型及数据集的思路
Step1:环境准备#安装依赖库pipinstalltorch
transformer
sdatasetsnumpypandasStep2:数据准备假设数据集格式为JSON,包含输入文本(传感器/场景描述)
ywfwyht
·
2025-02-16 19:28
自动驾驶
深度学习
人工智能
自动驾驶
人工智能
机器学习
预测股票走势的ai模型
1.关键功能✅AI选股(基于财务数据+技术指标)✅股票走势预测(LSTM/
Transformer
)✅智能筛选高增长潜力股✅可视化分析2.关键技术数据来源:YahooFinance/AlphaVantage
roxxo
·
2025-02-16 17:10
AI模型
人工智能
深度学习
金融
2025年大模型与
Transformer
架构:技术前沿与未来趋势报告
在人工智能的宏大版图中,
Transformer
架构无疑是一颗璀璨的明星。它的出现,彻底改变了自然语言处理、计算机视觉等诸多领域的发展轨迹。
和老莫一起学AI
·
2025-02-16 12:37
transformer
架构
深度学习
人工智能
产品经理
学习
大模型
深度解析DeepSeek大模型的技术架构与创新点
一、基础架构概览DeepSeek的核心架构建立在
Transformer
的基础上,但进行了多项创新优化。我第一次接触DeepSeek时,就被它在模型结构上的精巧设计所吸引。1.
·
2025-02-16 11:43
程序员
deepseek+python,离线api,持续对话
功能:通过start开启新对话,stop结束对话,exit退出程序,并且可持续对话代码from
transformer
simportAutoModelForCausalLM,AutoTokenizer,BitsAndBytesConfigimporttorch
守着黎明看日出
·
2025-02-16 05:43
python
清华大学KVCache.AI团队联合趋境科技联合的K
Transformer
s开源项目为什么那么厉害
K
Transformer
s是一个由清华大学KVAV.AI团队开发的开源项目,旨在优化大语言模型(LLM)的推理性能,特别是在有限显存资源下运行大型模型。
魔王阿卡纳兹
·
2025-02-16 03:52
IT杂谈
人工智能
科技
开源
清华
DeepSeek
趋境科技
KTransformers
Transformer
1.
Transformer
Transformer
是一种新的、基于attention机制来实现的特征提取器,可用于代替CNN和RNN来提取序列的特征。
AI专题精讲
·
2025-02-15 18:18
深度学习
transformer
深度学习
自然语言处理
Transformer
以及BERT阅读参考博文
Transformer
以及BERT阅读参考博文
Transformer
学习:已有博主的讲解特别好了:李沐:
Transformer
论文逐段精读【论文精读】_哔哩哔哩_bilibili知乎:
Transformer
mumukehao
·
2025-02-15 17:41
文本属性图
文本属性图
ZCC6507: A Superior Isolated Power Solution Outperforming SN6507
engineersareconstantlyseekingmoreefficient,flexible,andcost-effectivesolutions.TheZCC6507,ahigh-performancepush-pull
transformer
driver
zhichengwei
·
2025-02-15 17:10
其他
23. AI-大语言模型
文章目录前言一、LLM1.简介2.工作原理和结构3.应用场景4.最新研究进展5.比较二、
Transformer
架构1.简介2.基本原理和结构3.应用场景4.最新进展三、开源1.开源概念2.开源模式3.模型权重四
真上帝的左手
·
2025-02-15 12:34
23.
AI
人工智能
语言模型
自然语言处理
目标检测代码示例(基于Python和OpenCV)
随着技术的发展,目标检测算法不断演进,从传统的基于手工特征的方法到现代的深度学习方法,再到基于
Transformer
的架构,目标检测技术已经取得了显著的进步。
matlab_python22
·
2025-02-15 05:08
计算机视觉
用java实现word(docx)转换为pdf格式文档(简单版)
导入依赖com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-
transformer
-msoffice-word1.0.3代码/
xiaoxiaobaozhu
·
2025-02-15 04:52
java
word
pdf
Bengio新作Aaren:探索
Transformer
性能与RNN效率的融合
论文链接:https://arxiv.org/pdf/2405.13956一、摘要总结:本文提出了一种新的注意力机制,名为Aaren,它将注意力视为一种特殊的递归神经网络(RNN),能够高效地计算其多对一RNN输出。Aaren不仅能够并行训练,而且能够在推理时高效地更新新令牌,仅需要常数内存。实验表明,Aaren在四个流行的序列问题设置(强化学习、事件预测、时间序列分类和时间序列预测)的38个数据
AI记忆
·
2025-02-15 03:17
深度
学习论文与相关应用
transformer
rnn
深度学习
Aaren
Bengio
发文新思路!双通道CNN的惊人突破,准确率接近100%!
例如,最新的研究提出了一种名为DDTransUNet的混合网络,结合了
Transformer
和CNN的优势,通过双分支编码器和双重注意力机制,有效解
沃恩智慧
·
2025-02-15 03:45
深度学习
人工智能
cnn
人工智能
神经网络
海思Hi3516CV610 -----芯片说明
关键特性●4K@20,6M@30分辨率●双目实时接入,支撑枪球一体机等双目机型●1T算力NPU,
Transformer
特性加速,大模型端侧部署●SVAC3.0编码标准,压缩率提升20%●智能编码2.0,
菩提树下的凡夫
·
2025-02-14 21:25
嵌入式Linux系统开发
c++
c语言
上下文扩展技术-详细解释Longformer和BigBird的主要创新;详细说明bert原理,并说一说他的上下文限制是怎么来的
答案LongformerLongformer是为有效处理长文本序列而设计的
Transformer
模型,它通过结合滑动窗口注意力机制和扩张注意力模式来捕捉局部和远距离的上下文信息,并通过全局注意力来捕捉整个文档的广泛背景和联系
AI生成曾小健
·
2025-02-14 12:22
人工智能
视觉中的
transformer
:ViT
《》摘要
transformer
已经是NLP的标准。
ch隔壁老张
·
2025-02-14 06:12
深度学习笔记
transformer
深度学习
计算机视觉
ViT和
Transformer
AttentionIsAllYouNeedVit在图像领域直接使用
transformer
,如果将2d图像直接转为一维向量,会面临参数两过大的问题。
Landon9
·
2025-02-14 06:37
transformer
深度学习
人工智能
详细说说VIT架构和
Transformer
架构的异同
GPT-4oVision
Transformer
(ViT)和
Transformer
架构之间的关系非常紧密,因为ViT是直接将
Transformer
应用到视觉任务中的一种方法。
AI生成曾小健
·
2025-02-14 05:02
大模型LLM面试指南
多模态MLLM大模型面试指南
架构
transformer
深度学习
从VGG到
Transformer
:深度神经网络层级演进对模型性能的深度解析与技术实践指南
一、技术原理(数学公式+示意图)1.层深与模型容量关系数学表达:根据UniversalApproximationTheorem,深度网络可表达复杂函数:f(x)=fL(fL−1(⋯f1(x)))f(x)=f_L(f_{L-1}(\cdotsf_1(x)))f(x)=fL(fL−1(⋯f1(x)))层数L增加时,函数空间指数级扩大梯度传播挑战:链式法则导致梯度消失/爆炸∂L∂W(1)=∏k=2L∂f
燃灯工作室
·
2025-02-14 05:57
Ai
transformer
dnn
深度学习
计算机视觉核心任务
代表模型:ResNet、EfficientNet、ViT(Vision
Transformer
)。2.目标检测(ObjectDetection)识别图像中目标的位置(边界框)及类别。应用场景:自动驾
飞瀑
·
2025-02-14 04:53
AI
yolo
【
Transformer
】小白入门指南
目录1、简介2、
Transformer
解决问题技术概览核心组成自注意力机制(Self-AttentionMechanism)多头注意力机制(Multi-HeadAttention)前馈神经网络(Feed-ForwardNeuralNetwork
静静喜欢大白
·
2025-02-14 04:18
随记
医疗影像
transformer
深度学习
人工智能
一杯咖啡的时间学习大模型(LLM):LLaMA解读之旋转编码RoPE(含代码实现)
相较于标准
Transformer
架构,LLaMA主要在以下几个方面进行了关键改进:位置编码升级:采用旋转位置编码(RotaryPositionEmbedding,RoPE)归一化革新:对每个
Bug_makerACE
·
2025-02-14 02:52
llama
python
人工智能
nlp
pytorch
深度学习
transformer
GPT 系列模型发展史:从 GPT 到 ChatGPT 的演进与技术细节
GPT(2018):划时代的起点:GPT(GenerativePre-trained
Transformer
)首次将
Transformer
架构与无监督预训练结合,开启了大规模语言模型的新时代。
Ash Butterfield
·
2025-02-14 00:08
nlp
gpt
chatgpt
大型语言模型的核心机制解析
摘要大型语言模型的核心机制依赖于
Transformer
架构,该架构通过嵌入层将输入数据转换为向量形式,并结合位置编码以保留序列中单词的顺序信息。
耶耶Norsea
·
2025-02-13 23:05
网络杂烩
人工智能
Deepseek
Pytorch实现一个简单DeepSeek中的MLA多头潜在注意力架构
这可能与传统的
Transformer
中的滑动窗口或局部注意力类似。接下来,我需要考虑如何将局部注意力与多头机制结合。每个注意力头可能有不同的局部窗口,或者共享相
DukeYong
·
2025-02-13 19:38
DeepSeek
值得收藏!十大中国流行的AI大模型企业及平台汇总
1.百度-文心一言百度在大模型开发上持续采用创新算法和结构,如
Transformer
,以优化模型性能和学习
deepseek大模型
·
2025-02-13 16:50
人工智能
AIGC
chatgpt
面试
产品经理
微软 LayoutLMv3:通过统一文本和图像掩码进行文档人工智能预训练
LayoutLMv3:通过统一文本和图像掩码进行文档人工智能预训练LayoutLMv3应用统一的文本-图像多模态
Transformer
来学习跨模态表示。
·
2025-02-13 16:39
人工智能
【深度学习】常见模型-GPT(Generative Pre-trained
Transformer
,生成式预训练
Transformer
)
GPT(GenerativePre-trained
Transformer
)1️⃣什么是GPT?
IT古董
·
2025-02-13 16:15
深度学习
人工智能
深度学习
gpt
transformer
微软 LayoutLMv3:通过统一文本和图像掩码进行文档人工智能预训练
LayoutLMv3:通过统一文本和图像掩码进行文档人工智能预训练LayoutLMv3应用统一的文本-图像多模态
Transformer
来学习跨模态表示。
·
2025-02-13 15:31
人工智能
使用 HuggingFace 库进行本地嵌入向量生成
pipinstallsentence-
transformer
s!pipi
qq_37836323
·
2025-02-13 09:50
python
人工智能
开发语言
Flux如何工作?这款新图像生成AI可与Midjourney一较高下
它代表了人工智能生成艺术领域的重大进展,采用了一种“混合架构”,将
transformer
和diffusion技术相结合,参数规模达120亿。
硅基创想家
·
2025-02-13 05:53
AI-人工智能与大模型
人工智能
midjourney
Flux
大模型
人工智能生成图片
transformer
导语:2017年,一篇名为《AttentionisAllYouNeed》的论文横空出世,提出了
Transformer
模型,彻底改变了自然语言处理(NLP)领域的格局。
我爱派生
·
2025-02-13 04:45
深度学习
transformer
深度学习
人工智能
【python 机器学习】sklearn转换器与预估器
文章目录sklearn转换器与预估器1.什么是转换器(
Transformer
)?通俗介绍:学术解释:2.什么是预估器(Estimator)?
人才程序员
·
2025-02-13 03:04
杂谈
python
机器学习
sklearn
人工智能
目标检测
深度学习
神经网络
【独家首发】蜣螂算法DBO优化
Transformer
-BiLSTM负荷数据回归预测【含Matlab源码 6568期】
Matlab武动乾坤博客之家
Matlab武动乾坤
·
2025-02-12 23:04
matlab
深度学习语义分割实战:ResNet 与 ViT 结合的模型解析
本项目结合了ResNet(ResidualNetwork)和ViT(Vision
Transformer
),构建了高性能的语义分割模型。本文将详细解析该模型的架构、训练流程及其应用。
高山仰星
·
2025-02-12 15:06
深度学习
DeepSeek 与
Transformer
架构的深度关联
而
Transformer
架构,自2017年横空出世以来,便成为了众多先进自然语言处理模型的底层基石,DeepSeek的成功也与它有着密不可分的联系。
JoveZou
·
2025-02-12 10:08
科技咨询与闲谈
transformer
深度学习
人工智能
ai
chatgpt
架构
四、自然语言处理_08
Transformer
翻译任务案例
0、前言在Seq2Seq模型的学习过程中,做过一个文本翻译任务案例,多轮训练后,效果还算能看
Transformer
作为NLP领域的扛把子,对于此类任务的处理会更为强大,下面将以基于
Transformer
学不会lostfound
·
2025-02-12 08:53
AI
自然语言处理
人工智能
深度学习
transformer
encode-decode
深度学习算法informer(时序预测)(一)(数据编码讲解)
前言:informer代码是在
transformer
代码基础上进行优化,请先了解
transformer
原理informer代码中数据编码包括三部分,位置编码、数据编码、时间编码目标:时序数据有7个特征,
槑槑紫
·
2025-02-12 05:33
深度学习
深度学习
算法
人工智能
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他