E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
TRANSFORMER
学习率调度器工具函数(get_scheduler)补充讲解
学习率调度器工具函数(get_scheduler)get_scheduler是HuggingFace
Transformer
s深度学习框架中用于创建学习率调度器(LearningRateScheduler
Code_Geo
·
2025-03-30 23:59
学习
python
Python 深度学习实战:聊天机器人
Python深度学习实战:聊天机器人关键词:Python、深度学习、聊天机器人、Seq2Seq、注意力机制、
Transformer
1.背景介绍近年来,随着人工智能技术的飞速发展,聊天机器人(Chatbot
AI天才研究院
·
2025-03-30 23:59
AI实战
DeepSeek
R1
&
大数据AI人工智能大模型
Python实战
大数据
人工智能
语言模型
Java
Python
架构设计
高性能部署实战:vLLM 安装配置 × tokens/s 提升 × 并发测试(适配国产模型)
相比传统的
transformer
s推理方式,vLLM在性能方面有显著提升,尤其适合构建高并发、多请求的部署场景:vLLM的核心
AI筑梦师
·
2025-03-30 21:44
人工智能
深度学习
一种高效轻量化的自注意力解码器架构:原理与优势解析
在自然语言处理和序列建模任务中,
Transformer
架构因其强大的并行计算能力和长序列建模能力而广受欢迎。
东方佑
·
2025-03-30 13:45
量子变法
人工智能
python
大语言模型应用指南:什么是大语言模型
文章标题《大语言模型应用指南:什么是大语言模型》关键词(1)大语言模型(2)深度学习(3)自然语言处理(4)序列模型(5)
Transformer
(6)神经网络(7)预训练语言模型摘要本文将深入探讨大语言模型
AI天才研究院
·
2025-03-30 09:14
计算
DeepSeek
R1
&
大数据AI人工智能大模型
AI大模型企业级应用开发实战
java
python
javascript
kotlin
golang
架构
人工智能
大厂程序员
硅基计算
碳基计算
认知计算
生物计算
深度学习
神经网络
大数据
AIGC
AGI
LLM
系统架构设计
软件哲学
Agent
程序员实现财富自由
手把手教你用PyTorch从零训练自己的大模型(非常详细)零基础入门到精通,收藏这一篇就够了
这些LLM背后的核心是
Transformer
架构。本文介绍如何一步步使用PyTorch从零开始构建和训练一个大型语言模型(LLM)。
heaven522
·
2025-03-29 23:41
pytorch
人工智能
python
chatgpt
深度学习
机器学习
华为
【大模型篇】万字长文从OpenAI到DeepSeek:大模型发展趋势及原理解读
目录引言:大模型的革命性浪潮核心技术节点:从
Transformer
到生成式AI2.1
Transformer
架构的范式革命2.2生成式AI的底层逻辑2.3神经网络层级设计架构演进:OpenAI的技术突破3.1GPT
大F的智能小课
·
2025-03-29 20:56
大模型理论和实战
DeepSeek技术解析和实战
人工智能
机器学习
架构
【大模型】视觉语言模型:Qwen2.5-VL的使用
官方github地址:https://github.com/QwenLM/Qwen2.5-VL目录Qwen家族的最新成员:Qwen2.5-VL主要增强功能模型架构更新快速开始使用
Transformer
s
Jackilina_Stone
·
2025-03-29 12:59
#
大模型
语言模型
人工智能
Qwen2.5-VL
python
Transformer
劲敌变队友?腾讯、英伟达都在用的Mamba-
Transformer
混合架构要火!
Transformer
“单打独斗”的时代要结束了?Mamba-
Transformer
强势来袭!
that's boy
·
2025-03-29 09:06
transformer
架构
深度学习
midjourney
AI编程
AI写作
AI作画
YOLOv12即插即用--DeformableAttention2D
1.模块介绍传统
Transformer
注意力机制关注全局特征,计算量大,导致推理速度较慢。
辛勤的程序猿
·
2025-03-29 07:21
YOLOv12改进
YOLO
大语言模型在生成文章摘要、新闻标题领域的应用
例如,基于
Transformer
的模型(如BERT、GPT)通过注意力机制捕捉长距离依赖关系,显著提升了摘
knightissocool
·
2025-03-29 03:21
自然语言处理
语言模型
Spark2 之 Expression/Functions
ExpressionConvertersrc/main/scala/org/apache/gluten/expression/ExpressionConverter.scalaTopN
Transformer
src
zhixingheyi_tian
·
2025-03-29 01:41
spark
spark
LLM模型入门
都是基于
transformer
架构通过配置不同策略和算法以及关键的prompt实现不同效果的语言模型的。为什么叫large,是模型调用学习了很多参数,比如GPT-4o就存
長安一片月
·
2025-03-28 23:53
人工智能
AI问答:
transformer
架构 / 模型 / 自注意力机制实现序列数据的并行处理 / AI的底层
Transformer
架构是一种基于自注意力机制的深度学习模型,最初由谷歌团队在2017年提出,用于解决自然语言处理中的序列转导问题,尤其是机器翻译任务。
快雪时晴-初晴融雪
·
2025-03-28 20:33
前端
transformer
深度学习
人工智能
未来AI视觉艺术,会替代人类设计师吗?
确保你已经安装了torch、diffusers和
transformer
s等库。
非知名人士
·
2025-03-28 17:42
AI随想
人工智能
深度学习
计算机视觉
transformer
s中学习率warmup策略具体如何设置
在使用get_linear_schedule_with_warmup(如HuggingFace
Transformer
s库中的学习率调度器)时,参数的合理设置需要结合数据量(datasetsize)、批次大小
糖葫芦君
·
2025-03-28 15:30
LLM
学习
人工智能
机器学习
大数据
pytorch
【拥抱AI】对比embedding模型gte-Qwen2-7B-instruct和bge-m3:latest(三)
为了更全面地评估gte-Qwen2-7B-instruct和bge-m3:latest的性能,我们可以从以下几个方面进行详细比较:1.模型架构和规模gte-Qwen2-7B-instruct架构:基于
Transformer
奔跑草-
·
2025-03-28 14:22
人工智能
人工智能
embedding
视觉
Transformer
架构的前沿优化技术与高效部署
引言近年来,
Transformer
架构在自然语言处理(NLP)领域取得了巨大成功,逐渐成为深度学习的主流模型之一。
点我头像干啥
·
2025-03-28 11:00
Ai
深度学习
神经网络
计算机视觉
工单分类总结
BERT-base模型是一个预训练的
Transformer
模型,包含12个
Transformer
块、12个自注意头和隐藏大小为768。
Trank-Lw
·
2025-03-28 05:41
分类
数据挖掘
人工智能
Stable Diffusion进行图像生成
使用StableDiffusion进行图像生成通常涉及以下步骤:安装依赖库:首先,你需要安装必要的Python库,如PyTorch、torchvision、diffusers和
transformer
s等
月月猿java
·
2025-03-28 04:35
人工智能
【
transformer
理论+实战(三)】必要的 Pytorch 知识
【
Transformer
理论+实战(三)】必要的Pytorch知识【
Transformer
理论+实战(二)】Lora本地微调实战--deepseek-r1蒸馏模型【
Transformer
理论+实战(一)
造夢先森
·
2025-03-28 02:23
AI大模型
transformer
pytorch
深度学习
大模型压缩技术主要是为了在保持模型性能的前提下,减少模型的参数量和计算复杂度,以适应更低的计算资源、更小的内存占用和更快的推理速度。以下是当前主流的模型压缩技术,包括但不限于
示例:剪掉
Transformer
中不重要的注意力头剪掉CNN中对特征提取贡献小的通道2.量化(Quantization)量化是指将模型的
Jeremg
·
2025-03-28 01:13
人工智能
语言模型
基于Python的自然语言处理系列(60):使用 LangChain 构建 Multi-Vector Retriever 进行文档检索
pipinstalllangchainchromadbtorch
transformer
s2.加载文档并进行预处理我们先使用TextLoader读取多个文
会飞的Anthony
·
2025-03-27 22:27
人工智能
信息系统
自然语言处理
人工智能
深度学习
机器学习
DeepSeek详解:探索下一代语言模型
文章目录前言一、什么是DeepSeek二、DeepSeek核心技术2.1
Transformer
架构2.1.1自注意力机制(Self-AttentionMechanism)(a)核心思想(b)计算过程(c
小小面试官
·
2025-03-27 19:33
前沿技术
工具
算法模型
人工智能
DeepSeek
核心功能
多头注意力
位置编码
知识图谱
pytorch
《深度剖析:BERT与GPT——自然语言处理架构的璀璨双星》
在自然语言处理(NLP)的广袤星空中,BERT(BidirectionalEncoderRepresentationsfrom
Transformer
s)与GPT(GenerativePretrained
Transformer
程序猿阿伟
·
2025-03-27 04:06
自然语言处理
bert
gpt
Unsloth 库和Hugging Face
Transformer
s 库对比使用
在深度学习模型的微调过程中,保存模型及其权重是关键步骤。不同的库或框架提供了各自的方法来完成这一任务。Unsloth库:Unsloth是一个专注于加速大语言模型(LLM)微调的开源工具。它通过优化计算步骤和GPU内核,显著提升训练速度并减少内存使用。在Unsloth中,save_pretrained_merged方法用于将微调后的LoRA(Low-RankAdaptation)适配器权重与原始模型
背太阳的牧羊人
·
2025-03-26 21:17
模型微调
模型加载
语言模型
【深度学习】Self-Attention机制详解:
Transformer
的核心引擎
Self-Attention机制详解:
Transformer
的核心引擎文章目录Self-Attention机制详解:
Transformer
的核心引擎引言Self-Attention的基本概念为什么需要Self-Attention
烟锁池塘柳0
·
2025-03-26 19:05
深度学习
transformer
人工智能
AI 大模型的技术架构与应用解析
这些模型基于
Transformer
架构,依托超大规模的参数、海量数据和强大的计算资源,使得机器对文本的理解、推理和生成能力达到了前所未有的水平。
慌ZHANG
·
2025-03-26 09:52
AI模型
人工智能
YOLOv11改进 | 注意力篇 | YOLOv11引入24年ECCV的自调制特征聚合注意力模块(SMFA),并构建C2PSA_SMFA
1.SMFA介绍1.1摘要:基于
Transformer
的图像复原方法由于
Transformer
的自注意(self-attention,SA)特性能够更好地挖掘非局部信息,从而获得更好的高分辨率图像重建效果
小李学AI
·
2025-03-26 06:54
YOLOv11有效涨点专栏
YOLO
深度学习
人工智能
计算机视觉
目标检测
机器学习
神经网络
Vidu 5.0 视频生成模型深度解析
Vidu5.0视频生成模型深度解析(2025年3月)一、核心技术架构多模态动态建模基于DiT(Diffusion
Transformer
)架构:结合3D时空注意力机制,实现动态场景的精准建模。
Liudef06
·
2025-03-26 05:16
AI生成视频
音视频
计算机视觉
人工智能
深度学习
H100赋能生成式AI算力革新
其核心突破在于第四代TensorCore与
Transformer
引擎的协同设计,通过动态稀疏计算与混合精度支持,将大规模矩阵运算效率提升至新高度。
智能计算研究中心
·
2025-03-26 04:13
其他
快速了解
Transformer
与循环神经网络(LSTM/RNN)的区别
Transformer
与循环神经网络(LSTM/RNN)的区别关键差异总结:并行性:
Transformer
的全局并行计算大幅提升训练效率,而RNN/LSTM受限于序列顺序。
Panesle
·
2025-03-25 23:30
总结
rnn
transformer
lstm
人工智能
深度学习
具身系列——NLP工程师切入机器人和具身智能方向
Mujoco、webots)基于当前具身智能行业发展趋势和岗位需求,以下是为NLP工程师设计的转型路径与策略,结合最新招聘信息和技术趋势:一、技能迁移与知识重构(3-6个月)核心能力复用深度学习基础:迁移
Transformer
music&movie
·
2025-03-25 21:47
多模态
Agent
自然语言处理
机器人
人工智能
PyTorch 深度学习实战(8):
Transformer
与机器翻译(基于本地中英文文本文件)
本文将介绍
Transformer
模型的基本原理,并使用PyTorch和HuggingFace的
transformer
s库实现一个简单的机器翻译模型。我们将基于本地的中英文文本文件进行实战演练。
进取星辰
·
2025-03-25 18:58
PyTorch
深度学习实战
深度学习
pytorch
transformer
大模型算法岗面试题(含答案)
Transformer
体系:由Google提出的
Transformer
模型及其变体,如BERT、GPT等。
X.Cristiano
·
2025-03-25 17:49
LLM
大模型
人工智能
书籍-《机器学习:从经典方法到深度网络、
Transformer
和扩散模型(第三版)》
书籍:MachineLearning:FromtheClassicstoDeepNetworks,
Transformer
s,andDiffusionModels,3rdEdition作者:SergiosTheodoridis
·
2025-03-25 13:51
腾讯混元 T1 正式发布:混合架构重塑推理模型范式,解码速度提升 2 倍
在AI模型性能竞赛持续升温的背景下,腾讯于3月21日正式推出自研深度思考模型混元T1正式版,以行业首创的Hybrid-Mamba-
Transformer
融合架构,重新定义了大模型的推理效率与应用边界。
未来智慧谷
·
2025-03-25 13:48
腾讯混元
深度思考模型
人工智能
ai-by-hand-excel: 用 Excel 手搓各种 AI 算法和模型
发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI通过Excel的形式实现并演示人工智能与深度学习的核心算法和概念,让初学者可以动手操作并理解AI的运行原理,包括矩阵乘法、MLP、RNN、
Transformer
小众AI
·
2025-03-25 09:14
AI开源
人工智能
excel
算法
保姆级大模型学习路线!清华博士耗时半年整理的14个核心阶段,文科生也能跟着冲!(附论文笔记+项目源码+训练技巧)
2023行业调查报告显示:92%学习者停滞在微调阶段,核心痛点集中在:论文看不懂:
Transformer
源码像天书环境配不好:CUDA版本冲突天天报错算力不够用:
大模型入门教程
·
2025-03-25 01:17
学习
人工智能
AI
大模型
大模型学习
大模型教程
大模型入门
基于Hugging Face的
Transformer
实战
HuggingFace生态提供:30,000+预训练模型(BERT、GPT、T5等)统一的
Transformer
API接口快速实现下游任务迁移企业级部署工具(Optimum、InferenceEndpoints
小诸葛IT课堂
·
2025-03-24 23:03
transformer
深度学习
人工智能
Transformer
架构对比:Dense、MoE 与 Hybrid-MoE 的优劣分析
1.LLM基础架构类型Dense
Transformer
MoE(MixtureofExperts)
Transformer
Hybrid-MoE
Transformer
2.
Transformer
按照编码方式分类单向自回归模型
m0_74825656
·
2025-03-24 11:01
面试
学习路线
阿里巴巴
transformer
架构
深度学习
目标检测领域总结:从传统方法到
Transformer
时代的革新
目标检测领域总结:从传统方法到
Transformer
时代的革新目标检测是计算机视觉领域的一个核心任务,它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起,目标检测方法已经取得了显著的进展。
DoYangTan
·
2025-03-24 08:57
目标检测系列
目标检测
transformer
人工智能
Deepseek和豆包在技术创新方面有哪些相同点与不同点?
Deepseek和豆包在技术创新方面的相同点与不同点如下:相同点架构基础:都以
Transformer
架构为基础进行开发。
alankuo
·
2025-03-24 06:16
人工智能
神经网络中层与层之间的关联
BackwardPropagation)2.常见层与层之间的关联模式2.1典型全连接网络(如手写数字分类)2.2卷积神经网络(CNN,如图像分类)2.3循环神经网络(RNN/LSTM,如文本生成)2.4
Transformer
iisugar
·
2025-03-24 06:40
神经网络
深度学习
计算机视觉
《AI医疗系统开发实战录》第6期——智能导诊系统实战
技术突破:结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型(PyTorch)from
transformer
simportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
骆驼_代码狂魔
·
2025-03-24 02:30
程序员的法宝
人工智能
django
python
neo4j
知识图谱
NLP高频面试题(十)——目前常见的几种大模型架构是啥样的
深入浅出:目前常见的几种大模型架构解析随着
Transformer
模型的提出与发展,语言大模型迅速崛起,已经成为人工智能领域最为关注的热点之一。
Chaos_Wang_
·
2025-03-23 22:30
NLP常见面试题
自然语言处理
架构
人工智能
Linux部署模型报错OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_mod
Errornofilenamedpytorch_model.bin,tf_model.h5,model.ckpt.indexorflax_model.msgpackfoundindirectory主要原因是
transformer
dkgee
·
2025-03-23 18:22
linux
pytorch
运维
客服机器人怎么才能精准的回答用户问题?
意图分类:通过机器学习模型(如BERT、
Transformer
)将问题归类(如“售后”“支付”)。上下文理解记录对
玩人工智能的辣条哥
·
2025-03-23 09:13
AI面试
机器人
客服机器人
Python预训练模型实现俄语音频转文字
importtorchimportlibrosafrom
transformer
simport
啥都鼓捣的小yao
·
2025-03-23 05:03
人工智能
python
音视频
人工智能
【人工智能之大模型】阐述生成式语言模型的工作机理...(二)
(二)前言4.代码逐行解释
Transformer
Block类初始化前向传播GenerativeLM类初始化前向传播推理示例测试生成5.总结欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
985小水博一枚呀
·
2025-03-23 02:09
大大大模型知识点
人工智能
语言模型
自然语言处理
机器学习
神经网络
上一页
12
13
14
15
16
17
18
19
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他