Transformer 第3页

《DeepSeek训练算法：开启高效学习的新大门》

一、独特的架构基础DeepSeek以Transformer架构为基石，但并非简单沿用，而是进行了深度创新。Transformer架构的核心是注意力机制，这让模型在处理序列数

·2025-02-18 04:41

DeepSeek推理模型架构以及DeepSeek爆火的原因

大家好，我是微学AI，今天给大家介绍一下DeepSeek推理模型架构以及DeepSeek爆火的原因，DeepSeek推理模型凭借其创新的混合专家（MoE）架构和优化的Transformer架构，融合稀疏注意力机制

微学AI·2025-02-18 03:06

书籍-《掌握Transformer：从BERT到大模型和Stable Diffusion（第二版）》

书籍：MasteringTransformers:TheJourneyfromBERTtoLargeLanguageModelsandStableDiffusion，2ndEdition作者：SavaşYıldırım

·2025-02-18 00:36

transformer概述

Transformer架构的提出，不仅在自然语言处理（NLP）领域掀起了革命，也在多个深度学习任务中获得了广泛应用。

沉墨的夜·2025-02-17 22:13

Python中LLM的稀疏Transformer架构：Longformer与BigBird

文章目录1.Transformer架构的挑战2.稀疏Transformer架构的提出2.1Longformer2.1.1局部注意力2.1.2全局注意力2.1.3实现2.2BigBird2.2.1随机注意力

二进制独立开发·2025-02-17 22:36

【深度学习基础】什么是注意力机制

文章目录一、注意力机制的核心地位：从补充到主导二、技术突破：从Transformer到多模态融合三、跨领域应用：从NLP到通用人工智能四、未来挑战与趋势结语参考链接注意力机制：深度学习的核心革命与未来基石在深度学习的发展历程中

我的青春不太冷·2025-02-17 14:26

＜Attention Is All You Need＞：全网首次提出Transformer模型论文中英文对照学习

论文摘要英文Thedominantsequencetransductionmodelsarebasedoncomplexrecurrentorconvolutionalneuralnetworksthatincludeanencoderandadecoder.Thebestperformingmodelsalsoconnecttheencoderanddecoderthroughanattenti

kingking44·2025-02-17 12:08

基于DeepSeek-R1的高效推理优化实战：从API封装到动态批处理

一、环境准备与模型加载优化1.1硬件感知的模型加载通过device_map自动分配计算资源，避免显存溢出fromtransformersimport

竹木有心·2025-02-17 11:29

第TR5周：Transformer实战：文本分类

文章目录1.准备环境1.1环境安装1.2加载数据2.数据预处理2.1构建词典2.2生成数据批次和迭代器2.3构建数据集3.模型构建3.1定义位置编码函数3.2定义Transformer模型3.3初始化模型

计算机真好丸·2025-02-17 07:56

LightGBM+NRBO-Transformer-BiLSTM多变量回归预测 Matlab代码

LightGBM+NRBO-Transformer-BiLSTM多变量回归预测Matlab代码一、引言1.1、研究背景与意义在现代数据科学领域，多变量回归预测问题一直是一个研究热点。

前程算法屋·2025-02-17 01:09

KTransformers：告别天价显卡！国产框架让单卡24G显存跑DeepSeek-R1 671B大模型：推理速度飙升28倍

❤️如果你也关注AI的发展现状，且对AI应用开发感兴趣，我会每日分享大模型与AI领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！微信公众号｜搜一搜：蚝油菜花“还在为千亿模型租天价显卡？清华团队用CPU/GPU协同计算，让4090跑起671B参数全量模型！”大家好，我是蚝油菜花。如果你也经历过——看着API调用账单瑟瑟发抖，微调一次模型吃掉半月算力预算️盯着OOM报错抓狂，为了

蚝油菜花·2025-02-17 00:32

根据deepseek模型微调训练自动驾驶模型及数据集的思路

Step1:环境准备#安装依赖库pipinstalltorchtransformersdatasetsnumpypandasStep2:数据准备假设数据集格式为JSON，包含输入文本（传感器/场景描述）

ywfwyht·2025-02-16 19:28

预测股票走势的ai模型

1.关键功能✅AI选股（基于财务数据+技术指标）✅股票走势预测（LSTM/Transformer）✅智能筛选高增长潜力股✅可视化分析2.关键技术数据来源：YahooFinance/AlphaVantage

roxxo·2025-02-16 17:10

2025年大模型与Transformer架构：技术前沿与未来趋势报告

在人工智能的宏大版图中，Transformer架构无疑是一颗璀璨的明星。它的出现，彻底改变了自然语言处理、计算机视觉等诸多领域的发展轨迹。

和老莫一起学AI·2025-02-16 12:37

深度解析DeepSeek大模型的技术架构与创新点

一、基础架构概览DeepSeek的核心架构建立在Transformer的基础上，但进行了多项创新优化。我第一次接触DeepSeek时，就被它在模型结构上的精巧设计所吸引。1.

·2025-02-16 11:43

deepseek+python,离线api，持续对话

功能：通过start开启新对话，stop结束对话，exit退出程序，并且可持续对话代码fromtransformersimportAutoModelForCausalLM,AutoTokenizer,BitsAndBytesConfigimporttorch

守着黎明看日出·2025-02-16 05:43

清华大学KVCache.AI团队联合趋境科技联合的KTransformers开源项目为什么那么厉害

KTransformers是一个由清华大学KVAV.AI团队开发的开源项目，旨在优化大语言模型（LLM）的推理性能，特别是在有限显存资源下运行大型模型。

魔王阿卡纳兹·2025-02-16 03:52

Transformer

1.TransformerTransformer是一种新的、基于attention机制来实现的特征提取器，可用于代替CNN和RNN来提取序列的特征。

AI专题精讲·2025-02-15 18:18

Transformer以及BERT阅读参考博文

Transformer以及BERT阅读参考博文Transformer学习：已有博主的讲解特别好了：李沐：Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili知乎：Transformer

mumukehao·2025-02-15 17:41

ZCC6507: A Superior Isolated Power Solution Outperforming SN6507

engineersareconstantlyseekingmoreefficient,flexible,andcost-effectivesolutions.TheZCC6507,ahigh-performancepush-pulltransformerdriver

zhichengwei·2025-02-15 17:10

23. AI-大语言模型

文章目录前言一、LLM1.简介2.工作原理和结构3.应用场景4.最新研究进展5.比较二、Transformer架构1.简介2.基本原理和结构3.应用场景4.最新进展三、开源1.开源概念2.开源模式3.模型权重四

真上帝的左手·2025-02-15 12:34

目标检测代码示例（基于Python和OpenCV）

随着技术的发展，目标检测算法不断演进，从传统的基于手工特征的方法到现代的深度学习方法，再到基于Transformer的架构，目标检测技术已经取得了显著的进步。

matlab_python22·2025-02-15 05:08

用java实现word（docx）转换为pdf格式文档（简单版）

导入依赖com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3代码/

xiaoxiaobaozhu·2025-02-15 04:52

Bengio新作Aaren：探索Transformer性能与RNN效率的融合

论文链接：https://arxiv.org/pdf/2405.13956一、摘要总结：本文提出了一种新的注意力机制，名为Aaren，它将注意力视为一种特殊的递归神经网络（RNN），能够高效地计算其多对一RNN输出。Aaren不仅能够并行训练，而且能够在推理时高效地更新新令牌，仅需要常数内存。实验表明，Aaren在四个流行的序列问题设置（强化学习、事件预测、时间序列分类和时间序列预测）的38个数据

AI记忆·2025-02-15 03:17

发文新思路！双通道CNN的惊人突破，准确率接近100%！

沃恩智慧·2025-02-15 03:45

海思Hi3516CV610 -----芯片说明

关键特性●4K@20，6M@30分辨率●双目实时接入，支撑枪球一体机等双目机型●1T算力NPU，Transformer特性加速，大模型端侧部署●SVAC3.0编码标准，压缩率提升20%●智能编码2.0，

菩提树下的凡夫·2025-02-14 21:25

上下文扩展技术-详细解释Longformer和BigBird的主要创新；详细说明bert原理，并说一说他的上下文限制是怎么来的

答案LongformerLongformer是为有效处理长文本序列而设计的Transformer模型，它通过结合滑动窗口注意力机制和扩张注意力模式来捕捉局部和远距离的上下文信息，并通过全局注意力来捕捉整个文档的广泛背景和联系

AI生成曾小健·2025-02-14 12:22

视觉中的transformer：ViT

《》摘要transformer已经是NLP的标准。

ch隔壁老张·2025-02-14 06:12

ViT和Transformer

AttentionIsAllYouNeedVit在图像领域直接使用transformer，如果将2d图像直接转为一维向量，会面临参数两过大的问题。

Landon9·2025-02-14 06:37

详细说说VIT架构和Transformer架构的异同

GPT-4oVisionTransformer(ViT)和Transformer架构之间的关系非常紧密，因为ViT是直接将Transformer应用到视觉任务中的一种方法。

AI生成曾小健·2025-02-14 05:02

从VGG到Transformer：深度神经网络层级演进对模型性能的深度解析与技术实践指南

一、技术原理（数学公式+示意图）1.层深与模型容量关系数学表达：根据UniversalApproximationTheorem，深度网络可表达复杂函数：f(x)=fL(fL−1(⋯f1(x)))f(x)=f_L(f_{L-1}(\cdotsf_1(x)))f(x)=fL(fL−1(⋯f1(x)))层数L增加时，函数空间指数级扩大梯度传播挑战：链式法则导致梯度消失/爆炸∂L∂W(1)=∏k=2L∂f

燃灯工作室·2025-02-14 05:57

计算机视觉核心任务

代表模型：ResNet、EfficientNet、ViT（VisionTransformer）。2.目标检测（ObjectDetection）识别图像中目标的位置（边界框）及类别。应用场景：自动驾

飞瀑·2025-02-14 04:53

【Transformer】小白入门指南

目录1、简介2、Transformer解决问题技术概览核心组成自注意力机制（Self-AttentionMechanism）多头注意力机制（Multi-HeadAttention）前馈神经网络（Feed-ForwardNeuralNetwork

静静喜欢大白·2025-02-14 04:18

一杯咖啡的时间学习大模型（LLM）：LLaMA解读之旋转编码RoPE（含代码实现）

相较于标准Transformer架构，LLaMA主要在以下几个方面进行了关键改进：位置编码升级：采用旋转位置编码（RotaryPositionEmbedding,RoPE）归一化革新：对每个

Bug_makerACE·2025-02-14 02:52

GPT 系列模型发展史：从 GPT 到 ChatGPT 的演进与技术细节

GPT（2018）：划时代的起点：GPT（GenerativePre-trainedTransformer）首次将Transformer架构与无监督预训练结合，开启了大规模语言模型的新时代。

Ash Butterfield·2025-02-14 00:08

大型语言模型的核心机制解析

摘要大型语言模型的核心机制依赖于Transformer架构，该架构通过嵌入层将输入数据转换为向量形式，并结合位置编码以保留序列中单词的顺序信息。

耶耶Norsea·2025-02-13 23:05

Pytorch实现一个简单DeepSeek中的MLA多头潜在注意力架构

这可能与传统的Transformer中的滑动窗口或局部注意力类似。接下来，我需要考虑如何将局部注意力与多头机制结合。每个注意力头可能有不同的局部窗口，或者共享相

DukeYong·2025-02-13 19:38

值得收藏！十大中国流行的AI大模型企业及平台汇总

1.百度-文心一言百度在大模型开发上持续采用创新算法和结构，如Transformer，以优化模型性能和学习

deepseek大模型·2025-02-13 16:50

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练LayoutLMv3应用统一的文本-图像多模态Transformer来学习跨模态表示。

·2025-02-13 16:39

【深度学习】常见模型-GPT（Generative Pre-trained Transformer，生成式预训练 Transformer）

GPT（GenerativePre-trainedTransformer）1️⃣什么是GPT？

IT古董·2025-02-13 16:15

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练LayoutLMv3应用统一的文本-图像多模态Transformer来学习跨模态表示。

·2025-02-13 15:31

使用 HuggingFace 库进行本地嵌入向量生成

pipinstallsentence-transformers!pipi

qq_37836323·2025-02-13 09:50

Flux如何工作？这款新图像生成AI可与Midjourney一较高下

它代表了人工智能生成艺术领域的重大进展，采用了一种“混合架构”，将transformer和diffusion技术相结合，参数规模达120亿。

硅基创想家·2025-02-13 05:53

transformer

导语：2017年，一篇名为《AttentionisAllYouNeed》的论文横空出世，提出了Transformer模型，彻底改变了自然语言处理（NLP）领域的格局。

我爱派生·2025-02-13 04:45

【python 机器学习】sklearn转换器与预估器

文章目录sklearn转换器与预估器1.什么是转换器（Transformer）？通俗介绍：学术解释：2.什么是预估器（Estimator）？

人才程序员·2025-02-13 03:04

【独家首发】蜣螂算法DBO优化Transformer-BiLSTM负荷数据回归预测【含Matlab源码 6568期】

Matlab武动乾坤博客之家

Matlab武动乾坤·2025-02-12 23:04

深度学习语义分割实战：ResNet 与 ViT 结合的模型解析

本项目结合了ResNet（ResidualNetwork）和ViT（VisionTransformer），构建了高性能的语义分割模型。本文将详细解析该模型的架构、训练流程及其应用。

高山仰星·2025-02-12 15:06

DeepSeek 与 Transformer 架构的深度关联

而Transformer架构，自2017年横空出世以来，便成为了众多先进自然语言处理模型的底层基石，DeepSeek的成功也与它有着密不可分的联系。

JoveZou·2025-02-12 10:08

四、自然语言处理_08Transformer翻译任务案例

0、前言在Seq2Seq模型的学习过程中，做过一个文本翻译任务案例，多轮训练后，效果还算能看Transformer作为NLP领域的扛把子，对于此类任务的处理会更为强大，下面将以基于Transformer

学不会lostfound·2025-02-12 08:53

深度学习算法informer（时序预测）（一）（数据编码讲解）

前言：informer代码是在transformer代码基础上进行优化，请先了解transformer原理informer代码中数据编码包括三部分，位置编码、数据编码、时间编码目标：时序数据有7个特征，

槑槑紫·2025-02-12 05:33

推荐频道

Transformer

《DeepSeek训练算法：开启高效学习的新大门》

DeepSeek推理模型架构以及DeepSeek爆火的原因

书籍-《掌握Transformer：从BERT到大模型和Stable Diffusion（第二版）》

transformer概述

Python中LLM的稀疏Transformer架构：Longformer与BigBird

【深度学习基础】什么是注意力机制

＜Attention Is All You Need＞：全网首次提出Transformer模型论文中英文对照学习

基于DeepSeek-R1的高效推理优化实战：从API封装到动态批处理

第TR5周：Transformer实战：文本分类

LightGBM+NRBO-Transformer-BiLSTM多变量回归预测 Matlab代码

KTransformers：告别天价显卡！国产框架让单卡24G显存跑DeepSeek-R1 671B大模型：推理速度飙升28倍

根据deepseek模型微调训练自动驾驶模型及数据集的思路

预测股票走势的ai模型

2025年大模型与Transformer架构：技术前沿与未来趋势报告

深度解析DeepSeek大模型的技术架构与创新点

deepseek+python,离线api，持续对话

清华大学KVCache.AI团队联合趋境科技联合的KTransformers开源项目为什么那么厉害

Transformer

Transformer以及BERT阅读参考博文

ZCC6507: A Superior Isolated Power Solution Outperforming SN6507

23. AI-大语言模型

目标检测代码示例（基于Python和OpenCV）

用java实现word（docx）转换为pdf格式文档（简单版）

Bengio新作Aaren：探索Transformer性能与RNN效率的融合

发文新思路！双通道CNN的惊人突破，准确率接近100%！

海思Hi3516CV610 -----芯片说明

上下文扩展技术-详细解释Longformer和BigBird的主要创新；详细说明bert原理，并说一说他的上下文限制是怎么来的

视觉中的transformer：ViT

ViT和Transformer

详细说说VIT架构和Transformer架构的异同

从VGG到Transformer：深度神经网络层级演进对模型性能的深度解析与技术实践指南

计算机视觉核心任务

【Transformer】小白入门指南

一杯咖啡的时间学习大模型（LLM）：LLaMA解读之旋转编码RoPE（含代码实现）

GPT 系列模型发展史：从 GPT 到 ChatGPT 的演进与技术细节

大型语言模型的核心机制解析

Pytorch实现一个简单DeepSeek中的MLA多头潜在注意力架构

值得收藏！十大中国流行的AI大模型企业及平台汇总

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

【深度学习】常见模型-GPT（Generative Pre-trained Transformer，生成式预训练 Transformer）

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

使用 HuggingFace 库进行本地嵌入向量生成

Flux如何工作？这款新图像生成AI可与Midjourney一较高下

transformer

【python 机器学习】sklearn转换器与预估器

【独家首发】蜣螂算法DBO优化Transformer-BiLSTM负荷数据回归预测【含Matlab源码 6568期】

深度学习语义分割实战：ResNet 与 ViT 结合的模型解析

DeepSeek 与 Transformer 架构的深度关联

四、自然语言处理_08Transformer翻译任务案例

深度学习算法informer（时序预测）（一）（数据编码讲解）