TRANSFORMER 第6页

ZCC6507: A Superior Isolated Power Solution Outperforming SN6507

engineersareconstantlyseekingmoreefficient,flexible,andcost-effectivesolutions.TheZCC6507,ahigh-performancepush-pulltransformerdriver

zhichengwei·2025-02-15 17:10

23. AI-大语言模型

文章目录前言一、LLM1.简介2.工作原理和结构3.应用场景4.最新研究进展5.比较二、Transformer架构1.简介2.基本原理和结构3.应用场景4.最新进展三、开源1.开源概念2.开源模式3.模型权重四

真上帝的左手·2025-02-15 12:34

目标检测代码示例（基于Python和OpenCV）

随着技术的发展，目标检测算法不断演进，从传统的基于手工特征的方法到现代的深度学习方法，再到基于Transformer的架构，目标检测技术已经取得了显著的进步。

matlab_python22·2025-02-15 05:08

用java实现word（docx）转换为pdf格式文档（简单版）

导入依赖com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3代码/

xiaoxiaobaozhu·2025-02-15 04:52

Bengio新作Aaren：探索Transformer性能与RNN效率的融合

论文链接：https://arxiv.org/pdf/2405.13956一、摘要总结：本文提出了一种新的注意力机制，名为Aaren，它将注意力视为一种特殊的递归神经网络（RNN），能够高效地计算其多对一RNN输出。Aaren不仅能够并行训练，而且能够在推理时高效地更新新令牌，仅需要常数内存。实验表明，Aaren在四个流行的序列问题设置（强化学习、事件预测、时间序列分类和时间序列预测）的38个数据

AI记忆·2025-02-15 03:17

发文新思路！双通道CNN的惊人突破，准确率接近100%！

沃恩智慧·2025-02-15 03:45

海思Hi3516CV610 -----芯片说明

关键特性●4K@20，6M@30分辨率●双目实时接入，支撑枪球一体机等双目机型●1T算力NPU，Transformer特性加速，大模型端侧部署●SVAC3.0编码标准，压缩率提升20%●智能编码2.0，

菩提树下的凡夫·2025-02-14 21:25

上下文扩展技术-详细解释Longformer和BigBird的主要创新；详细说明bert原理，并说一说他的上下文限制是怎么来的

答案LongformerLongformer是为有效处理长文本序列而设计的Transformer模型，它通过结合滑动窗口注意力机制和扩张注意力模式来捕捉局部和远距离的上下文信息，并通过全局注意力来捕捉整个文档的广泛背景和联系

AI生成曾小健·2025-02-14 12:22

视觉中的transformer：ViT

《》摘要transformer已经是NLP的标准。

ch隔壁老张·2025-02-14 06:12

ViT和Transformer

AttentionIsAllYouNeedVit在图像领域直接使用transformer，如果将2d图像直接转为一维向量，会面临参数两过大的问题。

Landon9·2025-02-14 06:37

详细说说VIT架构和Transformer架构的异同

GPT-4oVisionTransformer(ViT)和Transformer架构之间的关系非常紧密，因为ViT是直接将Transformer应用到视觉任务中的一种方法。

AI生成曾小健·2025-02-14 05:02

从VGG到Transformer：深度神经网络层级演进对模型性能的深度解析与技术实践指南

一、技术原理（数学公式+示意图）1.层深与模型容量关系数学表达：根据UniversalApproximationTheorem，深度网络可表达复杂函数：f(x)=fL(fL−1(⋯f1(x)))f(x)=f_L(f_{L-1}(\cdotsf_1(x)))f(x)=fL(fL−1(⋯f1(x)))层数L增加时，函数空间指数级扩大梯度传播挑战：链式法则导致梯度消失/爆炸∂L∂W(1)=∏k=2L∂f

燃灯工作室·2025-02-14 05:57

计算机视觉核心任务

代表模型：ResNet、EfficientNet、ViT（VisionTransformer）。2.目标检测（ObjectDetection）识别图像中目标的位置（边界框）及类别。应用场景：自动驾

飞瀑·2025-02-14 04:53

【Transformer】小白入门指南

目录1、简介2、Transformer解决问题技术概览核心组成自注意力机制（Self-AttentionMechanism）多头注意力机制（Multi-HeadAttention）前馈神经网络（Feed-ForwardNeuralNetwork

静静喜欢大白·2025-02-14 04:18

一杯咖啡的时间学习大模型（LLM）：LLaMA解读之旋转编码RoPE（含代码实现）

相较于标准Transformer架构，LLaMA主要在以下几个方面进行了关键改进：位置编码升级：采用旋转位置编码（RotaryPositionEmbedding,RoPE）归一化革新：对每个

Bug_makerACE·2025-02-14 02:52

GPT 系列模型发展史：从 GPT 到 ChatGPT 的演进与技术细节

GPT（2018）：划时代的起点：GPT（GenerativePre-trainedTransformer）首次将Transformer架构与无监督预训练结合，开启了大规模语言模型的新时代。

Ash Butterfield·2025-02-14 00:08

大型语言模型的核心机制解析

摘要大型语言模型的核心机制依赖于Transformer架构，该架构通过嵌入层将输入数据转换为向量形式，并结合位置编码以保留序列中单词的顺序信息。

耶耶Norsea·2025-02-13 23:05

Pytorch实现一个简单DeepSeek中的MLA多头潜在注意力架构

这可能与传统的Transformer中的滑动窗口或局部注意力类似。接下来，我需要考虑如何将局部注意力与多头机制结合。每个注意力头可能有不同的局部窗口，或者共享相

DukeYong·2025-02-13 19:38

值得收藏！十大中国流行的AI大模型企业及平台汇总

1.百度-文心一言百度在大模型开发上持续采用创新算法和结构，如Transformer，以优化模型性能和学习

deepseek大模型·2025-02-13 16:50

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练LayoutLMv3应用统一的文本-图像多模态Transformer来学习跨模态表示。

·2025-02-13 16:39

【深度学习】常见模型-GPT（Generative Pre-trained Transformer，生成式预训练 Transformer）

GPT（GenerativePre-trainedTransformer）1️⃣什么是GPT？

IT古董·2025-02-13 16:15

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练LayoutLMv3应用统一的文本-图像多模态Transformer来学习跨模态表示。

·2025-02-13 15:31

使用 HuggingFace 库进行本地嵌入向量生成

pipinstallsentence-transformers!pipi

qq_37836323·2025-02-13 09:50

Flux如何工作？这款新图像生成AI可与Midjourney一较高下

它代表了人工智能生成艺术领域的重大进展，采用了一种“混合架构”，将transformer和diffusion技术相结合，参数规模达120亿。

硅基创想家·2025-02-13 05:53

transformer

导语：2017年，一篇名为《AttentionisAllYouNeed》的论文横空出世，提出了Transformer模型，彻底改变了自然语言处理（NLP）领域的格局。

我爱派生·2025-02-13 04:45

【python 机器学习】sklearn转换器与预估器

文章目录sklearn转换器与预估器1.什么是转换器（Transformer）？通俗介绍：学术解释：2.什么是预估器（Estimator）？

人才程序员·2025-02-13 03:04

【独家首发】蜣螂算法DBO优化Transformer-BiLSTM负荷数据回归预测【含Matlab源码 6568期】

Matlab武动乾坤博客之家

Matlab武动乾坤·2025-02-12 23:04

深度学习语义分割实战：ResNet 与 ViT 结合的模型解析

本项目结合了ResNet（ResidualNetwork）和ViT（VisionTransformer），构建了高性能的语义分割模型。本文将详细解析该模型的架构、训练流程及其应用。

高山仰星·2025-02-12 15:06

DeepSeek 与 Transformer 架构的深度关联

而Transformer架构，自2017年横空出世以来，便成为了众多先进自然语言处理模型的底层基石，DeepSeek的成功也与它有着密不可分的联系。

JoveZou·2025-02-12 10:08

四、自然语言处理_08Transformer翻译任务案例

0、前言在Seq2Seq模型的学习过程中，做过一个文本翻译任务案例，多轮训练后，效果还算能看Transformer作为NLP领域的扛把子，对于此类任务的处理会更为强大，下面将以基于Transformer

学不会lostfound·2025-02-12 08:53

深度学习算法informer（时序预测）（一）（数据编码讲解）

前言：informer代码是在transformer代码基础上进行优化，请先了解transformer原理informer代码中数据编码包括三部分，位置编码、数据编码、时间编码目标：时序数据有7个特征，

槑槑紫·2025-02-12 05:33

解决：libssl.so.10: cannot open shared object file: No such file or directory

RuntimeError:Failedtoimporttransformers.models.bertbecauseofthefollowingerror(lookuptoseeitstraceback

铭147·2025-02-12 04:25

Transformer细节（九）——Transformer位置编码

一、总述Transformer模型中的位置编码（PositionalEncoding）是用于向模型提供序列中各个元素位置信息的机制。

多学学多写写·2025-02-12 04:25

缩放点积注意力（Scaled Dot-Product Attention）

ScaledDot-ProductAttention）缩放点积注意力（ScaledDot-ProductAttention）是自注意力（Self-Attention）机制的一种变体，它被广泛应用于现代的神经网络架构中，尤其是在Transformer

彬彬侠·2025-02-11 20:53

DeepSeek发布开源多模态大模型Janus-Pro-7B！本地部署+Colab部署！支持图像识别和图像生成！基准测试得分超越OpenAI的DALL·E 3 + Stable Diffusion

模型主要特点:统一的架构:Janus-Pro采用单一transformer架构来处理文本和图像信息，实现了真正的多模态理解和生成

AI超元域·2025-02-11 20:21

【NLP算法面经】NLP算法面经 -- 腾讯 VS 美团（附面题）

博客主页：[青松]目录【NLP百面百过】大模型算法高频面题（全面整理ʘ‿ʘ）一、大模型（LLMs）基础面大模型（LLMs）架构篇注意力机制（Attention）篇Transformer理论篇二、大模型微调面有监督微调

青松ᵃⁱ·2025-02-11 13:37

【人工智能领域优质书籍】实战AI大模型

书籍亮点1.全面Al知识结构:从基础理论到最前沿的实践应用，全面覆盖了’Al大模型领域，包括Transformer模型、BERT、ALBERT、T5、G

秋说·2025-02-11 12:01

Transformer：基于注意力机制的序列转换模型

Transformer：基于注意力机制的序列转换模型最近，我研究了一篇非常有趣的论文——《AttentionIsAllYouNeed》，由GoogleBrain团队的AshishVaswani等人撰写。

金外飞176·2025-02-11 09:07

StripedHyena 模型介绍

StripedHyena是近年来提出的一种新型神经网络架构，旨在替代或补充传统的Transformer模型。

qq_27390023·2025-02-11 08:51

Transformer 的辉煌与大模型方向确立，点燃AGI之火把

技术壁垒：模型，技术，开源CUDA壁垒：PTX编程更加底层，大量中国硬件公司，可以适配Transformer架构的奠基2017年，Vaswani等人发表了开创性论文《AttentionisAllY

dingcb168·2025-02-11 07:47

【AI学习】LLM的发展方向

当然，首先要有一个能够scaling的模型架构，Transformer是首个能够scaling的模型架构，去年的Mamba学习，了解了为什么CNN、LSTM这些架构为什么无法scaling。

bylander·2025-02-11 03:47

【深度学习】常见模型-BERT（Bidirectional Encoder Representations from Transformers）（双向编码器表示）

BERT（BidirectionalEncoderRepresentationsfromTransformers）BERT是什么？

IT古董·2025-02-11 02:06

基于“感知–规划–行动”的闭环系统架构

1.感知（Perception）1.1多模态数据采集与预处理传感器系统Agent的感知层通常由多种传感器组成，支持采集多种形式的数据：视觉：采用摄像头、深度传感器，通过卷积神经网络（CNN）、视觉Transformer

由数入道·2025-02-10 22:39

1.1 Attention机制终极指南：从数学推导到Transformer实战，解密大模型核心引擎

Attention机制终极指南：从数学推导到Transformer实战，解密大模型核心引擎引言：人脑如何启发AI革命？

少林码僧·2025-02-10 19:49

DeepSeek-VL2 、 qwen2.5 vl 技术选型比较

以下是两者的技术选型对比分析，涵盖架构设计、性能、适用场景和实际应用考量：1.核心架构对比维度DeepSeek-VL2Qwen2.5-VL视觉编码器基于改进的ViT（VisionTransformer）

天机️灵韵·2025-02-10 18:42

基于Python和开源框架的简单聊天交互软件代码实现

代码实现：基于Flask的聊天交互软件1.环境准备安装所需依赖：pipinstallflaskflask-socketiotransformers2.代码实现fromflaskimportFlask,render_template

星糖曙光·2025-02-10 14:33

DeepSeek和ChatGPT的优劣或者区别（答案来DeepSeek和ChatGPT）

ChatGPT：基于Transformer架构，参数规模估计约1万亿，依

笑傲江湖2023·2025-02-10 12:45

锂电池剩余寿命预测 | Matlab基于Transformer-GRU的锂电池剩余寿命预测

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、期刊写作与指导，代码获取、论文复现及科研仿真合作可私信或扫描文章底部二维码。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍锂离子电池作为一种重要的储能装置，在

天天Matlab代码科研顾问·2025-02-10 09:24

深度解析Transformer架构核心原理，让小白也懂

解密Transformer：从人类思维到机器智能的注意力革命引言：语言理解的本质困境在纽约地铁站，一个三岁孩童指着广告牌上的"Apple"问妈妈："这是吃的苹果还是爸爸的手机？"

python算法(魔法师版)·2025-02-10 07:00

ai大模型学习和实践

1.3以下方法被用于处理序列数据的是1.4注意力机制是什么2、变革里程碑：transformer的崛起2.1Transformer模型和注意力机制的关系2.2Transformer模型和注意力机制在数据训练上有差异

编程ID·2025-02-10 07:26

推荐频道

TRANSFORMER

ZCC6507: A Superior Isolated Power Solution Outperforming SN6507

23. AI-大语言模型

目标检测代码示例（基于Python和OpenCV）

用java实现word（docx）转换为pdf格式文档（简单版）

Bengio新作Aaren：探索Transformer性能与RNN效率的融合

发文新思路！双通道CNN的惊人突破，准确率接近100%！

海思Hi3516CV610 -----芯片说明

上下文扩展技术-详细解释Longformer和BigBird的主要创新；详细说明bert原理，并说一说他的上下文限制是怎么来的

视觉中的transformer：ViT

ViT和Transformer

详细说说VIT架构和Transformer架构的异同

从VGG到Transformer：深度神经网络层级演进对模型性能的深度解析与技术实践指南

计算机视觉核心任务

【Transformer】小白入门指南

一杯咖啡的时间学习大模型（LLM）：LLaMA解读之旋转编码RoPE（含代码实现）

GPT 系列模型发展史：从 GPT 到 ChatGPT 的演进与技术细节

大型语言模型的核心机制解析

Pytorch实现一个简单DeepSeek中的MLA多头潜在注意力架构

值得收藏！十大中国流行的AI大模型企业及平台汇总

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

【深度学习】常见模型-GPT（Generative Pre-trained Transformer，生成式预训练 Transformer）

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

使用 HuggingFace 库进行本地嵌入向量生成

Flux如何工作？这款新图像生成AI可与Midjourney一较高下

transformer

【python 机器学习】sklearn转换器与预估器

【独家首发】蜣螂算法DBO优化Transformer-BiLSTM负荷数据回归预测【含Matlab源码 6568期】

深度学习语义分割实战：ResNet 与 ViT 结合的模型解析

DeepSeek 与 Transformer 架构的深度关联

四、自然语言处理_08Transformer翻译任务案例

深度学习算法informer（时序预测）（一）（数据编码讲解）

解决：libssl.so.10: cannot open shared object file: No such file or directory

Transformer细节（九）——Transformer位置编码

缩放点积注意力（Scaled Dot-Product Attention）

DeepSeek发布开源多模态大模型Janus-Pro-7B！本地部署+Colab部署！支持图像识别和图像生成！基准测试得分超越OpenAI的DALL·E 3 + Stable Diffusion

【NLP算法面经】NLP算法面经 -- 腾讯 VS 美团（附面题）

【人工智能领域优质书籍】实战AI大模型

Transformer：基于注意力机制的序列转换模型

StripedHyena 模型介绍

Transformer 的辉煌与大模型方向确立，点燃AGI之火把

【AI学习】LLM的发展方向

【深度学习】常见模型-BERT（Bidirectional Encoder Representations from Transformers）（双向编码器表示）

基于“感知–规划–行动”的闭环系统架构

1.1 Attention机制终极指南：从数学推导到Transformer实战，解密大模型核心引擎

DeepSeek-VL2 、 qwen2.5 vl 技术选型比较

基于Python和开源框架的简单聊天交互软件代码实现

DeepSeek和ChatGPT的优劣或者区别（答案来DeepSeek和ChatGPT）

锂电池剩余寿命预测 | Matlab基于Transformer-GRU的锂电池剩余寿命预测

深度解析Transformer架构核心原理，让小白也懂

ai大模型学习和实践