transformer 第2页

Swin-Unet：图像分割领域的强大工具

Swin-Unet是一种结合了SwinTransformer和U-Net结构的深度学习模型，适用于图像分割任务。

陈凯韵·2025-01-24 12:58

Transformer中query、key和value的状态为什么要是 contiguous？

Transformer中query、key和value的状态为什么要是contiguousd值？

AI老兵·2025-01-24 01:29

Python 如何使用 Bert 进行中文情感分析

在过去的几年中，随着深度学习的发展，BERT（BidirectionalEncoderRepresentationsfromTransformers）模型迅速成为了处理自然语言的强大工具。

程序员徐师兄·2025-01-24 00:47

GPT-4对话模型在客服中的应用与前景：开启智能客服新时代

一、GPT-4对话模型概述GPT-4（GenerativePre-trainedTransformer4）是OpenAI开发的一种

Echo_Wish·2025-01-23 20:19

【Codex】Evaluating Large Language Models Trained on Code

这篇文章来解读最近比较有意思的Transformer预训练模型在自动生成代码方面的应用，PaperLink:EvaluatingLargeLanguageModelsTrainedonCode自动生成Code

NLP_wendi·2025-01-23 05:57

Gradio + Transformers** 实现带记忆功能的对话系统完整代码示例

以下是一个使用Gradio+Transformers实现带记忆功能的对话系统完整代码示例，无需额外数据库依赖：importgradioasgrimportnumpyasnpfromtransformersimportAutoTokenizer

大霸王龙·2025-01-23 03:42

Transformer架构原理详解：多头注意力（MultiHead Attention）

Transformer,多头注意力,Multi-HeadAttention,机器翻译,自然语言处理,深度学习1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展。

AI大模型应用之禅·2025-01-23 02:33

conv2former模型详解及代码复现

模型背景在Conv2Former模型提出之前，视觉识别领域的研究主要集中在两个方向：传统卷积神经网络（ConvNets）新兴的视觉Transformer（ViTs）ConvNets通过堆叠基本模块和采用金字塔结构取得了显著进展

清风AI·2025-01-22 17:26

论文阅读--Qwen2&2.5技术报告

Model2.1Tokenizer沿用Qwen（Bai等人，2023a）的做法，我们采用了基于字节级字节对编码的相同Tokenizer所有大小的模型都采用一个共有词汇表，包含151,643个常规词元和3个控制词元2.2模型架构基于Transformer

__如果·2025-01-22 17:55

文档图像矫正任务的前沿进展：引入Transformer框架、极坐标的思路

Transformer架构下的文档矫正探索代表性工作DocTr:DocumentImageTransform

·2025-01-22 16:01

Transformer中的注意力机制：从基础概念到高级变体的全面解析

注意力机制的基础概念核心组件(Query、Key、Value)的详细解释主要的注意力机制变体：自注意力(Self-Attention)多头注意力(Multi-HeadAttention)掩码注意力(MaskedAttention)注意力评分函数的类型和特点多头注意力的现代变体：MHA(Multi-HeadAttention)MQA(Multi-QueryAttention)GQA(Grouped-

XianxinMao·2025-01-22 13:48

深度学习Transformer框架

Transformer是一种深度学习框架，专门用于处理序列数据。它是2017年由Vaswani等人提出的，在NLP领域取得了很大的成功。

Clown爱电脑·2025-01-22 09:16

Transformer模型全面解析：工作原理、应用与未来展望*

概述：深入探讨Transformer模型的工作原理，分析其在NLP领域的应用场景，并展望其未来发展趋势。本文为您提供关于Transformer模型的全面指南。

泰山AI·2025-01-22 09:46

一切皆是映射：Transformer架构全面解析

背景介绍自2017年，Transformer（自注意力机制）架构的问世以来，它已经成为自然语言处理（NLP）领域的主流技术之一。

AI天才研究院·2025-01-22 09:16

大语言模型原理基础与前沿指令生成

大语言模型、指令生成、Transformer、BERT、GPT、LLaMA、Fine-tuning、PromptEngineering1.背景介绍近年来，大语言模型（LargeLanguageModels

AI大模型应用之禅·2025-01-22 07:04

【YOLOv8改进 - 检测头】 RT-DETR检测头，解决传统目标检测器中非极大值抑制（NMS）所带来的速度和准确性之间的平衡问题

最近，基于Transformer的端

YOLO大师·2025-01-22 05:14

LLama 架构一览

LLama架构一览预训练Transformer架构RMSNorm归一化：为什么大模型llama选RMSNorm，而不是其他？

Debroon·2025-01-22 04:08

深入理解GPT底层原理--从n-gram到RNN到LSTM/GRU到Transformer/GPT的进化

每一步的进展都为下一步的突破奠定了基础,最终孕育出了革命性的Transformer架构和GPT大模型。

网络安全研发随想·2025-01-22 02:55

Transformer入门（1）transformer及其编码器-解码器

文章目录1.Transformer简介2.Transformer的编码器-解码器架构3.transformer的编码器1.Transformer简介Transformer模型是一种用于自然语言处理的机器学习模型

通信仿真实验室·2025-01-22 01:51

深度学习理论基础（七）Transformer编码器和解码器

基础篇深度学习理论基础（二）深度神经网络DNN深度学习理论基础（三）封装数据集及手写数字识别深度学习理论基础（四）Parser命令行参数模块深度学习理论基础（五）卷积神经网络CNN深度学习理论基础（六）Transformer

小仇学长·2025-01-22 01:48

transformer模型代码

importnumpyasnpimporttorchimporttorch.nnasnnimporttorch.optimasoptimimportmatplotlib.pyplotaspltimportmathdefmake_batch(sentences):input_batch=[[src_vocab[n]forninsentences[0].split()]]output_batch=[[

地瓜不是呱·2025-01-22 01:17

细嗦Transformer（三）：准备训练，讲解及代码实现优化器、学习率调整策略、正则化和KL散度损失

文章目录关注我：细嗦大模型批处理对象/BatchesandMasking训练循环主函数/TrainingLoop优化器/Optimizer学习率调整策略/Learningrateadjustmentstrategy样例测试正则化/RegularizationLabelsmoothing标签平滑KL散度损失样例测试Github完整代码----求求了给个star和关注吧参考资料求求了，给个star和关

Ace_bb·2025-01-22 00:08

Transformer架构原理详解：编码器（Encoder）和解码器（Decoder）

Transformer,编码器,解码器,自注意力机制,多头注意力,位置编码,序列到序列,自然语言处理1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展，其中Transformer架构扮演着至关重要的角色

AI大模型应用之禅·2025-01-22 00:08

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析

1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型

m0_74823683·2025-01-21 20:08

AI大模型：开启智能革命新纪元

尽管业界对大模型的定义尚未统一，但通常指的是基于Transformer框架的大型语言模型，广义上也包括了多模态大模型，如涉及语言、声音、图像、视频等，技术

洋洋科创星球·2025-01-21 17:09

YOLOv10全网最新创新点改进系列：YOLOv10融合SwinTransformer模块，分辨率每层变成一半，而通道数变成两倍,有效提升小目标检测效果！

AI棒棒牛·2025-01-21 16:02

改进yolov8工业缺陷检测+swin+transformer

本篇将介绍一种基于NEU-DET数据集，利用YOLOv8及其改进版本（包含坐标注意力机制和SwinTransformer）进行缺陷检测的应用开发过程。我们将详细探讨从数据准备到模型训练，再到最

qq1309399183·2025-01-21 15:56

改进yolov8缺陷检测+swin+transformer

本篇将介绍一种基于NEU-DET数据集，利用YOLOv8及其改进版本（包含坐标注意力机制和SwinTransformer）进行缺陷检测的应用开发过程。我们将详细探讨从数据准备到模型训练，再到最

QQ_1309399183·2025-01-21 15:16

用大数据“喂养”出来的AI模型ChatGPT 爆火是大数据、大算力、强算法的支撑，中国缺乏的什么？

生成性人工智能目前有两种主要的框架：GAN（GenerativeAdversarialNetwork）和GPT（GenerativePre-trainedTransformer）。GAN目前广泛应

Ai17316391579·2025-01-21 12:54

深入理解AIGC背后的核心算法：GAN、Transformer与Diffusion Models

深入理解AIGC背后的核心算法：GAN、Transformer与DiffusionModels前言随着人工智能技术的发展，AIGC（AIGeneratedContent，人工智能生成内容）已经不再是科幻电影中的幻想

忘梓.·2025-01-21 10:36

ATB是什么？

1ATB介绍AscendTransformerBoost加速库（下文简称为ATB加速库）是一款高效、可靠的加速库，基于华为AscendAI处理器，专门为Transformer类模型的训练和推理而设计。

·2025-01-20 17:50

一文看懂llama2（原理&模型&训练）

自从Transformer架构问世以来，大型语言模型（LargeLanguageModels,LLMs）以及AIGC技术的发展速度惊人，它们不仅在技术层面取得了重大突破，还在商业应用、社会影响等多个层面展现出巨大潜力

Qpeterqiufengyi·2025-01-20 07:38

提升YOLOv8性能：用Swin Transformer替换Backbone的详细实现与分析【YOLOv8】

专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录YOLOv8改进|主干篇|SwinTransformer替换Backbone（

步入烟尘·2025-01-20 05:57

YOLOv8与Transformer：探索目标检测的新架构

YOLOv8与Transformer：探索目标检测的新架构关键词：目标检测，深度学习，YOLOv8，Transformer，计算机视觉，卷积神经网络摘要：目标检测是计算机视觉领域的一项重要任务，其目标是从图像或视频中识别和定位特定对象

AI架构设计之禅·2025-01-20 05:23

使用Python实现LLM的文本生成：风格迁移与内容控制

文章目录引言1.大型语言模型（LLM）概述1.1Transformer架构1.2预训练与微调2.文本生成基础2.1无条件生成2.2条件生成3.风格迁移3.1风格迁移的基本原理3.2使用Python实现风格迁移

二进制独立开发·2025-01-20 02:46

ChatGPT详解

ChatGPT是一款由OpenAI研发和维护的先进的自然语言处理模型（NLP），全名为ChatGenerativePre-trainedTransformer，于2022年11月30日发布。

Loving_enjoy·2025-01-19 23:22

工业场景将成为AI大模型的重要战场！零基础入门AI大模型，看这篇就够了！

随着GPT-4o、Gemini1.5Pro、LLaVA1.6的发布，基于Transformer架构和海量数据训练的多模态大模型再次点燃通用人工智能（AGI），其对文本、图像等多模态输入的支持和强大的理解能力也象征着人工智能迈向通用人工智能

大模型扬叔·2025-01-19 20:29

Pytorch详解-模型模块(RNN,CNN,FNN,LSTM,GRU,TCN,Transformer)

Pytorch详解-模型模块Module¶meterModule初认识forward函数ParameterPytorch中的权重、参数和超参数Module容器-ContainersSequentialModuleListModuleDictParameterList&ParameterDict常用网络层LSTM输入和输出GRUConvolutionalLayers卷积层的基本概念常见的卷积

qq742234984·2025-01-19 13:24

厉害了，LSTM+Transformer王炸创新，精准度又高了！

【LSTM+Transformer】作为一种混合深度学习模型，近年来在学术界和工业界都受到了极大的关注。

马拉AI·2025-01-19 12:48

ChatGPT原理及其应用场景

ChatGPT的原理及应用场景一、ChatGPT的原理ChatGPT，全名ChatGenerativePre-trainedTransformer，是OpenAI研发的一款聊天机器人程序，其背后依托的是人工智能技术和自然语言处理

编程小郭·2025-01-19 11:47

第二课堂笔记——大语言模型

pipinstalltransformers==4.37.0-U用于安装或更新Python的transformers库到特定版本4.37.0。‌

skna_·2025-01-19 06:26

深度学习-45-大型语言模型LLM之本地化部署运行自己的大模型

2.4LLM的结构2.4.1Transformer2.4.2Prompts2.4.3FineTuning3本地跑大模型3.1Ollama运行开源LLM3.1.1启动并运行3.1.2使用api访问3.1.3

皮皮冰燃·2025-01-19 04:58

ChatGPT大模型极简应用开发-目录

引言要理解ChatGPT，了解其背后的Transformer架构和GPT技术一路的演进则变得非常必要。

uncle_ll·2025-01-18 20:55

nlp培训重点-3

importjsonimportreimportosimporttorchimportrandomimportloggingfromtorch.utils.dataimportDataset,DataLoaderfromcollectionsimportdefaultdictfromtransformersimportBertT

heine162·2025-01-18 18:24

LLMs，即大型语言模型

LLMs的核心架构是Transformer，其关键在于自注意力机制，使得模型能够同时对输入的所有位置进行“关注”，从而更好地捕捉长距离的语义依赖关系。

maopig·2025-01-18 17:52

第79期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

云起无垠·2025-01-18 17:22

第60期 | GPTSecurity周报