Transformer 第6页

【llm对话系统】大模型源码分析之 LLaMA 位置编码 RoPE

在自然语言处理（NLP）领域，Transformer模型已经成为主流。然而，Transformer本身并不具备处理序列顺序的能力。

kakaZhui·2025-01-29 23:17

Janus Pro：DeepSeek 开源革新，多模态 AI 的未来

它采用了独特的多模态架构，包括解耦的视觉编码框架和统一的Transformer架构，以及SigLIP

·2025-01-29 19:21

Transformer--概念、作用、原理、优缺点以及简单的示例代码

Transformer的概念Transformer是一种基于自注意力机制的神经网络模型，最早由Vaswani等人在2017年的论文《AttentionisAllYouNeed》中提出。

Ambition_LAO·2025-01-29 17:23

Transformers库的模板困境：apply_chat_template的版本变迁与解决方案

目录问题现状低版本（4.43及以下）的简便方式高版本的报错问题原因分析旧版本的实现逻辑新版本的变化解决办法问题现状在使用Transformers库中的tokenizer处理模型输入时，我们经常需要将输入文本格式化为模型可以理解的格式

Gaffey大杂烩·2025-01-28 22:02

LLM架构与优化：从理论到实践的关键技术

标题：“LLM架构与优化：从理论到实践的关键技术”文章信息摘要：文章探讨了大型语言模型（LLM）开发与应用中的关键技术，包括Transformer架构、注意力机制、采样技术、Tokenization等基础理论

XianxinMao·2025-01-28 20:14

第76期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

云起无垠·2025-01-28 15:05

第84期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

云起无垠·2025-01-28 14:30

ks8 本地化部署 F5-TTS

F5-TTS项目地址：【GitHub】SWividF5-TTSDiffusionTransformerwithConvNeXtV

CHEN_RUI_2200·2025-01-28 14:27

开放传神（OpenCSG）手撕Sora的Diffusion Transformer (DiT)算法

OpenAI尝试过递归网络、生成对抗网络、自回归Transformer及扩散模型。最终诞生了DiffusionTransformer。

OpenCSG·2025-01-28 13:20

机器学习&深度学习目录

机器学习模型机器学习笔记：Transformer_刘文巾的博客-CSDN博客attention相关机器学习笔记：attention_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ELMOBERT_UQI-LIUWJ

UQI-LIUWJ·2025-01-28 09:26

YOLOv11-ultralytics-8.3.67部分代码阅读笔记-transformer.py

transformer.pyultralytics\nn\modules\transformer.py目录transformer.py1.所需的库和模块2.classTransformerEncoderLayer

红色的山茶花·2025-01-28 08:47

CVPR 2024 无人机/遥感/卫星图像方向总汇（航空图像和交叉视角定位）

SatelliteImage(无人机/遥感/卫星图像)UnleashingUnlabeledData:AParadigmforCross-ViewGeo-Localization⭐codeRethinkingTransformersPre-trainingforMulti-SpectralSatelliteImagery

点云SLAM·2025-01-28 06:32

Transformer架构和Transformers 库和Hugging Face

Transformer架构和HuggingFace之间的关系非常紧密，HuggingFace是推动Transformer架构普及和应用的重要力量。

大哥喝阔落·2025-01-28 04:50

实验踩坑 flash_attn_2_cuda undifiend symol

报错RuntimeError:Failedtoimporttransformers.models.llama.modeling_llamabecauseofthefollowingerror(lookuptoseeitstraceback

崩溃李·2025-01-28 00:51

[论文笔记] Megatron: mistral sliding window（ImportError: /workspace/venv/lib/python3.10/site-packag报错解决）

pyTorch—TransformerEngine1.2.1documentation论文：https://arxiv.org/pdf/2310.06825.pdftransformerengine的slidingwindow

心心喵·2025-01-28 00:46

transformer.js（二）：关于pipe管道的一切

前面的章节transformer.js（一）：这个前端大模型运行框架的可运行环境、使用方式、代码示例以及适合与不适合的场景介绍了transformer.js的应用场景。

余生H·2025-01-27 21:00

transformer.js（一）：这个前端大模型运行框架的可运行环境、使用方式、代码示例以及适合与不适合的场景

Transformer.js是一个专为前端环境设计的框架，它支持运行基于Transformer架构的深度学习模型，尤其是像BERT、GPT等广泛应用于自然语言处理（NLP）的模型。

余生H·2025-01-27 21:59

ViT论文解读

ViT论文解读本文主要记录YiZhu大佬对于ICLR2021的一篇论文精读ANIMAGEISWORTH16x16WORDS:TRANSFORMERSFORIMAGERECOGNITIONATSCALE论文地址

freshfish丶·2025-01-27 18:35

计算机视觉目标检测-DETR网络

目录摘要abstractDETR目标检测网络详解二分图匹配和损失函数DETR总结总结摘要DETR（DEtectionTRansformer）是由FacebookAI提出的一种基于Transformer架构的端到端目标检测方法

next_travel·2025-01-27 06:47

0基础跟德姆（dom）一起学AI 自然语言处理20-模型构建

1模型构建介绍通过上面的小节,我们已经完成了所有组成部分的实现,接下来就来实现完整的编码器-解码器结构.Transformer总体架构图:2编码器-解码器结构的代码实现EncoderDecoder函数完成编码解码的子任务

跟德姆(dom)一起学AI·2025-01-27 04:37

大语言模型LLM基础扫盲速通版

9.其他关于LLM的常见问题9.1Transformer在LLM中有何意义？9.2在LLM中，微调(fine-tuning)是什么？9.3模型大小如何影响LLM的性能？9.4LLM能生

SmallerFL·2025-01-27 00:40

Hugging Face Transformers and Meta Llama

HuggingFaceTransformersandMetaLlama1.Transformers1.1.`src/transformers/models`1.2.

Yongqiang Cheng·2025-01-27 00:02

基于CNN+Transformer混合模型实现交通流量时序预测(PyTorch版)

前言系列专栏:【深度学习：算法项目实战】✨︎涉及医疗健康、财经金融、商业零售、食品饮料、运动健身、交通运输、环境科学、社交媒体以及文本和图像处理等诸多领域，讨论了各种复杂的深度神经网络思想，如卷积神经网络、循环神经网络、生成对抗网络、门控循环单元、长短期记忆、自然语言处理、深度强化学习、大型语言模型和迁移学习。随着城市化进程的加速，交通流量预测成为城市交通管理与规划中的关键任务。准确的交通流量预测

矩阵猫咪·2025-01-26 16:34

《剖析Transformer架构：自然语言处理飞跃的幕后英雄》

在人工智能的迅猛发展进程中，自然语言处理（NLP）领域取得了令人瞩目的突破，而Transformer架构无疑是这场变革的核心驱动力。

·2025-01-26 11:25

论文阅读笔记（9）——《A Practical Survey on Faster and Lighter Transformers》

longshort-termmemory(LSTM)networksequencetosequenceframeworkinter-attentionrelativeeffectivecontextlength(RECL)Transformer3TransformerA.EncoderB.Deco

StriveQueen·2025-01-26 08:32

Progressive learning

learnfromRestormer.Restormer:EfficientTransformerforHigh-ResolutionImageRestoration|IEEEConferencePublication

yore0531·2025-01-26 00:22

Python 装饰器详解：@staticmethod 与 @classmethod 的区别与用法：中英双语

缘由：今天在看Huggingface的源码的时候，https://github.com/huggingface/transformers/blob/v4.47.1/src/transformers/models

阿正的梦工坊·2025-01-25 16:28

第72期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

云起无垠·2025-01-25 14:40

PointNet++改进策略：模块改进 | OA-CNNs | ，全自适应3D稀疏卷积神经网络（OA-CNNs），超越基于Transformer的模型，同时显著降低计算和内存成本

目录介绍核心思想及其实现引入空间自适应感受野自适应关系卷积（ARConv）网络整体架构设计训练和验证实验与评估如何改进PointNet++引入空间自适应感受野引入自适应关系学习利用自适应聚合器论文题目：OA-CNNs:Omni-AdaptiveSparseCNNsfor3DSemanticSegmentation发布期刊：CVPR2024作者地址：1香港中文大学2香港大学3香港中文大学，深圳4HI

我是瓦力·2025-01-25 12:59

PointNet++改进策略：模块改进 | PointCAT，使用交叉注意力机制来提升3D点云任务中提升模型精度

论文题目：PointCAT:Cross-AttentionTransformerforPointCloud通讯地址：南京理工大学代码地址：https://github.com/xincheng-yang

我是瓦力·2025-01-25 12:59

清华大学提出Pointformer：基于Transformer的3D目标检测

Transformer的"魔爪"已经伸向3D目标检测了。

Amusi（CVer）·2025-01-25 11:52

InternLM: LMDeploy 量化部署进阶实践

值得注意的是，在transformer架构下，计算的瓶颈主要在显存带宽

dilvx·2025-01-25 06:42

Transformer大模型实战 BART模型的架构

Transformer大模型实战BART模型的架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming/TextGenWebUILLMTransformer大模型实战

AI天才研究院·2025-01-24 23:23

transformer编码器解码器图解

这张图展示了Transformer模型的架构，包含编码器（左边）和解码器（右边）两部分。以下是对图中每个步骤的详细解释，结合生活场景来说明每一步的意义和推理过程。

Ai玩家hly·2025-01-24 21:08

Transformer的linear和softmax

线性层（LinearLayer）场景假设我们现在有一个包含许多特征的向量，比如描述一本书的内容、风格、作者、逻辑等信息。你想要根据这些特征预测这本书属于哪个类别，如小说、科幻、历史等。线性层的作用就是帮助你将这些特征转换成一个更简单的形式，使得你可以更容易地做出分类决策。解释特征组合：线性层接收来自解码器最后一层的输出，这个输出是一个高维向量，包含了关于输入序列的丰富信息。权重矩阵：线性层内部有一

编码浪子·2025-01-24 21:04

白话transformer（五）：位置编码

在前面其实讲过位置编码的完整内容，这次我们具体看看他的数学原理B站视频讲解白话transformer（五）1、位置编码的位置

Andy_shenzl·2025-01-24 20:31

第84期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

·2025-01-24 20:41

gradio可视化对话框（）

fromtransformersimportAutoModel,AutoTokenizerimportgradioasgrimportmdtex2html#-*-coding:utf-8-*-importosimporttorchimportinterfaceAllfromdatetimeimportdatetimeimporttimeimportinference_LLaVaimportshut

@小张不嚣张·2025-01-24 20:58

从文字到思维：呆马GPT在人工智能领域的创新之旅

引言生成式预训练变换器（GenerativePre-trainedTransformer，简称GPT）领域是人工智能技术中的一大革新。

呆码科技·2025-01-24 20:28

BERT模型在情感分析中的应用：探寻文本情感的智能之路

近年来，BERT（BidirectionalEncoderRepresentationsfromTransformers）模型凭借其强大的上下文理解能力，在情感分析中展现出了卓越的性能。本文将深

Echo_Wish·2025-01-24 20:26

DeepSeek 公开新的模型权重

工作原理混合专家架构（MoE）：DeepSeek-V3是MoE型Transformer模型，有6710亿个参数，运行时370亿参数激活。相比Llama3.1405B，训练时间大幅缩

数据分析能量站·2025-01-24 19:22

LLaMA Pro是什么相比于lora full freeze有什么区别怎么使用

它通过在原有模型的基础上扩展新的模块（如Transformer块），并在微调时仅训练这些新增模块，从而在适应新任务的同时保留预训练模型的通用知识。

Ven%·2025-01-24 16:58

安装auto_gptq解决办法

你可以尝试以下命令来安装auto_gptq的依赖项：pipinstalltorchtransformers2.使用预编译的二进制文件如果你不需要从源

Ven%·2025-01-24 15:46

Swin-Unet：图像分割领域的强大工具

Swin-Unet是一种结合了SwinTransformer和U-Net结构的深度学习模型，适用于图像分割任务。

陈凯韵·2025-01-24 12:58

Transformer中query、key和value的状态为什么要是 contiguous？

Transformer中query、key和value的状态为什么要是contiguousd值？

AI老兵·2025-01-24 01:29

Python 如何使用 Bert 进行中文情感分析

在过去的几年中，随着深度学习的发展，BERT（BidirectionalEncoderRepresentationsfromTransformers）模型迅速成为了处理自然语言的强大工具。

程序员徐师兄·2025-01-24 00:47

GPT-4对话模型在客服中的应用与前景：开启智能客服新时代

一、GPT-4对话模型概述GPT-4（GenerativePre-trainedTransformer4）是OpenAI开发的一种

Echo_Wish·2025-01-23 20:19

【Codex】Evaluating Large Language Models Trained on Code

这篇文章来解读最近比较有意思的Transformer预训练模型在自动生成代码方面的应用，PaperLink:EvaluatingLargeLanguageModelsTrainedonCode自动生成Code

NLP_wendi·2025-01-23 05:57

Gradio + Transformers** 实现带记忆功能的对话系统完整代码示例

以下是一个使用Gradio+Transformers实现带记忆功能的对话系统完整代码示例，无需额外数据库依赖：importgradioasgrimportnumpyasnpfromtransformersimportAutoTokenizer

大霸王龙·2025-01-23 03:42

Transformer架构原理详解：多头注意力（MultiHead Attention）

Transformer,多头注意力,Multi-HeadAttention,机器翻译,自然语言处理,深度学习1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展。

AI大模型应用之禅·2025-01-23 02:33

推荐频道

Transformer

【llm对话系统】大模型源码分析之 LLaMA 位置编码 RoPE

Janus Pro：DeepSeek 开源革新，多模态 AI 的未来

Transformer--概念、作用、原理、优缺点以及简单的示例代码

Transformers库的模板困境：apply_chat_template的版本变迁与解决方案

LLM架构与优化：从理论到实践的关键技术

第76期 | GPTSecurity周报

第84期 | GPTSecurity周报

ks8 本地化部署 F5-TTS

开放传神（OpenCSG）手撕Sora的Diffusion Transformer (DiT)算法

机器学习&深度学习目录

YOLOv11-ultralytics-8.3.67部分代码阅读笔记-transformer.py

CVPR 2024 无人机/遥感/卫星图像方向总汇（航空图像和交叉视角定位）

Transformer架构和Transformers 库和Hugging Face

实验踩坑 flash_attn_2_cuda undifiend symol

[论文笔记] Megatron: mistral sliding window（ImportError: /workspace/venv/lib/python3.10/site-packag报错解决）

transformer.js（二）：关于pipe管道的一切

transformer.js（一）：这个前端大模型运行框架的可运行环境、使用方式、代码示例以及适合与不适合的场景

ViT论文解读

计算机视觉目标检测-DETR网络

0基础跟德姆（dom）一起学AI 自然语言处理20-模型构建

大语言模型LLM基础扫盲速通版

Hugging Face Transformers and Meta Llama

基于CNN+Transformer混合模型实现交通流量时序预测(PyTorch版)

《剖析Transformer架构：自然语言处理飞跃的幕后英雄》

论文阅读笔记（9）——《A Practical Survey on Faster and Lighter Transformers》

Progressive learning

Python 装饰器详解：@staticmethod 与 @classmethod 的区别与用法：中英双语

第72期 | GPTSecurity周报

PointNet++改进策略 ：模块改进 | OA-CNNs | ， 全自适应3D稀疏卷积神经网络（OA-CNNs），超越基于Transformer的模型，同时显著降低计算和内存成本

PointNet++改进策略 ：模块改进 | PointCAT， 使用交叉注意力机制来提升3D点云任务中提升模型精度

清华大学提出Pointformer：基于Transformer的3D目标检测

InternLM: LMDeploy 量化部署进阶实践

Transformer大模型实战 BART模型的架构

transformer编码器解码器图解

Transformer的linear和softmax

白话transformer（五）：位置编码

第84期 | GPTSecurity周报

gradio可视化对话框（）

从文字到思维：呆马GPT在人工智能领域的创新之旅

BERT模型在情感分析中的应用：探寻文本情感的智能之路

DeepSeek 公开新的模型权重

LLaMA Pro是什么 相比于lora full freeze有什么区别 怎么使用

安装auto_gptq解决办法

Swin-Unet：图像分割领域的强大工具

Transformer中query、key和value的状态为什么要是 contiguous？

Python 如何使用 Bert 进行中文情感分析

GPT-4对话模型在客服中的应用与前景：开启智能客服新时代

【Codex】Evaluating Large Language Models Trained on Code

Gradio + Transformers** 实现带记忆功能的对话系统完整代码示例

Transformer架构原理详解：多头注意力（MultiHead Attention）

PointNet++改进策略：模块改进 | OA-CNNs | ，全自适应3D稀疏卷积神经网络（OA-CNNs），超越基于Transformer的模型，同时显著降低计算和内存成本

PointNet++改进策略：模块改进 | PointCAT，使用交叉注意力机制来提升3D点云任务中提升模型精度

LLaMA Pro是什么相比于lora full freeze有什么区别怎么使用