Transformer论文学习第17页

GAT网络为什么占用那么多的显存

GAT网络显存占用原因分析（非专业，纯个人理解）1：GAT的注意力机制2：为什么transformer就可以有很长的输入本blog主要聚焦以下几点：GAT为什么占用那么多的显存，尤其是在节点多的时候Transformer

无穷升高的卡农·2024-01-14 22:19

自然语言处理学习笔记（通俗白话）

自然语言处理学习笔记1，Transformer2，注意力机制3，卷积网络为什么要用多个卷积核进行图像处理？

小威程序员·2024-01-14 22:13

AAAI 2024｜ETH轻量化Transformer最新研究，浅层MLP完全替换注意力模块提升性能

论文题目：RethinkingAttention:ExploringShallowFeed-ForwardNeuralNetworksasanAlternativetoAttentionLayersinTransformers

TechBeat人工智能社区·2024-01-14 20:13

AAAI 2021最佳论文《Informer》作者：Transformer 最新进展

作者：周号益，彭杰奇单位：北京航空航天大学自2017年，AshishVaswani等人在《AttentionIsAllYouNeed》这篇文章种提出了Transformer模型后，BERT等工作极大地扩展了该模型在

智源社区·2024-01-14 20:12

AAAI 2021 | 机器翻译最新进展解读

目前基于自注意力机制的Transformer模型成为了机器翻译任务的主流模型，在多个公开测试集上取得了最优的翻译性能。研究人员在此基础上根据不同的应用场景及实际需求进行求解，涌现了大量优秀的研究工作。

智源社区·2024-01-14 20:11

从DETR到Mask2former(2): 损失函数loss function

首先，从huggingface的transformers库中拿出detrsegmen

河北一帆·2024-01-14 19:26

万字长文——搞懂Transformer的来龙去脉

原文：Attentionisallyouneed谷歌团队2017年发表在NIPS简单理解Transformer处理词语的方式：传统的方法是逐个词处理，就像阅读一本书，一次只看一个词。

SQingL·2024-01-14 18:08

大模型实战营Day5 LMDeploy大模型量化部署实践

模型部署定义产品形态计算设备大模型特点内存开销大动态shape结构简单部署挑战设备存储推理速度服务质量部署方案：技术点（模型并行transformer计算和访存优化低比特量化ContinuousBatchPageAttention

流浪德意志·2024-01-14 17:38

NLP论文阅读记录 - 2022 W0S | 基于Longformer和Transformer的提取摘要层次表示模型

4.1数据集4.2对比模型4.3实施细节4.4评估指标4.5实验结果4.6细粒度分析五总结思考前言AHierarchicalRepresentationModelBasedonLongformerandTransformerforExtractiveSummarizat

yuyuyu_xxx·2024-01-14 17:33

SpringJPA的entityManager执行原生SQL

不然查询结果都是大写映射不上实体字段Stringsql="select\"id\",\"name\"fromtableNamewhereid=:id"//构造查询和返回结果到指定VO，返回到map就用Transformers.ALIAS_TO_ENTITY_MAPNativeQueryImplementornativeQuery

爱窦·2024-01-14 17:33

华科提出首个用于伪装实例分割的一阶段框架OSFormer

本篇分享ECCV2022论文『OSFormer:One-StageCamouflagedInstanceSegmentationwithTransformers』，华科Ð提出首个用于伪装实例分割的一阶段

FightingCV·2024-01-14 16:03

transformer的输入到输出（维度以及矩阵计算）

基本的transformer模型框架本期以翻译为一个例子讲述他的训练过程：从输入文本开始：x=早上好y=goodmorningencode部分：inputs的输入(可以是字也可以是词)：x=早上好经过embedding

NLPnoproble·2024-01-14 14:01

[论文精读]Brain Network Transformer

论文网址：[2210.06681]BrainNetworkTransformer(arxiv.org)论文代码：GitHub-Wayfear/BrainNetworkTransformer:Theopen-sourceimplementationoftheNeurIPS2022paperBrainNetworkTransformer

夏莉莉iy·2024-01-14 13:03

[论文精读]Large-scale Graph Representation Learning of Dynamic Brain Connectome with Transformers

论文网址：[2312.14939]Large-scaleGraphRepresentationLearningofDynamicBrainConnectomewithTransformers(arxiv.org

夏莉莉iy·2024-01-14 13:32

计算机视觉-Archer·2024-01-14 13:38

在 Nvidia Docker 容器编译构建显存优化加速组件 xFormers

写在前面xFormers是FaceBookResearch（Meta）开源的使用率非常高的Transformers加速选型，当我们使用大模型的时候，如果启用xFormers组件，能够获得非常明显的性能提升

soulteary·2024-01-14 10:20

【深度学习：Foundation Models】基础模型完整指南

项人工智能原理根据大量数据进行预训练自我监督学习过度拟合微调和快速工程（适应性强）广义的基础模型的用例基础模型的类型计算机视觉基础模型计算机视觉基础模型的示例多模式基础模型多模式基础模型示例生成对抗网络（GAN）GAN的示例基于Transformer

jcfszxc·2024-01-14 10:14

Agent Attention：以一种优雅的方式来结合线性注意力和softmax注意力

论文链接：https://arxiv.org/abs/2312.08874代码地址：https://github.com/LeapLabTHU/Agent-Attention1.简介近年来，视觉Transformer

liiiiiiiiiiiiike·2024-01-14 10:08

大模型核心技术原理: Transformer架构详解

在大模型发展历程中，有两个比较重要点：第一，Transformer架构。它是模型的底座，但Transformer不等于大模型，但大模型的架构可以基于Transformer；第二，GPT。

AI小白龙*·2024-01-14 08:41

蓝桥杯回文日期判断

注意点：要求必须是有效日期注意闰年的2月份问题代码：（1）判断所给字符串是不是回文数（a）取得前一半的数据，将原来一半和翻转后的一半进行拼接即可确保是回文数//transformertostringstrings

书中藏着宇宙·2024-01-14 08:17

RWKV入门

主要参考资料B站视频《【项目原作解读】RWKVFoundation侯皓文：新型RNN模型RWKV，结合Transformer的并行化训练优势和RNN的高效推理》RWKV官网:https://www.rwkv.com

弱冠少年·2024-01-14 07:15

Grounding DINO：开放集目标检测，将基于Transformer的检测器DINO与真值预训练相结合

文章目录背景知识补充CLIP(ContrastiveLanguage-ImagePre-training)：打破文字和图像之间的壁垒DINO(Data-INterpolatingNeuralNetwork)：视觉Transformer

丁希希哇·2024-01-14 07:59

SAM：segment anything model——一个通用的图像分割基础模型

文章目录一、SegmentAnythingTask二、SAM模型的架构（一）图像编码器imageencoder（二）promptencoder（三）maskdecoder三、SAM模型的思想（一）Transformer

丁希希哇·2024-01-14 07:59

GitHub Copilot的使用方法和快捷按键

它基于GPT（GenerativePre-trainedTransformer）模型，可以为你提供代码补全、建议和生成的功能使用方法：安装插件：首先，确保你的开发环境中安装了GitHubCopilot插件

小猿成长·2024-01-14 06:59

2023年人工智能的最新发展（上）

目录1.ChatGPT：2.Transformer、Bert：3.Bard、Office365Copilot、LLAMA：4.Claude、Grok：1.ChatGPT：2023年被视为人类科技史上的一个重要年份

稻壳特筑·2024-01-14 04:20

Transformer如何工作

Transformer如何工作Transformer工作可以分为两个阶段：Inference（推理）和Training（训练）‍‍

vitaminYZZ·2024-01-13 21:15

如何生成文本: 通过 Transformers 用不同的解码方法生成文本

如何生成文本:通过Transformers用不同的解码方法生成文本假设$p=0.92$，Top-p采样对单词概率进行降序排列并累加，然后选择概率和首次超过$p=92%$的单词集作为采样池，定义为$V_{

vitaminYZZ·2024-01-13 21:07

一文通透想颠覆Transformer的Mamba：从SSM、S4到mamba、线性transformer(含RWKV解析)

前言不知读者发现没有，本文标题的信息含量很大，比如出来了一个新的序列模型：Mamba，其基于SSM或S4(StructuredStateSpaceforSequenceModeling，连起来4个S，故简称S4)发展为S6(S4modelswithaselectionmechanismandcomputedwithascan)，其对应的论文为《Mamba:Linear-TimeSequenceMo

v_JULY_v·2024-01-13 19:10

挑战Transformer的新架构Mamba解析以及Pytorch复现

今天我们来详细研究这篇论文“Mamba:具有选择性状态空间的线性时间序列建模”Mamba一直在人工智能界掀起波澜，被吹捧为Transformer的潜在竞争对手。

deephub·2024-01-13 19:39

【HuggingFace Transformer库学习笔记】基础组件学习：Trainer

基础组件学习——Trainer导入包fromtransformersimportAutoTokenizer,AutoModelForSequenceClassification,Trainer,TrainingArgumentsfromdatasetsimportload_dataset

辰阳星宇·2024-01-13 19:14

【HuggingFace Transformer库学习笔记】基础组件学习：Model

基础组件——Model1、模型加载与保存fromtransformersimportAutoConfig,AutoModel,AutoTokenizermodel=AutoModel.from_pretrained

辰阳星宇·2024-01-13 19:44

【HuggingFace Transformer库学习笔记】基础组件学习：Datasets

基础组件——Datasetsdatasets基本使用导入包fromdatasetsimport*加载数据datasets=load_dataset("madao33/new-title-chinese")datasetsDatasetDict({train:Dataset({features:['title','content'],num_rows:5850})validation:Dataset

辰阳星宇·2024-01-13 19:44

【HuggingFace Transformer库学习笔记】基础组件学习：Evaluate

基础组件学习——EvaluateEvaluate使用指南查看支持的评估函数#include_community：是否添加社区实现的部分#with_details：是否展示更多细节evaluate.list_evaluation_modules(include_community=False,with_details=True)加载评估函数accuracy=evaluate.load("accura

辰阳星宇·2024-01-13 19:39

Python解决方案：transformers模块没有LLaMATokenizer属性

Python解决方案：transformers模块没有LLaMATokenizer属性在使用transformers模块时，有可能会出现“AttributeError:moduletransformershasnoattributeLLaMATokenizer

UIEdit·2024-01-13 19:05

中科院国产多语言大模型-YAYI2开源！家族AI应用场景全覆盖！

开源地址：https://github.com/wenge-research/YAYI2YAYI2-30B是其模型规模，是基于Transformer的大语言模型。

孜孜孜孜不倦·2024-01-13 14:16

Multimodal Transformer for Unaligned Multimodal Language Sequences

文章目录MulT：未对齐多模态语言序列的多模态变换器文章信息研究目的研究背景研究内容研究方法1.总体架构2.CrossmodalAttention3.CrossmodalTransformer4.Conv1D5

鱼儿也有烦恼·2024-01-13 12:01

Python电能质量扰动信号分类(五)基于CNN-Transformer的一维信号分类模型

目录往期精彩内容：引言1数据集制作与加载1.1导入数据1.2制作数据集2CNN-Transformer分类模型和超参数选取2.1定义CNN-Transformer分类模型2.2设置参数，训练模型3模型评估

建模先锋·2024-01-13 12:34

what is BERT?

BERTIntroductionPaper参考博客9781838821593_ColorImages.pdf(packt-cdn.com)BidirectionalEncoderRepresentationfromTransformer

路飞DoD·2024-01-13 10:29

大语言模型LLM的原理，bert、GPT、GLM三者的对比

本次任务：1、大语言模型原理、2、演示1：单一文档摘要、3、演示2：多文档+langchain摘要4、演示3：微调训练本地知识库：美食、菜谱大模型....一、大语言模型介绍：主要、技术依赖：transformer

金城武555·2024-01-13 10:49

NLP 高手之路101课（模型、算法、论文、源码、案例 + 1年答疑）

课程名称：NLP高手之路101课（模型、算法、论文、源码、案例+1年答疑）课程关键词：NLP、Transformer、BERT、GPT、Bayesian、Rasa、Transferlearning、ConversationalAI

Eric_1694·2024-01-13 08:05

symmetryMDPI2022（GSTN）:A Graph Skeleton Transformer Network for Action Recognition

AGraphSkeletonTransformerNetworkforActionRecognitionAbstract1.Introduction2.Methods2.1.FeatureEncoding2.1.1

盖盖的博客·2024-01-13 08:31

2023(TranSkeleton):TranSkeleton: Hierarchical Spatial-Temporal Transformer for Skeleton-Based Action

TranSkeleton:HierarchicalSpatial-TemporalTransformerforSkeleton-BasedActionRecognitionAbstract1.INTRODUCTION2

盖盖的博客·2024-01-13 08:01

Superpoint Transformer for 3D Scene Instance Segmentation

为了解决这些问题，本文提出了一种基于SuperpointTransformer的全新端到端3D实例分割方法，命名为SPFormer。它将点云中的潜在特征组

fish小余儿·2024-01-13 07:48

Transformer 是拥抱数据不确定性的艺术

Transformer的架构、训练及推理等都是在Bayesian神经网络不确定性数学思维下来完成的。

孙庚辛·2024-01-13 00:38

LLM之长度外推（一）| 基于位置编码的长度外推研究综述

论文：LengthExtrapolationofTransformers:ASurveyfromthePerspectiveofPositionEncoding地址：https://arxiv.org/

wshzd·2024-01-13 00:59

LLM之长度外推（二）| Self-Extend：无需微调的自扩展大模型上下文窗口

论文链接：https://simg.baai.ac.cn/paperfile/a34ae7f4-f0ce-4f8f-b8f2-e8e4d84bbee5.pdf目前大模型基本都采用transformer结构

wshzd·2024-01-13 00:28

Transformer学习（一）

文章目录transformer介绍为什么处理长序列时会出现梯度消失和梯度爆炸的问题transformer为什么可以用在图像处理上？

struggle_success·2024-01-12 21:07

深度学习代码源码项目90个分享

CNN分类的模型一般使用包括alexnet、DenseNet、DLA、GoogleNet、Mobilenet、ResNet、ResNeXt、ShuffleNet、VGG、EfficientNet和Swintransformer

z5645654·2024-01-12 21:05

大模型学习与实践笔记（五）

一、环境配置1.huggingface镜像下载sentence-transformers开源词向量模型importos#设置环境变量os.environ['HF_ENDPOINT']='https://

AllYoung_362·2024-01-12 20:14

Transformer中的layer norm(包含代码解释)

在transformer中存在add&norm操作，add操作很简单，就是把注意力矩阵和原来的矩阵相加，也就是残差链接，可以有效减少梯度消失。

牛像话·2024-01-12 19:01

推荐频道

Transformer论文学习