Transformer论文学习第52页

ChatGLM2-6B的通透解析：从FlashAttention、Multi-Query Attention到GLM2的微调、源码解读

FlashAttention与Multi-QueryAttention第二部分FlashAttention：减少内存访问提升计算速度——更长上下文的关键2.1FlashAttention相关的背景知识2.1.1Transformer

v_JULY_v·2023-10-07 03:04

HuggingFace Transformers教程（1）--使用AutoClass加载预训练实例

:*☆【传送门==>原文链接:】https://huggingface.co/docs/transformers/autoclass_tutorial由于存在许多不同的Transformer架构，因此为您的检查点

大表哥汽车人·2023-10-06 23:02

目标检测算法改进系列之Backbone替换为Swin Transformer

SwinTransformer简介《SwinTransformer:HierarchicalVisionTransformerusingShiftedWindows》作为2021ICCV最佳论文，屠榜了各大

我悟了-·2023-10-06 21:08

vit（vision transformer）

vit的网络结构ViT将输入图片分为多个patch（16x16），再将每个patch投影为固定长度的向量送入Transformer，后续encoder的操作和原始Transformer中完全相同。

盐巴饭团193·2023-10-06 19:28

图像压缩:Transformer-based Image Compression with Variable Image Quality Objectives

Wen-HsiaoPeng作者单位：NationalYangMingChiaoTungUniversity论文链接：http://arxiv.org/abs/2309.12717v1内容简介：1）方向：基于Transformer

学术菜鸟小晨·2023-10-06 17:46

《Attention Is All You Need》论文笔记

参考文献：李沐论文带读HarvardNLP《哈工大基于预训练模型的方法》下面是对这篇论文的初步概览：对Seq2Seq模型、Transformer的概括：下面是蒟蒻在阅读完这篇论文后做的一些笔记：为什么会出现

卷心菜不卷Iris·2023-10-06 17:43

CodeFuse - 蚂蚁集团开源代码大模型

模型CodeFuse-13BCodeFuse-CodeLlama-34B-4bitsCodeFuse-CodeLlama-34BCodeFuse-StarCoder-15BMFTCoderFasterTransformer4CodeFuse

伊织code·2023-10-06 16:14

大佬博客记录

Transformer系列博客记录全Transformer拆解，包含Seq2Seq,attention,self-attention,multi-headedattention,PositionalEncoding

BoringFantasy·2023-10-06 15:56

使用4090显卡部署 Qwen-14B-Chat-Int4

Qwen-14B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。预

engchina·2023-10-06 13:20

用 Pytorch 自己构建一个Transformer

一、说明用pytorch自己构建一个transformer并不是难事，本篇使用pytorch随机生成五千个32位数的词向量做为源语言词表，再生成五千个32位数的词向量做为目标语言词表，让它们模拟翻译过程

无水先生·2023-10-06 11:50

transformer不同的包加载模型的结构不一样

AutoModelAutoModelForTokenClassification结论：AutoModel加载的模型与AutoModelForTokenClassification最后一层是不一样的，从这个模型来看，AutoModelForTokenClassification加载的结果是对的问题：为什么AutoModel和AutoModelForTokenClassification加载的结果不一

Takoony·2023-10-06 10:38

PiT：重新审视Vision Transformers的空间维度

编者注：论文中使用深度卷积来实现多尺度的ViT，并在ImageNet分类上取得比ViT更优的性能（尤其是泛化能力），并得出结论，是这种空间维度逐阶段收缩、通道维度逐阶段增长的设置导致了性能和泛化能力的提升。编者认为值得商榷的是，增加深度卷积同时也给模型增加了归纳偏置（例如局部性和平移不变性），可以作为注意力的很好补充。有没有可能是因为其它原因，例如是深度卷积的归纳偏置（局部性）导致PiT在Imag

Valar_Morghulis·2023-10-06 09:17

NeurIPS 2023 | 超越YOLO系列！华为提出Gold-YOLO：实时目标检测新SOTA

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达点击进入—>【目标检测和Transformer】交流群作者：王云鹤（源：知乎，已授权）|编辑：CVer公众号https://zhuanlan.zhihu.com

Amusi（CVer）·2023-10-06 05:19

目标检测算法改进系列之Backbone替换为NextViT

NextViT介绍由于复杂的注意力机制和模型设计，大多数现有的视觉Transformer（ViTs）在现实的工业部署场景中不能像卷积神经网络（CNNs）那样高效地执行，例如TensorRT和CoreML

我悟了-·2023-10-06 02:25

目标检测算法改进系列之Backbone替换为PoolFormer

PoolFormerMetaFormer是颜水成大佬的一篇Transformer的论文，该篇论文的贡献主要有两点：第一、将Transformer抽象为一个通用架构的MetaFormer，并通过经验证明MetaFormer

我悟了-·2023-10-06 02:25

目标检测算法改进系列之Backbone替换为InceptionNeXt

InceptionNeXt受VisionTransformer长距离依赖关系建模能力的启发，最近一些视觉模型开始上大Kernel的Depth-Wise卷积，比如一篇出色的工作ConvNeXt。

我悟了-·2023-10-06 01:54

Transformer学习

语法分析文章归类问题目标检测TransformerEncoder结构multi-headattentionblock为何batch-norm不如layer-norm？

王小燊oom·2023-10-05 23:21

阅读笔记-Multi-Modal Fusion Transformer for end-to-end autonomous driving

来源：arXiv:2104.09224v1代码：https://github.com/autonomousvision/transfuserTitle以前没接触过自动驾驶方面的文章，最近在看transformer

熙熙江湖·2023-10-05 16:52

【转载】Transformer模型详解（图解最完整版）

原文链接：Transformer模型详解（图解最完整版）建议大家看一下李宏毅老师讲解的Transformer，非常简单易懂（个人觉得史上最强transformer讲解）：https://www.youtube.com

い☞殘風☜、™·2023-10-05 14:54

【动手学深度学习-Pytorch版】Transformer代码总结

本文是纯纯的撸代码讲解，没有任何Transformer的基础内容~是从0榨干Transformer代码系列，借用的是李沐老师上课时讲解的代码。本文是根据每个模块的实现过程来进行讲解的。

い☞殘風☜、™·2023-10-05 14:20

【arXiv2309】RingMo-lite: A Remote Sensing Multi-taskLightweight Network with CNN-TransformerHybrid Fr

RingMo-lite:ARemoteSensingMulti-taskLightweightNetworkwithCNN-TransformerHybridFramework,arXiv2309论文：

m0_61899108·2023-10-05 13:01

【CVPR 2023】EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention

EfficientViT:MemoryEfficientVisionTransformerwithCascadedGroupAttention,CVPR2023论文：https://arxiv.org/

m0_61899108·2023-10-05 13:30

使用Bert对含有数组、字母的中文文本分词（每个字母、数字都分词）【最细力度】

importtorchfromtransformersimportBertTokenizer,BertModeldeffine_grade_tokenize(raw_text,tokenizer):""

u013250861·2023-10-05 13:25

文本分词、生成tfidf值并降序排序

8importosimportsysimportjiebafromsklearnimportfeature_extractionfromsklearn.feature_extraction.textimportTfidfTransformerfromsklearn.feature_extraction.textimportCountVectorizersys.path.ap

骑单车的王小二·2023-10-05 13:22

viewpage2 实现中间大两边小

viewpage.png思路运用viewpage2加transformer实现的首先依赖implementation"androidx.viewpager2:viewpager2:1.0.0"需要注意两个点一个

爱言语论·2023-10-05 09:26

YOLOv7改进：结合CotNet Transformer结构

将CoTBlock代替了ResNet结构中的3x3卷积，在分类检测分割等任务效果都出类拔萃论文：ContextualTransformerNetworksforVisualRecognition论文地址

陈子迩·2023-10-05 07:26

Pyramid Grafting Network for One-Stage High Resolution Saliency Detection

均多是以低分辨率图像作为输入由于采样深度与感受野之间存在矛盾，所以现有的为低分辨率图像设计的模型，在高分辨率图像上无法有精准的效果提出金字塔移植网络（PGNet）：Encoder-Decoder架构，在Encoder中建立两条分支（Swin-Transformer

看到我请叫我去学java吖·2023-10-05 07:12

Pyramid Grafting Network for One-Stage High ResolutionSaliency Detection高分辨率显著图检测算法

该网络结构编码层采用Transformer和cnn融合特征得到全局和局部特征信息，最后通过三段的解码层输出预测结果。

donkey_1993·2023-10-05 07:11

OpenMMLab【超级视客营】——支持InverseForm Loss(MMSegmentation的第三个PR)

文章目录1.任务目标1.1issue1.2原理相关资料（论文讲解）InverseFormSTN(SpatialTransformerNetworks)1.3实现相关资料（相关PR）2.理解原理3.代码实现

吨吨不打野·2023-10-05 07:09

GPT系列论文解读：GPT-2

GPT系列GPT（GenerativePre-trainedTransformer）是一系列基于Transformer架构的预训练语言模型，由OpenAI开发。

青云遮夜雨·2023-10-05 00:43

Stable Diffusion：High-Resolution Image Synthesis with Latent Diffusion Models论文学习

https://github.com/CompVis/latent-diffusion1摘要前一篇Diffusion算法明显的缺点是耗费大量的时间、计算资源，为此，论文将其应用于强大的预训练自编码器的潜在空间，这是首次允许在复杂性降低和细节保存之间达到一个近乎最佳的点，极大地提高了视觉保真度。通过在模型架构中引入交叉注意层，将扩散模型转化为强大而灵活的生成器，用于一般条件输入，如文本或包围框，并以

south020·2023-10-04 22:38

IDEA踩坑记录：查找用法找到的不全怎么办

在我跟CC1链的时候，对InvokerTransformer类的transform()方法进行右键查找用法时，本来应该找到org.apache.commons.collections.map包中的TransformedMap

Jay 17·2023-10-04 21:15

TransFuse

方法Transformer分支将不同尺度的特征图t0、t1和t2t^0、t^1和t^2t0、t1和t2保存起来，之后与对应的CNN分支的特征图融合。

宇来风满楼·2023-10-04 17:14

【论文笔记】Cross Modal Transformer: Towards Fast and Robust 3D Object Detection

原文链接：https://arxiv.org/abs/2301.012831.引言受到DETR启发，本文提出鲁棒的端到端多模态3D目标检测方法CMT（跨模态Transformer）。

byzy·2023-10-04 15:34

TransFusion:Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers 论文笔记

原文链接：https://arxiv.org/pdf/2203.11496.pdf1.引言目前的融合方法分为结果级融合、提案级融合以及点级融合。结果级融合在图像上进行2D检测，然后提升到3D空间生成3D提案，再通过PointNet进行边界框估计；提案级融合使用RoI池化操作在共享的提案内融合多模态特征。这些粗粒度的融合方法性能不佳，因为矩形提案内有大量背景噪声。点级融合性能更佳，即通过校准矩阵建立

byzy·2023-10-04 15:03

TransFusion论文笔记

论文名称：TransFusion:RobustLiDAR-CameraFusionfor3DObjectDetectionwithTransformers论文链接：https://arxiv.org/pdf

高分锻炼队友·2023-10-04 15:02

大模型RLHF算法更新换代，DeepMind提出自训练离线强化学习框架ReST

文章链接：https://arxiv.org/abs/2308.08998大模型（LLMs）爆火的背后，离不开多种不同基础算法技术的支撑，例如基础语言架构Transformer、自回归语言建模、提示学习和指示学习等等

TechBeat人工智能社区·2023-10-04 13:48

大模型 Decoder 的生成策略

IntroductionGreedySearchbeamsearchSamplingTop-KSamplingTop-p(nucleus)sampling总结一、Introduction1、简介近年来，由于在数百万个网页数据上训练的大型基于Transformer

TFATS·2023-10-04 12:37

2020-RecSys-SSE-PT: Sequential Recommendation Via Personalized Transformer

个人认为本文的思想很好，要将个性化引入到Transformer中*（NLP的各种技术在我看来其目的是明确的，一句话是什么意思就是什么意思，所以只考虑这一句话中的word即可，但是对于RS来说，同样itemid

Dive_·2023-10-04 08:01

ChatGPT的底层架构简介

ChatGPT是一种新型自然语言处理模型，它是由OpenAI开发的一种基于Transformer结构的预训练语言模型。ChatGPT主要用于对话生成任务，例如聊天机器人、客户服务等应用场景。

鹤鹤的森林·2023-10-04 06:41

chatgpt技术总结（包括transformer，注意力机制，迁移学习，Ray，TensorFlow，Pytorch）

最近研读了一些技术大咖对chatgpt的技术研讨，结合自己的一些浅见，进行些许探讨。我们惊讶的发现，chatgpt所使用的技术并没有惊天地泣鬼神的创新，它只是将过去的技术潜能结合现在的硬件最大化的发挥出来，也正因如此，旧有技术的可用性，让各大厂嗅到了快速发展的商机，纷纷跑步入场。首先我们要了解chatgpt是一种自然语言处理模型，也可以理解为文本生成模型。在框架上chatgpt采用了transfo

笑傲江湖2023·2023-10-04 06:11

[论文笔记]BitFit

引言今天带来一篇参数高效微调的论文笔记，论文题目为基于Transformer掩码语言模型简单高效的参数微调。BitFit，一种稀疏的微调方法，仅修改模型的偏置项(或它们的子集)。

愤怒的可乐·2023-10-04 05:17

论文笔记|Unified Language Model Pre-training for Natural Language Understanding and Generation

GPT：使用从左到右的Transformer逐字预测文本序列。BERT：采用双向Transformer编码器，结合左右上下文来预测掩码。BERT显著提高了许多NLP任务

期待成功·2023-10-04 01:56

论文笔记 Unified Language Model Pre-training for Natural Language Understanding and Generation

UNILM是一个多层Transformer网络，使用三种类型的语言建模任务进行预训练:单向(包括l-to-r和r-to-l)、双向和seq2seq预测。

RunningQzh·2023-10-04 01:56

2022-07-11

NatMacInt|基于语言模型的蛋白质设计原创mumu图灵基因2022-07-1108:32发表于江苏收录于合集#前沿生物大数据分析撰文：mumuIF=15.508推荐度：⭐⭐⭐⭐⭐亮点：作者认为基于transformer

图灵基因·2023-10-04 00:35

大规模语言模型--训练成本

目前，基于Transformers架构的大型语言模型(LLM)，如GPT、T5和BERT，已经在各种自然语言处理(NLP)任务中取得了SOTA结果。

hanscalZheng·2023-10-03 23:20

GPT的优势和GPT缺点

GPT，即GenerativePre-trainedTransformer，是一种基于人工智能技术的自然语言处理模型。

zmjia111·2023-10-03 21:58

基于transformer的心脑血管心脏病疾病预测

视频讲解：基于transformer的心脑血管疾病预测完整数据代码分享_哔哩哔哩_bilibili数据展示：完整代码：#pipinstallopenpyxl-ihttps://pypi.tuna.tsinghua.edu.cn

甜辣uu·2023-10-03 21:51

大语言模型之十四-PEFT的LoRA

首先是有32层的Transformer，它们每层的内存占用如下图：图中有六个大矩阵是打了勾的，原始的L

shichaog·2023-10-03 20:52

计算机视觉——飞桨深度学习实战-图像分类算法原理与实战

第二种是基于Transformer思想的模型，本章重点介绍了ViT和Swin-Transformer模型。第三种是用于移动端设备的轻量级模型

喜欢吃豆·2023-10-03 19:30

推荐频道

Transformer论文学习