Transformer论文学习第19页

Chinese-llama-2部署踩坑记录

Chinese-llama-2部署踩坑记录1.Chinese-LLaMA-Alpaca-2A.部署a.inference_with_transformers_zhb.textgenerationwebui_zhc.api_calls_zhd.llamacpp_zhe.privategpt_zhf.langchain_zhToolGithub1

国家一级假勤奋大学生·2024-01-10 07:50

高光谱分类论文解读分享之基于多模态融合Transformer的遥感图像分类方法

IEEETGRS2023：基于多模态融合Transformer的遥感图像分类方法题目MultimodalFusionTransformerforRemoteSensingImageClassification

曦曦逆风·2024-01-10 07:57

NLP预训练方法：从BERT到ALBERT详解

使用的是Transformer，相对于rnn而言更加高效、能捕捉更长距离的依赖。

nnnancyyy·2024-01-10 06:41

bert和GPT使用的transformer有什么不同

Bert和GPT都使用了Transformer模型，但它们的主要用途是不同的。

Nate Hillick·2024-01-10 06:11

【组队学习】Task03：学习BERT和GPT

组队学习资料：datawhale8月组队学习-基于transformers的自然语言处理(NLP)入门Task03主要学习内容：2.3-图解BERT.md2.4-图解GPT.md声明:NLP纯小白,本文内容主要是作为个人学习笔记

诡途·2024-01-10 06:06

Transformers 2023年度回顾：从BERT到GPT4

一个关键的突破是引入了“自注意力”和用于序列处理的Transformers架构，这使得之前主导该领域的几个关键问题得以解决。在本文中，我们将研究革命性的Tr

柴神·2024-01-10 06:32

Transformer-MM-Explainability

twomodalitiesareseparatedbythe[SEP]token，thenumbersineachattentionmodulerepresenttheEq.number.Eh_hhisthemean，∇\nabla∇A:=∂yt∂A{∂y_t}\over∂A∂A∂ytforyty_tytwhichisthemodel’soutput.⊙\odot⊙istheHadamardpro

宇来风满楼·2024-01-10 05:41

书生大模型全链路开源体系

书生浦语大模型全链路开源体系开源了哪些东西数据书生万卷：一个2TB的涵盖多种模态与任务的数据集预训练InternLM-Train：微调XTuner：可供你低成本微调模型的工具箱部署LMDeploy：一个服务端场景下、transformer

攻城狮白玉·2024-01-10 03:32

Python轴承故障诊断 (十)基于VMD+CNN-Transfromer的故障分类

目录1变分模态分解VMD的Python示例2轴承故障数据的预处理2.1导入数据2.2故障VMD分解可视化3基于VMD+CNN-Transformer的轴承故障诊断分类3.1定义VMD-CNN-Transformer

建模先锋·2024-01-10 03:50

分析transformer模型的参数量、计算量、中间激活、KV cache

难得一遇的好文，转载自https://zhuanlan.zhihu.com/p/624740065，先做个简单总结：训练时的参数量由以下模型参数、前向的中间激活、后向的梯度、优化器参数组成：模型参数假设Transformer

taoqick·2024-01-10 03:13

Transformer推理加速方法-KV缓存(KV Cache)

1.使用KV缓存(KVCache)在推理进程中与训练不同，推理进行时上下文输入Encoder后计算出来的K和VK和VK和V是固定不变的，对于这里的K和VK和VK和V可以进行缓存后续复用；在Decoder中推理过程中，同样可以缓存计算出来的K和VK和VK和V减少重复计算，这里注意在输入是am计算时，输入仍需要前面I的输入。如下图：左边ATTN是Encoder，在T1时刻计算出来对应的K和VK和VK和

MLTalks·2024-01-10 03:10

解决git clone或者pip install git+https://github.com/ruotianluo/meshed-memory-transformer.git出现的一系列问题

出现的错误：问题1.fatal:unabletoaccess'https://github.com/ruotianluo/meshed-memory-transformer.git/':Failedtoconnecttogithub.comport443after21020ms

冰岛小贤·2024-01-10 03:08

【人工智能】结合代码通俗讲解 Transformer 推理性能优化技术：KV Cache

目录0.引言1.KVCache是啥？2.背景3.原理4.实现细节5.总结在解码器推理加速的时候，由于解码过程是一个token一个token的生成，如果每一次解码都从输入开始拼接好解码的token࿰

OpenChat·2024-01-10 03:37

使用Pipeline和ColumnTransformer提升机器学习代码质量

机器学习项目中最冗长的步骤通常是数据清洗和预处理，Scikit-learn库中的Pipeline和andColumnTransformer通过一次封装替代逐步运行transformation步骤，从而减少冗余代码量

子诚之·2024-01-10 00:07

了解一下InternLM2

这种模型通常采用深度神经网络结构，如Transformer、BERT、GPT（GenerativePre-trainedTransformer）等。

羞儿·2024-01-09 23:51

为什么叫chatGPT

GPT"是GenerativePretrainedTransformer的缩写，表示这个模型是一种生成式预训练的变换器模型。因此，ChatGPT就是一个用于聊天和回答问题的生成式预训练变换器模型。

胡说先森·2024-01-09 22:46

Hugging face库

1.Transformers是NLP,CV,audio，speechprocessing任务的库。它包含了超过10000个预训练的模型，涵盖了各种NLP任务，如文本分类，问答，文本生成，情感分析等。

carmen_山海·2024-01-09 21:12

Attention Is All You Need--Transformer

作者提出了一个新的简单的网络架构，叫做Transformer。这个架构只需要运用注意力机制，而不需要用RNN和CNN，通过减少模型参数简化了模型。作者通过实验同时说明了该架构的适应性较好。

sweet_Mary·2024-01-09 20:37

Transformer论文--Attention Is All You Need

作者提出了仅依赖于注意力机制的的一种新的简单网络结构（Transformer），在机器翻译任务中与其他模型相比，该模型展现了更高的并行计算量同时大大减少了训练时间。

pepsi_w·2024-01-09 20:37

Attention Is All You Need (Transformer 原文)

最近按顺序读Transformer系列经典论文最前面是论文翻译，中间是背景+问题+方法步骤+实验过程，最后是文中的部分专业名词介绍（水平线分开，能力有限，部分翻译可能不太准确）摘要主要的序列转导模型基于复杂的循环或卷积神经网络

Y蓝田大海·2024-01-09 20:36

【读文献】Attention is all your need - Transformer

题目：AttentionIsAllYouNeed主要作者：AshishVaswani，NoamShazeer主要机构：GoogleBrain，GoogleResearch发表时间：2017年1.要解决什么问题？基于RNN/CNN的Encoder-Decoder或者RNN带Attention的Encoder-Decoder不能并行计算或者并行计算的复杂度会随着输入输出距离的增加而大幅度增加，以及RN

无名草鸟·2024-01-09 20:05

论文阅读-Attention Is All You Need阅读报告-机器翻译

1Introduction本文是2017年底谷歌大脑发表的文章，针对自然语言处理领域的经典问题-机器翻译，提出了一个只基于attention的结构来处理序列模型相关的问题，该模型被称为“Transformer

完美屁桃·2024-01-09 20:05

Attention Is All You Need----Transformer 论文解读

AttentionIsAllYouNeed1.Introduction2.Background3.ModelArchitecture3.1Encoder-DecoderStacks3.2Attention3.2.1ScaledDot-ProductAttention3.2.2Multi-HeadAttention3.2.3ApplicationsofAttentioninourModel3.3Po

FutureForMe@·2024-01-09 20:35

论文阅读 BERT GPT - transformer在NLP领域的延伸

文章目录不会写的很详细，只是为了帮助我理解在CV领域transformer的拓展1摘要1.1BERT-核心1.2GPT-核心2模型架构2.1概览3区别3.1finetune和prompt3.2transformer

highoooo·2024-01-09 20:03

论文阅读 Attention is all u need - transformer

文章目录1摘要1.1核心2模型架构2.1概览2.2理解encoder-decoder架构2.2.1对比seq2seq，RNN2.2.2我的理解3.Sublayer3.1多头注意力multi-headself-attention3.1.1缩放点乘注意力ScaledDot-ProductAttention3.1.2QKV3.1.3multi-head3.1.4masked3.2线性层MLP3.3emb

highoooo·2024-01-09 20:00

六个核桃Lu·2024-01-09 15:02

论文阅读-PaLM-E：多模态语言模型

PaLM-E：一种体现的多模态语言模型3.1仅解码器LLM3.2仅限前缀解码器LLM3.3在机器人控制回路中体现输出：PaLM-E4.不同传感器模式的输入和场景表示4.1状态估计向量4.2VisionTransformer

baidu_huihui·2024-01-09 13:14

chatgpt和gpt-3是什么关系？

ChatGPT是基于OpenAI的GPT-3(GenerativePretrainedTransformer3)模型训练出来的一种语言生成模型。也就是说，ChatGPT是GPT-3的一个应用。

语嫣凝冰·2024-01-09 11:01

基于GPT-3、ChatGPT、GPT-4等Transformer架构的自然语言处理

文章目录一、内容简介二、前言2.1Transformer模型标志着AI新时代的开始2.2Transformer架构具有革命性和颠覆性2.3GoogleBERT和OpenAIGPT-3等Transformer

春人.·2024-01-09 11:54

浦语大模型趣味 Demo课程学习及实战应用

这种模型通常采用深度神经网络结构，如Transformer、BE

m0_54169072·2024-01-09 05:15

第34期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大型语言模型（LLM）等安全领域应用的知识。

云起无垠·2024-01-09 01:19

jupyter快速实现单标签及多标签多分类的文本分类BERT模型

TextclassificationwithBERTinPyTorch.ipynb通过改写上述代码，实现多标签分类参考解决方案，我选择的解决方案是继承BertForSequenceClassification并改写，即将上述代码的ln[9]改为以下内容：fromtransformers.modeling_bert

xiyou__·2024-01-08 17:15

关于BraTS数据集中的Ground Truth标签的划分描述

Transbts:Multimodalbraintumorsegmentationusingtransformer."

Believe yourself!!!·2024-01-08 17:43

The Annotated Transformer的中文教程

TheAnnotatedTransformerAttentionisAllYouNeedv2022:AustinHuang,SurajSubramanian,JonathanSum,KhalidAlmubarak

技术宅学长·2024-01-08 17:26

使用chatgpt完成自动化工作（免费收藏级）

本文末尾会提供4.0的使用方法前言：聊天机器人GPT（GenerativePre-trainingTransformer）是一个强大的自然语言处理（NLP）模型。

爱编程-爱生活·2024-01-08 16:49

2023.12.17周报

二、自注意力机制如何实现三、Transformer代码实现总结摘要本周我阅读了一篇名为《AttentionIsAllYouNeed》的文献。

Nyctophiliaa·2024-01-08 14:34

经典论文之（三）——Transformer

目录绪论背景模型架构编码器解码器注意力层ScaledDot-ProductAttentionMulti-HeadAttentionPosition-wiseFeed-ForwardNetworks--前馈神经网络EmbeddingsandSoftmaxPositionalEncoding参考文献和代码绪论《AttentionIsAllYouNeed》——注意力就是你需要做的。这篇文章是大名鼎鼎的T

维斯德尔·2024-01-08 12:41

哥又来看论文了《Deepfake Video Detection Using Convolutional Vision Transformer》

我对这篇论文的评价：很水但平易近人！适合我这个小白（憨憨）看~论文的整体架构图：论文解读：首先看看人家摘要写的：1.我们在DeepFake检测挑战数据集(DFDC)上训练我们的模型，并实现了91.5%的准确率，AUC值为0.91，损失值为0.32。2.我们的贡献是我们在ViT架构中添加了一个CNN模块，并在DFDC数据集上取得了具有竞争力的结果。卷积VIT（卷积与vit的结合）模型架构由两部分组成

一只发呆的猪·2024-01-08 11:55

FLatten Transformer：聚焦式线性注意力模块

线性注意力将Softmax解耦为两个独立的函数，从而能够将注意力的计算顺序从(query·key)·value调整为query·(key·value)，使得总体的计算复杂度降低为线性。然而，目前的线性注意力方法要么性能明显不如Softmax注意力，并且可能涉及映射函数的额外计算开销首先，以往线性注意力模块的注意力权重分布相对平滑，缺乏集中能力来处理最具信息量的特征。作为补救措施，我们提出了一个简单

我菜就爱学·2024-01-08 10:28

Conv2Former：一种transformer风格的卷积特征提取方式

一、前言昨天读到了一篇有意思的文章，文章提出通过利用卷积调制操作来简化self-attention。还证明了这种简单的方法可以更好地利用卷积层中嵌套的大核(≥7×7)。我们都知道ViTs推动了设计识别模型的发展，近几年使用的也相当的多，通常就是CNN网络引入注意力机制，往往可以获得不错的性能，因为相比较与卷积cnn，self-attention能够模拟全局成对依赖关系，这是一种更有效的空间信息编码

夏天是冰红茶·2024-01-08 07:54

李宏毅机器学习第十六周周报NAT&HW5

李宏毅机器学习Non-autoregressiveSequenceGeneration1.问题阐述1.1Autoregressivemodel1.2Non-autoregressivemodel(mostlybyTransformer

沽漓酒江·2024-01-08 06:08

2023/11/5周报

文章目录摘要Abstract文献阅读题目创新点方法框架数据收集和实验设置实验结果Conclusion深度学习Self-attentionSelf-attention的优势Self-attention的原理Transformer

user_s1·2024-01-08 06:37

机器学习周报第九周

目录摘要Abstract一、循环神经网络1.存在的问题二、RNN的应用三、transformer3.1seq2seq四、线性模型五、softmax回归总结摘要RNN通过引入门控机制（如LSTM和GRU）

Ramos_zl·2024-01-08 06:02

YOLOv5改进 | 主干篇 | CSWinTransformer交叉形窗口网络改进特征融合层

一、本文介绍本文给大家带来的改进机制是CSWinTransformer，其基于Transformer架构，创新性地引入了交叉形窗口自注意力机制，用于有效地并行处理图像的水平和垂直条带，形成交叉形窗口以提高计算效率

Snu77·2024-01-08 06:30

conda安装transformers、wordcloud库

conda安装transformers库使用conda自Transformers4.0.0版始，我们有了一个conda频道：huggingface。

LinlyZhai·2024-01-08 05:44

（2023|NIPS，MUSE，掩蔽适配器，基于反馈的迭代训练）StyleDrop：任意风格的文本到图像生成

公和众和号：EDPJ（添加VX：CV_EDPJ或直接进Q交流群：922230617获取资料）目录0.摘要3.StyleDrop：文本到图像合成的风格调整3.1基础：Muse[4]，用于文本到图像合成的掩蔽Transformer3.2

EDPJ·2024-01-08 05:41

Transformer - Attention is all you need 论文阅读

虽然是跑路来NLP，但是还是立flag说要做个project，结果kaggle上的入门project给的例子用的是BERT，还提到这一方法属于transformer，所以大概率读完这一篇之后，会再看BERT

Karen_Yu_·2024-01-08 05:49

Informer：用于长序列时间序列预测的高效Transformer模型

最近在研究时间序列分析的的过程看，看到一篇精彩的文章，名为：《Informer:BeyondEfficientTransformerforLongSequenceTime-SeriesForecasting

随机惯性粒子群·2024-01-07 23:32

单目标追踪——【Transformer】Autoregressive Visual Tracking

目录文章侧重点网络结构Encoder（特征提取与融合得到VisionFeatures）Decoder（VisionFeature+MotionFeature特征融合与输出）运动特征生成特征融合与输出消融实验N与VocabularyBins论文链接：https://paperswithcode.com/paper/autoregressive-visual-tracking代码链接：https://

zz的大穗禾·2024-01-07 21:03

CVPR2023 Autoregressive Visual Tracking 理解记录

github.com/MIV-XJTU/ARTrackARTrack的框架:代码训练主要分为两阶段：第一阶段就是和seqtrack是一样的，就是template和search的图像打成patches送进transformer

laizi_laizi·2024-01-07 21:32

推荐频道

Transformer论文学习