transformer论文阅读第77页

论文阅读：AugGAN: Cross Domain Adaptation with GAN-based Data Augmentation

Abstract基于GAN的图像转换方法存在两个缺陷：保留图像目标和保持图像转换前后的一致性，这导致不能用它生成大量不同域的训练数据。论文提出了一种结构感知(Structure-aware)的图像转换网络(image-to-imagetranslationnetwork)。ProposedFramework为了将图像正确地转换，我们需要编码信息包含：1）相互风格信息（Mutualstyle）2）结

BlueagleAI·2023-09-23 08:15

图神经网络（GNN）最新顶会论文汇总【附源码】

为了帮大家快速找到idea，这次我精选了近两年图神经网络的各大顶会好文，共40篇，涵盖了可解释性、图transformer、

深度之眼·2023-09-23 07:20

20-4-4论文阅读：Conditional time series forecasting with convolutional neural networks

卷积神经网络的条件时间序列预测摘要我们提出了一种基于最新深度卷积WaveNet架构的条件时间序列预测方法。拟议的网络包含堆叠的卷积堆栈，使它们可以在预测时访问广泛的历史记录，ReLU激活函数和条件是通过将多个卷积滤波器并行应用于单独的时间序列来执行的，从而可以快速处理数据和利用多元时间序列之间的相关结构。我们使用S＆P500，波动率指数，CBOE利率和几种汇率来无条件和有条件地对卷积网络的性能进行

AllTimeStudy·2023-09-23 05:53

word、excel、ppt转为PDF

org.apache.poipoi-ooxml4.0.1org.apache.poipoi4.0.1com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3com.itextpdfitextpdf5.2.0org.apache.poipo

穿背心的程序猿·2023-09-23 05:31

从CNN到Transformer：基于PyTorch的遥感影像、无人机影像的地物分类、目标检测、语义分割和点云分类

我国高分辨率对地观测系统重大专项已全面启动，高空间、高光谱、高时间分辨率和宽地面覆盖于一体的全球天空地一体化立体对地观测网逐步形成，将成为保障国家安全的基础性和战略性资源。随着小卫星星座的普及，对地观测已具备多次以上的全球覆盖能力，遥感影像也不断被更深入的应用于矿产勘探、精准农业、城市规划、林业测量、军事目标识别和灾害评估。未来10年全球每天获取的观测数据将超过10PB，遥感大数据时代已然来临。另

天青色等烟雨..·2023-09-23 05:00

ChatGLM LLM大模型训练和预测如何计算算力需求

Int8模型参数6B1bytes=6GB梯度6B1bytes=6GB优化器参数Adam2倍模型参数:6GB*2=12GB训练共24GB的显存推理算力模型参数6B*1bytes=6GB推理共6GB的显存Transformer

张志翔的博客·2023-09-23 03:15

【AutoML--模型搜索】论文阅读：Once-for-All: Train One Network and Specialize it for Efficient Deployment

文章目录1.论文概要2.研究背景和动机3.OFA的网络设计3.1ArchitectureSpace(网络配置空间)3.2训练OFA网络3.2.1NaiveApproach3.2.2ProgressiveShrinking(渐进收缩)3.3子网络搜索3.4附：如何实现CNN的参数压缩4.总结1.论文概要论文下载地址：Once-for-All:TrainOneNetworkandSpecializei

ctrl A_ctrl C_ctrl V·2023-09-23 03:44

Transformer最直观的解析（译）

在这篇文章中，我们将看看“Transformer”——一个利用注意力机制来提高模型训练速度的模型。Transformer在特定任务中优于谷歌神经机器翻译模型。

羊驼养殖户·2023-09-23 02:14

Hugging Face Transformers 错误解决方案

BlueStragglers分享技术成长的快乐近期项目用到了Transformers。

愚昧之山绝望之谷开悟之坡·2023-09-23 00:59

YOLOv5、YOLOv8改进：HorNet完全替换backone

1.简介论文地址：https://arxiv.org/abs/2207.14284代码地址：https://github.com/raoyongming/HorNet视觉Transformer的最新进展表明

陈子迩·2023-09-23 00:28

【DETR】End-to-End Object Detection with Transformers

End-to-EndObjectDetectionwithTransformers 整个模型的主要思想是把物体检测问题看作一个集合到集合的预测问题，将图片切分成一个个Patches。

P.H. Infinity·2023-09-22 19:45

Chinese-LLaMA-AIpaca

Chinese-LLaMA-Alpaca一、LLaMA模型-->HF格式二、合并LoRA权重，生成全量模型权重方式1：单LoRA权重合并方式2：多LoRA权重合并（适用于Chinese-Alpaca-Plus）三、使用Transformers

伊织code·2023-09-22 14:10

LLM各层参数详细分析（以LLaMA为例）

先上transformer原文也就是说，当h（heads）=1时，在默认情况下，WiQW_i^QWiQ、WiKW_i^KWiK、WiVW_i^VWiV都是2维方阵，方阵维度是dmodel×dmodeld

Αλήθεια·2023-09-22 14:10

通俗理解自注意力(self-attention)

谷歌在2017年发表了一篇论文《AttentionIsAllYouNeed》，论文中提出了transformer模型，其核心就是self-attention的架构，这一突破性成果不仅洗遍了NLP的任务，

Black先森·2023-09-22 12:27

正确设置PyTorch训练时使用的GPU资源

背景：最近在使用HuggingFace的transformersapi来进行预训练大模型的微调，机器是8卡的GPU，当我调用trainer.train()之后，发现8个GPU都被使用了，因为这个机器上面还有其他人跑的模型

若石之上·2023-09-22 12:48

点云从入门到精通技术详解100篇-定子装配过程中基于深度学习的易变形材料的点云分割（下）

目录4.3.2校正网络4.3.3浅层特征提取网络4.3.4空间边界Transformer深层特征提取网络4.3.5损失函数

格图素书·2023-09-22 11:43

论文阅读：Learning quadrupedal locomotion over challenging terrain（SCIENCE ROBOTICS 2020）

简介项目链接：https://leggedrobotics.github.io/rl-blindloco/像LiDAR和相机等外部传感器无法感知地面的诸如摩擦和顺应性等物理特性，在雪地、覆满植被的具有挑战性的地形下，需要将机器人的本体感受作为输入，控制器快速产生针对如保持平衡，避免自我碰撞等等多个目标的全身轨迹规划。材料与方法策略训练：首先利用特权信息XtX_tXt包括机器人的当前状态、地形信息以

u小鬼·2023-09-22 10:45

【Spatial-Temporal Action Localization（七）】论文阅读2022年

文章目录1.TubeR:TubeletTransformerforVideoActionDetection摘要和结论引言：针对痛点和贡献模型框架TubeREncoder：TubeRDecoder：Task-SpecificHeads

三木今天学习了嘛·2023-09-22 09:50

论文阅读-MGTAB: A Multi-Relational Graph-Based Twitter Account DetectionBenchmark

无脑敲代码，bug漫天飞·2023-09-22 06:44

ConvMAE(2022-05)

ConvMAE在Conv-transformer网络中应用时，其目的是学习判别性的多尺度视觉表示，并防止pre-trainfinetune差异化。

GY-赵·2023-09-22 05:10

ChatGPT技术原理

目录一、Tokenization二、Transformer模型三、预训练四、微调五、Beamsearch总结自从OpenAI的ChatGPT在2022年底横空出世以来，这款大型语言模型在各种任务中都展现了惊人的性能

傻啦嘿哟·2023-09-22 05:07

CMT:卷积与Transformers的高效结合

论文提出了一种基于卷积和VIT的混合网络，利用Transformers捕获远程依赖关系，利用cnn提取局部信息。构建了一系列模型cmt，它在准确性和效率方面有更好的权衡。

数据派THU·2023-09-22 04:42

位置编码与长度外推性[Alibi/KERPLE/Sandwich]

绝对位置编码【三角/递归/相乘】-＞相对位置编码【XLNET/T5/DEBERTA】-＞旋转位置编码(ROPE/XPOS)-＞复杂位置编码【CNN/RNN/复数/融合】Transformer升级之路：7

zhurui_xiaozhuzaizai·2023-09-22 03:22

zhurui_xiaozhuzaizai·2023-09-22 03:21

一些模型资源地址

transformer:https://gitcode.net/mirrors/harvardnlp/annotated-transformerbert-tfhttps://gitcode.net/mirrors

zhurui_xiaozhuzaizai·2023-09-22 03:21

多选项问题候选评估

覆盖了各种学科和领域2sciq数据集一些论文阅读1DistractorGenerationforChineseFill-in-the-blankItems2017Proceedingsofth

zhurui_xiaozhuzaizai·2023-09-22 03:50

大模型训练之加速篇 -attention优化【MQA-＞ flashAttention】

MQA(multiqueryattention)FastTransformerDecoding:OneWrite-HeadisAllYouNeedMQA是19年提出的一种新的Attention机制，其能够在保证模型效果的同时加快

zhurui_xiaozhuzaizai·2023-09-22 03:46

Deformable DETR（2020 ICLR）

DeformableDETR（2020ICLR）detr训练epochs缩小十倍，小目标性能更好Deformableattention结合变形卷积的稀疏空间采样和Transformer的关系建模能力使用多层级特征层特征

白蜡虫可·2023-09-22 02:13

如何将 Transformer 应用于时间序列模型

在机器学习的广阔前景中，transformers就像建筑奇迹一样高高耸立，以其复杂的设计和捕获复杂关系的能力重塑了我们处理和理解大量数据的方式。

·2023-09-22 01:07

ViewPager2 PageTransformer

首先：根据banner的宽度，计算高度再计算单个的宽度，这个宽度不是固定值，是通过左右设置产生的。Bannerbanner=getViewHolder().banner;intwidth=banner.getWidth();//todo:需要减去左右margin//控件高度intheight=(int)(140.f/343f*width*0.75);banner.getLayoutParams()

lxmhuendan·2023-09-22 00:58

NLP文本生成全解析：从传统方法到预训练完整介绍

2.1.1N-gram模型2.1.2平滑技术3.传统方法-基于模板的生成3.1定义与特点3.2动态模板4.神经网络方法-长短时记忆网络(LSTM)LSTM的核心概念PyTorch中的LSTM5.神经网络方法-TransformerTransformer

TechLead KrisChang·2023-09-21 23:52

大语言模型之十一 Transformer后继者Retentive Networks (RetNet)

这也显示了Transformer尽管在模型训练的时候并发（相比RNN）性能

shichaog·2023-09-21 22:25

深度理解transformer

自用收藏，看了这两篇大佬的解释豁然开朗https://zhuanlan.zhihu.com/p/75591049https://zhuanlan.zhihu.com/p/166608727

积跬步__·2023-09-21 18:13

Transformer的上下文学习能力

《Uncoveringmesa-optimizationalgorithmsinTransformers》论文链接：https://arxiv.org/abs/2309.05858为什么transformer

Angelina_Jolie·2023-09-21 18:23

Chatgpt介绍及搭建步骤

ChatGPT的核心技术是GPT（GenerativePre-trainedTransformer），这是一种自然语言处理模型。GPT使用了一种神经网络，可以从大量的语言数据中学习语言的规则和语义。这

zero2100·2023-09-21 14:52

Language Adaptive Weight Generation for Multi-task Visual Grounding 论文阅读笔记

LanguageAdaptiveWeightGenerationforMulti-taskVisualGrounding论文阅读笔记一、Abstract二、引言三、相关工作3.1指代表达式理解3.2指代表达式分割

乄洛尘·2023-09-21 14:06

Transformer之傲慢与偏见：主流大语言模型的技术细节揭秘

文章首发地址目前，主流的大语言模型包括GPT（GenerativePre-trainedTransformer）系列、BERT（BidirectionalEncoderRepresentationsfromTransformers

Walter Sun·2023-09-21 12:00

【Spatial-Temporal Action Localization（六）】论文阅读2021年

文章目录1.MultiSports:AMulti-PersonVideoDatasetofSpatio-TemporallyLocalizedSportsActions摘要和结论引言：针对痛点和贡献数据特点2.Actor-Context-ActorRelationNetworkforSpatio-TemporalActionLocalization摘要和结论引言：针对痛点和贡献模型框架实验3.Re

三木今天学习了嘛·2023-09-21 10:39

论文笔记 DETR

detr摘要和引言2020论文facebook不需要proposal，不需要基于anchor的先验知识(比如预训练的模型)，也不需要NMS进行筛选，直接端到端不需要后处理利用transformer的全局建模能力

Plusmile1·2023-09-21 10:34

论文阅读_大语言模型_Llama2

英文名称:Llama2:OpenFoundationandFine-TunedChatModels中文名称:Llama2：开源的基础模型和微调的聊天模型文章:http://arxiv.org/abs/2307.09288代码:https://github.com/facebookresearch/llama作者:HugoTouvron日期:2023-07-19引用次数:1101读后感这是一篇77页

xieyan0811·2023-09-21 10:57

Conformer ASR详解

Conformer:Convolution-augmentedTransformerforSpeechRecognition论文地址：https://arxiv.org/abs/2005.08100Conformer

glow-worm·2023-09-21 06:24

“基于自注意力生成对抗网络的人物姿态迁移技术”论文阅读

本文以生成对抗网络为基础，提出了基于自注意力生成对抗网络人物姿态迁移模型。自注意力是一种用于在序列数据中捕捉不同位置之间的关系和依赖性的注意力机制，它能让模型在处理序列数据时，根据序列中不同位置之间的相互关系，动态地分配不同位置的重要性权重。这使得模型能够更加有效地关注与当前位置相关的上下文信息，从而更好地捕捉到序列中的长距离依赖关系。生成对抗网络（GAN）是一种深度学习模型，由生成器（Gener

MT53·2023-09-21 06:17

【论文阅读 08】Defect Detection in Electronic Surfaces Using Template-Based Fourier Image Reconstruction

比较老的一篇论文，基于模板的傅里叶图像重建电子表面的缺陷检测关键词：缺陷检测，傅里叶变换(F.T.)、机器视觉、印刷电路板(PCB)、模板匹配。总结：1Abstract一种用于检测和定位非周期性模式图像中小缺陷的新方法。在电子工业中，例如在印刷电路板或集成电路芯片的图像中，通常需要找到并识别微小的缺陷。传统的模板匹配技术通常在图像的局部像素信息上工作，因此对于几何变化、光照变化以及随机噪声非常敏感

不菜不菜·2023-09-21 06:14

【论文阅读 09】融合门控自注意力机制的生成对抗网络视频异常检测

2021年中国图象图形学报摘要背景：视频异常行为检测是智能监控技术的研究重点，广泛应用于社会安防领域。当前的挑战之一是如何提高异常检测的准确性，这需要有效地建模视频数据的空间维度和时间维度信息。生成对抗网络（GANs）因其结构优势而被广泛应用于视频异常行为检测。方法：本文提出了一种改进的生成对抗网络方法，用于视频异常行为检测。该方法在生成对抗网络的生成网络U-net部分引入了门控自注意力机制，用于

不菜不菜·2023-09-21 06:05

LoRA模型是什么？

LoRA提议冻结预训练模型的权重，并在每个Transformer块中注入可训练层（称为秩分解矩阵）。这大大减少了可训练参数的数量和GP

黑风风·2023-09-21 05:02

深度学习模型: transformer

Transformer是一种深度学习模型，它被广泛用于自然语言处理任务，如文本分类、情感分析、机器翻译等。以下是一个用生活例子讲解Transformer的例子：假设你正在参加一个聚会，有很多人在聊天。

田猿笔记·2023-09-21 04:52

视觉Transformer在低级视觉领域的研究综述

视觉Transfomer的基本原理在图像处理过程中，ViT首先将输入的图片分成块，对其进行线性的编码映射后排列成一堆的向量作为编码器的输入，在分类任务中会在这个一维向量加入了一个可学习的嵌入向量用作分类的类别预测结果表示，最后通过一个全连接层输出结果注意力机制注意力机制让网络更聚焦于输入中相关信息的方法，从而减少对无关信息的关注程度计算步骤：将输入X通过函数f(x)将其分成若干个[a1,a2…at

暗魂b·2023-09-21 02:14

BERT：面向语言理解的深度双向Transformer预训练

参考视频：BERT论文逐段精读【论文精读】_哔哩哔哩_bilibili背景BERT算是NLP里程碑式工作！让语言模型预训练出圈！使用预训练模型做特征表示的时候一般有两类策略：1.基于特征featurebased（Elmo）把学到的特征和输入一起放进去做一个很好的特征表达2.基于微调fine-tuning（GPT）但是都用的是单向语言模型↑预测模型，所以限制了语言架构，比如说只能从左往右读Maske

Scabbards_·2023-09-21 00:15

vision transformer

一、网络构建importtorchfromtorchimportnnfromfunctoolsimportpartial#---------------------------------------##（1）patchembedding'''img_size=224:输入图像的宽高patch_size=16：每个patch的宽高，也是卷积核的尺寸和步长in_c=3：输入图像的通道数embed_d

TechMasterPlus·2023-09-20 22:00

推荐频道

transformer论文阅读