Transformers》第15页

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 论文笔记

主要结构仍是TransformerInput:a.WordPieceembeddingsb.learnedpositionalembeddings,upto512tokens。c.增加了一个特殊的token:[CLS],用于分类任务。这个token的deepfeature用于分类任务。d.Sentencepairs,两个句子合成一句，并用一个特殊的token:[SEP]隔开。同时增加两个可训练的s

panda1942·2023-03-22 22:20

Datawhale组队学习NLP_Bert抽取式问答学习笔记

本文为学习Datawhale2021.8组队学习NLP入门之Transformer笔记原学习文档地址：https://github.com/datawhalechina/learn-nlp-with-transformers

宝友你好·2023-03-22 07:37

Bert中transformers的一些问题记录

我觉得最详细的就是这个：这里dataset返回多模态信息在处理个人数据集的时候有有时需要返回多模态信息，可以将多模态信息包装为一个字典返回，然后用DataLoader接受就行lassExampleDataset(Dataset):def__init__(self,):passdef__len__(self):passdef__getitem__(self,index):return{"text":

IT_小马哥·2023-03-22 07:55

Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA

1.AbstractVisualQuestionAnswering(VQA)任务，忽略一个重要的模态—图像中的文本，它承载着场景理解和推理的基本信息。例如，在图1中，标志上的深水警告人们现场存在危险，问题明确要求理解和推理图像中的文本，称为TextVQA任务。TextVQA任务，该任务要求阅读和理解图像中的文本来回答问题，现有的方法，对于TextVQA，它们主要基于两种模式之间的自定义pairwi

Tsukinousag·2023-03-20 10:49

基于Transformer的自动驾驶传感器融合研究综述

Transformer的自动驾驶传感器融合研究综述论文地址和代码：https://arxiv.org/pdf/2302.11481.pdfhttps://github.com/ApoorvRoboticist/Transformers-SensorFusion

stefan0559·2023-03-20 07:06

DPT：密集预测的视觉Transformers

标题：VisionTransformersforDensePrediction原文：https://arxiv.org/abs/2103.13413开源：https://github.com/intel-isl/DPT（1.3kStars）摘要：我们引入了密集视觉Transformer，这是一种利用视觉Transformer代替卷积网络作为密集预测任务主干的架构。我们将视觉Transformer各

Vinteuil·2023-03-18 20:16

将TF-checkpoint 文件转换为 pytorch-checkpoint 踩坑

改代码将Bert的Tensorflow检查点转换为Pytorch的检查点，整理Transformers的代码得到，为了方便使用同时记录踩的坑。Tensorflow检查点文件解析。

BoringFantasy·2023-03-16 23:59

隐藏实力的 JSON.stringify，原来还可以这么用！

constfirstItem={title:'Transformers',year:

1024译站·2023-03-13 12:41

module ‘torch‘ has no attribute ‘BoolTensor‘

Traceback(mostrecentcalllast):File"/home/test/anaconda3/envs/pytorch/lib/python3.7/site-packages/transformers

nangua06·2023-03-13 07:13

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding-论文翻译

BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding摘要我们介绍一种新的语言表达模型叫做BERT,它代表Transformers

AiBigData·2023-03-13 07:02

BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding

参考BERT原文[1810.04805]BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding(arxiv.org)【(强推)李宏毅2021/2022春机器学习课程】https://www.bilibili.com/video/BV1Wv411h7kN/?p=73&share_source=copy_web&

huihui12a·2023-03-13 07:32

阅读笔记-CoaT: Co-Scale Conv-Attentional Image Transformers

来源：arXiv:2104.06399v1代码：https://github.com/mlpc-ucsd/CoaTtitleIntroductionTransformer和CNN的区别。CNN通过多层的卷积网络逐步扩大感受野，实现content和context的信息融合。而transformer中每一层的每一个位置所能感受的区域都是整个featmap，且计算attention时使用的时两个位置特征

熙熙江湖·2023-03-11 10:44

论文阅读《Revisiting Stereo Depth Estimation From a Sequence-to-Sequence Perspective with Transformers》

论文地址：https://ieeexplore.ieee.org/document/9711118源码地址：https://github.com/mli0603/stereo-transformer概述此文提出了一个基于transformer的匹配方法名为StereoTransformer(STTR)，该方法使用位置信息与注意力机制来提高模型表现。该模型有以下几点优势：放宽了视差范围限制明确了

CV科研随想录·2023-03-10 13:44

使用python实现ChatGPT

要使用Python实现ChatGPT，首先需要安装OpenAI的transformers库和GPT-3API的python客户端。

爆燃·火星·2023-03-10 05:01

Vision Transformer图像分类(MindSpore实现)

由于Transformers的计算效率和可扩展性，它已经能够训练具有超过100B参数的空前规模的模型。ViT则是自然语言处理和计算机视觉两个领域的融合结晶。

ZOMI酱·2023-03-10 00:42

DINO&PAWS

self-distillationwithnolabels)讲解链接：https://sh-tsang.medium.com/review-dino-emerging-properties-in-self-supervised-vision-transformers-cfddbb4d35491.1

Alice01010101·2023-03-09 11:27

【读点论文】EfficientFormer: Vision Transformers at MobileNet Speed，运用纯transformer架构对比卷积模型在终端上部署的推理速度

EfficientFormer:VisionTransformersatMobileNetSpeedAbstract视觉transformer(ViT)在计算机视觉任务中取得了快速的进展，在各种基准上取得了有前景的结果。然而，由于大量的参数和模型设计(如注意力机制)，基于维数的模型通常比轻量级卷积网络慢几倍。因此，为实时应用程序部署ViT特别具有挑战性，特别是在资源受限的硬件(如移动设备)上。近年

羞儿·2023-03-09 11:57

transformers、pytorch-transformers、pytorch-pretrained-bert的使用与介绍

一、transformers、pytorch-transformers、pytorch-pretrained-bert三者的关系网上的一些介绍是“transformers包又名pytorch-transformers

桉夏与猫·2023-03-09 11:39

DINO Emerging Properties in Self-Supervised Vision Transformers 论文阅读

EmergingPropertiesinSelf-SupervisedVisionTransformers阅读笔记介绍论文作者提出了一种新的自监督学习方法，self-distillationwithnolabels（DINO）。并将其应用在了CNN和VisionTransformer(ViT)结构上，均取得了不错的效果，且ViT的效果还要优于CNN。特点self-supervisedViT的fea

MiHao_YOUNG·2023-03-09 10:27

【自监督论文阅读笔记】Emerging Properties in Self-Supervised Vision Transformers

（2021）Abstract在本文中，我们质疑自监督学习是否为VisionTransformer(ViT)[16]提供了与卷积网络(convnets)相比突出的新属性。除了使自监督方法适应这种架构的效果特别好之外，我们还进行了以下观察：首先，自监督的ViT特征包含关于图像语义分割的显式信息，这在有监督的ViTs和卷积网络中都没有那么明显。其次，这些特征也是优秀的k-NN分类器，在ImageNet上

YoooooL_·2023-03-09 10:52

BERT常见面试题问题

算法工程师常见面试问题总结之BERT面试常见问题总结1.简单描述下BERT的结构答：BERT是Google在2018年提出的一种基于Transformers的预训练语言模型。

莱维贝贝、·2023-03-09 07:30

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

1.简介大名鼎鼎的BERT，基于目前流行的transformer结构，一经推出就刷新了11个NLP任务的SOTA。并且模型可以直接接入到下游任务，从而受到广大机器学习从业者的追捧。那么bert到底是什么呢？bert的作者声称，预训练的下游任务有两种：A.整句级别的，关注句子之间关系的自然语言推断和句子释义。B.单词级别的，比如命名实体识别和问答。预训练模型如何使用也有两种流派：基于特征和基于精调。

0_oHuanyu·2023-03-09 05:58

TCKGE: Transformers with contrastive learning for knowledge graph embedding

概述：以前的一些知识图谱嵌入方法由于其浅层的网络结构，不能解决复杂的多关系知识图谱。因此文中针对此种现象，提出了TCKGE——针对于学习多关系知识图谱中复杂的语义信息。TCKGE能够有效的捕获知识图谱中丰富的语义信息，其利用了Transformer来建立深度的等级结构去动态的学习实体和关系的embedding，同时，为了保证获得健壮的embedding，作者也加入了对比学习策略，通过探索几种不同的

嗨I，你Y·2023-02-27 18:40

使用英特尔 Sapphire Rapids 加速 PyTorch Transformers，第 2 部分

在最近的一篇文章中，我们介绍了代号为SapphireRapids的第四代英特尔至强CPU及其新的先进矩阵扩展(AMX)指令集。通过使用AmazonEC2上的SapphireRapids服务器集群并结合相应的英特尔优化库，如英特尔PyTorch扩展(IPEX)，我们展示了如何使用CPU进行高效的分布式大规模训练，与上一代至强(IceLake)相比，SapphireRapids实现了8倍的加速，取得了

·2023-02-23 23:36

EfficientFormer 提升速度的同时保持性能，使 ViT 在移动端成为可能

为了让transformers同时拥有高性能和速度，EfficientFormer重新审视了ViT模型中使用的网络架构和运算符，引入一个维度一致的纯Transformer作为设计范例。大量实验表

·2023-02-23 19:59

【ECCV 2022】TeSTRa：稳定的流式视频识别

然而在大多数现有方法中，尤其是基于Transformers架构的网络，计算复杂度往往会随着所考虑的变化的长度而剧烈增长。

·2023-02-21 15:17

NLP讲座4:上下文表示法和预训练

最想学习哪些内容，汇总如下：变压器（Transformers）BERT问题解答（QA）文本生成和摘要预训练的词向量：早年的Collobert，Weston等人，2011成绩预训练的词向量：当前（2014

泥人冷风·2023-02-18 20:56

Efficient Transformers: A Survey

Transformers是将Tran

cornbig·2023-02-18 20:25

使用 PyNeuraLogic 超越 Transformers

展示神经符号编程的力量1.简介在过去的几年里，我们看到了基于Transformer的模型的兴起，并在自然语言处理或计算机视觉等许多领域取得了成功的应用。在本文中，我们将探索一种简洁、可解释和可扩展的方式来表达深度学习模型，特别是Transformer，作为混合架构，即通过将深度学习与符号人工智能结合起来。为此，我们将在名为PyNeuraLogic的Python神经符号框架中实现模型。将符号表示与深

·2023-02-17 23:52

transformer bert微调实例（文本分类，超详细解析）

官方参考文档：https://huggingface.co/docs/transformers/training#additional-resources文本分类实例解析：https://www.freesion.com

骑单车的王小二·2023-02-17 21:25

基于 Hugging Face Datasets 和 Transformers 的图像相似性搜索

基于HuggingFaceDatasets和Transformers的图像相似性搜索通过本文，你将学习使用Transformers构建图像相似性搜索系统。

·2023-02-17 13:31

基于 Hugging Face Datasets 和 Transformers 的图像相似性搜索

基于HuggingFaceDatasets和Transformers的图像相似性搜索通过本文，你将学习使用Transformers构建图像相似性搜索系统。

HuggingFace·2023-02-17 12:00

了解 Transformers 是如何“思考”的

Transformer模型是AI系统的基础。已经有了数不清的关于"Transformer如何工作"的核心结构图表。但是这些图表没有提供任何直观的计算该模型的框架表示。当研究者对于Transformer如何工作抱有兴趣时，直观的获取他运行的机制变得十分有用。ThinkingLikeTransformers这篇论文中提出了transformer类的计算框架，这个框架直接计算和模仿Transformer

·2023-02-17 12:28

DiT：Transformers 与扩散模型强强联手

那么在其他领域大杀四方的Transformers在扩散模型中是否还有用武之地呢？基于这一想法，DiT（DiffusionTransformer）利用transformer结构探索了一种新的扩散模型。

·2023-02-17 12:26

SVFormer：走进半监督动作识别的视觉 Transformer

·2023-02-17 11:22

论文笔记：Vision Transformers for Dense Prediction

中文标题:密集预测的视觉Transformers创新点DPT是一种密集预测架构，它基于编码器-解码器的设计，利用一个Transformer作为编码器的基本模块。

BlueagleAI·2023-02-17 00:08

情感识别难？图神经网络创新方法大幅提高性能

随着诸如Attention和Transformers之类新发明的出现，BERT和XLNet一次次取得进步，使得文本情感识别之类的等任务变得更加容易。

喜欢打酱油的老鸟·2023-02-16 22:52

了解 Transformers 是如何“思考”的

Transformer模型是AI系统的基础。已经有了数不清的关于"Transformer如何工作"的核心结构图表。但是这些图表没有提供任何直观的计算该模型的框架表示。当研究者对于Transformer如何工作抱有兴趣时，直观的获取他运行的机制变得十分有用。ThinkingLikeTransformers这篇论文中提出了transformer类的计算框架，这个框架直接计算和模仿Transformer

·2023-02-16 22:35

【论文笔记2】Long-Short Transformer: Efficient Transformers for Language and Vision

论文原文：https://arxiv.org/abs/2107.02192论文笔记：百度网盘提取码：nzsi1.SummaryContributions：（1）提出了一种长短时Transformer模型：Long-ShortTransformer(Transformer-LS)：Short：利用滑动窗口获取短序列（局部）attentionLong：基于动态投影获取长序列（全局）attention（

开着奔驰种地·2023-02-16 22:17

Long Live Transformers! ）：下

2017年，Google在论文AttentionisAllyouneed中提出了Transformer模型，其使用Self-Attention结构取代了在NLP任务中常用的RNN网络结构。而且实验也证明Transformer在效果上已经完败传统的RNN网络。Transformer的整体模型架构如下图所示。尽管它看起来还是很复杂的，但其实我们已经知道了像全连接层（FeedForward），Softm

白马负金羁·2023-02-16 22:14

【论文精读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

自然语言处理（NaturalLanguageProcessing，NLP）领域内的预训练语言模型，包括基于RNN的ELMo和ULMFiT，基于Transformer的OpenAIGPT及GoogleBERT等。预训练语言模型的成功，证明了我们可以从海量的无标注文本中学到潜在的语义信息，而无需为每一项下游NLP任务单独标注大量训练数据。此外，预训练语言模型的成功也开创了NLP研究的新范式，如上图所示

拟禾·2023-02-16 21:57

Transformers与图神经网络的关系，我们能从transformer学习到什么？

1、导读这个观点的目的是构建Transformer结构背后的NLP上的直觉，以及与图神经网络的联系。图深度学习”听起来很厉害，但有什么大的商业成功的故事吗？它有没有被部署在实际app中？除了Pinterest、阿里巴巴和Twitter的推荐系统外，一个非常小的成功就是Transformer结构，这个结构带来了NLP的风暴。通过这篇文章，我想在GraphNeuralNetworks(GNNs)和tr

BUAA～冬之恋·2023-02-07 12:03

[深度学习] 自然语言处理 --- Bert开发实战 (Transformers）

本文主要介绍如果使用huggingface的transformers2.0进行NLP的模型训练除了transformers，其它兼容tf2.0的bert项目还有：我的博客里有介绍使用方法[深度学习]自然语言处理

WayneZ~·2023-02-07 09:28

（四十六）：VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

（四十六）：VATT:TransformersforMultimodalSelf-SupervisedLearningfromRawVideo,AudioandTextAbstract1.Introduction2.Relatedwork2.1.TransformersinVision2.2.Self-SupervisedLearning3.Approach3.1.TokenizationandP

Laura_Wangzx·2023-02-06 13:55

[linux] ValueError: Custom＞TFBertMainLayer has already been registered to ＜class ‘transformers.model

transformers报错：ValueError:Custom>TFBertMainLayerhasalreadybeenregisteredto<class'transformers.model

(∩ᵒ̴̶̷̤⌔ᵒ̴̶̷̤∩)·2023-02-06 11:41

Tokenizer与TokenizerFast不一样，transformers踩坑

做实验时发现，同一个模型，同一个数据集，测试出的loss竟然相差十倍。经过反复测试发现居然是Tokenizer的问题！！！以T5为例，fromtransformersimportAutoTokenizer,AutoConfig,T5Config,T5Tokenizermodel_name="ClueAI/PromptCLUE-base-v1-5"tokenizer1=T5Tokenizer.fro

防搞活机·2023-02-05 23:35

pytorch/transformers 最后一层不加激活函数的原因

pytorch/transformers最后一层不加激活函数原因之前看bert及其各种变种模型，发现模型最后一层都是FC（fullconnect）的线性层Linear层，现在讲解原因实验：笔者试着在最后一层后加上了

浪漫的数据分析·2023-02-05 15:38

Pytorch transformers tokenizer 分词器词汇表添加新的词语和embedding

目标：在NLP领域，基于公开语料的预训练模型，在专业领域迁移时，会遇到专业领域词汇不在词汇表的问题，本文介绍如何添加专有名词到预训练模型。例如，在bert预训练模型中，并不包含财经词汇，比如‘市盈率’等财务指标词汇，本文将介绍：如何把专业名词添加到词汇表中方法1：修改vocab方法2：更通用，修改分词器tokenizer如何保留现有模型能力，并训练新词汇的embedding表示内容：NLP的分词N

浪漫的数据分析·2023-02-05 15:00

BERT:Pre-training of Deep Bidirectional Transformers for Language

BERT:BidirectionalEncoderRepresentationsfromTransformers1.创新点BERT旨在通过联合调节所有层中的左右上下文来预先训练来自未标记文本的深度双向表示。2.Bert总共分两步：pre-training：在预训练期间，模型在不同的预训练任务上训练未标记的数据。fine-tuning：对于微调，首先使用预先训练的参数初始化BERT模型，并使用来自下

直接往二·2023-02-05 14:13

openmmlab第二次课程随记

之后从算法原理——卷积神经网络入手，解释了早期实用的卷积神经网络架构，例如AlexNet、GoingDeeper等，再此基础之上，为解决卷积神经网络过深梯度消失等问题，又介绍了卷积神经网络的演变版本——残差网络、Transformers

m0_52154064·2023-02-04 18:58

推荐频道

Transformers》

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 论文笔记

Datawhale组队学习NLP_Bert抽取式问答学习笔记

Bert中transformers的一些问题记录

Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA

基于Transformer的自动驾驶传感器融合研究综述

DPT：密集预测的视觉Transformers

将TF-checkpoint 文件转换为 pytorch-checkpoint 踩坑

隐藏实力的 JSON.stringify，原来还可以这么用！

module ‘torch‘ has no attribute ‘BoolTensor‘

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding-论文翻译

BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding

阅读笔记-CoaT: Co-Scale Conv-Attentional Image Transformers

论文阅读《Revisiting Stereo Depth Estimation From a Sequence-to-Sequence Perspective with Transformers》

使用python实现ChatGPT

Vision Transformer图像分类(MindSpore实现)

DINO&PAWS

【读点论文】EfficientFormer: Vision Transformers at MobileNet Speed，运用纯transformer架构对比卷积模型在终端上部署的推理速度

transformers、pytorch-transformers、pytorch-pretrained-bert的使用与介绍

DINO Emerging Properties in Self-Supervised Vision Transformers 论文阅读

【自监督论文阅读笔记】Emerging Properties in Self-Supervised Vision Transformers

BERT常见面试题问题

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

TCKGE: Transformers with contrastive learning for knowledge graph embedding

使用英特尔 Sapphire Rapids 加速 PyTorch Transformers，第 2 部分

EfficientFormer 提升速度的同时保持性能，使 ViT 在移动端成为可能

【ECCV 2022】TeSTRa：稳定的流式视频识别

NLP讲座4:上下文表示法和预训练

Efficient Transformers: A Survey

使用 PyNeuraLogic 超越 Transformers

transformer bert微调实例（文本分类，超详细解析）

基于 Hugging Face Datasets 和 Transformers 的图像相似性搜索

基于 Hugging Face Datasets 和 Transformers 的图像相似性搜索

了解 Transformers 是如何“思考”的

DiT：Transformers 与扩散模型强强联手

SVFormer：走进半监督动作识别的视觉 Transformer

论文笔记：Vision Transformers for Dense Prediction

情感识别难？图神经网络创新方法大幅提高性能

了解 Transformers 是如何“思考”的

【论文笔记2】Long-Short Transformer: Efficient Transformers for Language and Vision

Long Live Transformers! ）：下

【论文精读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Transformers与图神经网络的关系，我们能从transformer学习到什么？

[深度学习] 自然语言处理 --- Bert开发实战 (Transformers）

（四十六）：VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

[linux] ValueError: Custom＞TFBertMainLayer has already been registered to ＜class ‘transformers.model

Tokenizer与TokenizerFast不一样，transformers踩坑

pytorch/transformers 最后一层不加激活函数的原因

Pytorch transformers tokenizer 分词器词汇表添加新的词语和embedding

BERT:Pre-training of Deep Bidirectional Transformers for Language

openmmlab第二次课程随记