captioning 第2页

2020 image captioning最新论文

DenseRelationalImageCaptioningviaMulti-taskTriple-StreamNetworks论文https://arxiv.org/pdf/2010.03855v2.pdf代码https://github.com/Dong-JinKim/DenseRelationalCaptioningCAPWAP:CaptioningwithaPurpose论文：https:

一桥风景·2022-12-30 14:36

End-to-End Attention-based Image Captioning

论文地址：https://arxiv.org/abs/2104.14721一、问题提出目前ImageCaptioning方法主要采用基于规则或基于CNN+RNN的方法。然而，在噪声图像和图像与少量可区分的特征上表现不佳。在药物发现项目中，需要分析和利用已发表的实验数据。然而，大多数publishers不包括计算机可读的符号，如InChI,SMILES等，相反，它们包含类似于图1的结构图。二、模型框

羊飘·2022-12-30 14:06

Describing like Humans: on Diversity in Image Captioning

DescribinglikeHumans:onDiversityinImageCaptioning原文地址时间：2019CVPRIntro当前的imagecaptioning模型虽然在各种指标（BLEUMETEORROUGECIDEr）上超过了人类水平，但是这些以accuracy为度量甚至是训练目标的模型缺少了diversity，为此，本文提出了一个度量图片diversity的metric。div

luputo·2022-12-30 14:06

论文阅读【Entangled Transformer for Image Captioning】

EntangledTransformerforImageCaptioning发表：ICCV2019idea：典型的注意机制很难识别等价的视觉信号，尤其是在预测高度抽象的单词时。这种现象被称为视觉和语言之间的语义鸿沟。这个问题可以通过提供与语言同源的语义属性来解决。主要是沿用了transformer架构和设计，在encoder阶段使用了两个独立的transformerencoder分别编码视觉信息和

hei_hei_hei_·2022-12-30 14:35

用于Image Captioning的变分Transformer模型！

【摘要】在生成自然且语义正确的字幕时，准确度和多样性是两个基本的可度量表现。目前已经做出了许多努力，以加强其中一个，而另一个由于权衡差距而衰退。然而，妥协并没有取得进展。衰减的多样性使captioner成为一个重复机器，衰减的准确性使其成为一个假的描述机器。在这项工作中，作者开发了一种新的变分Transformer（VariationalTransformer）框架，以同时提高精度和多样性。为了保

FightingCV·2022-12-30 14:34

【论文阅读笔记】Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering.

Bottom-UpandTop-DownAttentionforImageCaptioningandVisualQuestionAnswering.2018-CVPRP.Anderson,X.He,C.Buehler,D.Teney,M.Johnson,S.Gould,andL.Zhang.什么是“自上而下”，“自下而上”？类比人类视觉的注意力机制：自上而下：基于某种任务，通过意识，集中地关注某物

little06960·2022-12-30 07:34

（基于Captioning/CLIP/伪标签/Prompt）...

点击下方卡片，关注“自动驾驶之心”公众号ADAS巨卷干货，即可获取点击进入→自动驾驶之心【目标检测】技术交流群后台回复【2D检测综述】获取鱼眼检测、实时检测、通用2D检测等近5年内所有综述！目标检测是人工智能最突出的应用之一，也是深度学习最成功的任务之一。然而，尽管深度对象检测取得了巨大进步，例如FasterR-CNN，已经能取得非常不错的准确性，但训练此类模型需要昂贵且耗时的监督信号，他们都要靠

自动驾驶之心·2022-12-29 17:53

Show and Tell Lessons learned from the 2015 MSCOCO Image Captioning Challenge论文及tensorflow源码解读

ShowandTellLessonslearnedfromthe2015MSCOCOImageCaptioningChallenge论文及tensorflow源码解读论文1ModelOverview文章目的ModelImagedecoderLSTMbasedSentenceGeneratorInferenceEvalutionSourcecode1数据预处理1build_model11build_

zhoujunr1·2022-12-28 13:58

MSCOCO online test servier for Image Captioning

参考博客：在MSCOCO的test-dev数据集上测试过程（如何在MSCOCO服务器上提交测试结果）链接：https://blog.csdn.net/qq_41375609/article/details/108394066https://competitions.codalab.org/COCO在线测试平台网址。https://cocodataset.org/#downloadCOCO数据集下载

不做科研的胖兵·2022-12-28 13:22

论文阅读笔记Attention on Attention for Image Captioning.

AttentiononAttentionforImageCaptioning.2019-ICCVL.Huang,W.Wang,J.Chen,andX.-Y.Wei.问题解码器几乎不知道注意力加权向量V^和给定的查询Q是否相关或如何相关。在某些情况下，注意力结果不是解码器所期望的。比如当没有满足特定查询的需求时，注意模块仍然返回一个加权平均向量，这与查询完全无关。思路从查询Q和加权值V^，生成“信息

little06960·2022-12-28 13:21

论文解读：DenseCap: Fully Convolutional Localization Networks for Dense Captioning

本篇论文解读的排版主要参见原文的格式，针对原文中的每一个小节进行展开，有的是对原文的一个提炼和简单概括，有的是对原文中涉及但是又没有详细介绍的技术的补充和说明。原文连接：https://cs.stanford.edu/people/karpathy/densecap/作者个人主页：https://cs.stanford.edu/people/jcjohns/PS：本篇博文不是对原文的简单翻译，论文

ZeroZone零域·2022-12-28 13:51

image captioning经典论文分类整理+部分有源码

Attention-BasedMethodsO.Vinyals,A.Toshev,S.Bengio,andD.Erhan.Showandtell:Aneuralimagecaptiongenerator.CVPR2015.https://github.com/karpathy/neuraltalkK.Xu,J.Ba,R.Kiros,K.Cho,A.Courville,R.Salakhudinov,

little06960·2022-12-28 13:48

论文笔记：VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning

视觉词汇预训练（visualvocabularypre-training，简称VIVO）技术，即通过弱监督学习方法对图像描述模型进行预训练，其中包括两个阶段：预训练和微调推断。基于大型Transformer神经网络，VIVO在没有文本标签的数据集OpenImages上对文本和图像的多模态进行预训练，令模型学会识别图像中的常见物体和生物并标记它们，并建立起将文本和图片联系起来的视觉词表。视觉图表就是

SCUT_JQ·2022-12-25 21:01

21.VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning

生成能够描述在字幕标注的训练数据中看不见的新对象的图像字幕是非常理想的，但也是具有挑战性的，这是在新对象字幕挑战(nocaps)中评估的能力。在这个挑战，没有额外的图像字幕训练数据，COCO字幕是允许的模型训练。因此，传统的视觉语言预训练(VLP)方法无法应用。本文提出了在没有字幕标注的情况下进行预训练的视觉词汇预训练(VIVO)。通过打破VLP中成对图像-标题训练数据的依赖关系，VIVO可以利用

热爱文学的码农·2022-12-25 21:54

论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

论文：Bottom-UpandTop-DownAttentionforImageCaptioningandVisualQuestionAnsweringhttp://openaccess.thecvf.com/content_cvpr_2018/html/Anderson_Bottom-Up_and_Top-Down_CVPR_2018_paper.html在以往的图像描述或者视觉问答的深度网络模

金融科技自习生·2022-12-16 20:17

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》——2018 CVPR论文笔记

这是一篇2018年的CVPR的论文，使用自下而上和自上而下相结合的注意力机制实现了imagecaptioning和VQA，作者使用这个注意力模型在imagecaptioning上取得了非常好的效果，在2017年的VQA挑战赛中也取得了冠军。论文链接：CVPR2018OpenAccessRepository关联论文：TipsandTricksforVisualQuestionAnswering:Le

BXDBB·2022-12-16 20:47

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

这是CVPR2018Oral的一篇关于ImageCaptioning和VisualQuestionAnswering的文章，paper链接https://arxiv.org/abs/1707.07998，作者的homepagehttp://www.panderson.me/，code已经被released出来了https://github.com/peteanderson80/bottom-up-

fuxin607·2022-12-16 20:47

CVPR 2018 Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

论文地址：https://arxiv.org/pdf/1707.07998.pdfBackground在本文方法出现之前，大多数imagecaptioning模型的视觉特征提取都是使用CNN来提取gridfeatures。本文提出了使用目标检测方法，得到一个图片中相对重要的目标区域来进行视觉特征的提取。如下图所示，左边是常规的gridfeatures，右边是本文提出的目标检测特征提取方法。其次在这

leeyns·2022-12-16 20:17

【论文阅读】多模态模型CoCa

我们提出了对比Captioner模型(CoCa)，该模型采用经过对比损失和captioning损失训练的编码器-解码器架构。

orangerfun·2022-12-16 07:23

【CVPR2020】Meshed-Memory Transformer for Image Captioning

【CVPR2020】Meshed-MemoryTransformerforImageCaptioning附：论文下载地址论文主要贡献图像区域及其关系以多层次方式进行编码，其中考虑了低层次和高层次关系。当对这些关系建模时，该模型可以通过使用持久记忆向量来学习和编码先验知识。句子的生成采用多层次结构，利用低层次和高层次的视觉关系，而不是只有视觉模态的单一输入。这是通过学习的门控机制实现的，该机制对每个

枉费红笺·2022-12-13 06:26

论文笔记：Meshed-Memory_Transformer_for_Image_Captioning_CVPR2020

背景：transformer-basedarchitectures没有充分利用到多模型图像字幕。创新点：我们提出了一个新型fully-attention图像字幕算法，对于imagecaption我们提出了一个带有内存的网格transformer。这个结构优化了图像编码器和语言生成步骤，它学习集成先验知识的图像区域之间关系的多级表示，并在解码阶段使用网格状连接来利用低和高级特征。结论：我们的模型包含

Joey Twan·2022-12-13 06:26

阅读笔记：XGPT: Cross-modal Generative Pre-Training for Image Captioning

XGPT:Cross-modalGenerativePre-TrainingforImageCaptioningContribution现有大多数VLpre-trainedmodels基本都是Transformer-Encoder结构的，不适用于Vision-and-languagegenerationtasks，因为：Ononehand,pre-trainedmodelsdevelopedfor

Araloak·2022-12-13 06:56

【CVPR2020 image caption】读Meshed-Memory Transformer for Image Captioning

论文信息论文名称：Meshed-MemoryTransformerforImageCaptioning（用于图像描述的带存储器的网状Transformer）原论文地址：下载地址官方开源代码地址：代码本篇博客参考文章：1、[CVPR2020]Meshed-MemoryTransformerforImageCaptioning2、论文笔记：Meshed-Memory_Transformer_for_I

饿了就干饭·2022-12-13 06:53

CVPR2021-RSTNet-Captioning with Adaptive Attention on Visual and Non-Visual Words

论文地址:CVPR2021-RSTNet-CaptioningwithAdaptiveAttentiononVisualandNon-VisualWords背景介绍在imagecaptioning领域最常使用的是encoder-decoder框架。最开始研究者都是使用CNN进行视觉特征的提取，然后在使用RNN进行句子的生成。近几年，基于区域的(region-based)的视觉特征提取占了主流地位。

leeyns·2022-12-13 06:20

CVPR2020-Meshed-Memory Transformer for Image Captioning

论文地址：Meshed-MemoryTransformerforImageCaptioning(thecvf.com)Background本文在transformer的基础上，对于ImageCaption任务，提出了一个全新的fully-attentive网络。在此之前大部分imagecaptioning的工作还是基于CNN进行特征提取再有RNNs或者LSTMs等进行文本的生成。本文的主要创新点为

leeyns·2022-12-13 06:17

【论文笔记】Unified Vision-Language Pre-Training for Image Captioning and VQA

ThispaperpresentsaunifiedVision-LanguagePre-training(VLP)model.Themodelisunifiedinthat(1)itcanbefine-tunedforeithervision-languagegeneration(e.g.,imagecaptioning)orunderstanding(e.g.,visualquestionans

烫烫烫烫的若愚·2022-12-06 10:33

论文笔记：Meshed-Memory Transformer for Image Captioning

前言在看这篇论文之前首先要了解transformer，如果还没了解的需要先去看transformer。本小白是在学习了transformer之后，开始阅读使用transformer来做imagecaption的文章。这篇论文是CVPR2020的一篇论文，作者在摘要中提到虽然基于Transformer的体系结构代表了序列建模任务(如机器翻译和语言理解)的最新水平。然而，它们对图像描述等多模态上下文的

詹姆斯德1·2022-12-06 10:03

【学习周报9.26 ~ 10.1】Hierarchical Modular Network for Video Captioning(CVPR2022)

学习内容：论文：HierarchicalModularNetworkforVideoCaptioning(CVPR2022)论文：End-to-EndObjectDetectionwithTransformers（ECCV2020）WordNettanh函数Inception-ResNetv2学习时间：9.26~10.1学习笔记：在论文[HierarchicalModularNetworkforV

Bohemian_mc·2022-12-05 14:44

论文阅读 CLIPScore: A Reference-free Evaluation Metric for Image Captioning

论文阅读CLIPScore:AReference-freeEvaluationMetricforImageCaptioningProblem：前人指标需要参考文本的问题Solution：采用CLIP来解决需要参考的问题Contribution:提出一种不需要参考文本的评价指标；提出一个reference增强指标RefCLIPScore；verifythatCLIP-Sissensitivetoad

Enabler_Rx·2022-12-02 21:12

spellgcn 论文解读_ICCV 2019 论文解读 | 基于层次解析的Image Captioning

原标题：ICCV2019论文解读|基于层次解析的ImageCaptioning©PaperWeekly原创·作者｜蔡文杰学校｜华南理工大学研究方向｜计算机视觉目前大多数的imagecaptioning模型采用的都是encoder-decoder的框架。本文在encoder的部分加入了层次解析(HierarchyParsing,HIP)结构。HIP把图片解析成树状结构：根节点是整个图片，中间节点则是

weixin_39732716·2022-12-02 21:11

论文笔记：Auto-Encoding Scene Graphs for Image Captioning

Auto-EncodingSceneGraphsforImageCaptioning感觉这篇论文老多地方没读懂！1、提出问题当我们将一张包括未见过的场景的图片输入到网络中时，我们通常会得到一个关于一些显著对象的简单而琐碎的描述，如：“thereisadogonthefloor”，这和目标检测得到的结果差不多。而人类在语句中使用inductivebias来构成搭配和语境推理，而传统的编码器-解码器模

刚学编程的小白( •̥́ ˍ •̀ू )·2022-12-02 20:18

ClipCap: CLIP Prefix for Image Captioning

Abstract我们使用CLIP编码作为标题的前缀，通过使用一个简单的映射网络，然后微调一个语言模型来生成图像标题。最近提出的CLIP模型包含丰富的语义特征，经过文本上下文的训练，使其最适合视觉语言感知。我们的关键思想是，结合预先训练的语言模型(GPT2)，我们可以获得对视觉数据和文本数据的广泛理解。因此，我们的方法只需要相当快速的训练，以产生一个合格的字幕模型。无需额外的注释或预先训练，它可以有

Wanderer X·2022-11-23 00:19

图灵奖得主团队提出Pix2Seq，将Detection变成了Image Captioning...

关注公众号，发现CV技术之美▊写在前面本文提出了一种简单通用的目标检测框架Pix2Seq。与目前显式地集成了关于检测任务的先验知识的方法不同，本文的方法简单地将目标检测转换为以像素输入为条件的语言建模任务。对象描述(检测框和类别标签)被表示为离散的token序列，并且作者通过训练神经网络来感知图像并生成所需的序列。作者认为：如果神经网络知道目标在哪里以及目标是什么，那么只需要教模型如何“读出”它们

我爱计算机视觉·2022-11-22 20:52

[CVPR2018]Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Bottom-UpandTop-DownAttention附：论文下载地址主要贡献提出了一个新的LSTM组合模型，包括了attentionLSTM和languageLSTM两个组件。在这个组合模型的基础上引入spatialattention机制（类似于《show,attendandtell》的top-downattention机制）。引入了bottom-up，bottom-up机制基于Faster

枉费红笺·2022-11-22 01:24

论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

论文链接在该论文中，自下而上的机制（基于FasterR-CNN）提出了图像区域，每个区域都有一个相关的特征向量，而自上而下的机制决定了这些特征向量的权重3.1节，描述了实现自下而上注意模型的方法；3.2节，概述了图像字幕模型的架构；3.3节，概述了VQA模型。对于自上而下的注意力组件，两个模型（字幕模型和VQA模型）都使用简单的一次性注意力机制，而不是最近模型都使用的更复杂的方案，例如堆叠、多头或

SCUT_JQ·2022-11-22 01:54

【注意力机制】Bottom-up and top-down attention for image captioning and visual question answering

文章下载地址：https://arxiv.org/pdf/1707.07998.pdf代码地址：GitHub-peteanderson80/bottom-up-attention:Bottom-upattentionmodelforimagecaptioningandVQA,basedonFasterR-CNNandVisualGenome发表地点：CVPR2018fulloral1内容概述针对V

爱吃冰淇淋的小可爱·2022-11-22 01:54

论文解读：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

这是关于VQA问题的第九篇系列文章。本篇文章将介绍论文：主要思想；模型方法；主要贡献。有兴趣可以查看原文：Bottom-UpandTop-DownAttentionforImageCaptioningandVisualQuestionAnswering1，主要思想论文使用了目标检测算法，先找出候选的区域；然后再采用注意力机制去找到重要的区域。文章提出一种自上而下与自下而上相结合的注意力模型方法，应

yealxxy·2022-11-22 01:22

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering阅读笔记

自上而下的视觉注意机制被广泛应用于图像字幕和视觉问答（VQA）中，通过精细的分析甚至多个步骤的推理来实现更深入的图像理解。本文提出了一个自下而上和自上而下的注意机制，使注意力能够在物体和其他显著图像区域的水平上计算。自底向上机制（基于更快的R-CNN）提出图像区域，每个区域都有一个相关的特征向量，而自顶向下机制确定特征权重。一、文章引入在人类视觉系统中，注意力可以通过当前任务确定的自上而下的信号（

untitled713·2022-11-22 01:22

2018：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

摘要本文中，我们提出一种结合bottom-up和top-down的注意力机制，能够在对象和其它显著图像区域的水平上计算注意力。在我们的方法中，bottom-up的机制(基于FasterR-CNN)提出图像区域，每个区域都有一个相关的特征向量，而top-down的机制决定了特征权重。将此方法应用到VQA上，获得2017的VQA挑战中的第一名。一、介绍视觉注意力机制通过学习关注图像中的基于深度神经网络

weixin_42653320·2022-11-22 01:22

【多模态】《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》论文阅读笔记

一、概述这篇文章既做了imagecaption，也做了VQA。所以本文在介绍模型亮点和框架之后，也会对imagecaption和VQA的建模方式进行介绍，因为大多数模型在这两个任务上都是通用的。这篇文章相较于之前介绍的几篇在多模态任务上应用attention机制的文章来说，之前的几篇文章：【多模态】《StackedAttentionNetworksforImageQuestionAnswering

CC‘s World·2022-11-22 01:21

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering 论文精简翻译

摘要自顶向下的视觉注意机制已广泛应用于imagecaption和VQA中。我们提出了一个自底向上和自顶向下相结合的注意力机制，使注意力能够在物体和其他突出的图像区域的水平上进行计算。在我们的方法中，自底向上的机制(基于FasterR-CNN)提取图像区域，每个区域有一个对应的特征向量，而自顶向下的机制确定特征权重。用这个模型我们获得了2017年VQA挑战赛的第一名。1.介绍视觉注意机制被广泛应用于

小猿外·2022-11-22 01:21

论文分享——Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

文章目录文章简介1、背景介绍研究背景概念介绍问题描述IC与VQA领域的主要挑战2、相关研究CNN+RNN体系架构AttentionmechanismBottom-UpandTop-DownAttentionBottom-UpAttentionBottom-UpandTop-DownAttentionFasterRCNN3、本文方法Overviewoftheproposedcaptioningmod

李霁明·2022-11-22 01:51

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》阅读笔记

《Bottom-UpandTop-DownAttentionforImageCaptioningandVisualQuestionAnswering》阅读笔记《Bottom-UpandTop-DownAttentionforImageCaptioningandVisualQuestionAnswering》是一篇关于imagecaption方向的论文，收录在2018CVPR中，最近在阅读这篇论文，

zhaoliwen是猪啊·2022-11-22 01:48

(Paper Reading)Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

IntroductionWithinourapproach,thebottom-upmechanism(basedonFasterR-CNN)proposesimageregions,eachwithanassociatedfeaturevector,whilethetop-downmechanismdeterminesfeatureweightings.Inthispaperweproposea

loopun·2022-11-22 01:48

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

一、摘要自下而上的机制(基于FasterR-CNN)：提取出图像区域，每个区域都有一个相关的特征向量。自上而下的机制：确定特征权重。提出了一种自下而上和自上而下的结合注意力机制，使注意力能够在对象和其他显著图像区域上计算。这是注意力（Attention）被考虑的基础。二、简介视觉注意机制：基于深度神经网络架构，通过学习关注图像中显著的区域来提高性能。自上而下（Top-Down）：非视觉或任务特定环

pinkshell_1314·2022-11-22 01:43

论文阅读：DEEP CAPTIONING WITH MULTIMODAL RECURRENTNEURAL NETWORKS (M-RNN)

DEEPCAPTIONINGWITHMULTIMODALRECURRENTNEURALNETWORKS(M-RNN)0.summaryreccurentlayer(deepRNN)+wordembeddinglayer=languagemodelpartFutureimprovements:1.usemorebetterdeepneuralnetworktoextractmorebetterwor

weixin_42322020·2022-11-21 22:56

论文笔记：Dual-Level Collaborative Transformer for Image Captioning

前言论文详情可以参照这篇，写得很好。本小白这篇内容主要是对论文中的一些思想和图以及部分公式进行自己的解读。如有错误，请多多谅解。论文思想首先，根据论文第一作者在知乎所说（搜这篇论文名称可以看到），自从2018年CVPR《Bottom-upandtop-downattentionforimagecaptioningandvisualquestionanswering》（这篇论文的解析在这里）提出以来

詹姆斯德1·2022-11-21 04:52

【Image Captioning】Improve Image Captioning by Estimating the Gazing Patterns from the Caption

ImproveImageCaptioningbyEstimatingtheGazingPatternsfromtheCaptionDepartmentofComputerScience,TheGeorgeWashingtonUniversity,CVPR2022AbstractCNN等神经网络模型中提取的图像特征中产生类人描述方面达到了良好的性能。然而，之前没有一种明确的方法能够反映人类对图像的感

Vincy_King·2022-11-20 02:58

CS231n-assignment3-Transformer_Captioning

之前已经实现了一个vanillaRNN和用于生成图像标题的任务。在本笔记本中，您将实现变压器解码器的关键部分，以完成相同的任务。跟之前一样ln[1]:#Setupcell.importtime,os,jsonimportnumpyasnpimportmatplotlib.pyplotaspltfromcs231n.gradient_checkimporteval_numerical_gradien

Esaka7·2022-11-03 18:46

Image Captioning with Semantic Attention具有语义注意的图像标题学习笔记

ImageCaptioningwithSemanticAttention具有语义注意的图像标题学习笔记1主要贡献：本文的主要贡献是一种新的图像字幕算法，该算法基于一种新颖的语义注意模型。我们的注意模型自然地将复杂神经网络框架中的自上而下和自下而上方法中的视觉信息结合起来。与最先进的方法相比，我们的算法可以显着提高性能。2论文模型：首先从图像中提取自上而下和自下而上的特征，利用cnn来进行特征提取，

周嘉伟·2022-10-20 22:04

推荐频道

captioning

2020 image captioning最新论文

End-to-End Attention-based Image Captioning

Describing like Humans: on Diversity in Image Captioning

论文阅读【Entangled Transformer for Image Captioning】

用于Image Captioning的变分Transformer模型！

【论文阅读笔记】Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering.

（基于Captioning/CLIP/伪标签/Prompt）...

Show and Tell Lessons learned from the 2015 MSCOCO Image Captioning Challenge论文及tensorflow源码解读

MSCOCO online test servier for Image Captioning

论文阅读笔记Attention on Attention for Image Captioning.

论文解读：DenseCap: Fully Convolutional Localization Networks for Dense Captioning

image captioning经典论文分类整理+部分有源码

论文笔记：VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning

21.VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning

论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》——2018 CVPR论文笔记

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

CVPR 2018 Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

【论文阅读】多模态模型CoCa

【CVPR2020】Meshed-Memory Transformer for Image Captioning

论文笔记：Meshed-Memory_Transformer_for_Image_Captioning_CVPR2020

阅读笔记：XGPT: Cross-modal Generative Pre-Training for Image Captioning

【CVPR2020 image caption】读Meshed-Memory Transformer for Image Captioning

CVPR2021-RSTNet-Captioning with Adaptive Attention on Visual and Non-Visual Words

CVPR2020-Meshed-Memory Transformer for Image Captioning

【论文笔记】Unified Vision-Language Pre-Training for Image Captioning and VQA

论文笔记：Meshed-Memory Transformer for Image Captioning

【学习周报9.26 ~ 10.1】Hierarchical Modular Network for Video Captioning(CVPR2022)

论文阅读 CLIPScore: A Reference-free Evaluation Metric for Image Captioning

spellgcn 论文解读_ICCV 2019 论文解读 | 基于层次解析的Image Captioning

论文笔记：Auto-Encoding Scene Graphs for Image Captioning

ClipCap: CLIP Prefix for Image Captioning

图灵奖得主团队提出Pix2Seq，将Detection变成了Image Captioning...

[CVPR2018]Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

【注意力机制】Bottom-up and top-down attention for image captioning and visual question answering

论文解读：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering阅读笔记

2018：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

【多模态】《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》论文阅读笔记

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering 论文精简翻译

论文分享——Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》阅读笔记

(Paper Reading)Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

论文阅读：DEEP CAPTIONING WITH MULTIMODAL RECURRENTNEURAL NETWORKS (M-RNN)

论文笔记：Dual-Level Collaborative Transformer for Image Captioning

【Image Captioning】Improve Image Captioning by Estimating the Gazing Patterns from the Caption

CS231n-assignment3-Transformer_Captioning

Image Captioning with Semantic Attention具有语义注意的图像标题学习笔记