Captioning）第3页

图像描述文献阅读（1）Comprehending and Ordering Semantics for Image Captioning

1.摘要理解图像中丰富的语义并按语言顺序排序，对于为图像标题编写一个有视觉基础的、语言上连贯的描述至关重要。现代技术通常利用预先训练好的物体检测器/分类器来挖掘图像中的语义，而对语义的内在语言排序却没有充分开发。在本文中，作者基于Transformer提出了一种新方法COS-Net，将语义理解和排序过程统一到新的框架内。首先利用一个跨模态的检索模型搜索每个图像相关的句子，并将搜索到的句子中的所用单

安静到无声·2022-10-20 22:27

coco数据集目标检测论文_数据集COCO在目标检测的介绍与使用

COCO数据集介绍COCO数据集主页：http://cocodataset.orgCOCO数据集是大规模的数据集，用于ObjectDetection+Segmentation+Localization+Captioning

weixin_39928233·2022-09-29 07:02

论文笔记：Convolutional Image Captioning

ConvolutionalImageCaptioning1、提出方法近年来，使用由长短期记忆(LSTM)单元驱动的循环神经网络，在图像描述方面取得了重大进展。尽管它缓解了梯度消失问题，并且具有强大的记忆依赖性的能力，但LSTM单元是复杂的，并且在时间上具有内在的顺序性。2、创新点提出了一种卷积（基于CNN）的图像描述方法，并使用注意力机制来利用空间图像特征。3、方法3.1、RNNApproach这

刚学编程的小白( •̥́ ˍ •̀ू )·2022-09-16 07:18

项目：CV和NLP结合的Attention视频字幕生成算法实现

参考：课程：学堂在线的清华训练营《驭风计划：培养人工智能青年人才》（满分作业）代码：sgrvinod/a-PyTorch-Tutorial-to-Image-Captioning:Show,Attend

KPer_Yang·2022-08-30 07:29

论文笔记：Self-critical Sequence Training for Image Captioning

Self-criticalSequenceTrainingforImageCaptioning1.提出问题文本的生成模型通常经过训练，以使用反向传播在给定前一个ground-truth单词的情况下最大化下一个ground-truth单词的可能性。这种方法被称为”TeacherForcing“。但是，这种方法会在训练和测试之间造成不匹配，因为在测试时，模型使用模型分布中先前生成的单词来预测下一个单词

刚学编程的小白( •̥́ ˍ •̀ू )·2022-07-18 19:51

论文笔记：Look Back and Predict Forward in Image Captioning# Look Back and Predict Forward in Image Capti

LookBackandPredictForwardinImageCaptioning1、提出问题大多数现有的基于注意力的图像描述方法都在一个时间步内关注当前单词和视觉信息并生成下一个单词，而不考虑视觉和语言的连贯性。2、创新点提出一种模型：LookBackandPredictForwardmethod(LBPF)，以进一步整合过去的视觉信息和未来的语言信息。包括LookBack（LB）和Predi

刚学编程的小白( •̥́ ˍ •̀ू )·2022-07-18 19:51

论文阅读【Open-book Video Captioning with Retrieve-Copy-Generate Network】

Open-bookVideoCaptioningwithRetrieve-Copy-GenerateNetwork概要发表：CVPR2021idea：作者认为之前的方法由于生成caption的时候缺乏一定的指导，因此生成的caption比较单调，并且由于训练数据集是固定的，所以模型训练后学到的知识是不可扩展的。作者想到通过video-to-text检索任务，从语料库中检索句子作为caption的指

hei_hei_hei_·2022-07-08 07:52

论文阅读 [TPAMI-2022] Context-Aware Visual Policy Network for Fine-Grained Image Captioning

论文阅读[TPAMI-2022]Context-AwareVisualPolicyNetworkforFine-GrainedImageCaptioning论文搜索(studyai.com)搜索论文:Context-AwareVisualPolicyNetworkforFine-GrainedImageCaptioning搜索论文:http://www.studyai.com/search/who

北岭狼人·2022-06-28 19:42

《SCA-CNN：Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning》论文笔记

1.前言视觉上的attention已经被成功运用在了结构预测任务中。例如，visualcaptioning与questionanswering。现有的视觉attention模型都是基于空间的，既是重新加权最后一个卷积层的featuremap。其原理如下图所示，但是这样的或许并不能会很好符合attention的机制。文章中指出，基于CNN的原理，其所提取的featuremap具有spatial、ch

m_buddy·2022-06-10 07:37

show,attend and tell(image caption论文复现总结)

论文中的核心思想GitHub上的Image-Caption项目https://github.com/sgrvinod/a-PyTorch-Tutorial-to-Image-Captioning研究的问题

算法菜鸟飞高高·2022-05-13 07:50

Raki的读paper小记：WaveTransformer: A Novel Architecture for Audio Captioning

Abstract&Introduction&RelatedWork研究任务自动音频字幕已有方法和相关工作面临挑战创新思路我们提出了第一个明确侧重于利用时间和局部时间频率信息的AAC方法为了生成字幕，我们采用了广泛使用的transformer解码器实验结论我们的结果将以前报告的最高SPIDEr从16.2提高到17.3Encoder一共有NtN_tNt个CNN块，每个wave-block里面还有七个一

爱睡觉的Raki·2022-03-14 07:14

CAU SUBMISSION TO DCASE 2021 TASK6: TRANSFORMER FOLLOWED BY TRANSFER LEARNING FOR AUDIO CAPTIONING

Abstract&Introduction&RelatedWork研究任务AAC（自动音频字幕）已有方法和相关工作面临挑战创新思路使用预训练模型，seq2seq模型使用CNN14和ResNet54作为encoder，transformer的decoder实验结论SPIDErscoreof0.246and0.285PROPOSEDMODELSystemOverviewPre-Processing输入

爱睡觉的Raki·2022-03-14 07:43

Raki的读paper小记：Audio Captioning with Composition of Acoustic and Semantic Information

Abstract&Introduction&RelatedWork研究任务音频字幕已有方法和相关工作面临挑战创新思路加入了语义信息，使用了semanticembedding，梅尔能源特征，VGGishembedding实验结论sotaProposedMethodlogMel特征和部分标题是分开编码的首先从音频信号里面抽取PANNsaudioembedding，然后从每个音频片段的标题中提取主语-动

爱睡觉的Raki·2022-03-14 07:43

论文笔记：Deep Visual-Semantic Alignments for Generating Image Descriptions

（2）对图片进行描述(Captioning)2.方法针对要解决的问题（1）,采用了RC

会唱小星星吗·2022-02-07 10:27

Convolutional Image Captioning

github代码地址：https://github.com/aditya12agd5/convcap论文：ConvolutionalImageCaptioning该网络简单地说就是使用VGG16提取特征，通过Attention+LSTM进行语句生成的端到端网络。不说了先上网络总体结构图。网络结构图.png论文是我懵逼，我还是从代码说吧。1.特征提取网络VGG16特征提取模块就是一个VGG16.vg

永远学习中·2021-06-11 13:47

用GAN处理Image Captioning

上周一开始阅读了香港中文大学BoDai等人在ICCV2017的文章，TowardsDiverseandNaturalImageDescriptionsviaaConditionalGAN，号称是第一个使用GAN处理ImageCaptioning的。巧的是，同期的会议上也出现了一篇同样用GAN处理ImageCaptioning的论文，RakshithShetty等人的SpeakingtheSameL

6e845d5ac37b·2021-06-07 01:14

（计算机视觉实战）image captioning(图像描述）

文章结构1.imagecaptioning的主要思路。2.操作时遇到的问题3.小总结1.imagecaptioning的主要思路。最近完成了imagecaptioning的小项目，想要将这个项目的思路和收获总结成文。下面文章从raw数据集开始来记录项目的思路和细节。本文旨在记录思路以及调试中遇到的错误。首先从数据集开始，数据集首先是有四个部分组成。一个包含了8090张的图片的文件夹。一个包含了图片

Gamma and Beta·2021-04-27 19:28

论文解读：DenseCap: Fully Convolutional Localization Networks for Dense Captioning

本篇论文解读的排版主要参见原文的格式，针对原文中的每一个小节进行展开，有的是对原文的一个提炼和简单概括，有的是对原文中涉及但是又没有详细介绍的技术的补充和说明。原文连接：https://cs.stanford.edu/people/karpathy/densecap/作者个人主页：https://cs.stanford.edu/people/jcjohns/PS：本篇博文不是对原文的简单翻译，论文

ZeroZone零域·2021-04-22 18:25

Multimodal Transformer with Multi-View Visual Representation for Image Captioning

Introduction之前方法的主要问题：注意力机制只关注模态间的相互影响（objecttoword）目前的模型都太小可能无法完全理解visualobject之间的复杂关系region-basedvisualfeatures可能无法涵盖图中所有的object，不足的视觉表达导致无法产生精准的caption针对前两点：使用MT（MultimodalTransformer）modelforimage

卖鱼家的少爷·2021-04-14 23:08

统计图表的Captioning和VQA——一些论文笔记

目录DVQA:UnderstandingDataVisualizationsviaQuestionAnswering(CVPR2018)ChartOCR:DataExtractionfromChartsImagesviaaDeepHybridFramework(WACV2021)AnsweringQuestionsaboutDataVisualizationsusingEfficientBimod

子鱼inf_lyceum·2021-02-18 20:24

「AAAI2021」Image Captioning 图像描述生成，性能SoTA！

「AAAI2021」Duel-LevelCollaborativeTransformerforImageCaptioning这里简单介绍自己第一篇被接受的一作工作《Duel-LevelCollaborativeTransformerforImageCaptioning》，代码已开源在这里，小伙伴们快来star~ImageCaptioning和VQA是多模态任务中非常相关的两个Task，自从2018

luputo·2021-01-30 22:08

ECCV2020｜ Length-Controllable Image Captioning

Length-ControllableImageCaptioning作者中南大学、阿德莱德大学开源地址：https://github.com/bearcatt/LaBERT解决的问题图像字幕，长度可控的文本生成摘要现存的方法不能控制生成文本的长度，无法选择粗糙/细致地对图像进行描述。因此这篇文章提出一个简单的length-levelembedding实现这个能力。由于自回归特性，模型的计算复杂度与

yyyyyyyyXu·2021-01-12 11:27

image caption笔记（九）：《Unsupervised Image Captioning》

无监督的caption文章使用一个图像数据集（MSCOCO）和一个文本语料库（从Web上抓取的200多万个句子组成图像描述语料库）来做无监督caption。没有任何配对集合。1、模型结构：提出的图像字幕模型由图像编码器（没有用VGG和resnet，改用了Inceptionv4），句子生成器和句子鉴别器组成。训练目标包括了三部分：（1）使用语料库来训练一个CGAN网络，condition是图像特征，

月半rai·2020-09-17 03:57

Image Captioning Metrics —— CIDEr的计算

简介TF-IDF余弦相似性CIDEr算法CIDEr:Consensus-basedImageDescriptionEvaluationExamplesCodereleasedcodeofmygithubCaptionMetricsTF-IDF全称TermFrequency–InverseDocumentFrequency，TF词频，IDF逆文本频率。博客：文本挖掘预处理之TF-IDF余弦相似性余弦

忘泪·2020-09-12 21:41

【论文笔记】——Convolutional Image Captioning

原文：添加链接描述总体介绍：ImageCaptioning（图像描述）就是描述一张图里面的内容，最近几年比较突出的是一种利用LSTM（RNN）的方法。尽管LSTM有着出色的记忆能力并且能减轻梯度消失的问题，但是它太复杂并且必须按照时序来训练。作者提出了一种利用卷积来进行图像描述的方法来解决这个问题，并通过实验验证发现这种方法和LSTM相比更好。RNN方法在介绍RNN方法之前，先介绍一下RNN的En

grafaraway·2020-09-10 14:48

2019年, image captioning论文汇总

目录CVPR2019：UICCVPR2019：SGAECVPR2019：RNDICCV2019：CNMICCV2019：Graph-AlignCVPR2019：UIC题目UnsupervisedImageCaptioning下载链接出自腾讯AI实验室模型名称UIC我自己起的，文中没给出模型名称。动机已有的模型都需要标注好的image-sentence数据进行训练，需要高昂的人力进行数据标注。贡献提

NeverMoreH·2020-08-17 01:23

深度学习之Image captioning的评分指标篇（BLEU、CIDEr）

BLEU参考：https://www.cnblogs.com/by-dream/p/7679284.htmlBLEU采用一种N-gram的匹配规则+召回率+惩罚因子组合方式。N-gram当N=1时，一般用来判断文字生成的准确性，234用来判断生成文本的流畅性。原文：今天天气不错机器译文：Itisanicedaytoday人工译文：Todayisaniceday如果用1-gram匹配的话：可以看到机

一只帅气的小菜鸡·2020-08-09 01:08

CS231n-2017 Assignment3 RNN、LSTM、风格迁移

一、RNN所需完成的步骤记录在RNN_Captioning.ipynb文件中。本例中所用的数据为Microsoft于2014年发布的COCO数据集。

suredied·2020-08-08 21:11

COCO数据集 —— 介绍，数据集下载，win10下的api安装及调用

一.介绍COCO数据集是Microsoft制作收集用于Detection+Segmentation+Localization+Captioning的数据集。

是鲤鱼呀·2020-08-03 22:37

SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

来源:CVPR2017关键词：imagingcaptioning;attentionmechanism原文Motivationvisualattention已经在image/videocaptioning和visualquestionanswering任务中取得了成功.其合理之处在于人总是根据需要有选择性的观察图像的一部分.文中将attention-basedmodels分为三类:SpatialA

z1185196212·2020-08-02 14:58

2020年, image captioning论文汇总

目录CVPR2020：ASGCVPR2020：POS-SCANCVPR2020：SLL-SLECVPR2020：ASG题目SayAsYouWish:Fine-grainedControlofImageCaptionGenerationwithAbstractSceneGraphs下载链接吴琦老师组的新作,一作是人大的博士生陈师哲.动机现有的方法与用户交互性差,生成的句子多样性低,不考虑用户感兴趣的

NeverMoreH·2020-07-29 10:48

数据集COCO在目标检测的介绍与使用

COCO数据集介绍COCO数据集主页：http://cocodataset.orgCOCO数据集是大规模的数据集，用于ObjectDetection+Segmentation+Localization+Captioning

winycg·2020-07-28 23:55

自下而上和自上而下的注意力模型《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

本文有点长，请耐心阅读，定会有收货。如有不足，欢迎交流，另附:论文下载地址一、文献摘要介绍Top-downvisualattentionmechanismshavebeenusedextensivelyinimagecaptioningandvisualquestionanswering(VQA)toenabledeeperimageunderstandingthroughfifine-grain

Tiám青年·2020-07-10 12:26

论文阅读笔记（visual relation相关）—Exploring Visual Relationship for Image Captioning

《探索图像描述的视觉关系》这是京东AI研究院被2018ECCV收录的一篇关于图像描述的文章。这篇文章提出了一种新的模型，是GCN+LSTM的结构，整合了语义信息和空间位置信息到图像编码器。imagecaption问题的典型解决方案是受机器翻译启发的，相当于将图像翻译为文本。图像中的物体可能有各种尺度，可能在图像中的任意位置，以及他们是不同的类别，这样就比较难以确定关系的类别。本文是利用对象间的固有

Avis_ma·2020-07-10 10:21

视觉场景理解论文阅读笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

TayLion王·2020-07-10 04:41

图像理解（Image Captioning）（1）CNN部分

ImageCaptioning一、应用领域二、原理三、使用的环境与数据集3.1.**环境**3.2.**数据集**四、网络模型4.1理想⽹络模型4.1.1CNN网络模型五、实现步骤总体步骤:5.1使⽤keras创建VGG16定义的CNN⽹络结构5.2提取图像特征一、应用领域图像搜索安全监控鉴黄二、原理CNN(卷积神经⽹络)图像特征提取迁移学习(transferlearning)LSTM(递归神经⽹

一抹烟霞·2020-07-09 22:40

图像理解（Image Captioning）（2）文本处理和模型

图像理解一、文本处理1.1生成图像的描述文件2.2单词嵌⼊(WordEmbedding)2.3生成输入数据结构二、模型处理2.1创建用于图片理解的模型2.2模型评价三、总结一、文本处理1.1生成图像的描述文件根据数据集中的Flickr8k.token.txt文件生成含有图片对应的描述的文件defcreate_descriptions(filename):withopen(filename,'r')

一抹烟霞·2020-07-09 22:40

VC R-CNN | 无监督的视觉常识特征学习（附源码）

作者提出了一种新的无监督特征表示学习方法，即VisualCommonsenseR-CNN(VCR-CNN)，作为一种改进的视觉区域编码器，用于Captioning和VQA等高级任务。

计算机视觉研究院·2020-07-09 16:45

Unified Vision-Language Pre-Training for Image Captioning and VQA

本文提出了一种统一的视觉语言训练（VLP）模型..该模型的统一体现在两点：（1）可以对视觉语言生成（例如，图像标题）或理解（例如，视觉问题回答）任务进行微调（2）它使用共享的多层transformer网络进行编码和解码，这不同于许多现有的方法，现有的编码器和解码器是使用单独的模型实现的。利用双向和序列（seq2seq）mask视觉语言预测两个任务的无监督学习目标，对大量的图像-文本对进行了统一VL

小镇大爱·2020-07-09 08:44

COCO2017数据集api说明

COCO数据集是Microsoft制作收集用于Detection+Segmentation+Localization+Captioning的数据集，本人收集了其2017年的版本，一共有25G左右的图片和

心态已炸_沉迷学习·2020-07-06 14:28

论文笔记：Show and Tell Lessons learned from the 2015 MSCOCO Image Captioning Challenge

感想imagecaption，我看很多人翻译的是看图说话，这篇文章我通读了，感觉做的工作还是很多的，看来想做一篇好的paper需要付出很多努力，不过那个评估方式只是介绍性的，没有细讲公式，这个领域应该是比较火的领域，我感觉是由sequencetosequence模型演化而来，源代码也有，这应该是作者的伟大之处，感谢原作者的贡献和开源社区。今天用Mac上面的safari和chrome浏览器来编写这个

农民小飞侠·2020-07-05 19:56

CapSal: Leveraging Captioning to Boost Semantics for Salient Object Detection

CapSal:LeveragingCaptioningtoBoostSemanticsforSalientObjectDetection原文地址时间：2019CVPRIntro为了解决复杂场景下的目标检测问题，本文设计了一个CapSal模型，它包括两个子网络：ImageCaptioningNetwork(ICN)和Local-GlobalPerceptionNetwork（LGPN），ICN将生成

luputo·2020-07-04 23:02

Automatic Image Captioning【PyTorch】

AutomaticImageCaptioningusingDeepLearning(CNNandLSTM)inPyTorchAutomaticImageCaptioningusingDeepLearning(CNNandLSTM)inPyTorchFaizanShaikh,April2,2018IntroductionDeepLearningisaveryrampantfieldrightnow–

WeisongZhao·2020-06-29 02:09

Image Captioning with Semantic Attention

摘要自动生成图像的自然语言描述水冲浪者最近引起了人们的兴趣，这不仅是因为冲浪者在实际应用中的重要性，而且因为它连接了两个主要的人工智能领域：计算机视觉和自然语言处理。现有的方法要么是自上而下的，即从图像的要点开始，然后将其转换为单词，要么是自下而上的，即提出描述图像各个方面的单词，然后将它们组合在一起。在本文中，我们提出了一种通过语义注意模型将两种方法结合在一起的新算法。我们的算法学习选择性地注意

_这也太刺激了吧·2020-06-29 00:44

论文笔记：Contrastive Learning for Image Captioning

原文链接：ContrastiveLearningforImageCaptioningIntroduction本文的提出的ContrastiveLearning(CL)主要是为了解决ImageCaption任务中生成的Caption缺少Distinctiveness的问题。这里的Distinctiveness可以理解为独特性，指的是对于不同的图片，其caption也应该是独特的、易于区分的。**即在

Jamiechoi·2020-06-26 10:39

论文笔记：Hierarchy Parsing for Image Captioning

论文链接：HierarchyParsingforImageCaptioning本文首发于PaperWeeklyIntroduction目前大多数的imagecaptioning模型采用的都是encoder-decoder的框架。本文在encoder的部分加入了层次解析（HIerarchyParsing，HIP）结构。HIP把图片解析成树状结构：根节点是整个图片，中间节点则是通过把图片分解成一系列R

Jamiechoi·2020-06-26 10:39

论文笔记：Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning

论文链接：KnowingWhentoLook:AdaptiveAttentionviaAVisualSentinelforImageCaptioningIntroduction目前大多数的基于attention机制的imagecaptioning模型采用的都是encoder-decoder的框架。然而在decode的时候，decoder应该对不同的词有不同的attention策略。例如，”the”

Jamiechoi·2020-06-26 10:39

论文笔记：Image Captioning with Semantic Attention

论文链接：ImageCaptioningwithSemanticAttention框架与普通的imageCaption框架相比，论文从图片中提取了visualattribute（实际上就是一些单词），并把这些attribute结合进了input跟outputattentionmodel里面。整个框架的公式如下：x0=ϕ0(v)=Wx,vvx0=ϕ0(v)=Wx,vvht=RNN(ht−1,xt)h

Jamiechoi·2020-06-26 10:39

论文笔记：Self-critical Sequence Training for Image Captioning

论文链接：Self-criticalSequenceTrainingforImageCaptioning引言现在imagecaption主要存在的问题有：exposurebias：模型训练的时候用的是叫“Teacher-Forcing”的方式：输入RNN的上一时刻的单词是来自训练集的ground-truth单词。而在测试的时候依赖的是自己生成的单词，一旦生成得不好就会导致误差的积累，导致后面的单词

Jamiechoi·2020-06-26 10:39

论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

论文链接：Bottom-UpandTop-DownAttentionforImageCaptioningandVisualQuestionAnsweringBottom-UpAttentionModel本文的bottomupattention模型在后面的imagecaption部分和VQA部分都会被用到。这里用的是objectdetection领域的FasterR-CNN方法来提取，详细的就不再说

Jamiechoi·2020-06-26 10:39

推荐频道

Captioning）

图像描述文献阅读（1）Comprehending and Ordering Semantics for Image Captioning

coco数据集目标检测论文_数据集COCO在目标检测的介绍与使用

论文笔记：Convolutional Image Captioning

项目：CV和NLP结合的Attention视频字幕生成算法实现

论文笔记：Self-critical Sequence Training for Image Captioning

论文笔记：Look Back and Predict Forward in Image Captioning# Look Back and Predict Forward in Image Capti

论文阅读【Open-book Video Captioning with Retrieve-Copy-Generate Network】

论文阅读 [TPAMI-2022] Context-Aware Visual Policy Network for Fine-Grained Image Captioning

《SCA-CNN：Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning》论文笔记

show,attend and tell(image caption论文复现总结)

Raki的读paper小记：WaveTransformer: A Novel Architecture for Audio Captioning

CAU SUBMISSION TO DCASE 2021 TASK6: TRANSFORMER FOLLOWED BY TRANSFER LEARNING FOR AUDIO CAPTIONING

Raki的读paper小记：Audio Captioning with Composition of Acoustic and Semantic Information

论文笔记：Deep Visual-Semantic Alignments for Generating Image Descriptions

Convolutional Image Captioning

用GAN处理Image Captioning

（计算机视觉实战）image captioning(图像描述）

论文解读：DenseCap: Fully Convolutional Localization Networks for Dense Captioning

Multimodal Transformer with Multi-View Visual Representation for Image Captioning

统计图表的Captioning和VQA——一些论文笔记

「AAAI2021」Image Captioning 图像描述生成，性能SoTA！

ECCV2020｜ Length-Controllable Image Captioning

image caption笔记（九）：《Unsupervised Image Captioning》

Image Captioning Metrics —— CIDEr的计算

【论文笔记】——Convolutional Image Captioning

2019年, image captioning论文汇总

深度学习之Image captioning的评分指标篇（BLEU、CIDEr）

CS231n-2017 Assignment3 RNN、LSTM、风格迁移

COCO数据集 —— 介绍，数据集下载，win10下的api安装及调用

SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

2020年, image captioning论文汇总

数据集COCO在目标检测的介绍与使用

自下而上和自上而下的注意力模型《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

论文阅读笔记（visual relation相关）—Exploring Visual Relationship for Image Captioning

视觉场景理解论文阅读笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

图像理解（Image Captioning）（1）CNN部分

图像理解（Image Captioning）（2）文本处理和模型

VC R-CNN | 无监督的视觉常识特征学习（附源码）

Unified Vision-Language Pre-Training for Image Captioning and VQA

COCO2017数据集api说明

论文笔记：Show and Tell Lessons learned from the 2015 MSCOCO Image Captioning Challenge

CapSal: Leveraging Captioning to Boost Semantics for Salient Object Detection

Automatic Image Captioning【PyTorch】

Image Captioning with Semantic Attention

论文笔记：Contrastive Learning for Image Captioning

论文笔记：Hierarchy Parsing for Image Captioning

论文笔记：Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning

论文笔记：Image Captioning with Semantic Attention

论文笔记：Self-critical Sequence Training for Image Captioning

论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering