A Comprehensive Survey of Deep Learning for Image Captioning--图像描述深度学习综述

原文地址:https://arxiv.org/abs/1810.04020

翻译走起,第一次翻译文献,可能是一顿ctrl+c,ctrl+v在加上百度翻译的操作吧,如有问题和建议,欢迎留言。image captioning根据个人喜好翻译成图像描述,其他什么图像字幕,图像标题生成,whatever,大家随意好了。

图像描述深度学习综述

图像描述的定义:Generating a description of an image.

图像描述要求识别图像中的重要对象、属性及其关系,并且生成语法和语义上正确的句子。基于深度学习能够处理复杂和具有挑战性的图像描述。本文旨在对现有的基于深度学习的图像描述技术进行综合评述。我们讨论了技术的基础,分析它们的性能,优势和局限性。我们还讨论了在基于深度学习的自动图像描述中常用的数据集和评价指标。

关键词:图像描述;深度学习;机器视觉;自然语言处理;CNN;LSTM

1   INTRODUCTION

每天,我们都会遇到大量来自各种来源的图片,如互联网、新闻文章、文档图表和广告。这些来源包含的图像,观众将不得不自己解释。大多数图像没有描述,但是人类可以在没有详细说明的情况下大体理解它们。然而,如果人类需要自动的图像描述,机器需要解释某种形式的图像描述。
图像描述很重要,原因很多。例如,它们可以用于自动即时索引。图像索引对于基于内容的图像检索(CBIR)非常重要,因此它可以应用于许多领域,包括生物医学、商业、军事、教育、数字图书馆和网络搜索。Facebook和Twitter等社交媒体平台可以直接从图片中生成描述。这些描述可以包括我们在哪里(例如,海滩、咖啡馆)、我们穿什么,重要的是我们在那里做什么。      图像描述是人工智能的一个热门研究领域,它涉及图像理解和图像的语言描述。图像理解需要检测和识别物体。它还需要了解场景类型或位置、对象属性及其交互。生成格式良好的句子需要对语言进行句法和语义理解[143:Show and Tell]。
理解图像很大程度上取决于获取图像特征。为此目的使用的技术大致可分为两类:(1)传统的基于机器学习的技术(2)基于深度机器学习。
在传统的机器学习中,广泛使用手工制作的特征,如局部二进制模式(lbp)[107]、尺度不变特征变换(sift)[87]、定向梯度柱状图(hog)[27]以及这些特征的组合。在这些技术中,特征是从输入数据中提取出来的。然后将它们传递给分类器,例如支持向量机(SVM)[17],以便对对象进行分类。由于手工制作的特性是特定于任务的,所以从一组大而多样的数据中提取特性是不可行的。此外,图像和视频等真实数据是复杂的,具有不同的语义解释。
另一方面,在基于深度机器学习的技术中,特征是从训练数据中自动学习的,它们可以处理大量和多样的图像和视频。例如,卷积神经网络(CNN)[79]被广泛用于特征学习,而SoftMax等分类器被用于分类。CNN后面通常是循环神经网络(RNN),以便生成描述。
在过去的5年里,大量的文章发表在图像描述上,广泛基于深度学习。深度学习算法能够很好地处理图像描述的复杂性和挑战。到目前为止,仅发表了三篇关于这一研究主题的调查论文[8,13,75]。尽管这些论文对图像描述的研究有很好的文献综述,但由于大部分论文是在论文发表后发表的,因此只能涵盖少量的深度学习论文。这些调查论文主要讨论了基于模板、基于检索和极少数基于深度学习的新颖图像描述生成模型。然而,在基于深度学习的图像描述制作方面,已经做了大量的工作。此外,大数据集和新数据集的可用性使基于学习的图像描述成为一个有趣的研究领域。为了提供一个精简版的文献,我们的调查综述,主要集中在基于深度学习的论文图像描述。
本文的主要目的是为基于深度学习的图像描述提供一个全面的综述。首先,我们将现有的图像描述文章分为三大类:(1)基于模板的图像描述;(2)基于检索的图像描述;(3)新的图像描述生成。第2节简要讨论了这些类别。大多数基于深度学习的图像描述方法都属于新的描述生成方法。因此,我们只关注基于深度学习的图像描述的生成。第二,我们将基于深度学习的图像描述方法分为不同的类别,即(1)基于视觉空间,(2)基于多模空间,(3)监督学习,(4)其他深度学习,(5)密集描述,(6)基于全场景,(7)基于编码器-解码器体系结构,(8)基于复合体系结构,(9)LSTM(长短时记忆)[54]基于语言模型,(10)基于其他语言模型,(11)基于注意力机制,(12)基于语义概念,(13)风格化描述,以及(14)基于对象的新的图像描述。我们将在第3节中讨论所有类别。我们在第4节中概述了用于测量图像描述质量的数据集和常用评估指标。我们还讨论并比较了第5节中不同方法的结果。最后,我们在第6节中给出了简短的讨论和未来的研究方向,然后在第7节中给出了结论。

A Comprehensive Survey of Deep Learning for Image Captioning--图像描述深度学习综述_第1张图片

2  IMAGE CAPTIONING METHODS

在本节中,我们回顾和描述了现有图像描述方法的主要类别,包括基于模板的图像描述、基于检索的图像描述和新的描述生成。基于模板的方法有固定的模板,其中有许多空白的槽来生成描述。在这些方法中,首先检测不同的对象、属性、动作,然后填充模板中的空白空间。例如,Farhadi等人[34]使用三组场景元素填充模板槽以生成图像描述。李等。[80]为此,提取与检测到的对象、属性及其关系相关的短语。Kulkarni等人采用了条件随机场(CRF)。[74]在填充间隙之前推断对象、属性和介词。基于模板的方法可以生成语法正确的描述。但是,模板是预定义的,无法生成可变长度的描述。此外,在图像描述[2,32,76,77,101]中引入了基于解析的语言模型,这比基于固定模板的方法更强大。因此,本文不关注这些基于模板的方法。
描述可以从可视空间和多模式空间中检索。在基于检索的方法中,描述是从一组现有描述中检索出来的。基于检索的方法首先从训练数据集中找到视觉上相似的图像及其描述。这些描述称为候选描述。查询图像的描述从这些描述池中选择[47、55、108、130]。这些方法产生一般和语法正确的描述。但是,它们不能生成特定于图像和语义正确的描述。
新的描述可以从视觉空间和多模空间生成。这类的一般方法是首先分析图像的视觉内容,然后使用语言模型从视觉内容生成图像描述[70、152、155、156]。这些方法可以为每个图像生成新的描述,这些描述在语义上比以前的方法更准确。大多数新的描述生成方法都使用基于深度机器学习的技术。因此,基于深度学习的新的图像描述生成方法是本文研究的重点。
图1描述了基于深度学习的图像描述方法的总体分类。该图说明了不同类别的图像描述方法的比较。基于新的图像描述生成的方法主要采用视觉空间和基于深度机器学习的技术。描述也可以从多模式空间生成。基于深度学习的图像描述方法也可以根据学习技术分类:监督学习、强化学习和无监督学习。我们将强化学习和无监督学习分为其他深度学习。通常会为图像中的整个场景生成描述。但是,也可以为图像的不同区域生成描述(密集描述)。图像描述方法可以使用简单的编码器-解码器体系结构或合成体系结构。有一些方法在图像描述中使用注意机制、语义概念和不同的风格。有些方法还可以为未看到的对象生成描述。我们把它们归类为“其他”类。大多数图像描述方法使用LSTM作为语言模型。然而,有许多方法使用其他语言模型,如cnn和rnn。因此,我们将基于语言模型的类别包括为“LSTM与其他类别”。

3 DEEP LEARNING BASED IMAGE CAPTIONING METHODS

我们在图1中为基于深度学习的图像描述生成方法绘制了一个整体分类。我们通过将它们分为视觉空间与多模空间、整个场景的密集描述与描述、有监督的学习与其他深度学习、编码器-解码器体系结构与组合体系结构以及一个“其他”组来讨论它们的相似性和不同性,该组包含基于注意、基于语义概念的描述和新的基于对象的描述。我们还创建了一个名为lstm vs. others的类别。
表1简要介绍了基于深度学习的图像描述方法。表1包含图像描述方法的名称、用于编码图像信息的深度神经网络的类型以及用于描述信息的语言模型。在最后一列中,我们根据图1中的分类为每个描述技术提供一个类别标签。

3.1  Visual Space vs. Multimodal Space

基于深度学习的图像描述方法可以从视觉空间和多模空间生成描述。可以理解的是,图像描述数据集将相应的描述作为文本。在基于视觉空间的方法中,图像特征和相应的描述独立地传递给语言解码器。相反,在多模空间中,共享的多模空间是从图像和相应的描述文本中学习的。然后将这种多模式表示传递给语言解码器。
3.1.1   视觉空间。大部分图像描述方法使用视觉空间生成描述。这些方法在第3.2节至第3.5节中进行了讨论。

A Comprehensive Survey of Deep Learning for Image Captioning--图像描述深度学习综述_第2张图片
3.1.2  多模空间。典型的基于多模空间方法的体系结构包括语言编码器部分、视觉部分、多模空间部分和语言解码器部分。多模空间图像描述方法的一般示意图如图2所示。视觉部分采用深卷积神经网络作为特征抽取器,提取图像特征。语言编码器部分提取单词特征,学习每个单词的密集特征嵌入。然后它将语义时间上下文转发到循环层。多模空间部分将图像特征映射到具有词特征的公共空间中。                                                                                                                                                                                         然后将生成的映射传递给语言解码器,该解码器通过解码映射生成描述。
此类别中的方法遵循以下步骤:
(1)利用深神经网络和多模态神经语言模型,在多模态空间中共同学习图像和文本。
(2)语言生成部分使用步骤1中的信息生成描述。
Kiros等人提出的这一领域的初步工作。〔69〕。该方法利用CNN提取图像特征,生成图像描述。它使用一个同时表示图像和文本的多模式空间来进行多模式表示学习和图像描述生成。介绍了多模式神经语言模型,如模态偏态对数双线性模型(MLBL-B)和[104]的因子化三向对数双线性模型(MLBL-F),接着是Alexnet[73]。与大多数以前的方法不同,此方法不依赖任何其他模板、结构或约束。相反,它依赖于从深层神经网络和多模神经语言模型中分别学习到的高级图像特征和单词表示。神经语言模型在处理大量数据方面有局限性,在长期记忆方面效率低下[64]。
基罗斯等。[69]扩展了他们在[70]中的工作,学习了一种将lstm用于句子编码的联合图像句子嵌入,并将一种称为结构内容神经语言模型(sc-nlm)的新神经语言模型用于图像描述的生成。与现有的方法相比,sc-nlm具有一个优势,即它可以将句子的结构描述为编码器生成的内容。这也有助于他们在生成逼真的图像描述方面取得显著的改进,而不是[69]提出的方法。
Karpathy等人[66]提出了一个深度、多模式的模型,嵌入图像和自然语言数据,用于双向图像和句子检索。以前的基于多模态的方法使用一个公共的嵌入空间,直接映射图像和句子。然而,这种方法在更精细的层次上工作,嵌入图像片段和句子片段。该方法将图像分解为多个对象和句子,并将它们分解为依赖树关系(DTR)[28]以及它们潜在的模态间对齐的原因。结果表明,该方法在检索任务上比其他方法有了显著的改进。这种方法也有一些局限性。在建模方面,依赖树可以很容易地建模关系,但并不总是合适的。例如,一个视觉实体可以用一个复杂的短语来描述,这个短语可以分成多个句子片段。“黑白狗”一词可分为两种关系(conj、black、white)和(amod、white、dog)。同样,对于许多依赖关系,我们在图像中找不到任何清晰的映射(例如:“彼此”不能映射到任何对象)。                                                                                                                                                         毛等人。[94]提出了一种多模态递归神经网络(M-RNN)生成新图像描述的方法。该方法有两个子网络:一个是句子的深层递归神经网络,另一个是图像的深层卷积网络。这两个子网络在多模态层中相互作用,形成了整个M-RNN模型。在这种方法中,句子的图像和片段都作为输入。它计算概率分布以生成下一个描述词。该模型中还有五层:两个字嵌入层、一个循环层、一个多模层和一个SoftMax层。基罗斯等。[69]提出了一种基于对数双线性模型的方法,并利用Alexnet提取视觉特征。这种多模态回归神经网络方法与基罗斯等人的方法密切相关。〔69〕。基罗斯等。使用固定长度的上下文(即五个单词),而在此方法中,时间上下文存储在一个循环体系结构中,该结构允许任意的上下文长度。两个字嵌入层使用一个热向量来生成密集的字表示。它对单词的句法意义和语义意义进行编码。通过计算嵌入层中两个密集词向量之间的欧氏距离,可以找到语义相关词。大多数句子图像多模态方法[38,66,70,128]使用预先计算的嵌入向量来初始化它们的模型。相反,该方法随机初始化嵌入层并从训练数据中学习它们。这有助于它们生成比以前的方法更好的图像描述。许多图像描述方法[66,69,95]都建立在当代的重复神经网络上。它们使用循环层来存储可视信息。然而,(m-rnn)使用图像表示和句子片段来生成描述。它更有效地利用了循环层的容量,这有助于使用相对较小的维循环层实现更好的性能。
陈等人。[23]提出了另一种多模空间图像描述方法。该方法可以从图像中生成新的描述,并从给定的描述中恢复视觉特征。它还可以描述图像及其描述之间的双向映射。许多现有的方法[55,66,128]使用联合嵌入来生成图像描述。但是,它们不使用可以从描述生成视觉特征的反向投影。另一方面,该方法从生成的单词中动态更新图像的视觉表示。它有一个额外的复发视觉隐藏层与RNN,使反向投影。

3.2  Supervised Learning vs. Other Deep learning

在有监督的学习中,训练数据带有所需的输出,称为标签。无监督学习处理未标记的数据。生成对抗网络(GANs)[48]是一种无监督的学习技术。强化学习是另一种机器学习方法,代理的目标是通过探索和奖励信号发现数据和/或标签。许多图像描述方法采用了增强学习和基于GAN的方法。这些方法属于“其他深度学习”范畴。
3.2.1  基于监督学习的图像描述。基于监督学习的网络在图像分类[53、73、127、133]、目标检测[44、45、116]和属性学习[40]中已成功应用多年。这一进展使研究人员有兴趣将其用于自动图像描述[23、65、94、142]。在本文中,我们发现了大量的基于监督学习的图像描述方法。我们将它们分为不同的类别:(i)编码器-解码器架构,(i i)组合架构,(i i i)基于注意力机制,(i v)基于语义概念,(v)风格化描述,(v i)基于对象的新的描述,以及(v i i)密集图像描述。                                 3.2.2 其他基于深度学习的图像描述。在我们的日常生活中,数据随着未启用的数据而增加,因为准确地注释数据通常是不切实际的。因此,最近研究者们更加关注强化学习和基于无监督学习的图像描述技术。
强化学习代理选择一个动作,接收奖励值,并移动到新状态。代理试图选择具有最大长期回报的行动。它需要连续的状态和动作信息,以提供价值函数的保证。传统的强化学习方法面临着许多局限性,如缺乏对价值函数的保证和不确定状态行为信息。策略梯度方法[132]是一种强化学习,可以使用梯度下降和优化技术为特定操作选择特定策略。该策略可以为保证一致性的操作整合领域知识。因此,与基于值函数的方法相比,策略梯度方法需要的参数更少。
现有的基于深度学习的图像描述方法使用不同的图像编码器来提取图像特征。然后将这些特征输入基于神经网络的语言解码器以生成描述。这些方法有两个主要问题:(i)它们使用最大似然估计和反向传播方法进行训练[114]。在这种情况下,下一个词是预测给定的图像和所有先前生成的地面实况词。因此,生成的描述看起来像地面实况描述。这种现象称为曝光偏差问题。(ii)测试时的评估指标不可区分。理想情况下,图像覆盖的序列模型应经过培训,以避免曝光偏差,并直接优化测试时间的指标。在基于行为批评家的强化学习算法中,批评家可以用来估计期望的未来奖励来训练行为人(描述策略网络)。基于强化学习的图像描述方法根据每个状态下获得的奖励从模型中抽取下一个令牌。政策梯度法在强化学习中可以对梯度进行优化,以预测累积的长期回报。从而解决了评价指标的不可微性问题。
这类方法遵循以下步骤:                                                                                                                                                                              (1)基于CNN和RNN的组合网络生成描述。
(2)另一个基于CNN-RNN的网络评估描述并将反馈发送给第一个网络生成高质量的描述。(这里对强化学习暂时还没了解,还不清楚这段的意思)

A Comprehensive Survey of Deep Learning for Image Captioning--图像描述深度学习综述_第3张图片

这类典型方法的框图如图3所示。
Ren等。2017年[119]推出了一种新的基于增强学习的图像描述方法。该方法的体系结构有两个网络,它们在每个时间步联合计算下一个最佳单词。“政策网络”作为本地指导,有助于根据当前状态预测下一个词。“价值网络”作为全局指导,考虑到当前状态的所有可能扩展,评估奖励价值。这种机制能够在预测正确单词时调整网络。因此,它可以在结尾处生成与地面实况描述类似的好描述。它使用actor-critic(玩家-评委)算法强化学习模型[71]来训练整个网络。视觉语义嵌入[117,118]用于计算预测正确单词的实际奖励值。它还可以帮助测量图像和句子之间的相似性,从而评估生成的描述的正确性。
Rennie等。[120]提出了另一种基于增强学习的图像描述方法。该方法利用测试时间推理算法对奖励进行归一化处理,而不是对奖励信号进行估计和训练时间归一化处理。实验结果表明,这种测试时间译码对生成高质量的图像描述是非常有效的。
Zhang等。[161]提出了一种基于actor-critic强化学习的图像描述方法。该方法可以直接优化现有评价指标的不可微性问题。actor-critical方法的体系结构由策略网络(actor)和值网络(critical)组成。参与者将作业视为顺序决策问题,并可以预测序列的下一个标记。在序列的每个状态中,网络将收到特定于任务的奖励(在本例中,是评估指标得分)。评论家的工作是预测回报。如果它能够预测预期的回报,那么参与者将继续根据其概率分布对输出进行抽样。
基于GAN的方法可以从未标记的数据中学习深度特征。它们通过在一对网络(生成器和鉴别器)之间应用竞争过程来实现这种表示。GANs已经成功地应用于各种应用,包括图像描述[26,126]、图像到图像翻译[56]、文本到图像合成[15,115]和文本生成[36,145]。
Gan有两个问题。首先,GAN可以很好地从真实图像生成自然图像,因为GAN是针对真实值数据而提出的。然而,文本处理是基于离散的数字。因此,这种操作是不可微的,因此很难直接应用反向传播。策略渐变应用参数函数以允许渐变反向传播。第二,评价者在序列生成中面临着消失梯度和误差传播的问题。对于每一部分描述,它都需要一个可能的未来奖励值。蒙特卡洛推出[157]用于计算未来的奖励值。                                                                                                                                                                    与传统的深卷积网络和基于深度递归网络的模型相比,基于GAN的图像描述方法可以生成一组不同的图像描述。Dai等。[26]还提出了一种基于GAN的图像描述方法。但是,它们不考虑对单个图像使用多个描述。shetty等。[126]介绍了一种新的基于GAN的图像描述方法。这种方法可以为单个图像生成多个描述,并且在生成不同描述方面有了显著的改进。GANs在对离散数据进行反向传播方面有局限性。Gumbel采样器[58,91]用于解决离散数据问题。这种对抗性网络的两个主要部分是发生器和鉴别器。在培训过程中,生成器学习鉴别器提供的损失值,而不是从显式来源学习。鉴别器具有真实的数据分布,可以区分生成器生成的样本和真实的数据样本。这允许网络学习不同的数据分布。此外,网络对生成的描述集进行了真假分类。因此,它可以生成类似于人类生成的描述。

3.3  Dense Captioning vs. Captions for the whole scene

密度描述,为场景的每个区域生成描述。其他方法为整个场景生成描述。
3.3.1  密度描述。以前的图像描述方法只能为整个图像生成一个描述。他们使用图像的不同区域来获取各种对象的信息。但是,这些方法不会生成区域说明。
Johnson和其他人提出了一个图像处理方法,称为DenseCap。该方法对图像的所有显著性区域进行定位,然后生成这些区域的描述。
这种类型的典型方法有以下步骤:
(1)针对给定图像的不同区域生成区域建议。
(2)CNN用于获取基于区域的图像特征。
(3)语言模型使用步骤2的输出为每个区域生成描述。
图4给出了一个典型的密集描述方法的框图。
一个典型的一个典型的稠密胶囊幻灯片是在图4。

A Comprehensive Survey of Deep Learning for Image Captioning--图像描述深度学习综述_第4张图片
图4给出了一个典型的密集描述方法的框图。
密集描述[62]提出了一种全卷积定位网络结构,由卷积网络、密集定位层和LSTM[54]语言模型组成。密集的局部化层用一个单一的、有效的正向传递来处理一个图像,它隐式地预测图像中的一组感兴趣的区域。因此,与快速R-CNN或快速R-CNN的完整网络(即RPN(Region Proposal Network[44])不同,它不需要外部区域提案。定位层的工作原理与更快的R-CNN的工作有关[116]。然而,Johnson等人[62]使用差分空间软注意机制[49,57]和双线性插值[57]代替ROI池机制[44]。此修改有助于该方法通过网络进行反向传播,并顺利选择活动区域。它使用视觉基因组[72]数据集生成区域级图像描述。
对整个视觉场景的描述是非常主观的,不足以让人完全理解。基于区域的描述比全局图像描述更客观、更详细。基于区域的描述称为密集描述。在密集描述方面有一些挑战。由于区域密集,一个对象可能有多个感兴趣的重叠区域。此外,对于所有视觉概念来说,很难识别每个目标区域。杨等人。[153]提出了另一种密集描述方法。这种方法可以解决这些挑战。首先,它提出了一种推理机制,这种推理机制共同依赖于该区域的视觉特征和该区域的预测描述。这允许模型找到边界框的适当位置。其次,它们应用了一种上下文融合,可以将上下文特征与各自区域的视觉特征结合起来,以提供丰富的语义描述。
3.3.2  整个场景的描述。编码器-解码器架构、合成架构、基于注意、基于语义概念、风格化描述、新颖的基于对象的图像描述以及其他基于深度学习网络的图像描述方法为整个场景生成单个或多个描述。

3.4 Encoder-Decoder Architecture vs. Compositional Architecture

有些方法只使用简单的Vanilla编码器和解码器来生成描述。但是,其他方法使用多个网络。
3.4.1基于编码器-解码器架构的图像描述。基于神经网络的图像描述方法工作起来很简单。这些方法与基于编码器解码器框架的神经机器翻译非常相似(131)。在这个网络中,从CNN隐藏的激活中提取全局图像特征,然后将其输入LSTM,生成一系列单词。

A Comprehensive Survey of Deep Learning for Image Captioning--图像描述深度学习综述_第5张图片
此类的典型方法有以下一般步骤:
(1)使用普通CNN获取场景类型,检测对象及其关系。(2)语言模型使用步骤1的输出将其转换为单词,并
产生图像描述的短语。
图5给出了这一类别的简单框图。
Viyal等人。[142]提出了一种称为神经图像描述生成器(NIC)的方法。方法
使用CNN进行图像表示,使用LSTM生成图像描述。这种特殊的CNN使用一种新的方法进行批处理规范化,并将CNN最后一个隐藏层的输出用作LSTM解码器的输入。这个LSTM能够跟踪已经使用文本描述的对象。在最大似然估计的基础上,对NIC进行训练。
在生成图像描述时,图像信息包括在LSTM的初始状态中。下一个字是根据当前时间步和上一个隐藏状态生成的。这个过程一直持续到得到句子的结束标记为止。由于图像信息只在处理过程的开始时输入,因此可能面临消失梯度问题。开始时产生的单词的作用也越来越弱。因此,LSTM在生成长句子方面仍然面临挑战[7,24]。因此,Jia等人[59]提出了LSTM的扩展,称为引导式LSTM(GLSTM)。这个GLSTM可以生成长句子。在这个体系结构中,它将全局语义信息添加到LSTM的每个门和单元状态中。文中还考虑了不同长度的规范化策略来控制描述的长度。语义信息以不同的方式提取。首先,它使用跨模式检索任务来检索图像描述,然后从这些描述中提取语义信息。基于语义的信息也可以使用多模态嵌入空间来提取。
毛等人。[92]提出了一种特殊类型的图像文本生成方法。此方法可以生成特定对象或区域的描述,称为引用表达式[37、46、68、102、103、136、141]。然后,使用此表达式可以推断正在描述的对象或区域。因此,生成的描述或表达式是非常明确的。为了解决引用表达式的问题,该方法使用了一个新的数据集,称为引用数据集[68],它基于流行的MS COCO数据集。
以前基于CNN-RNN的图像描述方法使用的LSTM是单向的,深度相对较浅。在单向语言生成技术中,下一个单词是根据视觉上下文和所有以前的文本上下文预测的。单向LSTM无法生成上下文格式良好的描述。此外,最近的目标检测和分类方法[73,127]表明,深层、层次化的方法比浅层次的方法更擅长学习。王等。[144]提出了一种基于深度双向LSTM的图像描述方法。该方法能够生成上下文丰富、语义丰富的图像描述。该架构由一个CNN和两个独立的LSTM网络组成。它可以利用过去和将来的上下文信息来学习长期的视觉语言交互。

3.4.2  基于合成架构的图像描述。基于组合体系结构的方法由几个独立的功能构建块组成:首先,CNN用于从图像中提取语义概念。然后使用语言模型生成一组候选题注。在生成最终描述时,这些候选描述将使用深度多模态相似性模型重新排序。
此类的典型方法维护以下步骤:
(1)使用CNN获取图像特征。
(2)视觉概念(如属性)是从视觉特征中获得的。
(3)语言模型使用步骤1和步骤2的信息生成多个描述。
(4)使用深度多模态相似模型对生成的描述进行重新排序,以选择高质量图像描述。

A Comprehensive Survey of Deep Learning for Image Captioning--图像描述深度学习综述_第6张图片
图6给出了基于合成网络的图像描述方法的通用框图。
Fang等人[33]介绍了基于生成的图像描述。它使用视觉检测器、语言模型和多模式相似性模型在图像描述数据集上训练模型。图像描述可以包含名词、动词和形容词。词汇表是由1000个最常见的训练题注组成的。系统使用的是图像子区域,而不是完整图像。卷积神经网络(Alexnet[73]和VGG16net)用于提取图像子区域的特征。子区域的特征用可能包含在图像描述中的词汇表中的单词进行映射。多实例学习(MIL)[96]用于训练学习每个单词的识别视觉特征的模型。最大熵(ME)[12]语言模型用于从这些单词生成图像描述。生成的描述按句子特征的线性加权排序。最小误差率训练(MERT)[106]用于学习这些权重。图像和句子之间的相似性可以很容易地用一个公共向量表示来度量。图像和句子片段通过深度多模态相似模型(DMSM)用公共向量表示进行映射。它在选择高质量的图像描述方面取得了显著的改进。                                                                                                               到目前为止,许多方法在生成图像描述方面取得了令人满意的进展。这些方法使用来自同一领域的培训和测试样本。因此,这些方法在开放域图像中无法很好地执行。此外,它们只擅长识别一般的视觉内容。有些关键实体,如名人和地标,超出了它们的范围。这些方法生成的描述根据自动度量进行评估,如Bleu[110]、Meteor[1]和Cider[139]。这些评估指标已经在这些方法上显示出良好的结果。然而,就绩效而言,衡量标准的评估与人类对评估的判断之间存在很大差距[20、30、74]。如果将其视为现实实体信息,则性能可能会更弱。然而,Tran等人[135]引入了一种不同的图像描述方法。这种方法甚至可以为开放域图像生成图像描述。它可以检测出一组不同的视觉概念,并为名人和地标生成描述。它使用外部知识库Freebase[16]来识别各种实体,如名人和地标。对生成的描述的性能进行了一系列的人工判断。在实验中,它使用了三个数据集:MS COCO、Adobe MIT Fivek[19]和Instagram的图像。MS COCO数据集的图像是从同一个域收集的,但其他数据集的图像是从开放域中选择的。该方法在具有挑战性的Instagram数据集上取得了显著的性能。
马等。[90]提出了另一种基于合成网络的图像描述方法。此方法使用结构词生成语义上的平均描述。它还使用类似于多实例学习方法[33]的多任务方法和多层优化方法[52]生成结构词。然后使用基于LSTM编码器-解码器的机器翻译方法[131]将结构词翻译成图像描述。
王等。[146]提出了一种用于图像描述生成的并行融合RNN-LSTM体系结构。该方法的体系结构将RNN和LSTM的隐藏单元划分为许多相同大小的部分。这些部件与相应的比率并行工作以生成图像描述。

3.5 Others

基于注意力机制、基于语义概念、新的基于对象的方法和风格化的描述被放在“其他”组中,因为这些类别独立于其他方法。
3.5.1基于注意力的图像描述。基于神经编码器-解码器的方法主要用于机器翻译[131]。按照这些趋势,他们也被用于图像描述的任务,并发现非常有效。在图像描述中,CNN作为编码器,从输入图像中提取视觉特征,RNN作为解码器,逐字转换成图像的自然语言描述。但是,这些方法在为图像生成描述时无法随着时间的推移分析图像。除此之外,这些方法不考虑与图像描述部分相关的图像的空间方面。相反,它们生成描述,将场景作为一个整体考虑。基于注意力的机制在深度学习中越来越流行,因为它们可以解决这些局限性。它们可以在生成输出序列的同时动态聚焦于输入图像的各个部分。
这类典型方法采用以下步骤:
(1)图像信息由CNN根据整个场景获取。
(2)语言生成阶段根据步骤1的输出生成单词或短语。                                                                                                                      (3)基于生成的单词或短语,在语言生成模型的每个时间步骤中,对给定图像的显著区域进行聚焦。
(4)在语言生成模型的结束状态之前,描述是动态更新的。

A Comprehensive Survey of Deep Learning for Image Captioning--图像描述深度学习综述_第7张图片
基于注意力的图像描述方法的框图如图7所示。

Xu等人[152]首先介绍了一种基于注意力的图像描述方法。该方法自动描述图像的显著内容。基于注意的方法与其他方法的主要区别在于,它们可以集中在图像的突出部分,同时生成相应的单词。该方法采用stochastic hard attention和deterministic soft attention两种不同的方法来产生注意。大多数基于CNN的方法使用ConvNet的顶层从图像中提取突出对象的信息。这些技术的一个缺点是,它们可能会丢失某些信息,这些信息对于生成详细的描述很有用。为了保持信息的完整性,注意方法使用来自下卷积层的特征,而不是完全连接层。
Jin等人[61]提出了另一种基于注意力的图像描述方法。该方法能够根据视觉信息与文本信息之间的语义关系,提取抽象意义流。它还可以通过提出特定场景的上下文来获取更高级别的语义信息。该方法与其他基于注意的方法的主要区别在于,它在多个尺度上引入了图像的多个可视区域。此技术可以提取特定对象的适当视觉信息。为了提取场景特定的上下文,它首先使用Latent Dirichlet Allocation(LDA)[14]从数据集的所有描述生成字典。然后利用多层感知器对每幅图像进行主题向量预测。具有两个堆叠层的场景因子化LSTM用于生成图像整体上下文的描述。
Wu等人[151]提出了一种基于评论的图像描述注意方法。它引入了一个评论模型,可以在CNN隐藏状态下执行多个评论步骤。CNN的输出是一些事实向量,可以获得图像的全局事实。矢量作为LSTM注意机制的输入。例如,审阅者模块可以首先审阅:图像中的对象是什么?然后它可以查看对象的相对位置,另一个查看可以提取图像整体上下文的信息。这些信息将传递给解码器以生成图像描述。                                                                                                                                                                                       Pedersoli等人[112]提出了一种基于区域的图像描述注意机制。以前基于注意力的方法只将图像区域映射到RNN语言模型的状态。然而,这种方法将图像区域与给定RNN状态的描述词相关联。它可以预测RNN的每个时间步的下一个描述词和对应的图像区域。它能够预测RNN的每个时间步中的下一个字以及相应的图像区域,从而生成图像描述。为了找到关注区域,以前基于关注的图像描述方法要么使用CNN激活网格的位置,要么使用对象建议。相比之下,该方法使用端到端可训练的卷积空间变换器以及CNN激活网格和对象建议方法。这些技术的结合有助于该方法计算图像的自适应注意区域。实验表明,这种新的注意机制与空间变换网络相结合,可以产生高质量的图像描述。
Lu等。[88]提出了另一种基于注意力的图像描述方法。该方法基于视觉哨兵的自适应注意力模型。目前基于注意力的图像描述方法主要集中在RNN的每个时间段的图像上。但是,有些单词或短语(例如:a,of)不需要注意视觉信号。此外,这些不必要的视觉信号可能会影响描述生成过程并降低总体性能。因此,他们提出的方法可以确定什么时候关注图像区域,什么时候关注语言生成模型。一旦确定要查看图像,则必须选择图像的空间位置。该方法的第一个贡献是引入了一种新的空间注意方法,可以从图像中计算出空间特征。然后在自适应注意方法中,引入了一种新的LSTM扩展。通常,LSTM作为解码器,可以在每个时间步生成隐藏状态。然而,这个扩展能够产生一个额外的视觉哨兵,为解码器提供一个回退选项。它还有一个哨兵门,可以控制解码器从图像中获得多少信息。                                                                                                                                                                                 虽然基于注意力的方法在为图像描述生成单词或短语时寻找图像的不同区域,但这些方法生成的注意力图并不总是对应于图像的适当区域。它会影响图像描述生成的性能。刘等人。[84]提出了一种神经图像描述的方法。该方法可以在时间步对注意力图进行评估和校正。正确性是指在图像区域和生成的词之间建立一致的映射。为了实现这些目标,该方法引入了一个定量的评价指标来计算注意力图。它使用Flickr30K实体数据集[113]和MS COCO[83]数据集测量图像区域的地面真值注意图和语义标签。为了学习更好的注意功能,提出了监督注意模型。这里使用的监督注意模型有两种:强监督加对齐标注和弱监督加语义标注。在强监控下,采用对齐注释模型,可以直接将地面实况词映射到一个区域。然而,地面真值校准并不总是可能的,因为收集和注释数据通常非常昂贵。在MS COCO数据集上使用边界框或分割遮罩时执行弱监督。实验表明,监督注意模型在映射注意和图像描述方面都有较好的效果。
Chen等人。[21]提出了另一种基于注意力的图像描述方法。该方法考虑了空间和信道两方面的注意,计算了注意图。现有的基于注意力的图像描述方法只考虑空间信息,以生成注意力地图。这些空间注意方法的一个常见缺点是它们只在注意特征图上计算加权池。因此,这些方法逐渐失去空间信息。此外,他们只使用来自CNN最后一层的空间信息。这一层的接收场区域相当大,使得区域之间的间隙有限。因此,对于一幅图像来说,它们并没有得到明显的空间关注。然而,这种方法不仅从空间位置上提取CNN特征,而且从不同的信道和多层中提取CNN特征。因此,它得到了显著的空间关注。除此之外,在该方法中,卷积层的每个过滤器充当语义检测器[159],而其他方法使用外部源获取语义信息。                                                                                                          为了减少人为描述和机器生成描述之间的差距,Tavakoli等人[134]介绍了一种基于注意的图像描述方法。这是一个自下而上的基于显著性的注意力模型,可以利用它与其他基于注意力的图像描述方法进行比较。它发现人类首先描述的是比不那么重要的物体更重要的物体。结果还表明,该方法对未知数据的处理效果较好。
以往的图像描述方法大多采用自上而下的方法构建视觉注意力图。这些机制通常集中在从CNN的一层或两层输出中获得的一些选择性区域。输入区域大小相同,具有相同的接收字段形状。这种方法对图像的内容有一点考虑。然而,安德森等人的方法。[4]应用自上而下和自下而上的方法。自下而上的关注机制使用更快的R-CNN[116]来处理可以选择图像显著区域的区域建议。因此,该方法既适用于目标层区域,也适用于其他突出图像区域。
Park等人。[111]介绍了一种不同类型的基于注意力的图像描述方法。这种方法可以生成图像描述,解决图像的个人问题。它主要考虑两个任务:hashtag预测和后期生成。该方法使用上下文序列存储网络(CSMN)从图像中获取上下文信息。从个性化的角度描述图像在社交媒体网络中有很多应用。例如,每天人们在Facebook、Instagram或其他社交媒体上分享大量的图片。拍照或上传是一项非常简单的任务。然而,描述它们并不容易,因为它需要主题、情感和图像的背景。因此,该方法考虑了用户在生成图像描述时对以前文档中的词汇或书写样式的了解。为了使用这种新型的图像描述,CSMN方法有三个贡献:第一,该网络的内存可以作为存储库,并保留多种类型的上下文信息。第二,存储器的设计使得它可以按顺序存储所有先前生成的单词。因此,它不受消失梯度问题的影响。第三,提出的CNN可以关联多个记忆槽,有助于理解上下文概念。                                                        基于注意力的方法已经在图像描述和其他计算机视觉任务中显示出良好的性能和效率。然而,由这些基于注意的方法生成的注意图只依赖于机器。他们不考虑来自人类的任何监督。这就产生了思考注视信息是否能提高这些注意方法在图像描述中的性能的必要性。凝视表示人类对一个场景的认知和感知。人类的注视可以识别图像中物体的重要位置。因此,凝视机制已经在基于眼睛的用户建模[18、35、109、122、124]、目标定位[100]或识别[67]和整体场景理解[158、160]中显示了它们的潜在性能。然而,Sugano等人[129]声称凝视信息还没有集成到图像描述方法中。该方法引入了深神经网络的人眼注意机制来生成图像描述。该方法将人的注视信息合并到基于注意的LSTM模型中[152]。在实验中,它使用了SALICON数据集[60]并取得了良好的效果。                                                                                                                                                             

3.5.2  基于语义概念的图像描述基于语义概念的方法有选择地关注从图像中提取的一组语义概念建议。然后将这些概念组合成隐藏状态和循环神经网络的输出。
此类别中的方法遵循以下步骤:
(1)基于CNN的编码器用于编码图像特征和语义概念。(2)图像特征被输入到语言生成模型中。
(3)将语义概念添加到语言模型的不同隐藏状态中。(4)语言生成部分生成带有语义概念的描述。

A Comprehensive Survey of Deep Learning for Image Captioning--图像描述深度学习综述_第8张图片
图8显示了这一类别的典型方块图。
Karpathy等人在[65]中扩展了他们的方法[66]。后一种方法可以为两个图像及其区域生成自然语言描述。该方法采用了一种新颖的CNN图像区域组合,双向递归神经网络句子,以及将这两种模式关联起来的通用多模式嵌入。它还演示了一种多模态递归神经网络结构,该结构利用合成对准训练模型,生成新的图像区域描述。在这种方法中,依赖树关系(DTR)被用来训练句子片段与具有固定窗口上下文的图像区域的映射。与之前的方法相比,该方法使用双向神经网络来获得句子中的单词表示。它认为句子的连续片段在嵌入空间中对齐,这更有意义、更容易解释,而且长度不固定。通常,RNN考虑当前单词和所有先前生成的单词的上下文,以估计一个序列中下一个单词的概率分布。然而,该方法将其扩展到考虑输入图像内容的生成过程。这个添加很简单,但它使生成新的图像描述非常有效。
图像的属性被认为是丰富的语义线索。姚等人的方法。[155]具有不同的架构,可以将属性与图像表示相结合。主要介绍了两种类型的建筑表示。在第一个组中,它只将属性插入LSTM,或者先将图像表示插入LSTM,然后再插入属性,反之亦然。在第二组中,它可以控制LSTM的时间步。它决定图像表示和属性是输入一次还是每次步骤。这些体系结构的变体在MS COCO数据集和通用评估度量标准上进行测试。                                                                                                                                                                      You等。[156]提出了一种基于语义注意的图像描述方法。该方法对语义上重要的对象提供了详细、连贯的描述。自顶向下的范例[23、31、65、93、94、142、152]首先用于提取视觉特征,然后将其转换为文字。在自下而上的方法中,首先从图像的各个方面提取[32、34、74、76、78、80]视觉概念(例如区域、对象和属性),然后将它们组合起来。图像的细节对于生成图像描述通常非常重要。自顶向下的方法在获取图像的细节方面有局限性。自下而上的方法能够对任何图像分辨率进行操作,因此它们可以对图像的细节进行操作。但是,在制定端到端流程时,它们存在问题。因此,基于语义的注意力模型采用自上而下和自下而上的方法生成图像描述。在自上而下的方法中,图像特征是通过使用GoogeNet[133]CNN模型的最后1024维卷积层获得的。采用不同的非参数化和参数化方法收集视觉概念。最近邻图像检索技术用于计算非参数视觉概念。利用完全卷积网络(FCN)[86]从局部区域中学习属性,进行参数属性预测。尽管Xu等人[152]考虑到基于注意力的描述,它在固定和预先定义的空间位置上工作。然而,这种基于语义注意的方法可以处理图像的任何分辨率和任何位置。此外,该方法还考虑了加速生成更好的图像描述的反馈过程。
以前的图像描述方法不显式包含高级语义概念。然而,Wu等人[?]提出了一种基于高级语义概念的图像描述。它在基于神经网络的CNN-LSTM框架中使用中间属性预测层。首先,使用基于CNN的分类器从训练图像描述中提取属性。然后将这些属性作为高级语义概念,生成语义丰富的图像描述。
最近基于语义概念的图像描述方法[150,156]应用了语义概念检测过程[40]来获得明确的语义概念。他们在基于CNN-LSTM的编码器解码器中使用了这些高级语义概念,并在图像描述方面取得了显著的改进。但是,它们在生成语义上有问题。它们不能在整个句子中均匀地分布语义概念。例如,Wu等人[150]考虑LSTM的初始状态以添加语义概念。此外,它对CNN的视觉特征向量或推断的场景向量进行编码,然后将其输入LSTM以生成描述。然而,Gan等人[41]介绍了一种用于图像描述的语义合成网络(SCN)。在这种方法中,语义概念向量是由图像中所有可能的概念(此处称为标记)构成的。这种语义向量比视觉特征向量和场景向量具有更大的潜力,可以生成覆盖图像整体意义的描述。这被称为复合网络,因为它可以组成大多数语义概念。              现有的基于LSTM的图像描述方法在生成不同的描述集时存在局限性,因为它们必须逐字预测预定义格式中的下一个单词。然而,在一个句子中,无论其位置如何,属性、主题及其关系的组合都可以产生广泛的图像描述。王等。[148]提出了一种先定位对象及其交互,然后识别和提取相关属性以生成图像描述的方法。该方法的主要目的是将地面实况图像描述分解为骨架句和属性句两部分。该方法也称为骨架键。该方法的体系结构有ResNet[53]和两个LSTM,分别称为Skel-LSTM和Attr-LSTM。在训练过程中,骨架句由Skel-LSTM网络训练,属性短语由Attr-LSTM网络训练。在测试阶段,首先生成骨架语句,其中包含图像的主要对象及其关系的单词。然后这些对象再次回过头来查看图像以获得相关的属性。它在MS COCO数据集和一个新的Stock3M数据集上进行了测试,可以生成更准确和新的描述。

3.5.3基于对象的新型图像描述尽管最近基于深度学习的图像覆盖方法已经取得了很好的效果,但它们在很大程度上依赖于成对的图像和句子描述数据集。这些类型的方法只能生成上下文中对象的描述。因此,这些方法需要大量的训练图像-句子对。新的基于对象的图像描述方法可以生成不在成对图像描述数据集中的新对象的描述。
此类方法遵循以下一般步骤:
(1)对不成对的图像数据和不成对的文本数据分别进行词汇分类器和语言模型的训练。
(2)对一对图像描述数据进行深度描述模型训练。
(3)最后,将两个模型结合在一起进行联合训练,以生成新对象的描述。

A Comprehensive Survey of Deep Learning for Image Captioning--图像描述深度学习综述_第9张图片
图9给出了一种新的基于对象的图像描述方法的简单框图。
当前的图像描述方法是在图像描述对数据集上训练的。因此,如果他们在测试图像中看到未看到的对象,他们就不能在生成的描述中显示它们。Anne等人[6]提出了一种深合成描述器(DCC),它可以在生成的描述中表示看不见的对象。
Yao等人[154]提出了一种复制机制来生成对新对象的描述。该方法使用一个单独的对象识别数据集为新对象开发分类器。它通过解码器RNN和复制机制将适当的单词集成到输出描述中。该方法的体系结构增加了一个新的网络,用于识别未配对图像中的未看对象,并将其与LSTM结合起来生成描述。
为看不见的图像生成描述是一个具有挑战性的研究问题。Venugopalan等人[140]介绍了一种新颖的对象描述器(NOC),用于为图像中未看到的对象生成描述。他们使用外部资源来识别看不见的对象和学习语义知识。

3.5.4  风格化描述现有的图像描述系统只根据图像内容生成描述,也可以称为事实描述。他们不把文本的程式化部分与其他语言模式分开考虑。然而,风格化的描述可能比仅仅简单的图像描述更具表现力和吸引力。
此类方法遵循以下一般步骤:
(1)采用基于CNN的图像编码器获取图像信息。
(2)准备单独的文本语料库,从培训数据中提取各种风格化概念(例如:浪漫、幽默)。
(3)语言生成部分可以使用步骤1和步骤2的信息生成风格化和吸引人的描述。

A Comprehensive Survey of Deep Learning for Image Captioning--图像描述深度学习综述_第10张图片
图10给出了一个简单的风格化图像描述框图。

这些描述之所以流行,是因为它们对许多实际应用程序特别有价值。例如,每天人们都在不同的社交媒体上上传大量照片。这些照片需要风格化和有吸引力的描述。GaN等。[39]提出了一种称为Stylenet的新型图像描述系统。这种方法可以生成吸引人的描述,添加各种样式。该方法的体系结构由CNN和分解的LSTM组成,可以将事实和风格因素与描述分开。它使用多任务序列来排序训练[89]以识别样式因素,然后在运行时添加这些因素以生成吸引人的描述。更有趣的是,它使用外部单语风格化语言语料库进行训练,而不是成对的图像。但是,它使用了一个新的风格化图像描述数据集,称为flickrstyle10k,可以生成不同样式的描述。
现有的图像描述方法考虑了在生成图像描述时对图像的对象、场景及其相互作用的真实描述。在日常交谈、交流、人际关系和决策中,我们使用各种风格化和非事实化的表达方式,如情感、骄傲和羞耻。然而,Mathews等人[97]声称自动图像描述缺少这种非事实方面。因此,他们提出了一种称为senticap的方法。该方法可以生成具有正面或负面情感的图像描述。介绍了一种结合两个CNN+RNN并行运行的新型切换RNN模型。在每个时间步中,该切换模型生成两个RNN之间切换的概率。一种是根据事实单词生成描述,另一种是根据情感单词生成描述。然后,它从两个RNN的隐藏状态获取输入以生成描述。这种方法可以根据适当的情感成功地生成描述。

3.6 LSTM vs. Others

图像描述是计算机视觉与自然语言处理研究的交叉点。一般来说,NLP任务可以被定义为一个顺序学习。提出了几种神经语言模型,如神经概率语言模型[11]、对数双线性模型[105]、跳格图模型[98]和递归神经网络(RNNS)[99]用于序列到序列任务的学习。RNN已广泛应用于各种顺序学习任务中。然而,传统的RNN存在着消失和爆炸的梯度问题,不能充分处理长期的时间依赖性。
LSTM[54]网络是一种RNN,除了标准单元外,还具有特殊单元。LSTM单元使用一个存储单元,它可以在内存中长期保存信息。近年来,基于LSTM的学习任务排序模型被广泛应用。另一个网络,选通循环单元(GRU)[25]的结构与LSTM相似,但它不使用单独的内存单元,使用较少的选通来控制信息流。
然而,LSTMs忽略了句子的底层层次结构。由于通过内存单元的长期依赖性,它们还需要大量的存储。相比之下,CNN可以学习句子的内部层次结构,并且它们的处理速度比LSTM快。因此,最近,卷积结构在其他序列中用于对任务进行排序,例如,条件图像生成[137]和机器翻译[42、43、138]。
受上述CNN在顺序学习任务中的成功启发,Gu等人[51]提出了一种基于CNN语言模型的图像描述方法。该方法使用CNN语言进行统计语言建模。然而,该方法不能仅使用CNN语言对语言模型的动态时间行为进行建模。它结合了一个循环网络和语言-CNN来适当地模拟时间依赖性。Aneja等人[5]提出了一种用于图像描述的卷积结构。他们使用一个没有任何复发功能的前馈网络。该方法的体系结构包括四个部分:(i)输入嵌入层(i i)图像嵌入层(i i i)卷积模块和(iv)输出嵌入层。它还使用关注机制来利用空间图像特征。他们在具有挑战性的MSCOCO数据集上评估其体系结构,并显示出与基于标准度量的LSTM方法相当的性能。
Wang等人[147]提出了另一种基于CNN+CNN的图像描述方法。它类似于Aneja等人的方法。除了它使用一个分级的注意力模块来连接视觉CNN和语言CNN。该方法的作者还研究了各种超参数的使用,包括层数和CNN语言的内核宽度。结果表明,超参数的影响可以提高该方法的图像描述性能。

4 DATASETS AND EVALUATION METRICS

许多数据集用于训练、测试和评估图像描述方法。数据集在不同的角度上有所不同,例如图像数量、每个图像的描述数量、描述格式和图像大小。三个数据集:Flickr8k[55]、Flickr30k[113]和MS-COCO数据集[83]被广泛使用。这些数据集和其他数据集在第4.1节中进行了描述。在本节中,我们将展示示例图像及其由MS COCO、Flickr30K和Flickr8K数据集上的图像描述方法生成的描述。许多评估指标被用来衡量所生成的描述与实际情况相比的质量。每种度量都应用自己的计算技术,并具有明显的优势。第4.2节讨论了常用的评估指标。表2列出了基于深度学习的图像描述方法及其数据集和评估指标。

DATASETS:MS COCO,Flickr30K,Flickr8K,Visual Genome,Instgram,IAPR TC-12,Stock3M,MIT-Adobe FiveK,FlickrStyle 10k

Evaluation Metrics:BLUE,ROUGE,METEOR,CIDEr,SPICE

现有的图像描述方法计算对数似然分数来评估生成的描述。他们使用BLUE,ROUGE,METEOR,SPICE和CIDEr作为评估指标。然而,BLUE,ROUGE,METEOR与人类对质量的评价没有很好的相关性。CIDEr和SPICE有更好的相关性,但它们很难优化。Liu等人[85]引入了一种新的题注评估指标,这是人类评分员的一个好选择。它是由CIDEr和SPICE混合而成,被称为SPIDEr。它使用策略梯度方法来优化度量。
图像描述的质量取决于两个主要方面的评估:充分性和流畅性。评价指标需要关注一系列不同的语言特征来实现这些方面。然而,常用的评估指标只考虑语言的某些特定特征(如词汇或语义)。Sharif等人[125]提出了用于评估图像描述的基于学习的复合指标。复合指标包含一组语言特征,以实现评估的两个主要方面,并显示出改进的性能。

5 COMPARISON ON BENCHMARK DATASETS AND COMMON EVALUATION

 

6 DISCUSSIONS AND FUTURE RESEARCH DIRECTIONS

近年来,人们提出了许多基于深度学习的图像描述自动生成方法。监督学习、强化学习和基于GAN的方法通常用于生成图像描述。视觉空间和多模空间都可以用于基于监督学习的方法。视觉空间与多模空间的主要区别在于映射。基于视觉空间的方法执行从图像到描述的显式映射。相比之下,基于多模空间的方法结合了隐式视觉和语言模型。基于监督学习的方法进一步分为基于编码器-解码器体系结构、基于合成体系结构、基于注意、基于语义概念、风格化描述、密集图像描述和新的基于对象的图像描述。
基于编码器-解码器体系结构的方法使用简单的CNN和文本生成器生成图像描述。基于注意的图像描述方法将重点放在图像的不同突出部分,比基于编码器-解码器体系结构的方法获得更好的性能。基于语义概念的图像描述方法有选择地聚焦于图像的不同部分,可以生成语义丰富的描述。密集图像描述方法可以生成基于区域的图像描述。风格化的图片说明表达各种情感,如浪漫、骄傲和羞耻。基于GAN和RL的图像描述方法可以生成多种多样的描述。
MSCOCO、Flickr30k和Flickr8k数据集是常用的图像描述数据集。MSCOCO数据集是非常大的数据集,这些数据集中的所有图像都有多个描述。视觉基因组数据集主要用于基于区域的图像描述。不同的评价指标被用来衡量图像描述的性能。BLEU度量适合小句子评估。ROUGE有不同的类型,可以用来评估不同类型的文本。METEOR可以对描述的各个部分进行评估。与其他评估指标相比,SPICE在理解描述的语义细节方面更好。
尽管近年来取得了成功,但仍有很大的改进空间。基于生成的方法可以为每个图像生成新的描述。然而,这些方法在生成准确和多个描述时,在一定程度上无法检测出突出的对象和属性及其关系。除此之外,生成的题注的准确性在很大程度上取决于正确的句法和多样的题注,而这些题注又依赖于强大而复杂的语言生成模型。现有的方法在从同一域采集图像的数据集上显示了它们的性能。因此,研究开放域数据集将是该领域研究的一条有趣的途径。基于图像的事实描述不足以生成高质量的描述。可以添加外部知识以生成具有吸引力的图像描述。有监督的学习需要大量有标签的数据用于训练。因此,无监督学习和强化学习将在未来的图像描述中更加流行。

7 CONCLUSIONS

本文综述了基于深度学习的图像描述方法。我们已经给出了图像描述技术的分类,显示了主要组的通用框图,并强调了它们的优缺点。我们讨论了不同的评估指标和数据集及其优缺点。并对实验结果作了简要总结。我们简要概述了这一领域的潜在研究方向。虽然基于深度学习的图像描述方法近年来取得了显著的进展,但一种能够为几乎所有图像生成高质量描述的强大图像描述方法尚未实现。随着新型深度学习网络体系结构的出现,图像自动描述技术将在一段时间内保持活跃的研究领域。

 

 

 

 

 

你可能感兴趣的:(Image,Captioning,Image,captioning)