lucky_susu

A Comprehensive Survey of Deep Learning for Image Captioning--图像描述深度学习综述

原文地址：https://arxiv.org/abs/1810.04020

翻译走起，第一次翻译文献，可能是一顿ctrl+c，ctrl+v在加上百度翻译的操作吧，如有问题和建议，欢迎留言。image captioning根据个人喜好翻译成图像描述，其他什么图像字幕，图像标题生成，whatever，大家随意好了。

图像描述深度学习综述

图像描述的定义：Generating a description of an image.

图像描述要求识别图像中的重要对象、属性及其关系，并且生成语法和语义上正确的句子。基于深度学习能够处理复杂和具有挑战性的图像描述。本文旨在对现有的基于深度学习的图像描述技术进行综合评述。我们讨论了技术的基础，分析它们的性能，优势和局限性。我们还讨论了在基于深度学习的自动图像描述中常用的数据集和评价指标。

关键词：图像描述；深度学习；机器视觉；自然语言处理；CNN；LSTM

1 INTRODUCTION

每天，我们都会遇到大量来自各种来源的图片，如互联网、新闻文章、文档图表和广告。这些来源包含的图像，观众将不得不自己解释。大多数图像没有描述，但是人类可以在没有详细说明的情况下大体理解它们。然而，如果人类需要自动的图像描述，机器需要解释某种形式的图像描述。
图像描述很重要，原因很多。例如，它们可以用于自动即时索引。图像索引对于基于内容的图像检索（CBIR）非常重要，因此它可以应用于许多领域，包括生物医学、商业、军事、教育、数字图书馆和网络搜索。Facebook和Twitter等社交媒体平台可以直接从图片中生成描述。这些描述可以包括我们在哪里（例如，海滩、咖啡馆）、我们穿什么，重要的是我们在那里做什么。图像描述是人工智能的一个热门研究领域，它涉及图像理解和图像的语言描述。图像理解需要检测和识别物体。它还需要了解场景类型或位置、对象属性及其交互。生成格式良好的句子需要对语言进行句法和语义理解[143:Show and Tell]。
理解图像很大程度上取决于获取图像特征。为此目的使用的技术大致可分为两类：（1）传统的基于机器学习的技术（2）基于深度机器学习。
在传统的机器学习中，广泛使用手工制作的特征，如局部二进制模式（lbp）[107]、尺度不变特征变换（sift）[87]、定向梯度柱状图（hog）[27]以及这些特征的组合。在这些技术中，特征是从输入数据中提取出来的。然后将它们传递给分类器，例如支持向量机（SVM）[17]，以便对对象进行分类。由于手工制作的特性是特定于任务的，所以从一组大而多样的数据中提取特性是不可行的。此外，图像和视频等真实数据是复杂的，具有不同的语义解释。
另一方面，在基于深度机器学习的技术中，特征是从训练数据中自动学习的，它们可以处理大量和多样的图像和视频。例如，卷积神经网络（CNN）[79]被广泛用于特征学习，而SoftMax等分类器被用于分类。CNN后面通常是循环神经网络（RNN），以便生成描述。
在过去的5年里，大量的文章发表在图像描述上，广泛基于深度学习。深度学习算法能够很好地处理图像描述的复杂性和挑战。到目前为止，仅发表了三篇关于这一研究主题的调查论文[8，13，75]。尽管这些论文对图像描述的研究有很好的文献综述，但由于大部分论文是在论文发表后发表的，因此只能涵盖少量的深度学习论文。这些调查论文主要讨论了基于模板、基于检索和极少数基于深度学习的新颖图像描述生成模型。然而，在基于深度学习的图像描述制作方面，已经做了大量的工作。此外，大数据集和新数据集的可用性使基于学习的图像描述成为一个有趣的研究领域。为了提供一个精简版的文献，我们的调查综述，主要集中在基于深度学习的论文图像描述。
本文的主要目的是为基于深度学习的图像描述提供一个全面的综述。首先，我们将现有的图像描述文章分为三大类：（1）基于模板的图像描述；（2）基于检索的图像描述；（3）新的图像描述生成。第2节简要讨论了这些类别。大多数基于深度学习的图像描述方法都属于新的描述生成方法。因此，我们只关注基于深度学习的图像描述的生成。第二，我们将基于深度学习的图像描述方法分为不同的类别，即（1）基于视觉空间，（2）基于多模空间，（3）监督学习，（4）其他深度学习，（5）密集描述，（6）基于全场景，（7）基于编码器-解码器体系结构，（8）基于复合体系结构，（9）LSTM（长短时记忆）[54]基于语言模型，（10）基于其他语言模型，（11）基于注意力机制，（12）基于语义概念，（13）风格化描述，以及（14）基于对象的新的图像描述。我们将在第3节中讨论所有类别。我们在第4节中概述了用于测量图像描述质量的数据集和常用评估指标。我们还讨论并比较了第5节中不同方法的结果。最后，我们在第6节中给出了简短的讨论和未来的研究方向，然后在第7节中给出了结论。

2 IMAGE CAPTIONING METHODS

在本节中，我们回顾和描述了现有图像描述方法的主要类别，包括基于模板的图像描述、基于检索的图像描述和新的描述生成。基于模板的方法有固定的模板，其中有许多空白的槽来生成描述。在这些方法中，首先检测不同的对象、属性、动作，然后填充模板中的空白空间。例如，Farhadi等人[34]使用三组场景元素填充模板槽以生成图像描述。李等。[80]为此，提取与检测到的对象、属性及其关系相关的短语。Kulkarni等人采用了条件随机场（CRF）。[74]在填充间隙之前推断对象、属性和介词。基于模板的方法可以生成语法正确的描述。但是，模板是预定义的，无法生成可变长度的描述。此外，在图像描述[2，32，76，77，101]中引入了基于解析的语言模型，这比基于固定模板的方法更强大。因此，本文不关注这些基于模板的方法。
描述可以从可视空间和多模式空间中检索。在基于检索的方法中，描述是从一组现有描述中检索出来的。基于检索的方法首先从训练数据集中找到视觉上相似的图像及其描述。这些描述称为候选描述。查询图像的描述从这些描述池中选择[47、55、108、130]。这些方法产生一般和语法正确的描述。但是，它们不能生成特定于图像和语义正确的描述。
新的描述可以从视觉空间和多模空间生成。这类的一般方法是首先分析图像的视觉内容，然后使用语言模型从视觉内容生成图像描述[70、152、155、156]。这些方法可以为每个图像生成新的描述，这些描述在语义上比以前的方法更准确。大多数新的描述生成方法都使用基于深度机器学习的技术。因此，基于深度学习的新的图像描述生成方法是本文研究的重点。
图1描述了基于深度学习的图像描述方法的总体分类。该图说明了不同类别的图像描述方法的比较。基于新的图像描述生成的方法主要采用视觉空间和基于深度机器学习的技术。描述也可以从多模式空间生成。基于深度学习的图像描述方法也可以根据学习技术分类：监督学习、强化学习和无监督学习。我们将强化学习和无监督学习分为其他深度学习。通常会为图像中的整个场景生成描述。但是，也可以为图像的不同区域生成描述（密集描述）。图像描述方法可以使用简单的编码器-解码器体系结构或合成体系结构。有一些方法在图像描述中使用注意机制、语义概念和不同的风格。有些方法还可以为未看到的对象生成描述。我们把它们归类为“其他”类。大多数图像描述方法使用LSTM作为语言模型。然而，有许多方法使用其他语言模型，如cnn和rnn。因此，我们将基于语言模型的类别包括为“LSTM与其他类别”。

3 DEEP LEARNING BASED IMAGE CAPTIONING METHODS

我们在图1中为基于深度学习的图像描述生成方法绘制了一个整体分类。我们通过将它们分为视觉空间与多模空间、整个场景的密集描述与描述、有监督的学习与其他深度学习、编码器-解码器体系结构与组合体系结构以及一个“其他”组来讨论它们的相似性和不同性，该组包含基于注意、基于语义概念的描述和新的基于对象的描述。我们还创建了一个名为lstm vs. others的类别。
表1简要介绍了基于深度学习的图像描述方法。表1包含图像描述方法的名称、用于编码图像信息的深度神经网络的类型以及用于描述信息的语言模型。在最后一列中，我们根据图1中的分类为每个描述技术提供一个类别标签。

3.1 Visual Space vs. Multimodal Space

基于深度学习的图像描述方法可以从视觉空间和多模空间生成描述。可以理解的是，图像描述数据集将相应的描述作为文本。在基于视觉空间的方法中，图像特征和相应的描述独立地传递给语言解码器。相反，在多模空间中，共享的多模空间是从图像和相应的描述文本中学习的。然后将这种多模式表示传递给语言解码器。
3.1.1 视觉空间。大部分图像描述方法使用视觉空间生成描述。这些方法在第3.2节至第3.5节中进行了讨论。

3.1.2 多模空间。典型的基于多模空间方法的体系结构包括语言编码器部分、视觉部分、多模空间部分和语言解码器部分。多模空间图像描述方法的一般示意图如图2所示。视觉部分采用深卷积神经网络作为特征抽取器，提取图像特征。语言编码器部分提取单词特征，学习每个单词的密集特征嵌入。然后它将语义时间上下文转发到循环层。多模空间部分将图像特征映射到具有词特征的公共空间中。然后将生成的映射传递给语言解码器，该解码器通过解码映射生成描述。
此类别中的方法遵循以下步骤：
（1）利用深神经网络和多模态神经语言模型，在多模态空间中共同学习图像和文本。
（2）语言生成部分使用步骤1中的信息生成描述。
Kiros等人提出的这一领域的初步工作。〔69〕。该方法利用CNN提取图像特征，生成图像描述。它使用一个同时表示图像和文本的多模式空间来进行多模式表示学习和图像描述生成。介绍了多模式神经语言模型，如模态偏态对数双线性模型（MLBL-B）和[104]的因子化三向对数双线性模型（MLBL-F），接着是Alexnet[73]。与大多数以前的方法不同，此方法不依赖任何其他模板、结构或约束。相反，它依赖于从深层神经网络和多模神经语言模型中分别学习到的高级图像特征和单词表示。神经语言模型在处理大量数据方面有局限性，在长期记忆方面效率低下[64]。
基罗斯等。[69]扩展了他们在[70]中的工作，学习了一种将lstm用于句子编码的联合图像句子嵌入，并将一种称为结构内容神经语言模型（sc-nlm）的新神经语言模型用于图像描述的生成。与现有的方法相比，sc-nlm具有一个优势，即它可以将句子的结构描述为编码器生成的内容。这也有助于他们在生成逼真的图像描述方面取得显著的改进，而不是[69]提出的方法。
Karpathy等人[66]提出了一个深度、多模式的模型，嵌入图像和自然语言数据，用于双向图像和句子检索。以前的基于多模态的方法使用一个公共的嵌入空间，直接映射图像和句子。然而，这种方法在更精细的层次上工作，嵌入图像片段和句子片段。该方法将图像分解为多个对象和句子，并将它们分解为依赖树关系（DTR）[28]以及它们潜在的模态间对齐的原因。结果表明，该方法在检索任务上比其他方法有了显著的改进。这种方法也有一些局限性。在建模方面，依赖树可以很容易地建模关系，但并不总是合适的。例如，一个视觉实体可以用一个复杂的短语来描述，这个短语可以分成多个句子片段。“黑白狗”一词可分为两种关系（conj、black、white）和（amod、white、dog）。同样，对于许多依赖关系，我们在图像中找不到任何清晰的映射（例如：“彼此”不能映射到任何对象）。毛等人。[94]提出了一种多模态递归神经网络（M-RNN）生成新图像描述的方法。该方法有两个子网络：一个是句子的深层递归神经网络，另一个是图像的深层卷积网络。这两个子网络在多模态层中相互作用，形成了整个M-RNN模型。在这种方法中，句子的图像和片段都作为输入。它计算概率分布以生成下一个描述词。该模型中还有五层：两个字嵌入层、一个循环层、一个多模层和一个SoftMax层。基罗斯等。[69]提出了一种基于对数双线性模型的方法，并利用Alexnet提取视觉特征。这种多模态回归神经网络方法与基罗斯等人的方法密切相关。〔69〕。基罗斯等。使用固定长度的上下文（即五个单词），而在此方法中，时间上下文存储在一个循环体系结构中，该结构允许任意的上下文长度。两个字嵌入层使用一个热向量来生成密集的字表示。它对单词的句法意义和语义意义进行编码。通过计算嵌入层中两个密集词向量之间的欧氏距离，可以找到语义相关词。大多数句子图像多模态方法[38，66，70，128]使用预先计算的嵌入向量来初始化它们的模型。相反，该方法随机初始化嵌入层并从训练数据中学习它们。这有助于它们生成比以前的方法更好的图像描述。许多图像描述方法[66，69，95]都建立在当代的重复神经网络上。它们使用循环层来存储可视信息。然而，（m-rnn）使用图像表示和句子片段来生成描述。它更有效地利用了循环层的容量，这有助于使用相对较小的维循环层实现更好的性能。
陈等人。[23]提出了另一种多模空间图像描述方法。该方法可以从图像中生成新的描述，并从给定的描述中恢复视觉特征。它还可以描述图像及其描述之间的双向映射。许多现有的方法[55，66，128]使用联合嵌入来生成图像描述。但是，它们不使用可以从描述生成视觉特征的反向投影。另一方面，该方法从生成的单词中动态更新图像的视觉表示。它有一个额外的复发视觉隐藏层与RNN，使反向投影。

3.2 Supervised Learning vs. Other Deep learning

在有监督的学习中，训练数据带有所需的输出，称为标签。无监督学习处理未标记的数据。生成对抗网络（GANs）[48]是一种无监督的学习技术。强化学习是另一种机器学习方法，代理的目标是通过探索和奖励信号发现数据和/或标签。许多图像描述方法采用了增强学习和基于GAN的方法。这些方法属于“其他深度学习”范畴。
3.2.1 基于监督学习的图像描述。基于监督学习的网络在图像分类[53、73、127、133]、目标检测[44、45、116]和属性学习[40]中已成功应用多年。这一进展使研究人员有兴趣将其用于自动图像描述[23、65、94、142]。在本文中，我们发现了大量的基于监督学习的图像描述方法。我们将它们分为不同的类别：（i）编码器-解码器架构，（i i）组合架构，（i i i）基于注意力机制，（i v）基于语义概念，（v）风格化描述，（v i）基于对象的新的描述，以及（v i i）密集图像描述。 3.2.2 其他基于深度学习的图像描述。在我们的日常生活中，数据随着未启用的数据而增加，因为准确地注释数据通常是不切实际的。因此，最近研究者们更加关注强化学习和基于无监督学习的图像描述技术。
强化学习代理选择一个动作，接收奖励值，并移动到新状态。代理试图选择具有最大长期回报的行动。它需要连续的状态和动作信息，以提供价值函数的保证。传统的强化学习方法面临着许多局限性，如缺乏对价值函数的保证和不确定状态行为信息。策略梯度方法[132]是一种强化学习，可以使用梯度下降和优化技术为特定操作选择特定策略。该策略可以为保证一致性的操作整合领域知识。因此，与基于值函数的方法相比，策略梯度方法需要的参数更少。
现有的基于深度学习的图像描述方法使用不同的图像编码器来提取图像特征。然后将这些特征输入基于神经网络的语言解码器以生成描述。这些方法有两个主要问题：（i）它们使用最大似然估计和反向传播方法进行训练[114]。在这种情况下，下一个词是预测给定的图像和所有先前生成的地面实况词。因此，生成的描述看起来像地面实况描述。这种现象称为曝光偏差问题。（ii）测试时的评估指标不可区分。理想情况下，图像覆盖的序列模型应经过培训，以避免曝光偏差，并直接优化测试时间的指标。在基于行为批评家的强化学习算法中，批评家可以用来估计期望的未来奖励来训练行为人（描述策略网络）。基于强化学习的图像描述方法根据每个状态下获得的奖励从模型中抽取下一个令牌。政策梯度法在强化学习中可以对梯度进行优化，以预测累积的长期回报。从而解决了评价指标的不可微性问题。
这类方法遵循以下步骤：（1）基于CNN和RNN的组合网络生成描述。
（2）另一个基于CNN-RNN的网络评估描述并将反馈发送给第一个网络生成高质量的描述。（这里对强化学习暂时还没了解，还不清楚这段的意思）

这类典型方法的框图如图3所示。
Ren等。2017年[119]推出了一种新的基于增强学习的图像描述方法。该方法的体系结构有两个网络，它们在每个时间步联合计算下一个最佳单词。“政策网络”作为本地指导，有助于根据当前状态预测下一个词。“价值网络”作为全局指导，考虑到当前状态的所有可能扩展，评估奖励价值。这种机制能够在预测正确单词时调整网络。因此，它可以在结尾处生成与地面实况描述类似的好描述。它使用actor-critic(玩家-评委)算法强化学习模型[71]来训练整个网络。视觉语义嵌入[117，118]用于计算预测正确单词的实际奖励值。它还可以帮助测量图像和句子之间的相似性，从而评估生成的描述的正确性。
Rennie等。[120]提出了另一种基于增强学习的图像描述方法。该方法利用测试时间推理算法对奖励进行归一化处理，而不是对奖励信号进行估计和训练时间归一化处理。实验结果表明，这种测试时间译码对生成高质量的图像描述是非常有效的。
Zhang等。[161]提出了一种基于actor-critic强化学习的图像描述方法。该方法可以直接优化现有评价指标的不可微性问题。actor-critical方法的体系结构由策略网络（actor）和值网络（critical）组成。参与者将作业视为顺序决策问题，并可以预测序列的下一个标记。在序列的每个状态中，网络将收到特定于任务的奖励（在本例中，是评估指标得分）。评论家的工作是预测回报。如果它能够预测预期的回报，那么参与者将继续根据其概率分布对输出进行抽样。
基于GAN的方法可以从未标记的数据中学习深度特征。它们通过在一对网络（生成器和鉴别器）之间应用竞争过程来实现这种表示。GANs已经成功地应用于各种应用，包括图像描述[26，126]、图像到图像翻译[56]、文本到图像合成[15，115]和文本生成[36，145]。
Gan有两个问题。首先，GAN可以很好地从真实图像生成自然图像，因为GAN是针对真实值数据而提出的。然而，文本处理是基于离散的数字。因此，这种操作是不可微的，因此很难直接应用反向传播。策略渐变应用参数函数以允许渐变反向传播。第二，评价者在序列生成中面临着消失梯度和误差传播的问题。对于每一部分描述，它都需要一个可能的未来奖励值。蒙特卡洛推出[157]用于计算未来的奖励值。与传统的深卷积网络和基于深度递归网络的模型相比，基于GAN的图像描述方法可以生成一组不同的图像描述。Dai等。[26]还提出了一种基于GAN的图像描述方法。但是，它们不考虑对单个图像使用多个描述。shetty等。[126]介绍了一种新的基于GAN的图像描述方法。这种方法可以为单个图像生成多个描述，并且在生成不同描述方面有了显著的改进。GANs在对离散数据进行反向传播方面有局限性。Gumbel采样器[58，91]用于解决离散数据问题。这种对抗性网络的两个主要部分是发生器和鉴别器。在培训过程中，生成器学习鉴别器提供的损失值，而不是从显式来源学习。鉴别器具有真实的数据分布，可以区分生成器生成的样本和真实的数据样本。这允许网络学习不同的数据分布。此外，网络对生成的描述集进行了真假分类。因此，它可以生成类似于人类生成的描述。

3.3 Dense Captioning vs. Captions for the whole scene

密度描述，为场景的每个区域生成描述。其他方法为整个场景生成描述。
3.3.1 密度描述。以前的图像描述方法只能为整个图像生成一个描述。他们使用图像的不同区域来获取各种对象的信息。但是，这些方法不会生成区域说明。
Johnson和其他人提出了一个图像处理方法，称为DenseCap。该方法对图像的所有显著性区域进行定位，然后生成这些区域的描述。
这种类型的典型方法有以下步骤：
（1）针对给定图像的不同区域生成区域建议。
（2）CNN用于获取基于区域的图像特征。
（3）语言模型使用步骤2的输出为每个区域生成描述。
图4给出了一个典型的密集描述方法的框图。
一个典型的一个典型的稠密胶囊幻灯片是在图4。

图4给出了一个典型的密集描述方法的框图。
密集描述[62]提出了一种全卷积定位网络结构，由卷积网络、密集定位层和LSTM[54]语言模型组成。密集的局部化层用一个单一的、有效的正向传递来处理一个图像，它隐式地预测图像中的一组感兴趣的区域。因此，与快速R-CNN或快速R-CNN的完整网络（即RPN（Region Proposal Network[44]）不同，它不需要外部区域提案。定位层的工作原理与更快的R-CNN的工作有关[116]。然而，Johnson等人[62]使用差分空间软注意机制[49，57]和双线性插值[57]代替ROI池机制[44]。此修改有助于该方法通过网络进行反向传播，并顺利选择活动区域。它使用视觉基因组[72]数据集生成区域级图像描述。
对整个视觉场景的描述是非常主观的，不足以让人完全理解。基于区域的描述比全局图像描述更客观、更详细。基于区域的描述称为密集描述。在密集描述方面有一些挑战。由于区域密集，一个对象可能有多个感兴趣的重叠区域。此外，对于所有视觉概念来说，很难识别每个目标区域。杨等人。[153]提出了另一种密集描述方法。这种方法可以解决这些挑战。首先，它提出了一种推理机制，这种推理机制共同依赖于该区域的视觉特征和该区域的预测描述。这允许模型找到边界框的适当位置。其次，它们应用了一种上下文融合，可以将上下文特征与各自区域的视觉特征结合起来，以提供丰富的语义描述。
3.3.2 整个场景的描述。编码器-解码器架构、合成架构、基于注意、基于语义概念、风格化描述、新颖的基于对象的图像描述以及其他基于深度学习网络的图像描述方法为整个场景生成单个或多个描述。

3.4 Encoder-Decoder Architecture vs. Compositional Architecture

有些方法只使用简单的Vanilla编码器和解码器来生成描述。但是，其他方法使用多个网络。
3.4.1基于编码器-解码器架构的图像描述。基于神经网络的图像描述方法工作起来很简单。这些方法与基于编码器解码器框架的神经机器翻译非常相似（131）。在这个网络中，从CNN隐藏的激活中提取全局图像特征，然后将其输入LSTM，生成一系列单词。

此类的典型方法有以下一般步骤：
（1）使用普通CNN获取场景类型，检测对象及其关系。（2）语言模型使用步骤1的输出将其转换为单词，并
产生图像描述的短语。
图5给出了这一类别的简单框图。
Viyal等人。[142]提出了一种称为神经图像描述生成器（NIC）的方法。方法
使用CNN进行图像表示，使用LSTM生成图像描述。这种特殊的CNN使用一种新的方法进行批处理规范化，并将CNN最后一个隐藏层的输出用作LSTM解码器的输入。这个LSTM能够跟踪已经使用文本描述的对象。在最大似然估计的基础上，对NIC进行训练。
在生成图像描述时，图像信息包括在LSTM的初始状态中。下一个字是根据当前时间步和上一个隐藏状态生成的。这个过程一直持续到得到句子的结束标记为止。由于图像信息只在处理过程的开始时输入，因此可能面临消失梯度问题。开始时产生的单词的作用也越来越弱。因此，LSTM在生成长句子方面仍然面临挑战[7，24]。因此，Jia等人[59]提出了LSTM的扩展，称为引导式LSTM（GLSTM）。这个GLSTM可以生成长句子。在这个体系结构中，它将全局语义信息添加到LSTM的每个门和单元状态中。文中还考虑了不同长度的规范化策略来控制描述的长度。语义信息以不同的方式提取。首先，它使用跨模式检索任务来检索图像描述，然后从这些描述中提取语义信息。基于语义的信息也可以使用多模态嵌入空间来提取。
毛等人。[92]提出了一种特殊类型的图像文本生成方法。此方法可以生成特定对象或区域的描述，称为引用表达式[37、46、68、102、103、136、141]。然后，使用此表达式可以推断正在描述的对象或区域。因此，生成的描述或表达式是非常明确的。为了解决引用表达式的问题，该方法使用了一个新的数据集，称为引用数据集[68]，它基于流行的MS COCO数据集。
以前基于CNN-RNN的图像描述方法使用的LSTM是单向的，深度相对较浅。在单向语言生成技术中，下一个单词是根据视觉上下文和所有以前的文本上下文预测的。单向LSTM无法生成上下文格式良好的描述。此外，最近的目标检测和分类方法[73，127]表明，深层、层次化的方法比浅层次的方法更擅长学习。王等。[144]提出了一种基于深度双向LSTM的图像描述方法。该方法能够生成上下文丰富、语义丰富的图像描述。该架构由一个CNN和两个独立的LSTM网络组成。它可以利用过去和将来的上下文信息来学习长期的视觉语言交互。

3.4.2 基于合成架构的图像描述。基于组合体系结构的方法由几个独立的功能构建块组成：首先，CNN用于从图像中提取语义概念。然后使用语言模型生成一组候选题注。在生成最终描述时，这些候选描述将使用深度多模态相似性模型重新排序。
此类的典型方法维护以下步骤：
（1）使用CNN获取图像特征。
（2）视觉概念（如属性）是从视觉特征中获得的。
（3）语言模型使用步骤1和步骤2的信息生成多个描述。
（4）使用深度多模态相似模型对生成的描述进行重新排序，以选择高质量图像描述。

图6给出了基于合成网络的图像描述方法的通用框图。
Fang等人[33]介绍了基于生成的图像描述。它使用视觉检测器、语言模型和多模式相似性模型在图像描述数据集上训练模型。图像描述可以包含名词、动词和形容词。词汇表是由1000个最常见的训练题注组成的。系统使用的是图像子区域，而不是完整图像。卷积神经网络（Alexnet[73]和VGG16net）用于提取图像子区域的特征。子区域的特征用可能包含在图像描述中的词汇表中的单词进行映射。多实例学习（MIL）[96]用于训练学习每个单词的识别视觉特征的模型。最大熵（ME）[12]语言模型用于从这些单词生成图像描述。生成的描述按句子特征的线性加权排序。最小误差率训练（MERT）[106]用于学习这些权重。图像和句子之间的相似性可以很容易地用一个公共向量表示来度量。图像和句子片段通过深度多模态相似模型（DMSM）用公共向量表示进行映射。它在选择高质量的图像描述方面取得了显著的改进。到目前为止，许多方法在生成图像描述方面取得了令人满意的进展。这些方法使用来自同一领域的培训和测试样本。因此，这些方法在开放域图像中无法很好地执行。此外，它们只擅长识别一般的视觉内容。有些关键实体，如名人和地标，超出了它们的范围。这些方法生成的描述根据自动度量进行评估，如Bleu[110]、Meteor[1]和Cider[139]。这些评估指标已经在这些方法上显示出良好的结果。然而，就绩效而言，衡量标准的评估与人类对评估的判断之间存在很大差距[20、30、74]。如果将其视为现实实体信息，则性能可能会更弱。然而，Tran等人[135]引入了一种不同的图像描述方法。这种方法甚至可以为开放域图像生成图像描述。它可以检测出一组不同的视觉概念，并为名人和地标生成描述。它使用外部知识库Freebase[16]来识别各种实体，如名人和地标。对生成的描述的性能进行了一系列的人工判断。在实验中，它使用了三个数据集：MS COCO、Adobe MIT Fivek[19]和Instagram的图像。MS COCO数据集的图像是从同一个域收集的，但其他数据集的图像是从开放域中选择的。该方法在具有挑战性的Instagram数据集上取得了显著的性能。
马等。[90]提出了另一种基于合成网络的图像描述方法。此方法使用结构词生成语义上的平均描述。它还使用类似于多实例学习方法[33]的多任务方法和多层优化方法[52]生成结构词。然后使用基于LSTM编码器-解码器的机器翻译方法[131]将结构词翻译成图像描述。
王等。[146]提出了一种用于图像描述生成的并行融合RNN-LSTM体系结构。该方法的体系结构将RNN和LSTM的隐藏单元划分为许多相同大小的部分。这些部件与相应的比率并行工作以生成图像描述。

3.5 Others

基于注意力机制、基于语义概念、新的基于对象的方法和风格化的描述被放在“其他”组中，因为这些类别独立于其他方法。
3.5.1基于注意力的图像描述。基于神经编码器-解码器的方法主要用于机器翻译[131]。按照这些趋势，他们也被用于图像描述的任务，并发现非常有效。在图像描述中，CNN作为编码器，从输入图像中提取视觉特征，RNN作为解码器，逐字转换成图像的自然语言描述。但是，这些方法在为图像生成描述时无法随着时间的推移分析图像。除此之外，这些方法不考虑与图像描述部分相关的图像的空间方面。相反，它们生成描述，将场景作为一个整体考虑。基于注意力的机制在深度学习中越来越流行，因为它们可以解决这些局限性。它们可以在生成输出序列的同时动态聚焦于输入图像的各个部分。
这类典型方法采用以下步骤：
（1）图像信息由CNN根据整个场景获取。
（2）语言生成阶段根据步骤1的输出生成单词或短语。（3）基于生成的单词或短语，在语言生成模型的每个时间步骤中，对给定图像的显著区域进行聚焦。
（4）在语言生成模型的结束状态之前，描述是动态更新的。

基于注意力的图像描述方法的框图如图7所示。

Xu等人[152]首先介绍了一种基于注意力的图像描述方法。该方法自动描述图像的显著内容。基于注意的方法与其他方法的主要区别在于，它们可以集中在图像的突出部分，同时生成相应的单词。该方法采用stochastic hard attention和deterministic soft attention两种不同的方法来产生注意。大多数基于CNN的方法使用ConvNet的顶层从图像中提取突出对象的信息。这些技术的一个缺点是，它们可能会丢失某些信息，这些信息对于生成详细的描述很有用。为了保持信息的完整性，注意方法使用来自下卷积层的特征，而不是完全连接层。
Jin等人[61]提出了另一种基于注意力的图像描述方法。该方法能够根据视觉信息与文本信息之间的语义关系，提取抽象意义流。它还可以通过提出特定场景的上下文来获取更高级别的语义信息。该方法与其他基于注意的方法的主要区别在于，它在多个尺度上引入了图像的多个可视区域。此技术可以提取特定对象的适当视觉信息。为了提取场景特定的上下文，它首先使用Latent Dirichlet Allocation（LDA）[14]从数据集的所有描述生成字典。然后利用多层感知器对每幅图像进行主题向量预测。具有两个堆叠层的场景因子化LSTM用于生成图像整体上下文的描述。
Wu等人[151]提出了一种基于评论的图像描述注意方法。它引入了一个评论模型，可以在CNN隐藏状态下执行多个评论步骤。CNN的输出是一些事实向量，可以获得图像的全局事实。矢量作为LSTM注意机制的输入。例如，审阅者模块可以首先审阅：图像中的对象是什么？然后它可以查看对象的相对位置，另一个查看可以提取图像整体上下文的信息。这些信息将传递给解码器以生成图像描述。   Pedersoli等人[112]提出了一种基于区域的图像描述注意机制。以前基于注意力的方法只将图像区域映射到RNN语言模型的状态。然而，这种方法将图像区域与给定RNN状态的描述词相关联。它可以预测RNN的每个时间步的下一个描述词和对应的图像区域。它能够预测RNN的每个时间步中的下一个字以及相应的图像区域，从而生成图像描述。为了找到关注区域，以前基于关注的图像描述方法要么使用CNN激活网格的位置，要么使用对象建议。相比之下，该方法使用端到端可训练的卷积空间变换器以及CNN激活网格和对象建议方法。这些技术的结合有助于该方法计算图像的自适应注意区域。实验表明，这种新的注意机制与空间变换网络相结合，可以产生高质量的图像描述。
Lu等。[88]提出了另一种基于注意力的图像描述方法。该方法基于视觉哨兵的自适应注意力模型。目前基于注意力的图像描述方法主要集中在RNN的每个时间段的图像上。但是，有些单词或短语（例如：a，of）不需要注意视觉信号。此外，这些不必要的视觉信号可能会影响描述生成过程并降低总体性能。因此，他们提出的方法可以确定什么时候关注图像区域，什么时候关注语言生成模型。一旦确定要查看图像，则必须选择图像的空间位置。该方法的第一个贡献是引入了一种新的空间注意方法，可以从图像中计算出空间特征。然后在自适应注意方法中，引入了一种新的LSTM扩展。通常，LSTM作为解码器，可以在每个时间步生成隐藏状态。然而，这个扩展能够产生一个额外的视觉哨兵，为解码器提供一个回退选项。它还有一个哨兵门，可以控制解码器从图像中获得多少信息。   虽然基于注意力的方法在为图像描述生成单词或短语时寻找图像的不同区域，但这些方法生成的注意力图并不总是对应于图像的适当区域。它会影响图像描述生成的性能。刘等人。[84]提出了一种神经图像描述的方法。该方法可以在时间步对注意力图进行评估和校正。正确性是指在图像区域和生成的词之间建立一致的映射。为了实现这些目标，该方法引入了一个定量的评价指标来计算注意力图。它使用Flickr30K实体数据集[113]和MS COCO[83]数据集测量图像区域的地面真值注意图和语义标签。为了学习更好的注意功能，提出了监督注意模型。这里使用的监督注意模型有两种：强监督加对齐标注和弱监督加语义标注。在强监控下，采用对齐注释模型，可以直接将地面实况词映射到一个区域。然而，地面真值校准并不总是可能的，因为收集和注释数据通常非常昂贵。在MS COCO数据集上使用边界框或分割遮罩时执行弱监督。实验表明，监督注意模型在映射注意和图像描述方面都有较好的效果。
Chen等人。[21]提出了另一种基于注意力的图像描述方法。该方法考虑了空间和信道两方面的注意，计算了注意图。现有的基于注意力的图像描述方法只考虑空间信息，以生成注意力地图。这些空间注意方法的一个常见缺点是它们只在注意特征图上计算加权池。因此，这些方法逐渐失去空间信息。此外，他们只使用来自CNN最后一层的空间信息。这一层的接收场区域相当大，使得区域之间的间隙有限。因此，对于一幅图像来说，它们并没有得到明显的空间关注。然而，这种方法不仅从空间位置上提取CNN特征，而且从不同的信道和多层中提取CNN特征。因此，它得到了显著的空间关注。除此之外，在该方法中，卷积层的每个过滤器充当语义检测器[159]，而其他方法使用外部源获取语义信息。为了减少人为描述和机器生成描述之间的差距，Tavakoli等人[134]介绍了一种基于注意的图像描述方法。这是一个自下而上的基于显著性的注意力模型，可以利用它与其他基于注意力的图像描述方法进行比较。它发现人类首先描述的是比不那么重要的物体更重要的物体。结果还表明，该方法对未知数据的处理效果较好。
以往的图像描述方法大多采用自上而下的方法构建视觉注意力图。这些机制通常集中在从CNN的一层或两层输出中获得的一些选择性区域。输入区域大小相同，具有相同的接收字段形状。这种方法对图像的内容有一点考虑。然而，安德森等人的方法。[4]应用自上而下和自下而上的方法。自下而上的关注机制使用更快的R-CNN[116]来处理可以选择图像显著区域的区域建议。因此，该方法既适用于目标层区域，也适用于其他突出图像区域。
Park等人。[111]介绍了一种不同类型的基于注意力的图像描述方法。这种方法可以生成图像描述，解决图像的个人问题。它主要考虑两个任务：hashtag预测和后期生成。该方法使用上下文序列存储网络（CSMN）从图像中获取上下文信息。从个性化的角度描述图像在社交媒体网络中有很多应用。例如，每天人们在Facebook、Instagram或其他社交媒体上分享大量的图片。拍照或上传是一项非常简单的任务。然而，描述它们并不容易，因为它需要主题、情感和图像的背景。因此，该方法考虑了用户在生成图像描述时对以前文档中的词汇或书写样式的了解。为了使用这种新型的图像描述，CSMN方法有三个贡献：第一，该网络的内存可以作为存储库，并保留多种类型的上下文信息。第二，存储器的设计使得它可以按顺序存储所有先前生成的单词。因此，它不受消失梯度问题的影响。第三，提出的CNN可以关联多个记忆槽，有助于理解上下文概念。基于注意力的方法已经在图像描述和其他计算机视觉任务中显示出良好的性能和效率。然而，由这些基于注意的方法生成的注意图只依赖于机器。他们不考虑来自人类的任何监督。这就产生了思考注视信息是否能提高这些注意方法在图像描述中的性能的必要性。凝视表示人类对一个场景的认知和感知。人类的注视可以识别图像中物体的重要位置。因此，凝视机制已经在基于眼睛的用户建模[18、35、109、122、124]、目标定位[100]或识别[67]和整体场景理解[158、160]中显示了它们的潜在性能。然而，Sugano等人[129]声称凝视信息还没有集成到图像描述方法中。该方法引入了深神经网络的人眼注意机制来生成图像描述。该方法将人的注视信息合并到基于注意的LSTM模型中[152]。在实验中，它使用了SALICON数据集[60]并取得了良好的效果。

3.5.2 基于语义概念的图像描述。基于语义概念的方法有选择地关注从图像中提取的一组语义概念建议。然后将这些概念组合成隐藏状态和循环神经网络的输出。
此类别中的方法遵循以下步骤：
（1）基于CNN的编码器用于编码图像特征和语义概念。（2）图像特征被输入到语言生成模型中。
（3）将语义概念添加到语言模型的不同隐藏状态中。（4）语言生成部分生成带有语义概念的描述。

图8显示了这一类别的典型方块图。
Karpathy等人在[65]中扩展了他们的方法[66]。后一种方法可以为两个图像及其区域生成自然语言描述。该方法采用了一种新颖的CNN图像区域组合，双向递归神经网络句子，以及将这两种模式关联起来的通用多模式嵌入。它还演示了一种多模态递归神经网络结构，该结构利用合成对准训练模型，生成新的图像区域描述。在这种方法中，依赖树关系（DTR）被用来训练句子片段与具有固定窗口上下文的图像区域的映射。与之前的方法相比，该方法使用双向神经网络来获得句子中的单词表示。它认为句子的连续片段在嵌入空间中对齐，这更有意义、更容易解释，而且长度不固定。通常，RNN考虑当前单词和所有先前生成的单词的上下文，以估计一个序列中下一个单词的概率分布。然而，该方法将其扩展到考虑输入图像内容的生成过程。这个添加很简单，但它使生成新的图像描述非常有效。
图像的属性被认为是丰富的语义线索。姚等人的方法。[155]具有不同的架构，可以将属性与图像表示相结合。主要介绍了两种类型的建筑表示。在第一个组中，它只将属性插入LSTM，或者先将图像表示插入LSTM，然后再插入属性，反之亦然。在第二组中，它可以控制LSTM的时间步。它决定图像表示和属性是输入一次还是每次步骤。这些体系结构的变体在MS COCO数据集和通用评估度量标准上进行测试。 You等。[156]提出了一种基于语义注意的图像描述方法。该方法对语义上重要的对象提供了详细、连贯的描述。自顶向下的范例[23、31、65、93、94、142、152]首先用于提取视觉特征，然后将其转换为文字。在自下而上的方法中，首先从图像的各个方面提取[32、34、74、76、78、80]视觉概念（例如区域、对象和属性），然后将它们组合起来。图像的细节对于生成图像描述通常非常重要。自顶向下的方法在获取图像的细节方面有局限性。自下而上的方法能够对任何图像分辨率进行操作，因此它们可以对图像的细节进行操作。但是，在制定端到端流程时，它们存在问题。因此，基于语义的注意力模型采用自上而下和自下而上的方法生成图像描述。在自上而下的方法中，图像特征是通过使用GoogeNet[133]CNN模型的最后1024维卷积层获得的。采用不同的非参数化和参数化方法收集视觉概念。最近邻图像检索技术用于计算非参数视觉概念。利用完全卷积网络（FCN）[86]从局部区域中学习属性，进行参数属性预测。尽管Xu等人[152]考虑到基于注意力的描述，它在固定和预先定义的空间位置上工作。然而，这种基于语义注意的方法可以处理图像的任何分辨率和任何位置。此外，该方法还考虑了加速生成更好的图像描述的反馈过程。
以前的图像描述方法不显式包含高级语义概念。然而，Wu等人[？]提出了一种基于高级语义概念的图像描述。它在基于神经网络的CNN-LSTM框架中使用中间属性预测层。首先，使用基于CNN的分类器从训练图像描述中提取属性。然后将这些属性作为高级语义概念，生成语义丰富的图像描述。
最近基于语义概念的图像描述方法[150，156]应用了语义概念检测过程[40]来获得明确的语义概念。他们在基于CNN-LSTM的编码器解码器中使用了这些高级语义概念，并在图像描述方面取得了显著的改进。但是，它们在生成语义上有问题。它们不能在整个句子中均匀地分布语义概念。例如，Wu等人[150]考虑LSTM的初始状态以添加语义概念。此外，它对CNN的视觉特征向量或推断的场景向量进行编码，然后将其输入LSTM以生成描述。然而，Gan等人[41]介绍了一种用于图像描述的语义合成网络（SCN）。在这种方法中，语义概念向量是由图像中所有可能的概念（此处称为标记）构成的。这种语义向量比视觉特征向量和场景向量具有更大的潜力，可以生成覆盖图像整体意义的描述。这被称为复合网络，因为它可以组成大多数语义概念。现有的基于LSTM的图像描述方法在生成不同的描述集时存在局限性，因为它们必须逐字预测预定义格式中的下一个单词。然而，在一个句子中，无论其位置如何，属性、主题及其关系的组合都可以产生广泛的图像描述。王等。[148]提出了一种先定位对象及其交互，然后识别和提取相关属性以生成图像描述的方法。该方法的主要目的是将地面实况图像描述分解为骨架句和属性句两部分。该方法也称为骨架键。该方法的体系结构有ResNet[53]和两个LSTM，分别称为Skel-LSTM和Attr-LSTM。在训练过程中，骨架句由Skel-LSTM网络训练，属性短语由Attr-LSTM网络训练。在测试阶段，首先生成骨架语句，其中包含图像的主要对象及其关系的单词。然后这些对象再次回过头来查看图像以获得相关的属性。它在MS COCO数据集和一个新的Stock3M数据集上进行了测试，可以生成更准确和新的描述。

3.5.3基于对象的新型图像描述。尽管最近基于深度学习的图像覆盖方法已经取得了很好的效果，但它们在很大程度上依赖于成对的图像和句子描述数据集。这些类型的方法只能生成上下文中对象的描述。因此，这些方法需要大量的训练图像-句子对。新的基于对象的图像描述方法可以生成不在成对图像描述数据集中的新对象的描述。
此类方法遵循以下一般步骤：
（1）对不成对的图像数据和不成对的文本数据分别进行词汇分类器和语言模型的训练。
（2）对一对图像描述数据进行深度描述模型训练。
（3）最后，将两个模型结合在一起进行联合训练，以生成新对象的描述。

图9给出了一种新的基于对象的图像描述方法的简单框图。
当前的图像描述方法是在图像描述对数据集上训练的。因此，如果他们在测试图像中看到未看到的对象，他们就不能在生成的描述中显示它们。Anne等人[6]提出了一种深合成描述器（DCC），它可以在生成的描述中表示看不见的对象。
Yao等人[154]提出了一种复制机制来生成对新对象的描述。该方法使用一个单独的对象识别数据集为新对象开发分类器。它通过解码器RNN和复制机制将适当的单词集成到输出描述中。该方法的体系结构增加了一个新的网络，用于识别未配对图像中的未看对象，并将其与LSTM结合起来生成描述。
为看不见的图像生成描述是一个具有挑战性的研究问题。Venugopalan等人[140]介绍了一种新颖的对象描述器（NOC），用于为图像中未看到的对象生成描述。他们使用外部资源来识别看不见的对象和学习语义知识。

3.5.4 风格化描述。现有的图像描述系统只根据图像内容生成描述，也可以称为事实描述。他们不把文本的程式化部分与其他语言模式分开考虑。然而，风格化的描述可能比仅仅简单的图像描述更具表现力和吸引力。
此类方法遵循以下一般步骤：
（1）采用基于CNN的图像编码器获取图像信息。
（2）准备单独的文本语料库，从培训数据中提取各种风格化概念（例如：浪漫、幽默）。
（3）语言生成部分可以使用步骤1和步骤2的信息生成风格化和吸引人的描述。

图10给出了一个简单的风格化图像描述框图。

这些描述之所以流行，是因为它们对许多实际应用程序特别有价值。例如，每天人们都在不同的社交媒体上上传大量照片。这些照片需要风格化和有吸引力的描述。GaN等。[39]提出了一种称为Stylenet的新型图像描述系统。这种方法可以生成吸引人的描述，添加各种样式。该方法的体系结构由CNN和分解的LSTM组成，可以将事实和风格因素与描述分开。它使用多任务序列来排序训练[89]以识别样式因素，然后在运行时添加这些因素以生成吸引人的描述。更有趣的是，它使用外部单语风格化语言语料库进行训练，而不是成对的图像。但是，它使用了一个新的风格化图像描述数据集，称为flickrstyle10k，可以生成不同样式的描述。
现有的图像描述方法考虑了在生成图像描述时对图像的对象、场景及其相互作用的真实描述。在日常交谈、交流、人际关系和决策中，我们使用各种风格化和非事实化的表达方式，如情感、骄傲和羞耻。然而，Mathews等人[97]声称自动图像描述缺少这种非事实方面。因此，他们提出了一种称为senticap的方法。该方法可以生成具有正面或负面情感的图像描述。介绍了一种结合两个CNN+RNN并行运行的新型切换RNN模型。在每个时间步中，该切换模型生成两个RNN之间切换的概率。一种是根据事实单词生成描述，另一种是根据情感单词生成描述。然后，它从两个RNN的隐藏状态获取输入以生成描述。这种方法可以根据适当的情感成功地生成描述。

3.6 LSTM vs. Others

图像描述是计算机视觉与自然语言处理研究的交叉点。一般来说，NLP任务可以被定义为一个顺序学习。提出了几种神经语言模型，如神经概率语言模型[11]、对数双线性模型[105]、跳格图模型[98]和递归神经网络（RNNS）[99]用于序列到序列任务的学习。RNN已广泛应用于各种顺序学习任务中。然而，传统的RNN存在着消失和爆炸的梯度问题，不能充分处理长期的时间依赖性。
LSTM[54]网络是一种RNN，除了标准单元外，还具有特殊单元。LSTM单元使用一个存储单元，它可以在内存中长期保存信息。近年来，基于LSTM的学习任务排序模型被广泛应用。另一个网络，选通循环单元（GRU）[25]的结构与LSTM相似，但它不使用单独的内存单元，使用较少的选通来控制信息流。
然而，LSTMs忽略了句子的底层层次结构。由于通过内存单元的长期依赖性，它们还需要大量的存储。相比之下，CNN可以学习句子的内部层次结构，并且它们的处理速度比LSTM快。因此，最近，卷积结构在其他序列中用于对任务进行排序，例如，条件图像生成[137]和机器翻译[42、43、138]。
受上述CNN在顺序学习任务中的成功启发，Gu等人[51]提出了一种基于CNN语言模型的图像描述方法。该方法使用CNN语言进行统计语言建模。然而，该方法不能仅使用CNN语言对语言模型的动态时间行为进行建模。它结合了一个循环网络和语言-CNN来适当地模拟时间依赖性。Aneja等人[5]提出了一种用于图像描述的卷积结构。他们使用一个没有任何复发功能的前馈网络。该方法的体系结构包括四个部分：（i）输入嵌入层（i i）图像嵌入层（i i i）卷积模块和（iv）输出嵌入层。它还使用关注机制来利用空间图像特征。他们在具有挑战性的MSCOCO数据集上评估其体系结构，并显示出与基于标准度量的LSTM方法相当的性能。
Wang等人[147]提出了另一种基于CNN+CNN的图像描述方法。它类似于Aneja等人的方法。除了它使用一个分级的注意力模块来连接视觉CNN和语言CNN。该方法的作者还研究了各种超参数的使用，包括层数和CNN语言的内核宽度。结果表明，超参数的影响可以提高该方法的图像描述性能。

4 DATASETS AND EVALUATION METRICS

许多数据集用于训练、测试和评估图像描述方法。数据集在不同的角度上有所不同，例如图像数量、每个图像的描述数量、描述格式和图像大小。三个数据集：Flickr8k[55]、Flickr30k[113]和MS-COCO数据集[83]被广泛使用。这些数据集和其他数据集在第4.1节中进行了描述。在本节中，我们将展示示例图像及其由MS COCO、Flickr30K和Flickr8K数据集上的图像描述方法生成的描述。许多评估指标被用来衡量所生成的描述与实际情况相比的质量。每种度量都应用自己的计算技术，并具有明显的优势。第4.2节讨论了常用的评估指标。表2列出了基于深度学习的图像描述方法及其数据集和评估指标。

DATASETS：MS COCO，Flickr30K，Flickr8K，Visual Genome，Instgram，IAPR TC-12，Stock3M，MIT-Adobe FiveK，FlickrStyle 10k

Evaluation Metrics：BLUE，ROUGE，METEOR，CIDEr，SPICE

现有的图像描述方法计算对数似然分数来评估生成的描述。他们使用BLUE，ROUGE，METEOR，SPICE和CIDEr作为评估指标。然而，BLUE，ROUGE，METEOR与人类对质量的评价没有很好的相关性。CIDEr和SPICE有更好的相关性，但它们很难优化。Liu等人[85]引入了一种新的题注评估指标，这是人类评分员的一个好选择。它是由CIDEr和SPICE混合而成，被称为SPIDEr。它使用策略梯度方法来优化度量。
图像描述的质量取决于两个主要方面的评估：充分性和流畅性。评价指标需要关注一系列不同的语言特征来实现这些方面。然而，常用的评估指标只考虑语言的某些特定特征（如词汇或语义）。Sharif等人[125]提出了用于评估图像描述的基于学习的复合指标。复合指标包含一组语言特征，以实现评估的两个主要方面，并显示出改进的性能。

5 COMPARISON ON BENCHMARK DATASETS AND COMMON EVALUATION

6 DISCUSSIONS AND FUTURE RESEARCH DIRECTIONS

近年来，人们提出了许多基于深度学习的图像描述自动生成方法。监督学习、强化学习和基于GAN的方法通常用于生成图像描述。视觉空间和多模空间都可以用于基于监督学习的方法。视觉空间与多模空间的主要区别在于映射。基于视觉空间的方法执行从图像到描述的显式映射。相比之下，基于多模空间的方法结合了隐式视觉和语言模型。基于监督学习的方法进一步分为基于编码器-解码器体系结构、基于合成体系结构、基于注意、基于语义概念、风格化描述、密集图像描述和新的基于对象的图像描述。
基于编码器-解码器体系结构的方法使用简单的CNN和文本生成器生成图像描述。基于注意的图像描述方法将重点放在图像的不同突出部分，比基于编码器-解码器体系结构的方法获得更好的性能。基于语义概念的图像描述方法有选择地聚焦于图像的不同部分，可以生成语义丰富的描述。密集图像描述方法可以生成基于区域的图像描述。风格化的图片说明表达各种情感，如浪漫、骄傲和羞耻。基于GAN和RL的图像描述方法可以生成多种多样的描述。
MSCOCO、Flickr30k和Flickr8k数据集是常用的图像描述数据集。MSCOCO数据集是非常大的数据集，这些数据集中的所有图像都有多个描述。视觉基因组数据集主要用于基于区域的图像描述。不同的评价指标被用来衡量图像描述的性能。BLEU度量适合小句子评估。ROUGE有不同的类型，可以用来评估不同类型的文本。METEOR可以对描述的各个部分进行评估。与其他评估指标相比，SPICE在理解描述的语义细节方面更好。
尽管近年来取得了成功，但仍有很大的改进空间。基于生成的方法可以为每个图像生成新的描述。然而，这些方法在生成准确和多个描述时，在一定程度上无法检测出突出的对象和属性及其关系。除此之外，生成的题注的准确性在很大程度上取决于正确的句法和多样的题注，而这些题注又依赖于强大而复杂的语言生成模型。现有的方法在从同一域采集图像的数据集上显示了它们的性能。因此，研究开放域数据集将是该领域研究的一条有趣的途径。基于图像的事实描述不足以生成高质量的描述。可以添加外部知识以生成具有吸引力的图像描述。有监督的学习需要大量有标签的数据用于训练。因此，无监督学习和强化学习将在未来的图像描述中更加流行。

7 CONCLUSIONS

本文综述了基于深度学习的图像描述方法。我们已经给出了图像描述技术的分类，显示了主要组的通用框图，并强调了它们的优缺点。我们讨论了不同的评估指标和数据集及其优缺点。并对实验结果作了简要总结。我们简要概述了这一领域的潜在研究方向。虽然基于深度学习的图像描述方法近年来取得了显著的进展，但一种能够为几乎所有图像生成高质量描述的强大图像描述方法尚未实现。随着新型深度学习网络体系结构的出现，图像自动描述技术将在一段时间内保持活跃的研究领域。

你可能感兴趣的:(Image,Captioning,Image,captioning)

【机器视觉】少量样本图片情况下的图片识别技术方案 yuanpan 机器学习人工智能计算机视觉
在只有少量图片样本的情况下，进行图像识别是一个具有挑战性的任务。以下是一些应对小样本问题的有效方案：1.数据增强（DataAugmentation）通过对现有样本进行各种变换来生成更多的训练数据，例如：几何变换：旋转、缩放、平移、翻转等。颜色变换：调整亮度、对比度、饱和度等。噪声添加：高斯噪声、椒盐噪声等。裁剪和填充：随机裁剪图像的一部分或填充边缘。工具：Keras：ImageDataGenera
【css酷炫效果】纯CSS实现球形阴影效果冰夏之夜影 css 前端
【css酷炫效果】纯CSS实现球形阴影效果缘创作背景html结构css样式完整代码基础版进阶版(动态版)效果图想直接拿走的老板，链接放在这里：上传后更新缘创作随缘，不定时更新。创作背景刚看到csdn出活动了，赶时间，直接上代码，令人丧气的是：活动的领域有要求，不是发够就行，瞬间意志消沉。html结构css样式.button{background-image:url('a.gif');border-
QT引用资源qrc 我该叫什么名字好呢？ QT开发 QT qtcreator 文本编辑控件
1.在工程文件夹下面添加一个文件夹，如images，保存图标文件.2.在工程那里新建一个qrc文件，右键选择文本编辑器打开添加如下语句：images/file_128.icoimages/open_128.icoimages/save_128.ico这样工程就能读取到这些资源，在要设置图标的控件的icon选项，选择资源文件，就可以使用图标了。3.假如是利用QTcreator编写的，那就比较简单，直
根据论文复现大模型方法以及出错处理技巧 Ai玩家hly 从0倒1 论文复现大模型复现 Ai大模型复现
复现一篇论文中的大模型搭建涉及以下几个关键步骤：理解论文的模型架构、数据集处理、超参数设置以及实验环境的搭建。这里给出一个基本的实现方法示例，假设我们选择复现一个图像分类任务中的经典模型，例如ResNet。实现步骤示例1.理解论文和模型架构选择一篇关于ResNet的论文作为示例，例如《DeepResidualLearningforImageRecognition》（Heetal.,2015）。2.
c++ 创建dll以及调用dll的案例感叹号的豆浆 C++vs2012 语言 c++
1,新建一个空项目，定义头文件，源文件，//CameraDLLl.hextern"C"__declspec(dllexport)boolIAInitCamera(charcameraIp[]);extern"C"__declspec(dllexport)boolIASetCameraReady(charsaveImagePath[],inttimeOut);extern"C"__declspec(
Opencv计算机视觉编程攻略-第一节图像读取与基本处理 weixin_44242403 深度学习 opencv 计算机视觉
1.图像读取导入依赖项的h文件#include#include#include#include项目Valuecore.hpp基础数据结构和操作（图像存储、矩阵运算、文件I/O）highgui.hpp图像显示、窗口管理、用户交互（图像/视频显示、用户输入处理、结果保存）imgproc.hpp图像处理算法（图像滤波、几何变换、边缘检测、形态学操作）二读取图片Matimage;//图像矩阵std::co
uniapp微信小程序分享给好友朋友圈-封装全局分享不法 uniapp 小程序 uni-app 小程序前端
不封装直接使用onLoad同级onLoad(){},//1.发送给朋友onShareAppMessage(res){console.log("res",res);console.log("page",uni.$u.page());if(res.from==='button'){//来自页面内分享按钮return{title:'首页',path:'/pages/home/home',imageUrl
Docker安装Nginx并部署vue项目 sdgiuser vue.js docker nginx
拉取Nginx镜像dockerpullnginx查看本地镜像dockerimages运行容器dockerrun--namenginx-p8080:80-dnginx–namenginx：容器名称。-p8080:80：端口进行映射，将本地8080端口映射到容器内部的80端口。-dnginx：设置容器在在后台一直运行。访问端口通过浏览器可以直接访问8080端口的nginx服务修改配置文件查看容器内部的
医图论文 CVPR‘24 | 适应医学图像中泛化异常检测的视觉-语言模型小白学视觉医学图像处理论文解读语言模型人工智能计算机视觉医学图像顶会医学图像处理 CVPR 论文解读
论文信息题目：AdaptingVisual-LanguageModelsforGeneralizableAnomalyDetectioninMedicalImages适应医学图像中泛化异常检测的视觉-语言模型作者：ChaoqinHuang，AofanJiang，JinghaoFeng，YaZhang，XinchaoWang，YanfengWang源码：https://github.com/Medi
Docker 部署RabbitMQ 逢生博客 docker rabbitmq 容器 spring boot
文章目录镜像docker-compose.yml访问控制台SpringBoot批量声明队列镜像https://hub.docker.com/_/rabbitmqdockerpullrabbitmq:managementdockerpullrabbitmq:4.0.7-managementdocker-compose.ymlservices:rabbitmq:image:rabbitmq:3.9.5
深度革命：ResNet 如何用 “残差连接“ 颠覆深度学习安意诚Matrix 机器学习笔记深度学习人工智能
一文快速了解ResNet创新点在深度学习的历史长河中，2015年或许是最具突破性的一年。这一年，微软亚洲研究院的何恺明团队带着名为ResNet（残差网络）的模型横空出世，在ImageNet图像分类竞赛中以3.57%的错误率夺冠，将人类视觉的识别误差（约5.1%）远远甩在身后。更令人震撼的是，ResNet将神经网络的深度推至152层，彻底打破了"深层网络无法训练"的魔咒。这场革命的核心，正是一个简单
Docker（1-常用命令） k小天 docker 容器运维
docker的常用命令帮助命令#查看版本信息dockerversion#查看详细信息dockerinfo#查看该命令使用信息docker命令--help镜像命令查看所有本机的镜像dockerimages*REPOSITORY镜像的仓库源*TAG镜像的标签*IMAGEID镜像的ID*CREATED镜像的创建时间*SIZE镜像的大小可选项：-a列出所有的镜像；-q只显示镜像的ID搜索镜像dockers
论文笔记-Contrastive Learning for Unpaired Image-to-Image Translation kingsleyluoxin 计算机视觉论文笔记深度学习 python 计算机视觉机器学习人工智能深度学习
论文信息标题：ContrastiveLearningforUnpairedImage-to-ImageTranslation作者：TaesungPark,AlexeiA.Efros,RichardZhang,Jun-YanZhu机构：UniversityofCalifornia,Berkeley;AdobeResearch代码链接https://github.com/taesungp/contra
鸿蒙Next，图片上传01（扩展02截图保存到相册）-组件截图另通过沙箱保存到相册 harmonyos
1.componentSnapShot组件截图的get方法，得到PixelMap像素图像数据@ohos.arkui.componentSnapshot(组件截图)-UI界面-ArkTSAPI-ArkUI（方舟UI框架）-应用框架-华为HarmonyOS开发者//进行截图constpixelMap=awaitcomponentSnapshot.get('share')2.ImagePacker打包P
【Image captioning-RS】论文12 Prior Knowledge-Guided Transformer for Remote Sensing Image Captioning CV视界 Image captioning学习 transformer 深度学习人工智能
1.摘要遥感图像(RSI)字幕生成旨在为遥感图像生成有意义且语法正确的句子描述。然而,相比于自然图像字幕,RSI字幕生成面临着由于RSI特性而产生的额外挑战。第一个挑战源于这些图像中存在大量物体。随着物体数量的增加,确定描述的主要焦点变得越来越困难。此外,RSI中的物体通常外观相似,进一步复杂化了准确描述的生成。为克服这些挑战,我们提出了一种基于先验知识的transformer(PKG-Trans
Docker镜像瘦身终极指南：七种武器让你的镜像体积减少90%! DevKevin 日常笔记 docker 容器运维
文章目录引言为什么要关注Docker镜像瘦身？(强调重要性)七种Docker镜像瘦身武器(核心内容，分点详细讲解)--------第二阶段：运行阶段--------引言你是否也曾被Docker镜像那臃肿的身材所困扰？动辄几百兆甚至上G的镜像，不仅霸占着宝贵的硬盘空间，更拖累了镜像拉取和容器启动的速度，严重影响了开发和部署效率，简直让人“闻Image色变”！别担心！今天，我就将为你揭秘Docker镜
yolo模型coco数据集详解工头阿乐深度学习 YOLO
深度学习文章目录深度学习前言前言instances_train2017.json和instances_val2017.json文件均分为五大部分，这五部分对应的关键字分别为info、licenses、images、annotations、categories。{"info":info,"licenses":[license1,license2,license3,...],"images":[ima
实现组件裁剪鸿蒙示例代码
本文原创发布在华为开发者社区。介绍对Image组件设置clipShape属性，并通过PathShape传入不同的裁剪命令，将Image组件裁剪为不同形状。使用Path组件，通过设置commands属性，并传入不同的绘制命令，绘制出带圆角的不同形状的组件。实现组件裁剪源码链接效果预览使用说明安装到手机后点击应用图标即可进入本应用。点击不同按钮，查看clipShape裁剪组件和Path绘制圆角形状组件
DCM4CHE图像显示啸鸢 DCM4CHEE Dicom医学影像处理
概述本文主要介绍dicom图像从拿到像素数据到显示到图像的基本过程，通过DCM4CHE获取dicom文件像素数据，通过默认窗宽窗位，显示到java的BufferedImage上，并将BufferedImage保存成jpg到本地有关窗宽窗位的解释和处理方法可以参考：https://blog.csdn.net/songzitea/article/details/8505469通过DCM4CHE获取di
基于生成对抗网络（GAN）的图像超分辨率实战：从SRGAN到ESRGAN Evaporator Core #深度学习强化学习生成模型生成对抗网络人工智能神经网络
图像超分辨率（ImageSuper-Resolution）是一种通过算法将低分辨率图像转换为高分辨率图像的技术，广泛应用于医学影像、卫星图像和视频增强等领域。生成对抗网络（GAN）是图像超分辨率的经典方法，而增强型超分辨率生成对抗网络（ESRGAN）则通过引入残差网络和感知损失进一步提升了图像质量。本文将通过一个完整的实战案例，展示如何使用SRGAN和ESRGAN进行图像超分辨率，并提供详细的代码
docker容器导出导入大得369 docker 容器运维
第一种，导出在运作中的容器dockerexport-o/path/to/exported_container.tar使用这个导入dockerimport/path/to/exported_container.tarnew_image_name:tag导出不是在运行中的，和导入导出在运行中的，和导入宝塔直接点导出的使用这一种导入dockerload-i容器.tar
docker MzKyle docker docker 容器运维
Docker介绍Docker是一个开源容器化平台，主要作用是通过将应用程序及其依赖环境打包成轻量级、可移植的容器，实现跨环境的一致性部署与运行。其核心价值包括：环境隔离：容器内的应用与宿主机及其他容器相互隔离，确保运行环境的独立性。标准化交付：通过镜像（Image）封装代码、库和配置，消除“在我机器上能运行”的问题。资源高效：共享宿主机内核，相比虚拟机（VM）更节省内存和计算资源，启动速度更快。跨
使用 labelImg 制作YOLO系列目标检测数据集（ 2401_89791028 YOLO 目标检测人工智能
文章转载自K同学，谨防原文失效可参考link1和link2和link3LabelImg介绍LabelImg支持文件夹的导入，在标完一张后，在左侧选择NextImage就可以切换到下一张继续了。输出格式部分，目前LabelImg支持YOLO和PascalVOC2种格式，前者标签文件后缀是.txt件，而后者标签文件后缀是.xml件。标签保存在对应的labels文件夹下，与images中的图片文件名一一
Centos 7拯救boot下的文件 IT小饕餮 linux基础 centos linux 运维
1.进入救援模式插入CentOS7安装光盘，重启系统。在开机时按BIOS设置对应的按键（通常是F2等），将启动顺序调整为CD-ROM优先。系统从光盘启动后，选择“Troubleshooting”，然后选择“RescueaCentOSsystem”，按提示选择语言等设置，进入救援模式。系统会提示你如何挂载现有的系统，选择“Continue”选项，系统会将你的现有系统挂载到/mnt/sysimage目
论文阅读：Deep Stacked Hierarchical Multi-patch Network for Image Deblurring 行走的歌文献阅读图像处理计算机视觉机器学习深度学习图像去雨图像处理
这是一篇去模糊的文章，后来发现直接套用不合适，无法获取到相应的特征，遂作罢，简单记录一下。2019CVPR：DMPHN这篇文章是2019CVPR的一篇去模糊方向的文章，师兄分享的时候看了一下，后来也发现这个网络结构在很多workshop以及文章中都见过。文章：ArXiv代码：Github在去模糊领域，目前的多尺度和尺度循环模型存在一些问题：1)由粗到细方案中的去卷积/上采样操作导致运行时间昂贵;2
论文笔记：Deep Algorithm Unrolling for Blind Image Deblurring 爱学习的小菜鸡论文笔记去模糊图像处理神经网络
这是一篇CVPR2020的去模糊论文，主要是通过传统与深度相结合，将迭代次数变成神经网络的层数，使网络结构的网络结构更加具有解释性。主要贡献：DeepUnrollingforBlindImageDeblurring(DUBLID)：提出一种可解释的神经网络结构叫做DUBLID，首先提出一种迭代算法，该算法被认为是梯度域中传统的广义全变分正则方法(generalizedTV-regularizeda
学习pear的Image_Graph包的一些笔记 stone5 graph image plot dataset 图形 extension
image_graph中的对象类型及结构Posted三月31st,2007bystone5image_graph中的对象类型及结构graph----------总图形plotarea-------绘图区plot-------------图块dataset--------数据集point------------点一个图形中多个图形区的分块Posted三月31st,2007bystone5pear来研
【python双目标定轮椅】基于python的双目标定迟钝皮纳德 python opencv 计算机视觉
代码部分话不多说直接上代码：新建文件getdata.pyimportcv2importosid_image=0#图片的IDcamera=cv2.VideoCapture(1)#找到棋盘格的标准criteria=(cv2.TERM_CRITERIA_EPS+cv2.TERM_CRITERIA_MAX_ITER,30,0.001)camera.set(cv2.CAP_PROP_FRAME_WIDTH,
图像分割基础：使用Python和scikit-image库 0dayNu1L 机器学习项目实战 python 人工智能机器学习
大家好，今天我们将一起探讨图像分割的基础知识，并使用Python编程语言以及scikit-image库来实现一个简单的图像分割示例。图像分割是图像处理中的一项重要技术，它允许我们将图像划分为多个部分或对象，这对于图像分析和计算机视觉任务至关重要。0dayNu1L-CSDN博客目录一、环境准备二、图像分割示例1.导入必要的库2.读取并显示图像3.创建标签数组并进行阈值分割4.使用颜色表示标签三、结果
Python库 - skimage 司南锤 PYTHON库 python 开发语言
skimage是scikit-image的缩写，是一个用于图像处理的Python库。提供了丰富的图像处理功能，包括图像滤波、边缘检测、形态学操作、特征提取、图像分割等。skimage是基于NumPy数组构建的，因此可以与NumPy和其他科学计算库（如scipy和matplotlib）无缝集成。安装可以使用pip来安装skimage：pipinstallscikit-image主要模块skimage
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb