【论文阅读笔记】Show and Tell: A Neural Image Caption Generator.

Show and Tell: A Neural Image Caption Generator.

2015-CVPR

O. Vinyals, A. Toshev, S. Bengio, and D. Erhan.

  • motivation:

图像描述比目标检测和图像分类更难,因为不仅仅要抓住图像中的客观物体,还要表述出这些目标之间的关系。还得考虑语义,语法。当时的办法是依次解决每个子问题然后合在一起来生成图像描述,而这篇论文受到机器翻译模型的启发,首次提出用一个模型来解决所有的问题。提出编码-解码结构,后来很多image caption的文章都在该模型的基础上进行优化改良。开山之作。

  • Contribution:

  1. 提出了Neural Image Caption(NIC)模型来生成图像描述,该模型的优化目标可以使用梯度下降来训练。

  1. 该模型结合了现有的一些用于视觉和语言模型的子网络,所以可以保证有足够的数据来进行预训练。

  1. 模型优于现有的所有模型。

  • 方法:

  1. 思路:

参考机器翻译那样,把图像编码成一种可以用来表示主要特征的机器语言,然后再将该语言 “翻译”出来,从而形成图像描述。我们可以通过以下公式最大化生成单词的概率:

其中θ是模型的参数,I表示输入图像,S表示图像的正确描述。由于S的长度是不固定的,所以需要用链式法则来求联合概率分布,公式则变为:

(S,I)是一组训练数据,训练过程中使用随机梯度下降对上式进行优化。自然而然地,可以用RNN为概率p(St|I,S0,……,St-1)进行建模,其中单词用固定长度的隐藏状态ht表示。

函数f是解码环节的LSTM模型,而Xt的形成则是编码环节的CNN(需要预训练)。

  1. 整体模型架构:

【论文阅读笔记】Show and Tell: A Neural Image Caption Generator._第1张图片

模型表达式:

【论文阅读笔记】Show and Tell: A Neural Image Caption Generator._第2张图片
  1. 优化这个损失函数(每一步,正确单词的负对数似然之和):

  • 总结:

这篇文章提出了一个可以自动查看图像并生成合理描述的端到端神经网络系统,称之为NIC。NIC是由一个CNN来对图像进行编码,以及LSTM进行解码的模型。该模型的优化目标为最大化给定图像产生句子的似然。从实验中知,随着可用数据集的大小增加,NIC方法的性能也会提高。此外,将探索实现使用无监督数据(无论是单独的图像还是单独的文本)来改善图像描述。

2022-02-14

by littleoo

你可能感兴趣的:(论文阅读,深度学习,人工智能,神经网络,计算机视觉,自然语言处理)