图像描述(image caption)2018 NIPS论文总结

图像描述(image caption)2018 NIPS论文总结

1. Partially-Supervised Image Captioning

这篇文章是半监督来训练image caption的任务,因为image caption的数据集相对图像分类、目标检测等的数据集小的多,限制了image caption模型的泛化应用性。因此,本文考虑不使用传统的image caption数据集,仅仅使用image的label和object来生成图像的描述。模型简称PS3。
模型overview如下:
图像描述(image caption)2018 NIPS论文总结_第1张图片
因为只有image的label和object数据,因此本文使用FSA(有限状态自动机)来表示句子的结构,再使用CBS(条件beam search)来找到概率最大最有可能是caption的句子。再使用得到的caption和image使用传统的image caption模型来训练。
具体使用FSA来表示句子的结构如图:
图像描述(image caption)2018 NIPS论文总结_第2张图片
其中在c中,D为可能的单词的集合。
最终用A来表示可能的句子,再使用极大似然估计来估计最终的句子,作为输入image对应的caption。
文章使用的image caption是2018 CVPR的up-down模型,用上述的image-caption对来训练模型。
迭代训练这两步,得到最终完整的训练好的模型。
在实验阶段,这个PS3框架在生成包含新的object的caption的效果最好。因为并不依赖与caption数据。
论文链接:https://arxiv.org/pdf/1806.06004.pdf

2. A Neural Compositional Paradigm for Image Captioning

这篇文章是值得重点介绍的文章,它打破了这几年做image caption所使用的框架encoder-decoder。它提到使用encoder-decoder框架生成的caption是序列生成的(逐个单词的生成),更符合n-gram规则,但是失去了句子内部的结构,比较僵硬。同时这个生成方法将caption的语义信息和句法信息混在了一起,只是在形式上符合句子的语法规则。容易出现问题,如下:
图像描述(image caption)2018 NIPS论文总结_第3张图片
上边的三个图片其实语义上均没有building with a clock这个信息,但是由于使用n-gram的语法规则,这个短语在测试集上出现的概率较大,因此生成的错误的信息。
因此,作者为了解决上述encoder-decoder框架的问题,提出了新的方法——CompCap,这个方法旨在将caption生成的两部分语义分析和句法分析分离开来,分别进行处理,并且可以在句法分析中加入句子的内部结构信息,使句子更加符合语义上的规则。
大致的模型流程如下:
图像描述(image caption)2018 NIPS论文总结_第4张图片
对于一张image,先提取它的语义信息,即它的短语(NP)。再使用这些NP来进行句法分析,生成完整的句子,分成两部分:C-Module,E-Module,分别用于连接两个NP,然后判断是否是完整的句子,如果是完整的句子则直接输出,如果不是更新这个NP集合,将连接后的NP加入,删除用于连接新的NP的NP,再迭代这两个module,直到输出完整的句子。
语义分析:在提取image的NP过程中,作者并没有使用之前的提取object的方法,而是先使用句法分析树来处理所有训练集的caption,提取所有的NP,假设有K个:

把提取NP的任务当成一个分类任务,对于每个NP设计一个分类器:

其中I为image,x为image通过CNN处理再使用两层FC得到的特征,输出这张image包含这个NP的概率,取概率最大的几个作为image的NP集合。
句法分析:使用上述的NP集合生成完整的句子,作者称其为CompCap。在C-Module模块,对NP的集合中的每对NP进行连接,并且有不同的顺序,连接后的新NP:

L r为左右的NP,m为连接词。其中连接词也是使用句法分析来得到:

同样将得到Pm的任务当成一个分类任务:

其中zl和zr是编码pl和pr短语的特征,W为参数,输出使用这个pm的概率,选择概率最大的连接词连接两个NP,作为新的NP——Pnew。
对短语的编码过程如下:
图像描述(image caption)2018 NIPS论文总结_第5张图片
使用两层的LSTM,其中v为image整体的特征,u为image的局部特征,底层的LSTM来得到对u的attention权重,使用这个权重和u来得到加权的特征a,再输入到高层的LSTM得到隐层表示,最后一个隐层表示当作编码z。
上述过程就得到了新的NP——Pnew,但是我们一次只需要一个Pnew,则对连接的NP进行打分:

为得到三个NP的概率的和,最终选择这个总概率最大的NP为这一轮的Pnew。
E-Module用于判断这个Pnew是否为完整的句子:

编码Pnew得到z的方式和上述相同,最终得到是完整句子的概率,设置阈值,大于阈值则输出,小于则将Pnew加入NP的集合,删除Pl、Pr。再进行CompCap过程,直到输出完整的句子,实验表示一般迭代2-3次就可以输出。
实验结果如下:
图像描述(image caption)2018 NIPS论文总结_第6张图片
可以看到方法在大部分指标中虽然不如up-down方法,但是SPICE指标最高,这个指标更代表了caption的语义信息,而其他的指标更符合n-gram。并且如何使用真实的np集合,和真实的NP顺序得到的效果很高。
同时这个方法在使用较少的训练集时同样有效:
图像描述(image caption)2018 NIPS论文总结_第7张图片
方法使用较少的data就可以得到较好的效果,而其他的方法需要大量的训练数据。并且在跨数据集的实验上也取得了较好的效果:
图像描述(image caption)2018 NIPS论文总结_第8张图片
在一个数据集上训练,另一个数据集上测试效果远高与其他的方法。
这两个结果都归功于将语义分析和句法分析分开,虽然数据少,虽然数据集不同,但是得到NP大体相似,并且句法分析并不关心语义的信息,只是用于将NP构成句子,因此虽然数据集少,虽然跨数据集依然有较好的效果。
并且在生成caption多样性方面也不错:
图像描述(image caption)2018 NIPS论文总结_第9张图片
可以看到可以用不同的NP顺序来生成不同的caption,同时还可以用不同的NP集合来生成不同的caption。
综上,虽然在大部分硬指标上不是最好的,但是它的泛化性,多样性更强,和数据集的关联较少。并且提出了新的image caption框架,给我们以启发,可以不是用encoder-decoder框架,将语义分析和句法分析分离可能更好。
论文链接:https://arxiv.org/pdf/1810.09630.pdf

你可能感兴趣的:(计算机视觉,论文研读,人工智能,计算机视觉,图像描述,image,caption,NIPS)