「AAAI2021」Image Captioning 图像描述生成,性能SoTA!

「AAAI2021」Duel-Level Collaborative Transformer for Image Captioning

这里简单介绍自己第一篇被接受的一作工作《Duel-Level Collaborative Transformer for Image Captioning》,代码已开源在这里,小伙伴们快来star~

Image Captioning和VQA是多模态任务中非常相关的两个Task,自从2018年CVPR《Bottom-up and top-down attention for image captioning and visual question answering》(BUTD)提出以来,两个任务一直使用的是BUTD提供的Object Region特征,即第一步,先在VG上训练一个目标检测器,第二步,在COCO图片上以一定的置信度提取出图像上的目标框,第三步,将这些框中的特征作为后续(Image Captioning/VQA)模型的输入。

「AAAI2021」Image Captioning 图像描述生成,性能SoTA!_第1张图片

一般来说,为了更多覆盖全图的信息并照顾到目标比较少(甚至没有目标)的图片,这个检测的置信度会设的很低(0.2),导致每张图片实际上有大量目标框(就像上面那张图一样)。尽管如此,这样的特征也远远好于曾经大家使用的End-to-end方法以及ImageNet pretrained模型提出来的特征。

而2020CVPR《In Defense of Grid Features for Visual Question Answering》(IDGF)一文的作者发现,BUTD特征更好的原因主要是使用了VG的标注,从而给图片提供了更好的先验,通过对Detection head的改造,IDGF提取出来的grid特征在后续任务中的表现堪比甚至超过region特征。

看到这里时,我遥想2018年的BUTD,难道多模态任务所使用的特征又要反复横跳了?(2018 grid->region ,2020 region->grid)。

于是我开始思考两个特征各自的优缺点,在实验室老师的帮助下,我们理清了两个特征各自的特点。

region特征是检测出来的目标,这些特征的语义层级相对较高,但它们有两个缺点,一是图像中非目标的区域会被忽视(如背景信息),二是大目标的小细节会被忽视。如下图所示。

「AAAI2021」Image Captioning 图像描述生成,性能SoTA!_第2张图片
2. grid特征就是Feature map,这个特征的语义层级相对较低,往往一堆网格在一起才能覆盖一个目标,但优点是它能覆盖整张图片,同时也包含了目标的细节信息。

「AAAI2021」Image Captioning 图像描述生成,性能SoTA!_第3张图片
然后我们可以发现,两个特征各自都有不错的优点,且一方的优点恰能弥补另一方的不足,因此,就有了两类特征协作(Collaborative)互补的雏形。

我们知道,Transformer实际上类似一个图卷积网络,只不过这个图是全连接图,也就是说所有的region和grid之间都会存在信息交互。如此的话,使用两类特征带来的一个问题就是,直接将它们丢进Transformer中,进行self-attention,实际上是低效的,且QKV数量的增多会增大Transformer优化的难度。而通过观察我们发现,实际上很多的特征交互是不必要的。

「AAAI2021」Image Captioning 图像描述生成,性能SoTA!_第4张图片

在原始的Transformer结构中,猫的白肚皮对应的grid会和各种毫无关系的object(插座、地板)进行信息交互,我们认为这种交互并没有很大的意义,而且,为了贯彻两类特征互补(高-低语义信息交互和细节信息交互)的思路,我们只需要几何位置上相近的特征进行交互即可,因此,我们提出了几何对齐图(Geometric Alignment Graph),将Transformer中的全连接图用几何对齐图替换。

「AAAI2021」Image Captioning 图像描述生成,性能SoTA!_第5张图片
在几何对齐图的帮助下,两类特征之间的交互变得更加高效,也更加符合我们最初的动机,也带来了性能的提升。

其他伴随的设计请详见我们的论文,最终,我们的模型就长这个样子

「AAAI2021」Image Captioning 图像描述生成,性能SoTA!_第6张图片
最终的实验结果也非常好,在COCO线上测试中取得了当时(2020年9月-12月末)第一名的成绩

「AAAI2021」Image Captioning 图像描述生成,性能SoTA!_第7张图片

这就是我人生的第一篇一作会议论文,也是当时切切实实认真了好久准备的工作,但其实也还是有很多瑕疵,贡献有限,大佬们可能觉得会很水,而且reviewer也说文章主体部分有不清楚的地方。不过还是非常高兴能够上岸,真的是运气很好~
非常感谢学长的一路指导和帮助,感谢实验室老师百忙之中帮我改了论文~
最后再次欢迎大家来star和提issue~顺便再求个赞_
代码开源在这里

你可能感兴趣的:(论文,深度学习,图像描述生成,卷积神经网络,自然语言处理)