【论文】Yu, Jun, Jing Li, Zhou Yu, and Qingming Huang. Multimodal transformer with multi-view visual representation for image captioning. (pdf)
以往流行的方式都是使用 encoder-decoder 结构,在 encoder使用 CNN 提取局部视觉特征,decoder 使用 RNN 根据视觉特征生成 caption,这些方式有如下的一些问题:
在篇文章中,作者首次提出将 Transformer 引入到 image caption 建立了 MT model。Transformer 的好处在于抛弃了传统的 CNN 和 RNN,完全依赖于注意力机制来获取输入和输出自己爱你的全局关系。MT model 的主要表现如下:
MT model 在一个统一的 attention block 中同时捕捉模态内和模态间的交互作用
堆叠 attention blocks 加深模型可以使得 MT model 进行复杂的多模态推理
为了进一步提高 image captioning 的表现,MT model 还引入了 multi-view visual feature,提供更多样、更具区别性的视觉特征
MT model 的结构如下所示,包含一个 image encoder 和 caption decoder。首先,通过 Faster RCNN 提取出来区域视觉特征,然后将其输入到 encoder 中获得 attended visual features。decoder 根据这个视觉特征和前一个单词来预测一下个单词。细节如下图描述
测试时,生成第 t t t 个单词的 input caption feature 是 Y ≤ t = [ y 1 , y 2 , ⋯ , y t − 1 , 0 , ⋯ , 0 ] 0 ∈ R d y Y_{\leq t}=[y_1, y_2, \cdots,y_{t-1},\mathbf 0,\cdots,\mathbf 0]\ \mathbf 0\in\mathbb R^{d_y} Y≤t=[y1,y2,⋯,yt−1,0,⋯,0] 0∈Rdy,该 caption feature 和 image feature 一同送入 decoder 产生预测单词。然后,下一次预测的第 t + 1 t+1 t+1 个单词的时候,input caption feature 就是 Y ≤ t + 1 Y_{\leq t+1} Y≤t+1
在这一节,引入 multi-view image representation 对上述的 image encoder 作出修改。不同于以往,作者采用基于区域的 local multi-view features——将每个目标检测器视为一个角度,每个检测器通过不同 backbone 的 Faster RCNN 得到。考虑到不同检测器得到的特征并不对齐,作者提出了两种 multi-view image encoder,Aligned Multi-View(AMV)image encoder 和 Unaligned Multi-View(UMV)image encoder
Aligned Multi-View image encoder[^1]
作者认为统一的边框不是很好,会降低 multi-view features 的多样性,限制 encoded image features 的表征能力。同时,AMV 模型隐式的限制了目标检测器只能是 Faster RCNN 模型(Faster RCNN 要么使用需要计算好的 proposals 作为输入,要么使用自己的 RPN 生成 proposals),这样对于像是 RetinaNet 或者 YOLO 这种 one-stage 的模型就没有办法作为 AMV 的目标检测器
Unaligned Multi-View image encoder
为了解决 AMV 的问题,作者又提出了 UMA 直接整合不同目标检测器的 unaligned multi-view features
值得注意的是,UMV 可以通过堆叠学习到更多不同视角的交互作用
我们下面来看一下论文里几张实验的图片
Attentions of MTsv(single-view MT model) Encoder
观察上图我们可以发现:
这表明,所有 attended features 都倾向于与关键对象产生交互作用
Attentions of MTsv Decoder
如上图所示, caption decoder 第一层和第六层的注意力图都反映了 paried words 的相似性。和 Enc(SA)-1 相似,Dec(SA)-1 并没有习得两两单词之间的交互作用。但是在 Dec(Sa)-6 中,我们发现,许多单词开始有了联系
guided-attention(GA)反应了多模态之间的相互联系(word-object)。在 Dec(GA)-1 中,一些词和物并不能很好的配对。但是在 Dec(GA)-6 中,关键对象和它们匹配的词之间的 word-object relationship 相当明显
Attentions of MTumv Encoder
观察上图我们可以发现:
这表明, UMA image encoder 能够学会对齐来自不同目标检测器的对象,同时能够通过多视点特征探索物体和物体之间的更为复杂的关系,能够提供对图像内容的 fine-grained understanding
同时,作者也在下图展示了一些 image captioning 的预测结果
通过前两行可以明显发现,MTumv 的预测优于 MTsv 的预测。第三行展示了两个 MTsv 优于 MTumv 的例子。最后一行展示了两个模型都预测错误的例子。作者给出的结论是:
[^ 1]: AMV 里面的 d i d_i di 应该是可以不同的,即 d 1 ≠ d 2 ≠ ⋯ d_1\neq d2\neq\cdots d1=d2=⋯ 这种