论文笔记:VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning

视觉词汇预训练(visual vocabulary pre-training,简称VIVO)技术,即通过弱监督学习方法对图像描述模型进行预训练,其中包括两个阶段:预训练和微调推断。

基于大型Transformer神经网络,VIVO 在没有文本标签的数据集Open Images上对文本和图像的多模态进行预训练,令模型学会识别图像中的常见物体和生物并标记它们,并建立起将文本和图片联系起来的视觉词表。视觉图表就是一个图像和文本的联合特征空间,语义相近的词会聚类在一起,例如金毛和牧羊犬、手风琴和乐器等。

建好词表后,进入第二阶段微调推断,即通过已标记好的图像进行检测,让模型融合预先训练好的视觉词汇信息,再自动生成通用的模板语句。如生成模版语句是持有,并用获取的对象标签填充模版,以得到标题,如“人持有狗”。推理阶段则通过提取区域特征检测标签完成自回归模型。这样,即使出现词库中没有的词,也能生成正确的描述。
论文笔记:VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning_第1张图片图2:训练和推理流程总览(a)在VIVO 预训练中,Transformer 模型在图片标签的训练数据上做标签预测,从而针对丰富的视觉概念进行多模态特征学习。(b)在微调中,模型在有文本描述标注的训练数据上学习如何基于图片和识别出来的物体生成一句话。(c)在推理时,对于给定的图片和识别的物体,模型以自回归的方式生成一系列字符,从而构成描述新物体的句子。

如图2所示,VIVO 训练流程采用了两阶段的训练。第一阶段为预训练,使用多层的 Transformer 模型进行图像分类的预测。具体来说,先给定图片和对应的一些标签(tag),然后随机地抹去其中一部分标签,让模型来预测这些被抹去的标签原本是什么。由于这些标签之间的顺序是可以互换的,因此需要使用匈牙利算法(Hungarian matching)来找到预测结果和目标标签之间的一一对应,然后计算交叉熵损失(cross entropy loss)函数。

预训练之后,第二阶段为微调。Transformer 模型会在有文本描述标注的小数据集上训练,例如 COCO。微调时使用的物体标签可以来自数据集本身的标注,也可以由其他已经训练好的图像分类或物体识别模型自动生成。

在测试阶段,对于给定图片和识别出来的物体标签,模型采用了自回归(auto-regressive)的方式生成字符序列,从而获得描述图片的一句话。

挑战新物体描述问题,视觉词表解决方案超越人类表现

你可能感兴趣的:(论文阅读,python,计算机网络,深度学习)