【Gaze】Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze

Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze

Abstract

当说话者描述一幅图像时,他们倾向于在提到物体之前先看它们。本文通过对图像描述生成过程的计算建模,研究了这种序列跨模态对齐。作者以一个SOTA的图像字幕系统作为出发点,利用人类注视信息设计不同模型变体。本文主要是提出了第一种生成图像描述的方法,其中视觉处理是按顺序建模的。经实验和分析证实,通过利用注视驱动的注意力,可以获得更好的描述,并通过比较将注视模式与语言产生对齐的不同方式,该方法在一定程度上来阐明人类的认知过程。作者发现,依次处理凝视数据会导致描述与说话者产生的描述更一致,更多样化、更自然——特别是当凝视被一个专门的循环成分编码时。

1. Introduction

描述一个图像需要不同模式的协调。认知研究表明,语言和视觉之间的相互作用是复杂的。一方面,眼球运动受到手头任务的影响,比如定位物体或口头描述图像。另一方面,视觉信息处理在指导语言生产中发挥着重要作用。这种跨模态协调在图像描述的特定任务中依次展开,也就是说,物体往往在被提及之前被观察。然而,这两种模式之间的时间对齐并不简单。

本文继续研究这些发现,并通过计算建模描述生成过程来研究图像描述中的跨模态对齐。本文采用SOTA自动图像字幕系统,并开发了几种利用来自眼

你可能感兴趣的:(Gaze,Paper,眼动信号,论文阅读,image,caption)