【Eye-tracking】DIDEC: The Dutch Image Description and Eye-tracking Corpus

DIDEC: The Dutch Image Description and Eye-tracking Corpus

Abstract

本文提供了一个荷兰语口语图像描述的语料库,结合两组眼球追踪数据:free viewing,参与者没有任何特定目的地观看图像,以及description viewing,我们跟踪眼球运动,同时参与者对他们正在观看的图像进行口头描述。本文描述了数据收集过程和语料库本身,并对图像描述中的自校正进行了初步分析,并发现了两个结果。

  1. description viewing的眼球追踪数据比free viewing任务更连贯;
  2. 图像描述的变化(也称为image specificity)在不同语言之间只有适度的相关性。我们的语料库可以用来更深入地理解图像描述任务,特别是视觉注意是如何与图像描述过程相关联的。

1. Introduction

自动图像描述是计算机视觉(CV)和自然语言处理(NLP)相结合的一项任务。其目标是让机器自动为任何图像生成自然语言描述。2014年,随着Flickr30K和MS COCO数据集的发布,自动图像描述领域出现了爆炸性增长:从Flickr收集的两个图像库,每张图像有5个众包描述。这些资源使研究人员能够训练自动学习图像和文本之间的映射的端到端系统,同时也能更好地理解人类如何描述图像。然而,现有的数据集只能对人类产生图像描述的方式提供有限的见解,因为它们只包含这个过程的结果ÿ

你可能感兴趣的:(NLP,Paper,Gaze,自然语言处理,眼动信号,期刊阅读)