显著性检测数据集之——眼动预测

本文收集的显著性检测数据集包含两个部分:人眼关注点预测数据集(fixation prediction datasets)和显著物体检测数据集(salient object detection datasets)。

1.fixation prediction datasets:

(1) MIT300数据集
2012年, 麻省理工的Judd等人建立了MIT300数据集.该数据集包含了300张自然图像以及39名观测者的眼动数据, 是图像人眼关注点检测领域影响力最大、使用最广泛的数据集.该数据集得以广泛应用的原因是:数据分布较为合理且具有一定的难度; 建立较早, 影响力较大; 人眼关注点的真值标定不公开, 一般不做训练集使用,但是可以评估模型。

(2) MIT1003数据集
MIT1003数据集也是由麻省理工的Judd等人建立的.该数据集包含了从Flikr和LabelMe网站得到的1 003张图像, 其中779张为风景像, 228张为肖像, 并公开了15名观测者的眼动数据.同时, 眼动数据的记录过程还考虑了记忆机制:每个观测者被要求在100张图像中指出哪一张是先前看到的.MIT1003数据集可以作为MIT300数据集的补充, 即在MIT1003数据集上训练基于机器学习的注意力模型, 然后, 以MIT300数据集作为测试集进行性能评估.
论文:《Learning to predict where humans look》
收集了来自15个观察者的1003张图像的眼球追踪数据,作为ground truth。对每个观看者记录注视轨迹和注视位置(b)。对所有注视位置进行卷积,得到连续的显著性图©。这个显著性映射被阈值化,以显示图像中最显著的20%(d) 。
显著性检测数据集之——眼动预测_第1张图片

(3) TORONTO数据集
TORONTO数据集于2006年由约克大学的Bruce等人建立, 是计算机视觉领域提出最早、使用最广的数据集之一.它包括了120张分辨率为511×681的彩色图像.这些图像属于室内和室外场景, 一共记录了20名观测者的眼动数据.在每名观测者眼动数据的采集过程中, 每张图像呈现3s, 图像之间插入为时2s的灰度图像作为间隔.
论文:《Saliency Based on Information Maximization》
提出基于显著性图选择离散注视坐标进行比较可能不是用于性能评估的最合适的表示。定性比较的ground truth是对于特定的图像,平均来自每个受试者的每个注视点所对应的所有二维高斯信号的总和,导出连续的注视密度图,比较与显著图的相似性。定量性能评估中ground truth是显著性图标定注视点和非注视点。

(4) PASCAL-S数据集
PASCAL-S数据集于2014年由乔治亚理工学院的Li等人建立.该数据集使用了PASCAL VOC 2010数据集验证集的850张图像, 并公布了8名观测者在2s内、自由观看模式下观测图像得到的眼动数据.
论文:《The Secrets of Salient Object Segmentation》
在注视预测实验中,8名受试者被要求执行“自由观看”任务来探索图像。眼动数据采样使用的是125Hz的Eyelink 1000眼动仪。在显著目标分割实验中,手动执行一个完整的分割来裁剪出图像中的所有对象。当我们建立显著性物体分割的ground-truth时,遵循以下规则:1)无故意给图像的部分做标记(如人脸);2)对同一对象的不连通区域分别进行标识;3)我们使用实心区域来近似空心物体,如自行车轮子。要求12名受试者标记突出的物体。一个人可以选择的对象的数量没有时间限制或约束。每个分割的最终显著性值是它接收到的点击总数除以人物的数量。显著目标的标记是基于完整分割的。PASCAL-S中的每幅图像都是由多个标记器标记的,对显著目标的数量没有限制。
显著性检测数据集之——眼动预测_第2张图片
(5) SALICON数据集
SALICON数据集是2015年由新加坡国立大学的Jiang等人建立的.该数据集包含了20 000张选自Microsoft COCO数据集的图像, 是迄今为止图像人眼关注点检测领域规模最大的数据集.但是该数据集没有使用眼动仪录制眼动数据, 而是利用了亚马逊众筹标记平台(Amazon Mechanical Turk, 简称AMT), 让标注者用鼠标点击自己关注的位置.Jiang等人强调了用鼠标记录的眼动数据与眼动仪记录的实际数据高度接近, 但是Tavakoli等人指出, 眼动仪记录的真实眼动数据和鼠标记录的眼动数据之间仍然存在着较大的区别, 当分别利用不同方式记录的眼动数据作为训练样本训练模型时, 不同的训练样本会对模型的最终性能产生不同的影响; 同时, 利用鼠标记录的眼动数据对模型的性能进行评估时, 产生的评估结果以及模型性能的相对好坏也与在真实眼动数据上的测试结果不符.尽管如此, 鉴于SALICON数据集的较大规模, 还是被当前主流的基于深度学习技术的显著性检测模型广泛使用.SALICON数据集公开了训练集(10 000张)和验证集(5 000张)的眼动数据, 但保留了测试集(5 000张)的眼动数据.
论文:《SALICON: Saliency in Context》
通过对同一幅图像的所有预处理的鼠标点击样本进行高斯滤波器的聚集和模糊处理,生成ground truth显著性图,这与从眼球跟踪数据生成注视图的常见做法相同。
显著性检测数据集之——眼动预测_第3张图片
(6) DUT-OMRON数据集
DUT-OMRON数据集由大连理工大学的Yang等人于2013年建立.该数据集包含5 172张图像, 每张图像提供了5名观测者的眼动数据.该数据集有眼动数据标注,但主要关注显著物体检测, 因而在物体之外的视觉注意点在后处理过程中被移除。

(7) iSUN数据集
是一个用于眼睛注视预测的大型数据集,包含20608个数据集来自SUN数据库的图像。这些图像是完全注释的。

参考文献:
[1] Judd T , Ehinger K , Frédo Durand, et al. Learning to predict where humans look[C]// IEEE International Conference on Computer Vision. IEEE, 2010.
[2]Bruce N D B , Tsotsos J K . Saliency Based on Information Maximization[C]// International Conference on Neural Information Processing Systems. MIT Press, 2005.
[3]Li Y , Hou X , Koch C , et al. The Secrets of Salient Object Segmentation[J]. 2014.
[4]Jiang M , Huang S , Duan J , et al. SALICON: Saliency in Context[C]// Computer Vision & Pattern Recognition. IEEE, 2015.
[5]王文冠, 沈建冰, 贾云得. 视觉注意力检测综述. 软件学报, 2019, 30(2): 416-439.http://www.jos.org.cn/1000-9825/5636.htm

有错误欢迎指出,不喜勿喷~

你可能感兴趣的:(显著性检测数据集之——眼动预测)