eye tracking for everyone-内容概要

我们先来总结一下,作者在采集数据的时候,一再强调数据的可变性,通过改变头部姿势,以及相机和头部的距离,不同的人以及不同的采集地点,使采集的数据具有多样性,同时又通过采集软件的小功能使准确率相对保持较高。

 作者通过用自己采集的数据集GazeCapture,训练了自己的iTracker网络,并用dark knowledge的方法在手机上训练了一个小型的实时faster network。 

视点估计又被分为基于模型的或者基于外观的,基于模型的方法根据几何模型又被分为基于角膜反射和基于形状的方法,角膜反射的方法通过外部光源检测眼睛特征,基于形状的通过眼睛的方法shape推测出视点方向(例如瞳孔中心或者虹膜边缘)。基于外观的方法相比基于模型的要求更多的特定用户训练数据。然而我们的方法并不需要特定的数据就可以有很好的泛化(calibration is helpful)。

作者开发了在移动设备上收集严冬追踪数据的IOS软件,可以记录并上传数据,名字也叫GazeCapture,有三个特性:(1)可扩展,(2)可靠的,(3)产生大的可变性。其中,可变性:为了学习强大的眼动追踪模型中,数据的显着变化很重要。这种可变性对于实现高精度无校准眼动追踪至关重要。鉴于我们使用众包(crowdsourcing platform),期望拥有姿势,外观和光照的变化很大。其次,要求参与人员不断移动头部和头与手机之间的距离。最后,要求参与人员每次都要改变移动设备的方向60点。可以使用内置传感器检测此更改在设备上。这改变了相对位置相机和屏幕提供进一步的可变性。

为了关联每个手机设备里的AMT任务(手机此次数据的活动),我们提供了每个工作人员他们随后键入了AMT中的唯一代码进入他们的移动应用。点位置都是随机来自13个固定location(loc),并通过固定loc学习calibration的影响。

为了证明数据的可变性,我们使用了X. Zhang, Y. Sugano, M. Fritz, and A. Bulling. Appearance-based gaze estimation in the wild的方法对每一帧来估计头部姿势h和凝视方向g,在GazeCapture MPIIGaze和TabletGaze上绘制h和g的分布作。我们发现虽然我们的数据集包含一个类似的总体分布h与现有数据集相比,异常值的比例明显更大。(图4.)

eye tracking for everyone-内容概要_第1张图片

 

目标是设计一个通过一张图片就能预测视点的鲁棒模型(图5.),采用CNN,通过以下作为模型的输入:(1)脸部图像及其在图像中的位置(称为面部网格),以及(2)眼睛的图像。我们相信使用该模型(1)可以推断相对到相机的头部姿势,和(2)推断相对头眼睛的姿势。通过组合这些信息,模型可以推断凝视的位置。网络每一层的size与AlexNet相似。

eye tracking for everyone-内容概要_第2张图片

 

设计了一个统一预测空间使用所有数据训练单个模型,因为我们的数据是使用多个设备收集的各种方向,采集数据来自不同的设备,直接预测坐标没有意义,除非是单一设备并且注视单一方向(直接预测屏幕坐标除了单个设备之外没有意义因为输入可能会发生显着变化),我们预测相对于相机的点位置。(图6.)

                           eye tracking for everyone-内容概要_第3张图片

接下来是数据集的设计细节,不再重复。

为了估测模型的泛化能力(通过calibration-free),得出一下结论(表2.):无约束的眼睛追踪,以及消融研究。error:平均欧几里得距离误差;dots error:帧平均预测误差;总结:baseline(Baseline refers to applying support vector regression (SVR) on features from a pretrained ImageNet network)的ImgNet效果没有iTracker好,Augmentation有效降低了误差,微调后效果更佳,消融研究表明,输入缺失误差增大。并用散点图展示了error的分布(图7.):

eye tracking for everyone-内容概要_第4张图片

 

eye tracking for everyone-内容概要_第5张图片

 

接下来是calibration下的eye tracking,(表3.)结果总结为:对两个网络的calibration比较,选取的location越多error下降越快。每个location包含所有在里面的帧,且微调的网络效果突出。(带*号的)

eye tracking for everyone-内容概要_第6张图片

 

交叉数据集的泛化能力研究表明,我们的模型在特征图上用SVR + AlexNet的方法超过了所有的模型。(表4.)这里Baseline提出了两种方法:(1)中心预测(总是预测屏幕的中心而不考虑数据),(2)将支持向量回归(SVR)应用于在ImagNet预先提取图像特征的AlexNet上。

eye tracking for everyone-内容概要_第7张图片

阐述了大规模数据集的重要性,(图8.)证明了subject在准确率上的重要性,表现更突出,多种subj优于大量sample。

eye tracking for everyone-内容概要_第8张图片

 

 

你可能感兴趣的:(视点追踪)