【创新实训2】Appearance-Based Gaze Estimation in the Wild 阅读

摘要:

这篇文章提供了MPIIGaze数据集,其中包含从15位参与者收集的213,659张图片,均在超过三个月的日常笔记本电脑使用期间采集的。在外观和光照方面,该数据集比现有数据集更具可变性。文中还提出了一种使用多模式卷积神经网络进行基于外观的视线估计的方法,该方法在最具挑战性的跨数据集评估中明显优于最先进的方法(2015 CVPR)

相比之前的一些数据集的采集条件较为严格,眼睛外观的可变性有限,并且假设头部姿势估计准确,局限性较大。

视线估计

  视线估计方法可以是基于模型的或基于外观的[12]。基于模型的方法使用几何眼睛模型,并且可以进一步分为角膜反射和基于形状的方法,这取决于是否需要外部光源来检测眼睛特征。基于角膜反射的早期研究方法主要集中在静止设置[36,30,13,51],后来扩展到使用多个光源或相机处理任意头部姿势[52,53]。相比之下,基于形状的方法[16,4,50,44]直接从观察到的眼睛形状(例如瞳孔中心或虹膜边缘)推断凝视方向。但两者准确度都较低,并且不清楚基于形状的方法是否能够稳健地处理低图像质量和可变光线条件。    基于外观的凝视估计方法直接使用眼睛图像作为输入,因此可以使用低分辨率眼睛图像。虽然早期多是固定的头部姿势[3,42,48,35,27,24],但近期的工作主要集中在3D头部姿势估计的方法[25,26,9,6]。然而,基于外观的方法需要比基于模型的方法更大量的用户特定训练数据,并且担心模型的泛化能力

 

数据集
【创新实训2】Appearance-Based Gaze Estimation in the Wild 阅读_第1张图片

先分析一下这个数据集,从上图来看,数据集的复杂度还是很高的,光照条件,时间上以及灰度强度差异上都挺大。

数据集下载以后看了一下,包括三部分:“数据”,“评估子集”和“注释子集”。

“数据”文件夹包含所有15位参与者的“原始数据”和“标准化数据”。在此数据集中使用了基于6点的面部模型。

“Original”文件夹是裁剪的眼睛矩形图像,其检测结果基于人脸检测器和面部标志检测器。对于每个参与者,图像和注释以天为时间单位。对于每天的文件夹,里面是收集的图像和相应的“annotation.txt”文件。注释包括:

  • 1~24维:在整个图像坐标下检测眼睛标志位置(像素级别)
  • 25~26维:在屏幕坐标下的视线位置
  • 27~29维:与相机相关的3D视线目标位置
  • 30~35维:根据基于6点的3D人脸模型,旋转和平移来估计3D头部姿势
  • 36~38维:相机坐标系中估计的3D右眼中心。
  • 39~41维:相机坐标系中估计的3D左眼中心。

此外,每个参与者还有“校准”文件夹,其中包含:

  • Camera.mat:笔记本电脑相机的内在参数。“cameraMatrix”:相机的投影矩阵。“distCoeffs”:相机失真系数。“retval”:均方根(RMS)重新投影误差。“rvecs”:旋转向量。“tvecs”:转移向量。
  • monitorPose.mat:图像平面在摄像机坐标中的位置。“rvecs”:旋转向量。“tvecs”:转移向量。
  • creenSize.mat:笔记本电脑的屏幕尺寸。“height_pixel”:以像素为单位的屏幕高度。“width_pixel”:以像素为单位的屏幕宽度。“height_mm”:屏幕高度,单位为毫米。“width_mm”:屏幕以毫米为单位。

“归一化”文件夹是规范化后的眼部图像,它通过Sugano等人[3]中的透视变换取消缩放和旋转。类似于“原始”文件夹,所有数据按每个日期组织参与者,文件格式为“.mat”。注释包括:

  • 3D注视头姿势和3D注视方向。在我们的论文中描述了2D屏幕凝视目标生成到该3D凝视方向。

“评估子集”文件夹包含:

  • 图像列表指示我们论文中评估子集的所选样本。我们对MPIIGaze数据集的评估子集进行了评估,其中包括每个参与者的相同数量的样本。

文件夹“Annotation Subset”包含:

  • 图像列表指示我们手动注释的10,848个样本
  • 在对于上述每个图像的两个瞳孔中心的(x,y)位置注释6个面部标志(四个眼角,两个嘴角)和(x,y)位置之后。

原图和正规化处理后的对比:

【创新实训2】Appearance-Based Gaze Estimation in the Wild 阅读_第2张图片

 

你可能感兴趣的:(创新实训,创新实训,MPIIGaze)