Gaze Estimation人脸数据集学习(MPIIFaceGaze、EyeDiap、Gaze360、ETH-Gaze)

目录

1、MPIIFaceGaze

2、EyeDiap

3、Gaze360

4、ETH—Gaze

四个数据集注视分布:


1、MPIIFaceGaze

收集:

与MPIIGaze是同一批数据,采集人物相同。

在自愿者电脑上安装数据采集软件, 每隔10分钟程序弹出界面,并随机绘制20个点, 当这个点快消失时自愿者就要按下空格键,保存此时摄像头拍摄的图片,注意,为了保证志愿者按下按键的时候的确在看这些点,采集软件只会捕获点消失前500ms时间窗口的按键信息, 也就是说,点消失前500ms内如果没有按键,那么这次采集就要重新来过,只有这样才能保障数据的正确性。

Gaze Estimation人脸数据集学习(MPIIFaceGaze、EyeDiap、Gaze360、ETH-Gaze)_第1张图片

内容:

有 15 个参与者和从 p00 到 p14 的相应文件夹。每个文件夹都包含不同日期文件夹中的图像。

维度 1:图像文件路径和名称。

维度 2~3:注视在屏幕上的位置坐标以像素为单位,实际屏幕尺寸可在“校准”文件夹中找到。

维度 4~15:(x,y) 六个面部特征的位置,分别是四个眼角和两个嘴角。

维度 16~21:基于基于 6 个点的 3D 人脸模型,在相机坐标系中估计的 3D 头部姿态,旋转和平移:我们在 [1] 中实现了相同的基于 6 个点的 3D 人脸模型,包括四个眼角和两个嘴角。

维度 22~24 (fc):相机坐标系中的人脸中心,即 6 个焦点人脸模型的平均 3D 位置。由于头部和面部中心不同,头部平移略有不同。

维度 25~27 (gt):相机坐标系中的 3D 凝视目标位置。注视方向可以计算为 gt - fc。

维度 28:[2] 中的评估子集使用哪只眼睛(左眼或右眼)。

校准:

每个参与者都有一个“校准”文件夹,其中包含
(1) Camera.mat:笔记本电脑相机的内在参数。“cameraMatrix”:摄像机的投影矩阵。“distCoeffs”:相机畸变系数。“retval”:均方根 (RMS) 重投影误差。“RVECS”:旋转向量。“tvecs”:翻译向量。
(2)monitorPose.mat:图像平面在相机坐标中的位置。“RVECS”:旋转向量。“tvecs”:翻译向量。
(3) screenSize.mat:笔记本电脑屏幕尺寸。“height_pixel”:屏幕高度(以像素为单位)。“width_pixel”:屏幕宽度(以像素为单位)。“height_mm”:屏幕高度,单位为毫米。“width_mm”:屏幕宽度,单位为毫米。

下载链接:

原始数据集:http://datasets.d2.mpi-inf.mpg.de/MPIIGaze/MPIIFaceGaze.zip
归一化数据:http://datasets.d2.mpi-inf.mpg.de/MPIIGaze/MPIIFaceGaze_normalized.zip

2、EyeDiap

收集:(视频)

参与者坐在深度摄像头Kinect前,而一名实验人员则手握一根吊着乒乓球的棍子,操纵乒乓球在参与者面前随机运动。参与者被要求始终盯着乒乓球,而深度摄像头则会记录下整个过程。数据收集完毕后,我们可以通过算法或人工的方式标注RGB视频中的眼睛中心点位置和乒乓球位置。我们把这两个位置映射到深度摄像头记录的三维点云中,从而得到对应的三维位置坐标。这两个三维位置坐标相减后即得到视线方向。

对于参与者 14、15 和 16,在两种不同的条件下(表示为 A 或 B):不同的日期、照明和与相机的距离,对这些会话进行了两次记录。

为了评估方法对头部姿势的鲁棒性,要求参与者继续凝视视觉目标,同时 (i) 保持近似静止的头部姿势朝向屏幕(静态情况,S);或 (ii) 执行头部运动(平移和旋转)以引入头部姿势变化(动态情况,M)

Gaze Estimation人脸数据集学习(MPIIFaceGaze、EyeDiap、Gaze360、ETH-Gaze)_第2张图片

内容:

一共16位参与者,12位男性,4位女性。

head_pose.txt :逐帧头部姿势参数。
eye_tracking.txt :逐帧 2D 和 3D 眼睛位置。
ball_tracking.txt :球目标的逐帧 2D 和 3D 位置。
screen_coordinates.txt :逐帧 2D 和 3D 屏幕坐标。
rgb_vga_calibration.txt:RGB Kinect 相机的校准参数。
depth_calibration.txt:深度相机的校准参数。
rgb_hd_calibration.txt:RGB高清摄像头的标定参数。

下载链接:

EYEDIAP — ZH (idiap.ch)

3、Gaze360

收集:

Ladybug5由五个同步且重叠的5百万像素摄像机单元组成,每个摄像机单元具有120°水平视场,另外还有一个我们不使用的朝上摄像机。鱼眼镜头校正后,我们将每个帧存储为3382×4096像素的图像。可以在其中至少一张视图中完全拍摄到距离相机一米远的拍摄对象的面部。

Gaze Estimation人脸数据集学习(MPIIFaceGaze、EyeDiap、Gaze360、ETH-Gaze)_第3张图片

目标包括一块白板,该白板的一侧有一个大的AprilTag,而两侧则有一个较小的十字形。十字架用作研究对象的注视目标,而标签则用于在3D空间中跟踪白板。我们使用原始的AprilTag库检测每个相机视图中的标记,并使用已知的相机校准参数和标记大小来估计其3D姿势。然后,我们使用姿势和已知的板几何形状来找到目标十字点pt的3D位置。

指示受试者站在相机周围1-3m(平均2.2m)的距离,并在他们可见的标记板一侧连续跟踪目标十字。该标记板在相机和测试者之间移动,同时上下移动以引起注视间距的变化。

Gaze Estimation人脸数据集学习(MPIIFaceGaze、EyeDiap、Gaze360、ETH-Gaze)_第4张图片

内容:

我们在9个记录时段内,在5个室内(53个主题)和2个室外(185个主题)位置收集了238个主题。

Gaze Estimation人脸数据集学习(MPIIFaceGaze、EyeDiap、Gaze360、ETH-Gaze)_第5张图片

下载:

Gaze360: Physically Unconstrained Gaze Estimation in the Wild (mit.edu)

4、ETH—Gaze

收集:

我们用18台佳能250D数码单反相机从不同的角度捕捉主体,以覆盖大范围的头部姿势。有5个配对的相机用于几何捕获和8个相机用于纹理采集。摄像机中央放置了一个大屏幕(120 × 100厘米),显示由树莓派控制并由投影仪投影的刺激。由于一些相机被放置在屏幕后面,我们为它们的镜头创建了切孔。屏幕周围有4个灯箱,每个灯箱都装有一个发光~ 4500lm的灯泡。树莓派可以打开或关闭每个灯箱来模拟不同的照明条件。我们在灯箱和相机前安装偏振滤光片,并仔细调整滤光片角度,以衰减参与者面部的镜面反射。在录制过程中,参与者坐在屏幕前大约一米远的地方,头部放在头枕中,以减少无意识的头部运动

在数据收集过程中,参与者将注意力集中在一个缩小的圆圈上,当圆圈变成一个点时,点击鼠标,提供凝视点。注视点的位置在屏幕上是随机分布的。我们有三种方法来确保参与者在点击鼠标时看到点。首先,参与者有0.5秒的时间窗口点击鼠标成功收集一个样本。其次,圆圈的收缩时间是随机的,参与者必须将注意力集中在收缩的圆圈上,以免错过触发时间窗口。第三,参与者被告知要收集固定数量的样本,任何遗漏的鼠标点击都会增加收集时间。在大多数数据收集中,四个灯箱都是全开的,以提供最大的亮度,但我们通过打开和关闭四个灯箱来模拟15种照明条件

Gaze Estimation人脸数据集学习(MPIIFaceGaze、EyeDiap、Gaze360、ETH-Gaze)_第6张图片

总共收集了110名参与者(47名女性和63名男性)的数据,年龄在19至41岁之间。其中17人在录音时戴隐形眼镜,17人戴眼镜。参与者的种族包括高加索人、中东人、东亚人、南亚人和非洲人。每位参与者在完全照明条件下收集了525个凝视点,在不同照明条件下收集了90个凝视点——15种照明条件下每种条件下有6个凝视点。

对于每个凝视点,18个不同的相机总共收集了18张图像。

我们手动删除了由于闪烁、运动模糊等原因,参与者没有看到基本事实点的样本。这导致整个ETH-XGaze数据集总共有1,083,492个图像样本。

内容:

收集了110名不同种族、年龄和性别的参与者的数据——有些人戴眼镜,有些人不戴眼镜——以提供丰富多样的数据集。对于每个参与者,我们在完全照明的情况下捕捉了500多个凝视方向,再加上15种不同照明条件下的额外90个样本。这导致总共有超过100万个标记样本。

ETH-XGaze具有最大的头部姿势范围,最大的凝视方向范围,最高的图像分辨率,尤其是对人脸区域的有效分辨率。提供了一组受控照明条件,16种不同的光照条件。

18个机位拍摄示例:

Gaze Estimation人脸数据集学习(MPIIFaceGaze、EyeDiap、Gaze360、ETH-Gaze)_第7张图片

下载链接:

AIT Lab (ethz.ch)

四个数据集注视分布:

Gaze Estimation人脸数据集学习(MPIIFaceGaze、EyeDiap、Gaze360、ETH-Gaze)_第8张图片

你可能感兴趣的:(视线估计,学习,计算机视觉,视觉检测)