It’s Written All Over Your Face: Full-Face Appearance-Based Gaze Estimation(基于全脸的视线估计方法)

基于单眼或双眼的视线估计方法有两个缺陷:1)需要额外的模块检测眼睛;2)需要额外的模块估计头部姿态。基于此,Xucong Zhang等于2017年提出了基于注意力机制的全脸视线估计方法. 这里注意力机制的主要思想是通过一个支路学习人脸区域各位置的权重,其目标是增大眼睛区域的权重,抑制其他与gaze无关的区域的权重。Zhang, X., Sugano, Y., Fritz, M., and Bulling, A. (2016). It’s Written All Over Your Face: Full-Face Appearance-Based Gaze Estimation. IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).

Abstract

视线是人类情感分析的重要非语言线索。 最近的视线估计工作表明,来自整个面部区域的信息可以提高性能。 为了进一步推动这一想法,我们提出了一种基于表观的方法,该方法将全脸图像作为输入。 我们的方法使用卷积神经网络对面部图像进行编码,并在面部特征图上应用空间权重,以灵活地抑制或增强不同面部区域中的信息。 通过广泛的评估可以看出,对于2D和3D凝视估计,我们的全脸方法显着优于现有技术,对于person-independent(测试集的对象与训练集的对象来源不同)的3D凝视估计,MPIIGaze的准确度提高了14.3%,而EYEDIAP的提高了27.7%。 我们进一步表明,即使在不同照明条件和注视方向上,依旧有提升,对于最具挑战性的极端头部姿势提升尤其明显。

Introduction

鉴于人眼注视在不同应用中的重要性,例如人机交互[21],情感计算[4]和社交信号处理[30],计算机视觉中的许多工作都研究了视线估计的问题 。 早期方法通常需要可控条件下的照明条件或头部姿势[17、22、27、31],而使用卷积神经网络(CNN)的基于外观的最新方法已为日常场景中的视线估计铺平了道路。 其特点是场景具有大量的光照和视线变化[36]。 尽管取得了这些进步,以前的基于表观的方法仅使用了从一只或两只眼睛编码的图像信息。

Krafka等人的最新结果指出,将眼睛和面部图像都作为输入的多区域CNN结构可以提高凝视估计性能[13]。==虽然从直觉上讲,人的凝视与眼球姿势紧密相关,因此眼图应该足以估计凝视方向,但可以想象到,尤其是基于机器学习的方法可以利用来自其他面部区域的其他信息。例如,这些区域可以在比眼睛区域更大的图像区域上编码头部姿势或照明等特定信息。==但是(一种更高效,更优雅的)纯脸方法是否可行仍然是一个悬而未决的问题,对于这种基于全脸外观的方法,哪些面部区域最重要,以及当前的深层CNN结构是否可以将这些区域的信息进行合理编码。此外,[13]中的凝视估计任务仅限于简单的2D屏幕映射,因此尚不清楚全脸方法在3D凝视估计中的潜力。

这项工作的目的是为了对2D和3D基于外观的注视估计的全脸方法的潜力进行详细分析(请参见图1)。这项工作贡献有两个方面。(1)提出了一种用于视线估计的全脸CNN结构,不同于传统的以单眼或双眼图像作为输入,该模型以全脸图像作为输入,并直接回归出2D或3D视线方向。 将全脸方法与现有的仅眼睛[36]和多区域[13]方法进行了定量比较,结果表明,在具有挑战性的MPIIGaze数据集上,它可以实现4.8°的person-independent 的3D凝视估计精度。比现有的SOTA方法提高了14.3%。(2)提出一种空间权重机制,将有关全脸不同区域的信息有效地编码到CNN结构中。该机制在卷积层的激活图上学习空间权重,反映出在不同面部区域中包含的信息。 通过进一步的定量和定性评估,我们表明,提出的空间权重网络,有助于在光照、头部姿态、视线方向多变的情况下,训练出具有鲁棒性的估计器。
It’s Written All Over Your Face: Full-Face Appearance-Based Gaze Estimation(基于全脸的视线估计方法)_第1张图片

Conclusion

基于单眼或双眼的视线估计方法有两个缺陷:1)需要额外的模块检测眼睛;2)需要额外的模块估计头部姿态。基于此,Xucong Zhang等人[10]在2017年提出了基于注意力机制的全脸视线估计方法,其网络结构如图所示。该网络加入注意力机制的思想是通过一个支路学习人脸区域各位置的权重,其目的是增大眼睛区域的权重,抑制其他与视线估计无关的区域的权重,例如背景。其次从除眼睛外的其他脸部区域还可以比单独的眼部区域获取到更多的头部姿态或光照等信息。该网络的输入为人脸图像并采用端到端的学习策略,直接学习出最终相机坐标系下的视线方向。最终,该方法在MPIIGaze 数据集上的误差为4.8度。

在训练数据与测试数据采集自不同的人(Person independent)这一设定下,视线估计通用方法的精度大都在4-5度之间徘徊,基本很难得到进一步提升。这个瓶颈主要是由人与人之间眼球内部构造差异所引起的。如果希望继续提升精度,一般就要使用个性化策略,这也是最近两年视线估计领域研究的热点。

你可能感兴趣的:(视线估计)