视线估计文献列表

视线估计

1.注视点估计

  1. 手机屏幕注视点的工作GazeCapture:Krafka, K., Khosla, A., Kellnhofer, P., and Kannan, H. Eye Tracking for Everyone. CVPR 2016
  2. Google对[1]模型做了进一步压缩 : Junfeng He, Khoi Pham, Nachiappan Valliappan, Pingmei Xu, Chase Roberts, Dmitry Lagun, and Vidhya Navalpakkam. On-device few-shot personalization for real-time gaze estimation. ICCV Gaze Workshop 2019
  3. 看到了注视点估计在智能手机上的应用前景,三星在2019年也公开了相关研究:Tianchu Guo, Yongchao Liu, Hui Zhang , Xiabing Liu, Youngjun Kwak, Byung In Yoo, Jae-Joon Han, Changkyu Choi. A Generalized and Robust Method Towards Practical Gaze Estimation on Smart Phone. ICCV Gaze Workshop 2019
  4. 在GazeCapture[1]之前,2015年莱斯大学已公开一篇针对平板的注视点估计论文TabletGaze,但当时的深度学习还不像今天这样盛行,作者使用了传统特征(LBP、HOG等)+ 统计模型的方式来解决这一问题 Qiong Huang, Ashok Veeraraghavan, Ashutosh Sabharwal. TabletGaze: Unconstrained Appearance-based Gaze Estimation in Mobile Tablets. Machine Vision and Applications 2017

注视点估计-小结:总的来讲,GazeCapture[1]基本为注视点估计这几年的发展奠定了基础。在屏幕注视点这一场景下,目前没有看到跳出他们框架与数据的论文。

2.视线估计

2.1通用方法

2.1.1单眼/双眼视线估计:

  1. 德国马普所Xucong Zhang博士等最早尝试使用神经网络来做视线估计Zhang, X., Sugano, Y., Fritz, M., and Bulling, A. (2015). Appearance-based gaze estimation in the wild. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4511–4520
  2. 用VGG16 代替了[5]中使用的浅层网络,大幅提升了模型精度,将误差缩小到了5.4度Zhang, X., Sugano, Y., Fritz, M., and Bulling, A. (2017). MPIIGaze: Real-World Dataset and Deep Appearance-Based Gaze Estimation. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), pages 1–14.
  3. [5] 和[6]两个工作都以单眼图像为输入,没有充分利用双眼的互补信息。北航博士Yihua Cheng在ECCV 2018上提出了一个基于双眼的非对称回归方法,误差5度Cheng, Y., Lu, F., and Zhang, X. (2018). Appearance-based gaze estimation via evaluation- guided asymmetric regression. In The European Conference on Computer Vision (ECCV).

2.1.2基于语义信息的视线估计:

  1. ETH博士Park等在ECCV 2018上提出了通过深度网络将眼睛抽象为一个眼球图形表示来提升视线估计(这一表示相对gaze来说更具象也更易学习)Park, S., Spurr, A., and Hilliges, O. (2018). Deep Pictorial Gaze Estimation. In European Conference on Computer Vision (ECCV), pages 741–757.
  2. ETH博士Park等还在ETRA 2018上的工作,利用眼睛关键点的heat map估计视线Seonwook Park, Xucong Zhang, Andreas Bulling, Otmar Hilliges (2018). Learning to find eye region landmarks for remote gaze estimation in unconstrained settings. ACM Symposium on Eye Tracking Research and Applications (ETRA)
  3. 瑞士洛桑联邦理工学院(EPFL)yuyu在2018年提出了一种基于约束模型的视线估计方法,其基本出发点是多任务学习的思想,即在估计gaze的同时检测眼睛关键点位置,两个任务同时学习,信息互补,可以在一定程度上得到共同提升。Yu, Y., Liu, G., and Odobez, J.-M. (2018). Deep multitask gaze estimation with a constrained landmark-gaze model. European Conference on Computer Vision Workshop (ECCVW).

2.1.3全脸视线估计:

  1. 以上视线估计方法都要求单眼/双眼图像为输入,有两个缺陷:1)需要额外的模块检测眼睛;2)需要额外的模块估计头部姿态。基于此,Xucong Zhang等于2017年提出了基于注意力机制的全脸视线估计方法. 这里注意力机制的主要思想是通过一个支路学习人脸区域各位置的权重,其目标是增大眼睛区域的权重,抑制其他与gaze无关的区域的权重。Zhang, X., Sugano, Y., Fritz, M., and Bulling, A. (2016). It’s Written All Over Your Face: Full-Face Appearance-Based Gaze Estimation. IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).
  2. 商汤在ICCV 2017上也发表了一个全脸视线估计的工作。与[11]工作不同的是,除人脸输入外,该工作同时要求输入眼睛图片. Zhu, W. and Deng, H. (2017). Monocular free-head 3d gaze tracking with deep learning and geometry constraints. In The IEEE International Conference on Computer Vision (ICCV).

2.1.4小结

在person independent(训练数据与测试数据采集自不同的人)这一设定下,上述方法的精度大都在4-5度之间徘徊,似乎很难得到进一步的提升。这个瓶颈主要是由人的眼球内部构造造成的,人与人之间存在一定的视线偏差。对于不同的两个人,即便眼球的旋转角度完全相同,其视线也会存在2到3度的不同。如果希望继续提升精度,一般要使用个性化策略。

2.2 个性化视线估计(最近两年研究的热点)

  1. 产生视线偏差的原因来自于眼球内部构造Funes Mora, K. A. and Odobez, J.-M. (2014). Geometric Generative Gaze Estimation (G3E) for Remote RGB-D Cameras. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1773–1780.

2.2.1 偏差消除方法

  1. 偏差消除方法(差分网络),型估计的不再是某一张图像的视线,而是两张图像的视线差值(pitch角差值与yaw角差值)注意这里的一个严格要求是用于估计视线差值的两个样本必须来自同一个人,只有这样才能保证减法操作可以消除偏差。Liu, G., Yu, Y., Mora, K. A. F., and Odobez, J. (2019). A differential approach for gaze estimation. accepted in IEEE Transaction on Pattern Analysis and Machine Intelligence.

2.2.2 偏差估计方法

  1. 偏差估计方法, 视线偏差与图像的视觉元素无关,无法从图像中学习得到。视线偏差是与人相关的,因此可以在训练中使用样本的ID信息去学习偏差。Tobii团队在他们2019年的论文中提出了这样一种思想。方法为每一个人分配一个6维的参数向量作为校准参数。在训练过程中,方法根据当前样本的ID信息,使用相应的校准参数输入网络,并与网络参数被共同学习优化。这样,视线的估计就被分为了两个部分,一个是与图像和视觉相关的分量,而另一个是与ID信息相关的分量。而在测试过程中,对于一个未在训练集中出现的人,方法再通过少量的校准样本(<=9)去学习这个人的校准参数(网络参数固定)。Lindén, E., Sjöstrand, J., and Proutiere, A. (2019). Learning to personalize in appearance-based gaze tracking. ICCV Gaze Workshop.
  2. 威斯康辛大学麦迪逊分校的Yunyang Xiong在CVPR 2019的论文中也提出了与[15] 类似的思想, 将视线估计分解为估计一个固定分量和一个与人相关的随机分量, 与[15]有所不同的是,在估计得到随机分量(偏差)后,该方法学习了一个从图像到偏差的映射,并在测试阶段,使用这个映射直接预测输入样本的偏差(因此该方法不需要校准样本)。这种做法其实和我在本篇中一直强调的观点“视线偏差与图像的视觉元素无关,无法从图像中学习”相左。虽然说与[14],[15]这两种利用校准样本的方法比,该方法在实验结果上有一定差距,但相比直接预测gaze(不对偏差建模),确实有一定的提升。Xiong, Y., Kim, H. J., and Singh, V. (2019). Mixed effects neural networks (menets) with applications to gaze estimation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR).

2.2.3 模型微调方法:

  1. 使用校准样本对person independent模型进行finetune(微调)在论文中,发现使用9张样本对网络微调,即可得到1度左右的提升。为了进一步提升个性化估计的效果,期望可以获得更多的样本用于模型微调。论文中使用视线重定向技术来生成更多的样本。Yu, Y., Liu, G., and Odobez, J.-M. (2019). Improving few-shot user-specific gaze adaptation via gaze redirection synthesis. In 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition.
  2. [17]的后续改进工作:Yu Yu, Jean-Marc Odobez (2020). Unsupervised Representation Learning for Gaze Estimation, CVPR 2020 accepted.
  3. ETH的Park等人在ICCV 2019的工作中,也尝试使用模型微调来提升个性化估计的效果。他们工作的核心思想是将针对一个人的个性化估计看做一个task,而把个性化的过程看做针对这个task的transfer learning,然后使用元学习方法MAML去解决问题。除此之外,该工作还有两个重要贡献:1)提出了一种基于disentangle方式的gaze表征学习方法;2)对GazeCapture这一注视点估计的数据集重新标注,计算出相应的三维视线标签。该方法最终在GazeCapture数据集上实现了3度左右的误差。Park, S., Mello, S. D., Molchanov, P., Iqbal, U., Hilliges, O., and Kautz, J. (2019). Few-shot adaptive gaze estimation. ICCV 2019.

2.2.4个性化视线估计小结: 总结了在仅有少量校准样本的情况下,如何进行有效的个性化视线估计。我们总结了三类个性化视线估计方法。总的来说,这三类方法并没有明显的高下之分,在使用个性化策略后,精度都可以达到3度左右。这一方向是最近两年gaze领域的研究热点.

3.来源:

视线估计(Gaze Estimation)简介(一)-概述 - T骨牛排的文章 - 知乎
https://zhuanlan.zhihu.com/p/112097446

你可能感兴趣的:(视线估计)