眼动论文解读《Where are they looking?》

眼动论文解读《Where are they looking?》

  • Abstract
  • Learning to Follow Gaze
  • Train
  • Experiments
  • Analysis

《Where are they looking?》是2015年的NIPS论文,MIT Antonio Torralba 组通过此文展现了其在注视目标估计领域的研究成果。注视目标估计英文关键词为 gaze following,即检测给定人物所注视的目标。

Abstract

人类有一种非凡的能力,可以跟随他人的目光来识别他们所看的东西。目光跟随是一种重要的能力,它能让我们理解别人在想什么,他们在做什么,甚至预测他们下一步可能会做什么。但这方面在CV领域研究得不多
此文提出了一种基于深层神经网络的注视目标估计方法以及对于的数据集。该网络能够预测图像中目标人物的头部姿态和凝视方向,并在场景中选择在目标人物预测视线中并可能被其注视的物体。实验结果表明通过这种方法得到的结果可靠,即使只能看到后脑勺!模型、数据集、代码在这儿!

Learning to Follow Gaze

首先需要明确注视目标估计和眼动追踪的区别,注视目标估计是预测图像场景中人物正在注视的目标,而对于传统的眼动追踪,其注视目标是已确定的,预测的是人物正在注视该目标的具体位置。
下图为此文为的预期效果。
眼动论文解读《Where are they looking?》_第1张图片
此文的网络模型的灵感来源于人类推断视线的方法。当人们推断他人的注视目标时,首先是观察他人的头部和眼部情况,然后根据其视角再进一步推断其注视目标。此文的网络模型如下图所示。
眼动论文解读《Where are they looking?》_第2张图片
上面说到,此文利用深层神经网络对注视目标进行估计。网络的输入通道分为Saliency PathwayGaze Pathway。网络的输入包含一张人物图像 x i x_i xi、裁剪过的人物的特写照片 x h x_h xh以及其头部量化了的空间位置 x p x_p xp,网络的输出为反应显著性的 h e a t m a p heat map heatmap
Gaze Pathway通道得到的是 D × D D \times D D×D的热点图gaze mask,Salinecy Pathway得到的是 D × D D \times D D×D的热点图saliency map。并将对两个结果进行点乘combine得到下式:
y ^ = F ( G ( x h , x p ) ⨂ S ( x i ) ) \widehat{y}=F(G(x_h,x_p)\bigotimes S(x_i)) y =F(G(xh,xp)S(xi))
其中 F ( ) F() F()的形式如上图中Shifted Grids部分所示,是一个多通道的全连接层。
因为两个通道得到的是不同的输入,每个通道都不能单独完成全部的预测人物,此文利用Gaze Pathway预测人物的注视放下,利用Saliency Pathway预测人物的注视目标,最后通过点乘将结果信息汇总到一起。

下图为网络通道可视化,(a)是gaze mask,(b)是saliency map中包含原图、利用free-viewing saliency方法得到的结果以及此文得到的结果。
眼动论文解读《Where are they looking?》_第3张图片
相信很多人看到该网络的时候都存在疑问,网络末端的shifted grid存在多个分支,这就是本文的另一个关键点,即多模式预测。
我们可以把此文需要解决的问题表述为回归任务,但如果这样认为的话,网络的预测结果就是单峰的,而很显然,把视线估计问题认为是多峰估计更为合理。因此,此文将问题表述为分类任务,并将预测结果投影到 N × N N \times N N×N的网格中。但这样的操作也引入了新的问题,即如何确定 N N N的大小,如果 N N N较大,此时预测的精度会相应地提高,但需要注意这样会使网络难以训练,因为一个单元格的错误分类受到的惩罚应该小于多个单元格的错误。针对这一问题,此文提出了Shifted grids方法(To alleviate this trade-off)。该网络预测多个网格中单元的位置,其中每个网格被移动使得一个网格中的单元与其他网格中的单元重叠。然后我们对平移输出进行平均,得到最终的预测结果。
这样的操作让人想起了YOLO网络,但YOLO的多输出是在不同维度上的,但该网络的多输出维度存在一致性。

Train

此文作者将saliency pathway的卷积层设为Places-CNN,将gaze pathway的卷积层设为ImageNet-CNN。另外还做了简单的图像增强处理(flips and random crops)。

Experiments

此文在实验过程中采用的多种评价方法是值得借鉴和学习的。

  • Area Under Curve (AUC):这算是最传统的评价方法了,
  • Euclidean distance
  • Angular error
    结果如下图所示、
    眼动论文解读《Where are they looking?》_第4张图片

Analysis

其实我写paper一直不知道怎么写分析,但这篇论文的分析很有意思,学到了学到了!

  • Ablation study
    此文作者将图像中的不同部分进行剔除,以此来更好地理解不同部分在该模型中所起到地重要程度。结果如下图所示。可以看到image,position,head都起到了重要的作用,尤其是头部!(直呼666好吧)。
    眼动论文解读《Where are they looking?》_第5张图片

  • Internal representation(不太懂!!!)
    此文作者对网络的多个环节的输出都做了可视化处理。这是值得学习的。
    此文中该方法的灵感来源于另一篇文章。即对saliency pathway第五卷积层的不同单元的顶层激活单元进行了可视化,并使用来自第六层卷积层的滤波器权值对显著性图的贡献进行排序。以此来对不同单元对网络的作用是positive or negative进行分析,分析如结果如下图所示。
    可以看到,正权重倾向于显著的日常物品,而负权重倾向于背景。
    眼动论文解读《Where are they looking?》_第6张图片

  • Automatic head detection
    为了确定网络模型detect头部的能力,此文还与专用的head detector进行了对比。两者的AUC分别是0.868和0.878。就很强。

首次写csdn的blog,鄙人笔拙,有不当之处,还请指教。

[1] Recasens, A., Khosla, A., Vondrick, C., and Torralba, A. Where are they looking? NIPS 2015.

你可能感兴趣的:(论文解读,深度学习,计算机视觉,神经网络,人工智能)