视线追踪(Estimation of Gaze-Following)文献阅读:Believe It or Not, We Know What You Are Looking At

ReadPaper文章地址
视线追踪(Estimation of Gaze-Following)文献阅读:Believe It or Not, We Know What You Are Looking At_第1张图片
文章名称风格飘逸。这个是解决视线追踪任务的文章,第一次接触。因此做一下笔记。
视线追踪任务很好理解,就是找出图中某个人物的视线焦点。

文章所提出的双阶段解决方案:

视线追踪(Estimation of Gaze-Following)文献阅读:Believe It or Not, We Know What You Are Looking At_第2张图片

  1. 输入头部图像和头部坐标(可以认为是多模态输入),利用cnn和fc得到一个预测的视线方向,从而生成多尺度的视线方向场。
  2. 将多尺度的视线方向场与原图concatenate,再次使用cnn(FPN结构)得到视线焦点的热图

一些细节:

  • 如何生成多尺度的视线方向场?
    h为头部坐标,p为图中任意点的坐标,那么由1式得到方向向量G:
    在这里插入图片描述
    然后计算G与预测的方向 d ^ \hat{d} d^的相似度Sim§:
    在这里插入图片描述
    那么限制G在 d ^ \hat{d} d^正负90度范围内(向后看没意义),可以得到这样的视线场:
    视线追踪(Estimation of Gaze-Following)文献阅读:Believe It or Not, We Know What You Are Looking At_第3张图片

最后再做幂次运算,就可以得到多尺度的视线场(文中λ又取了2和5)。
在这里插入图片描述

  • ground truth 的Heatmap是用高斯核生成的:
    视线追踪(Estimation of Gaze-Following)文献阅读:Believe It or Not, We Know What You Are Looking At_第4张图片

网络训练

该网络是可以端对端训练的

  • 视线方向损失:
    视线追踪(Estimation of Gaze-Following)文献阅读:Believe It or Not, We Know What You Are Looking At_第5张图片
    d ^ \hat{d} d^是预测的坐标算出来的归一化后的方向,d是groundtruth方向。

  • 热图的损失(BCE loss):
    在这里插入图片描述
    H ^ \hat{H} H^是预测的热图中的某个点的值。N是热图的像素数,文中为56*56个。

  • 总损失:
    在这里插入图片描述
    文中平衡系数λ设置为0.5。

好了,网络介绍完了,还是很简单的。

评价指标

评价指标主要有AUC, Dist, MDist,Ang, MAng,基本都是 15年的Where are they looking这篇文章提出的,也都比较好理解。

你可能感兴趣的:(其他CV领域,paper,深度学习,人工智能,python,计算机视觉)