【论文学习】Future Person Localization in First-Person Videos

论文摘要

我们提出了一个新方法来预测第一人称视频中观察到的人的未来位置。采用的是由可穿戴摄像机连续记录的第一人称视频。给出一个人的短片,从完整的数据流中提取出来,目标是预测这个人在未来帧中的位置。做了以下三个关键的观察:

a)第一人称视频通常包含显著的自我运动,这对目标人物在未来帧中的位置有很大影响;

b)目标人称的行为作为第一人称视频中估计透视效果的显著线索;

c)第一人称视频经常近距离捕捉人,使得利用目标姿势(例如,他们看向哪里)来预测他们未来的位置变得更容易。

将这三个观测结果合并到一个具有多流卷积-去卷积架构(multi-stream convolution-deconvolutionarchitecture)的预测框架中。

问题定义

本论文所采用的是第一人称视频(First-person videos)指可穿戴相机(wearable cameras)所拍摄的视频,比如 GoPro,Google Glass 等。基于第一人称视频相关的研究主要对应的应用领域包括盲人导航,AR ,自动驾驶等相关领域。

已知t时刻及之前几帧图像中行人的相关信息,要求算法预测未来几帧中该行人会出现在图像中的什么位置。问题示意图如下图所示。关于这个任务的技术有很多的用途,比如帮助行人避开迎面走来的行人,或是帮助移动机器人来规划运动的路径。

【论文学习】Future Person Localization in First-Person Videos_第1张图片

前期调查和方法总概

文中提出三点观察分析:

(1)搭载相机的第一人称佩戴者会对目标行人的行为产生影响。例如,如果相机佩戴者向前移动,第一人称视频中人的明显垂直位置将相应向下移动。此外,如果相机佩戴者朝人走去,会稍微改变行走方向,以避免相撞。这种类型的互动行为也会影响人们未来的迁移。

(2)人的行为是捕捉第一人称视频透视效果的显著线索。由于摄像机与地平面平行,因此第一人称视频帧中的视觉距离对应于不同的物理距离,这取决于在帧中观察到人的位置。为了将来更好的定位目标行人,必须考虑到这些差异,特别是在行人走向或远离相机佩戴者时。

(3)一个人的体态姿势表明了这个人是如何移动的,并将能对未来的位置进行预测。第一人称视频可以被有效地用来获取这类信息,因为第一人称通常会近距离捕捉人的图像。

基于这些关键观察,提出了一种方法,基于视频中人的自我运动、姿势、比例和人在当前和过去视频帧中的位置来预测在第一人称视频中看到的人的未来位置。作者开发了一个深度神经网络,学习前面几帧中上述线索的历史,并预测目标人物在后续未来帧中的位置。引入了卷积-去卷积架构来对这些历史中的时间演变进行编码和解码。

作者采用自己建立的第一人称视频数据集,称为第一人称移动(FPL)数据集。FPL数据集包含了大约5000人在不同的地方的视频。

算法及原理

本文用的是深度学习神经网络的方法来进行行人轨迹预测,文中以下面4个特征信息来进行行人轨迹的建模与学习。

1、行人检测框的位置序列(Location);

2、行人检测框的大小序列(Scale),在第一人称视角中,行人框的大小实际上隐含了透视投影的关系,即“近大远小”;

3、行人的骨架序列(Pose),骨架信息主要隐含了行人的动作,姿态,朝向等信息;

4、摄像机本身的运动信息(Ego-motion),由于第一人称视角中相机本身也是在不断运动的,所以相机本身的运动也不得不考虑进算法当中,具体而言,就是相机在每两帧之间的平移和旋转信息。

【论文学习】Future Person Localization in First-Person Videos_第2张图片

图中以t0表示当前帧,蓝色帧表示先前时刻检测到目标行人的位置,红色帧为预测的行人位置。

文中提出了一个基于 1 维卷积的神经网络:

【论文学习】Future Person Localization in First-Person Videos_第3张图片

网络最终的输出即为所需要的未来检测框位置序列。

实验结果

文中用该方法和其他三种方法进行对比,从四个行人行走方向预测进行误差实验,得到如下表的结果:

【论文学习】Future Person Localization in First-Person Videos_第4张图片

可以看出,本文方法得到的误差均小于其他三种方法。

 个人总结与不足分析

该文采用视频流的方法,对自动驾驶中采用相机进行行人轨迹预测有很大启发,比如行人骨架信息和搭载相机者的自运动两个影响因素是我所没有想到的,但文中所用的方法是针对一段已经录制好的视频进行深度学习来获得预测结果,因此在实验中并没有分析各个框架的实时效率。

你可能感兴趣的:(无人车学习,计算机视觉,自动驾驶,人工智能)