2D行人姿态估计和跟踪:*Simple Baselines for Human Pose Estimation and Tracking

2D行人姿态估计和跟踪:Simple Baselines for Human Pose Estimation and Tracking

论文网址:https://arxiv.org/abs/1804.06208
论文代码:https://github.com/Microsoft/human-pose-estimation.pytorch
论文类型:2018 ECCV

1.简介

本论文介绍了人体姿态估计和跟踪方法。
虽然目前在人体姿态估计数据库MPII和COCO human pose上取得了很好的效果,但simultaneous pose detection and tracking in the wild仍然是挑战。
本文没有什么理论证明和创新思想。只是利用对比实验,提出一个较为简化直观的模型,但是性能还是挺好的。

2.姿态估计

网络结构:在ResNet后面(C5层)加了3层deconvolutional layers。

这3层反卷积都用了batch normalization和ReLU activation;每层都有256个滤波器和4×4的卷积核;步长stride为2;最后加一个1×1的卷积层来生成k个key points的预测热图heatmaps{H1…Hk}。

Mean Squared Error (MSE)作为预测热图和目标热图的loss。关节k的目标热图通过在第k个关节的ground truth位置上应用2D高斯获得。

2D行人姿态估计和跟踪:*Simple Baselines for Human Pose Estimation and Tracking_第1张图片
图(a)是Hourglass方法的结构,图(b)是Cascaded pyramid network (CPN)方法的结构。
与这两种方法对比,图(c)即本文提出的网络结构简单,但是
效果却很好。

这三种方法的共同之处是都使用3个上采样和非线性来获得高分辨率的feature maps 和 heatmaps。因此,获得高分辨率的特征图很重要,如何获得并不重要。

3. 基于光流(Optical Flow)的姿态跟踪

视频中多人姿态跟踪方法:先估计每帧中人的姿态,然后通过分配一个特有的ID来在不同帧之间对人体姿态进行跟踪。
k帧中的实例与k-1帧中的实例匹配上的话,id 从k-1繁衍到k,如果匹配不上,重新创建一个id。
通过greedy bipartite matching algorithm来逐帧进行匹配。

文中的跟踪算法主要是follow文献[11]的方法,但是在2个地方进行了改进:(1)有2个不同的human box,一个是来自human检测器,另一个是上一帧的box通过光流产生本帧的box。(2)在通过贪婪匹配算法(greedy matching algorithm)生成相似度度量(similarity metric)中,本文使用了基于光流的相似度度量。

3.1 使用光流进行关节点传播(Joint Propagation)

视频中的motion blur and occlusion会导致检测错误或者检测丢失,使用光流信息能产生更鲁棒的检测效果。

能通过将k-1中的关节坐标传播到k-1与k之间的光流图中获得k帧中的关节坐标。

通过光流获得关节点坐标集合之后计算bounding,然后扩大15%获得基于光流box。

3.2 基于光流的姿态相似度

bbox的相似度度量SBbox:使用两个bbox的IoU(Intersection-over-Union)来表示;
姿态的相似度度量SPose:使用Object Keypoint Similarity (OKS)计算两个行人实例的body joints的距离来表示。

在这里插入图片描述
在这里插入图片描述
为避免跟踪丢失问题,使用Jk来自之前的多帧繁衍,用在这里插入图片描述表示。

3.3 基于光流的跟踪算法

方法流程
1.确定bbox。将检测的bbox和基于光流估计的bbox采用Non-Maximum Suppression (NMS)进行统一;
2.对bbox进行剪切和resize,然后采用第二节设计的pose estimation方法进行姿态估计。
3. 再按照基于光流的跟踪对检测到的行人实例的姿态进行不断的更新。

算法表示
2D行人姿态估计和跟踪:*Simple Baselines for Human Pose Estimation and Tracking_第2张图片
2D行人姿态估计和跟踪:*Simple Baselines for Human Pose Estimation and Tracking_第3张图片
:其中第8步,获取k帧基于光流的bbox方法是将k-1帧的关节点集合通过光流图得到k帧的关节点集合,再将这些关节点按照3.1节方法得到k帧的行人实例的bbox。

4. 实验

实验分2个,先在COCO Keypoint Challenge数据集上进行姿态估计的实验,证明了本文姿态估计方法的优势;再在PoseTrack dataset 上进行了使用时间信息的姿态估计实验和多目标跟踪实验。

4.1 在COCO上的姿态估计

2D行人姿态估计和跟踪:*Simple Baselines for Human Pose Estimation and Tracking_第4张图片
2D行人姿态估计和跟踪:*Simple Baselines for Human Pose Estimation and Tracking_第5张图片
2D行人姿态估计和跟踪:*Simple Baselines for Human Pose Estimation and Tracking_第6张图片

4.2 在PoseTrack数据集上的姿态估计和跟踪

2D行人姿态估计和跟踪:*Simple Baselines for Human Pose Estimation and Tracking_第7张图片
2D行人姿态估计和跟踪:*Simple Baselines for Human Pose Estimation and Tracking_第8张图片

你可能感兴趣的:(论文笔记,算法,计算机视觉,深度学习)