PoseTrack: Joint Multi-Person Pose Estimation and Tracking

介绍

文章指出现有的方法不能直接解决posetrack问题,因为这个问题包括两个问题,一个pose估计,一个是track

本文提出一个新颖的方法和一个数据集剑指同时解决这个两个子问题,方法有几个关键点

  • 用一个时空graph,表达视频中姿态估计
  • 通过求解一个整数线性规划问题(integer linear program)去把这个图分割成子图,每个子图仅含有单个人的pose时空轨迹
  • 这个问题还没有定量的评价数据集,这文章提出一个PoseTrackDataset 数据集,这个数据集包含一个无约束的评价协议(没有任何的,大小,尺寸,定位或者人数量的先验假设,都是任意的)

方法

PoseTrack: Joint Multi-Person Pose Estimation and Tracking_第1张图片

上图可视化了本文的主要思路(bottom-up):

  1. 第一行是检测到的候选关节点,使用的是Deepcut(ECCV16 pose估计,后面会去看这文章,看完加连接)
  2. 第二行是所建立的图,图有两种边:一种是同一帧中不同种关节点的联系,分割结果是单帧中每个子图中的节点都属于同一个人;另外一种是两帧之间同一种关节点的联系,分割结果是一个子图仅包含视频中同一个人的同一个关节点
  3. 图分割结果

边权设计:

  • 同一帧中不同关节点链接:基于IOU
  • 不同帧同一关节点链接:基于光流

如何分割就不关注了,只能说为了让边权反映分割目标,设计非常复杂,填了一些坑(可能是看结果出现的一些分割规律,根据规律调整边权设计,发现越多,调整的越多,显得越复杂),下面只关注效果如何

结果比较可以参考PoseTrackDataset 文章中的结果

PoseTrack: Joint Multi-Person Pose Estimation and Tracking_第2张图片

dataset文章出来时,这文章的结果已经不是state-of-art了,部分工作比它稍好一点点,现在(18年底)的话有微软的Simple Baselines for Human Pose Estimation and Tracking,还有别的工作,取得的mAP和MOTA都比这个优秀很多

时效性,主要分析这个graph cut,因为图割是串行程序,无法用gpu加速,测试用3.3GHz CPU:

你可能感兴趣的:(pose,posetrack,pose,estimation,pose,track,pose)