Simple Baselines for Human Pose Estimation and Tracking

官方github
文章地址
微软亚研院出品的单人pose estimation文章,一作是xiao bin大神,也是之后HRNet的二作,实力强大。 考虑到之前提出的人体姿态网络, 例如hourglass, cpn等网络, 虽然效果很好,但它们的结构都比较复杂, 设计的比较繁琐, 很难去确定到底是网络结构的哪一部分对pose的结果有影响。所以文章提出了一个简单的网络结构,来说明或者研究“到底一个简单的网络能够有多好”(how good could a simple method be?)。文章提出的Simple Baseline没有明确的理论作为基础,效果好是通过对比实验得到的,它和之前的网络比也没有任何新的理论提出,仅仅是一个solid baseline for pose estimation。

Backbone为ResNet,在ResNet最后一个stage( C 5 C_{5} C5)后接入反卷积作上采样(kernel 4x4x256),最终接一个1x1卷积得到最终的featuremap输出,如下图c所示:Simple Baselines for Human Pose Estimation and Tracking_第1张图片

图a是hourglass的结构,它是由一系列的bottom-up,top-down加skip layer组成。图b是CPN的结构,同样加入了很复杂的skip layer结构,并且使用了online hard keypoint mining step。从上图可以看出,先不考虑三个网络结构区别,他们的共同之处都是在于如何得到一个高分辨率的featuremap用来预测heatmap。hourglass和cpn都是通过upsampling+conv得到高分辨率的图像,而simple baseline是直接通过反卷积得到高分辨率的图像。作者也说,得到高分辨率的图像是十分由必要的,但为什么很有必要,不知道。(it seems that obtaining high resolution feature maps is crucial, but no matter how.)

Ablation Study
Simple Baselines for Human Pose Estimation and Tracking_第2张图片

  1. Heat map resolution. a和b的对比实验说明,最后输出的featuremap size越大,精度越高。a是resnet后接3个反卷积得到64x48的输出,b是只接2个反卷积得到32x24的输出,a在只增加一个反卷积计算量的情况下,AP值提高了2.5
  2. Kernel size. 首先需要说明一下的是,为什么反卷积中kernel size大小都是2或4这种偶数形式,而不是像普通卷积一样是3x3或5x5的奇数形式,具体参考here,因为奇数的卷积核会造成棋盘格现象,所以反卷积一般采用偶数的卷积核。a,c,d的对比试验说明,kernel size越大,最终的AP值越高,但文章没有更进一步的比较究竟kernel size是增大到哪种程度效果最好。
  3. Backbone. 这个很明显也很符合我们的预期,使用的backbone网络越深,其特征提取能力就越强,最终提取的feature就越好,pose的效果就越好,如a,e,f所示。
  4. Image size. a,g,h表明输入网络的图像size越大,效果就越好。

我觉得1和4的对比结果间接的导致了之后HRNet网络的出现,既然都是越大越好,那我一直保持一个最大的不就可以了吗?再加上HRNet的二作还是这篇的一作,非常有可能。
Simple Baselines for Human Pose Estimation and Tracking_第3张图片Simple Baselines for Human Pose Estimation and Tracking_第4张图片
最后,文章还对simple baseline和其它已知的sota的网络做了比较,最终结果都证明这个简单网络的高效性。我觉得这个网络给我启示最大的是,有时候网络并不是需要太多的tricks,网络结构也并不需要设计的太复杂,相反,只要抓住了主要点,例如更大的output size就可以直接得到更优的结果。

你可能感兴趣的:(simple,baseline,human,pose)