谷歌的手势识别pipeline

姿态估计论文
Towards Accurate Multi-person Pose Estimation in the Wild
https://arxiv.org/abs/1701.01779
代码 https://github.com/google/mediapipe

  1. 使用自上而下,Faster R-CNN改版进行行人检测。ResNet101+空洞卷积+更密集的feature map
  2. 对检测区域进行单人姿态估计。
    其中有几个细节:
  3. 不仅局限于行人包围框来预测关键点
  4. 使用预测出的关键点对BBox重新打分
  5. 高于0.3分的proposals才进行关键点计算,平均每张图3.5个proposals

3.2 Person Pose Estimation

对每个空间位置,首先分类是不是K个关键点之一(heatmap)
然后预测2-D的offset向量,得到准确位置估计。

Image Cropping

  1. 通过扩大范围来得到相同长宽比子图片,而不是resize
  2. 训练时1-1.5随机比例放大选取原图,evaluate时选定1.25系数
  3. 裁剪为353x257子图片,长宽比1.37
  4. CNN进行heat map和Offset Prediction偏移量预测

你可能感兴趣的:(姿态估计,深度学习,论文翻译笔记)