【论文阅读笔记】Fast Human PoseEstimation

论文地址:https://arxiv.org/abs/1811.05419v1
github网址:https://github.com/ilovepose/fast-human-pose-estimation.pytorch

全文总结

  该论文并未提出啥有意思的东西,总体就是知识蒸馏和“自定义模型压缩”的应用,提供一个思路。

  该方法名为 FTD,Fast Pose Distillation,也就是知识蒸馏应用在pose检测上的意思。

文章内容介绍

  文中的方法应用对象为Hourglass网络,其有8个stage的hourglass block,每个stage有9个残差块,每个残差块中的channel数为256。作者提出,在depth和width上进行模型的压缩,即压缩后的模型为4个stage的hourglass block,每个残差块中的channel数为128。

  其训练“压缩模型”的思路,和传统的知识蒸馏没啥区别,也就是教师-学生模式:(1)先训练一个完整的模型,(2)再训练一个较小的模型。训练目标为教师模型的输出 与 ground-truth,即有两个训练目标,进行加权和(但文中使用的权重为一样的,是通过实验出来的参数)。

  Pose检测一般会采用“中间监督”的策略,需要注意的是,文中每个中间监督学习的目标不是对应的stage,而是教师模型的输出,如下图所示;

【论文阅读笔记】Fast Human PoseEstimation_第1张图片

实验结果

  知识蒸馏带来的提升为0.8%(从90.1%到90.9%),实验结果如下:

【论文阅读笔记】Fast Human PoseEstimation_第2张图片

  交叉熵损失函数的尝试,结果并无大区别:

  自定义的模型压缩方案,也是尝试出来的:

【论文阅读笔记】Fast Human PoseEstimation_第3张图片

你可能感兴趣的:(姿态检测)