阅读完相关论文自己的理解(二)

    上篇博客主要叙述了ResNetv1/v2两篇经典论文的解析,由于工作需要,需要做关键点检测,那么阅读了关键点的一些文章,现就Pose的经典的三篇论文进行理解:CPM(Convolutional Pose Machines)、StackedHourGlassNetWork、SimPleBaseLine。

1、CPM 

    1  Introduction

    PoseMachine对于学习隐层丰富的空间网络模型,提出了一个序列预测框架。通过将ConvolutionNet 合并到(inCorporated)PoseMachine 中,用来学习图片特征以及依赖于图片的空间模型。并且文中阐述了处理梯度消失的问题,其通过学习一个目标函数实施中间监督的作用,从而补充反向传播的梯度以及调节学习进程。序列化的网络设计:能够学习到代表图片以及图片上下文全局空间的特征;允许全局的关节一起训练;能够有效地处理大的数据集。

    CPM模型的每一个Stage都包含了Belief maps,用于提升更为精确地估计每一个part的位置。并且为了捕获Parts之间更为广泛的交互特征,通过提高较大的感受野来学习更为广泛的空间关系并提高了精度。

    这篇论文主要创新在于2点。:(1)通过一个由卷积层构建的序列模型学习到了隐层空间模型。(2)一个系统的方法训练,并学习了图片以及依赖图片的空间模型。

    2  Pose Machines

    Pose Machine包含了一系列的多层预测器,用来训练并预测得到每一部分的位置。如下图所示,Pose Machines主要包含(a)和(b),其对应的网络结构为(c)和(d),在每个阶段之后,网络使用了一个防止训练过程中出现梯度消失的中间损失层来进行局部监督。并且(e)图显示了有效地感受野使得模型能够有效的捕捉大范围的空间依赖信息。

阅读完相关论文自己的理解(二)_第1张图片

2  Sequential Prediction with Learned Spatial Context Features

    在检测比较难得关节的时候,较容易的关节将会提供较为强的线索,随后的Stage可以使用前面的得到的空间信息,用来提高检测性能。较大的感兴趣区域可以通过以下三种方法得到。(1)以消耗精度为代价的Pooling;(2)以增加模型参数为代价提高卷积核的Kernel Size;(3)以可能在训练过程中出现梯度消失的问题上,增加卷积层的数量。该文通过重复相同的Stage,来使得空间上下文依赖于图像。通过加大感兴趣区域的Size,提高了定位精度,这表明了该网络的确编码了parts之间广泛的交互,并且其还是有益的。

阅读完相关论文自己的理解(二)_第2张图片

CPM优点:(1)Address vanishing gradients:通过中间监督,补充了每一个Stage的梯度,防止梯度下降。(2)能够端到端的训练。

你可能感兴趣的:(阅读完相关论文自己的理解(二))