Multi-Context Attention for Human Pose Estimation

1、本文的三个创新点

Multi-context attention,CRF,HRU的设计增大感受野

2、首先作者指出多语义表示的重要性,attention map依托于feature map集中在图像中感兴趣的部分,他能帮助恢复遗失的身体部件,并且能够区分出有歧义的背景。作者采用stacked hourglass作为依附

1)每个hourglass从不同分辨率的feature map来产生attention map(multi-resolution attention)

2)对于hourglass stack,每个stack产生attention map(multi-semantics attention)

上面的两个attention统称为holistic attention,但是仅仅这两个是不够的,尽管他们能克服遮挡和复杂的背景,但是他们缺乏对关节的精确定位,所以最后作者提出part attention

3)part attention(zoom in on local regions to see clear)

通常的attention是用在RNN网络中的,结合不同时间步的信息来做最后的决定,本文不是这样的,holistic attention map和part attention用继承性的顺序

attention主要是加在原来的feature map上,自动推断感兴趣的区域

新设计的HRU单元能够快速的增长感受野

3、

3.1 HRU的设计

Multi-Context Attention for Human Pose Estimation_第1张图片

新加的C分支可以增大感受野,自己感受吧

3.2

传统的attention是基于softmax去做的,本文的attention是基于CRF来做的,基于CRF可以能够把局部的pattern的信息拿进来,softmax把各个部分都同等对待了,没有考虑关节之间的关联


3.2.1

首先用基于CRF的attention来做,CRF的label assignment是如下的


每一个y=1的概率计算通过平均长近似来过的


是通过卷积feature h获得的,基于前一时刻的attention卷积,但是第一步没有attention,那就用实现即可

总体的实现方案


Wk代表的是空间核,在不同的时间戳是共享的,作者用三层的迭代卷积实现,原来类同hourglass

3.2.2

Multi-Resolution Attention

Multi-Context Attention for Human Pose Estimation_第2张图片

从图中可以发现不同分辨率的attention关注的焦点是不一样的,小分辨率的注意在整体,高分辨率的更加注重细节,最后将不同的resolution的attention加起来和最后的f做点乘。将attention用在latter feature上,因为如果用在之前的每一个feature map上,会有大量地0,使反向传播更加的困难


Multi-Context Attention for Human Pose Estimation_第3张图片


3.2.3 Multi-Semantics Attention

Multi-Context Attention for Human Pose Estimation_第4张图片

浅层的attention捕捉local information,高层的attention捕捉 global information

3.2.4

在4~8的stack的hourglass上面,开始进行part attention的构建,每一个部位建立自己的attention

Multi-Context Attention for Human Pose Estimation_第5张图片

















你可能感兴趣的:(Multi-Context Attention for Human Pose Estimation)