human pose regression by combining indirect part detection and contextual information - arxiv - 1710

好久没写了,

心血来潮

好吧,怎么简单怎么来:

human pose regression by combining indirect part detection and contextual information - arxiv - 1710.02322

论文链接

该论文的亮点在于重新用回了regression,而不是直接基于heat map的part detection方法。为什么regression是亮点?14年NIPS的DeepPose就是用regresssion来做pose的,打开了CNN做pose的大门,但是众所周知,直接regression的效果一般,被认为是sub-optimally的。但是,但是,但是,这篇论文却用了regression来做pose,效果非常接近基于heat map的part detection的效果,太叼了。

这样做,并不需要人为产生heat map的ground-truths,也不需要担心网络的stride过大导致heat map的resolution过小的问题。

虽然论文中给出了代码的repo,但是作者还没release,坐等吧。


看图说话,下面是模型框架,看上去是不是很简单,没错,网络模型是比较简单的,利用了Inception-V4,Skip-Connection和hourglass结构来搭建,然后堆叠Block-A和Block-B。并进行了intermediate supervision。

human pose regression by combining indirect part detection and contextual information - arxiv - 1710_第1张图片

从图中看,模型的重点在于怎么对heat map做SAM和Aggregation。

非常简单,就是提出了soft-argmax的方式对heat map进行了aggregate,从而生成coordinates,最后利用L1和L2对坐标进行loss求导。


看公式

human pose regression by combining indirect part detection and contextual information - arxiv - 1710_第2张图片

做法非常简单,对最后生成的heat map(每个heat map对应一个joint的x或者y,这里和基于heat map的part detection方法一样,只是heat map是隐式学到的),做softmax,然后累积起来(有weight过程,当然不是很理解这里的weight为什么是这样的方式,已经邮件问作者了,坐等回复),得到每个joint的x和y的值。是不是很简单?很简单?很简单?

这样做就可以做到了可导,使得模型可以end-to-end的训练。

看下求导:

human pose regression by combining indirect part detection and contextual information - arxiv - 1710_第3张图片

个人觉得求导不难,就是softmax的另一个版本,只是这里不再是cross-channel而已。但是发现这里的求导并没有考虑到“k!=i OR l!=j”的情况,笔者表示非常疑惑。虽然邮件作者了,还没有等到回复,郁闷。


论文中说了,还有一个context的作用:

human pose regression by combining indirect part detection and contextual information - arxiv - 1710_第4张图片

做法和上面的一样,相当于一个weighting的过程而已,笔者认为这里当做context,有点牵强了,不过的确有效果,相当于多个regresssor。


哦,到这里居然忘了怎么做probability了,见下图,非常简单,对heat map做global max-pooling,然后做sigmoid,最有用binary cross entropy loss来训练

human pose regression by combining indirect part detection and contextual information - arxiv - 1710_第5张图片


是时候放loss了

human pose regression by combining indirect part detection and contextual information - arxiv - 1710_第6张图片


最后放一张效果图

human pose regression by combining indirect part detection and contextual information - arxiv - 1710_第7张图片

可以看出用regression还是可以学到heat map的。


至于模型的参数,训练过程,请各位看官看论文去。


好久没写了,写的一般,望见谅。

=====
如果这篇博文对你有帮助,可否赏笔者喝杯奶茶?



你可能感兴趣的:(cvpr)