人体姿态估计学习——HRNet论文了解

前言

最近开始了看姿态估计的东西,所以选择了寻找顶会论文来拜读。这里找了一篇2019年的cvpr。由于还在处于相当入门的阶段,就简略讲一下自己的一些理解。

介绍

目前,关键点的寻找作为姿态估计中极其重要的部分,大佬们不断寻找提高预测准确率的方法。于是开始在信息的恢复(优化特征的高清度)上下功夫,一般的优化方法有:1.反卷积、2.沙漏结构、3.空洞卷积。

本文中HRNet:高分辨率子网络。在提高高清度方面提出了一个很特别的网络结构——并行多尺度融合的结构。

传统方法

1.以往的网络结构都是串联结构,先是用卷积降低分辨率,提取完特征后,再用多个反卷积来提高分辨率。此类方法不可避免的有信息损失。

2.以往大多的特征融合方式都是将高层的和低层的集合表示。
人体姿态估计学习——HRNet论文了解_第1张图片

HRNet的创新点

1.采用并行的网络结构。多层并行,来保证分辨率一直为高,而不是先降低再升高。因而预测结构可能更好。

2.重复多尺度融合。不断的将各层的子图进行特征上的融合。有以下三种融合方式:
a.若为最上层,则与下两层的低层特征融合。
b.若为中间层,则与上一层和下一层的进行融合。
c.若为最底层,则与上两层进行融合。

低层向高层融合时需要进行上采样,高层向低层融合时需要下采样。
人体姿态估计学习——HRNet论文了解_第2张图片

人体姿态估计学习——HRNet论文了解_第3张图片

遇到问题

以下是看论文中遇到的问题,有的尚未解决。

1.转置卷积。也就是反卷积,之前都说反卷积,这里才知道也叫做转置卷积。为什么叫这个名字,就要去看看它的卷积过程(卷积图卷积过程中不断转置)

2.空洞卷积。感觉和padding的作用类似,但它是在卷积的过程中每次都跳过指定个数的格子。

3.文章最后的Network instantiation还没看懂。整体的网络结构还不清晰。

参考:

https://blog.csdn.net/weixin_37993251/article/details/88043650
https://blog.csdn.net/qq_18882399/article/details/90061195

你可能感兴趣的:(笔记,人工智能,计算机视觉)