HRNet-王井东报告学习

随着CNN网络的提出,CNN在计算机视觉领域里取得极大的成功
HRNet-王井东报告学习_第1张图片
CNN网络结构从提出到现今,在网络结构上也经历了一些变化,变化主要体现在深度和宽度这两个维度上。
HRNet-王井东报告学习_第2张图片
王井东团队在高分辨率维度上做出改进,既追求在过程中保持高分辨率
HRNet-王井东报告学习_第3张图片
回顾之前的网络结构设计,主要沿袭LeNet的设计思想,既输入一张高分辨图片,然后在高分辨率上做卷积–>中等分辨率上做卷积–>低分辨率上做卷积这么一个串联的过程。
HRNet-王井东报告学习_第4张图片
这种设计思想很不错,在图像分类领域里取得非常好的成果,但在计算机视觉里面,除了图片分类以外,还有目标检测,语言分割,人脸对齐,人体姿势估计等领域,这些领域对空间相关信息比较敏感。
HRNet-王井东报告学习_第5张图片
比如人体姿势估计,我们输入一张图片,然后输出一张由一些关节点连线形成的姿势估计。
HRNet-王井东报告学习_第6张图片
目前主流的一些方法,实际上需要估计一个中间过程,中间会产生一个hidden map。在这个map上,会给每个像素分配一个值,这个值代表这个像素属于哪个keypoint的概率。

实际上这个过程,需要一个很大的hidden map,所以像这一类任务其实是需要高分辨表征的。
HRNet-王井东报告学习_第7张图片
由于需要高分辨率表征,现在的一些主流方法是先通过一个识别网络(下图的左半部分)得到一个低分辨率的特征图,然后再通过上采样或者其他一些手段再恢复到高分辨率(下图右半部分)。
HRNet-王井东报告学习_第8张图片
这样的网络设计由很多经典的网络结构
HRNet-王井东报告学习_第9张图片
这类网络实际实际上有一个缺点,它们都是从高分辨率到低分辨率再到高分辨率这么一个过程,这个过程中其实会损失很多空间信息。我们的研究与现有方法差别在于,现有方法主要恢复高分辨率,而我们的研究是让它在过程中一直保持高分辨率。
HRNet-王井东报告学习_第10张图片
其实提出的网络结构也比较简单,传统的网络结构是串联方式:HRNet-王井东报告学习_第11张图片
我们提出一个并联的网络结构,把不同分辨率并联起来,并在不同分辨率层之间做交互
HRNet-王井东报告学习_第12张图片
交互方式如下:
HRNet-王井东报告学习_第13张图片
总结一下,我们的改变有三个点:

  1. 以往的网络结构是串联方式,我们把它变成并联。
  2. 以往是先降为低分辨率再恢复高分辨率,我们是一直保持高分辨率
  3. 我们通过不同分辨率之间的交互,提高网络性能
    HRNet-王井东报告学习_第14张图片
    我们的实验网络结构如下
    HRNet-王井东报告学习_第15张图片
    HRnet代码已经开源,并且团队在多个领域内也做了实验,大多取得了非常好的表现,可在官方github主页查询,下图中的二维码表示对于领域的GitHub链接

你可能感兴趣的:(计算机视觉)