VALSE学习(一):high-resolution representation learning-高分辨率表示学习-姿态估计

VALSE2019会议

一、相关概念

表示学习 :又称学习表示。在深度学习领域内,表示是指通过模型的参数,采用何种形式、何种方式来表示模型的输入观测样本X。表示学习指学习对观测样本X有效的表示。

表示学习有很多种形式,比如CNN参数的有监督训练是一种有监督的表示学习形式,对自动编码器和限制玻尔兹曼机参数的无监督预训练是一种无监督的表示学习形式,对DBN参数-先进性无监督预训练,再进行有监督fine-tuning-是一种半监督的共享表示学习形式。

表示的选择通常取决于随后的学习任务,即一个好的表示应该使随后的任务的学习变得更容易。以基于CNN的图像分类任务为例。模型可以分为基于CNN的特征抽取和基于softmax回归的线性分类两个部分。通过模型参数有监督的训练,通过CNN,从线性不可分的图片里抽取出线性可分表示(特征),softmax线性分类器可以基于抽取的线性可分的表示进行分类。

 

二、论文:high-resolution representation learning 

深度高分辨率表示学习:

High-resolution representation learning play an essential role in many vision problems, e.g.,
semantic segmentation, and has been attracting more and more attention. Most existing techniques
recover high-resolution representations mainly from low-resolution representations output by
one network similar to a classification network. In this work, we propose a high-resolution network
(HRNet). The HRNet maintains high-resolution representations by connecting high-to-low resolution
subnetworks in parallel and produces strong high-resolution representations by repeatedly
performing multi-scale fusions across the parallel subnetworks. We demonstrate the effectives
on pixel-level classification (semantic segmentation, face alignment and human pose estimation),
region-level classification (MSCOCO object detection), and image classification.

解决:语义分割、人脸对齐、人体姿态估计、物体检测、图像分类。

主要原理:扩展了高分辨率表示(HRNet),通过从所有并行卷积中聚合(上采样)表示来增加高分辨率表示,从而得到更强的表示。也就是连接低分辨率到高分辨率平行的子网络的每一层,进行信息融合,从而获得各层分辨率的表示信息。

高分辨率恢复:从低分辨率的每一层抽取特定信息进行融合。

VALSE学习(一):high-resolution representation learning-高分辨率表示学习-姿态估计_第1张图片

中等分辨率:卷积融合,金字塔场景图像解析,空间金字塔池化。

VALSE学习(一):high-resolution representation learning-高分辨率表示学习-姿态估计_第2张图片

高分辨率表示学习流程:(1)高分辨率恢复(2)去掉下采样

VALSE学习(一):high-resolution representation learning-高分辨率表示学习-姿态估计_第3张图片

交叉分辨率融合:3x3下采样,1x1上采样恢复,每一层都会进行信息融合然后进行特征提取。

高分辨率网络(HRNet),它能够在整个过程中维护高分辨率的表示。从高分辨率子网作为第一阶段始,逐步增加高分辨率到低分辨率的子网,形成更多的阶段,并将多分辨率子网并行连接。在整个过程中,通过在并行的多分辨率子网络上反复交换信息来进行多尺度的重复融合。
 

VALSE学习(一):high-resolution representation learning-高分辨率表示学习-姿态估计_第4张图片

HRnet应用场景:视觉分类任务,行人姿态估计

VALSE学习(一):high-resolution representation learning-高分辨率表示学习-姿态估计_第5张图片

用途:

1、使用深度高分辨率表示学习(HRNetV2h)生成的多级表示的对象检测

High-resolution networks (HRNets) for object detection

https://swift.ctolib.com/article/wiki/112009

论文地址:https://arxiv.org/pdf/1904.04514.pdf

2、用高分辨率表征学习做人体姿态估计

HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation

你可能感兴趣的:(计算机视觉,VALSE学习)