不学污术的小Z

PRTR论文代码解读

Pose Recognition with Cascade Transformers

paper:https://arxiv.org/abs/2104.06976

code:https://github.com/mlpc-ucsd/PRTR

这里对PRTR论文进行解读记录，方便自己以后学习。

1 HRNET网络结构解析

目前，深度卷积神经网络提供了主流的解决方案。主要有两种方法：回归关键点位置 regressing the position of keypoints 和估算关键点热图 estimating keypoint heatmaps，然后选择热值最高的位置作为关键点。

1.1 High-to-low and low-to-high

high-to-low 的目标是生成低分辨率和高分辨率的表征，low-to-high 的目标是生成高分辨率的表征。这两个过程可能会重复多次，以提高性能。增加多尺度信息之间的融合是非常有效的，例如原图像和模糊图像进行联合双边滤波可以得到介于两者之间的模糊程度的图像，而RGF滤波就是重复将联合双边滤波的结果作为那张模糊的引导图，这样得到的结果会越来越趋近于原图。同理，不同分辨率的图像采样到相同的尺度反复的融合，加之网络的学习能力，会使得多次融合后的结果更加趋近于正确的表示。

现有的网络设计模式有：

对称结构，先下采样，再上采样，同时使用跳层连接恢复下采样丢失的信息；
级联多字金字塔；
先下采样，转置卷积上采样，不使用跳层连接进行数据融合；
扩张卷积，减少下采样次数，不使用跳层连接进行数据融合；

如下图所示：

1.2 多分辨率子网络

并行高分辨率子网

以高分辨率子网为第一阶段，逐步增加高分辨率到低分辨率的子网，形成新的阶段，并将多分辨率子网并行连接。因此，后一阶段并行子网的分辨率由前一阶段的分辨率和下一阶段的分辨率组成。一个包含4个并行子网的网络结构示例如下：

重复多尺度融合

HRNet中引入了跨并行子网的交换单元，使每个子网重复接收来自其他并行子网的信息。下面是一个展示信息交换方案的示例。将第三阶段划分为若干个交换块（如3个），每个块由3个并行卷积单元与1个交换单元跨并行单元进行卷积，得到:

1.3 HRNet 结构

HRNet 主要的模型结构，具体实现部分在 HighResolutionNet 类中有详细定义。

总体结构按照顺序可分为三部分：

1. stem net：

从 IMG 到 1/4 大小的 feature map，得到此尺寸的特征图后，之后的 HRNet 始终保持此尺寸的图片

2. HRNet 4 stages：如下图所示的 4 阶段由 HighResolutionModule 组成的模型

其中，每个蓝色底色为1个阶段
每个 stage 产生的 multi-scale 特征图，具体配置如下表，以 hrnet_48 为例
stage 的连接处有 transition 结构，用于在不同 stage 之间连接，完成 channels 及 feature map 大小对应

	multi-scale feature map	num_branches (分支数)	num_blocks (每个分支 block 重复次数)	num_modules (HighResolutionModule 重复次数)
stage1	[1/4]	1	[4]	0
stage2	[1/4, 1/8]	2	[4，4]	1
stage3	[1/4, 1/8, 1/16]	3	[4，4，4]	4
stage4	[1/4, 1/8, 1/16, 1/32]	4	[4，4，4，4]	3

3. segment head：

将 stage4 输出的 4 种 scale 特征 concat 到一起
加上 num_channels -> num_classes 层，得到分割结果

1.4 HRNet 构建函数 `def HRNet(cfg_path, **kwargs)`

通过指定 cfg_path 选择要使用的模型的结构（yaml 存储）
通过指定 kwargs 选择是否选用 pretrain 模型

具备 pretrain 模型的，可用模型结构：

seg_hrnet_w18_small_v2_sgd_lr5e-2_wd1e-4_bs32_x100.yaml
seg_hrnet_w30_sgd_lr5e-2_wd1e-4_bs32_x100.yaml
seg_hrnet_w48_train_512x1024_sgd_lr1e-2_wd5e-4_bs_12_epoch484.yaml，为目前采用的结构

def HRNet(cfg_path, **kwargs):
    from models.hrnet.config import update_config

    cfg = update_config(cfg_path)
    model = HighResolutionNet(cfg, **kwargs)
    if kwargs.get('use_pretrain', False):
        model.load_pretrain(cfg.MODEL.PRETRAINED)

    return model

yaml 文件中，关于模型结构的关键部分，以 hrnet_w48 为例

MODEL:
  NAME: seg_hrnet
  ALIGN_CORNERS: True
  PRETRAINED: 'pretrained_models/hrnetv2_w48_imagenet_pretrained.pth'  # 指定 pretrain 模型路径
  EXTRA:  # EXTRA 具体定义了模型的结果，包括 4 个 STAGE，各自的参数
    FINAL_CONV_KERNEL: 1
    STAGE1:
      NUM_MODULES: 1
      NUM_RANCHES: 1
      BLOCK: BOTTLENECK
      NUM_BLOCKS:
      - 4
      NUM_CHANNELS:
      - 64
      FUSE_METHOD: SUM
    STAGE2:
      NUM_MODULES: 1    # HighResolutionModule 重复次数
      NUM_BRANCHES: 2   # 分支数
      BLOCK: BASIC
      NUM_BLOCKS:
      - 4
      - 4
      NUM_CHANNELS:
      - 48
      - 96
      FUSE_METHOD: SUM
    STAGE3:
      NUM_MODULES: 4
      NUM_BRANCHES: 3
      BLOCK: BASIC
      NUM_BLOCKS:
      - 4
      - 4
      - 4
      NUM_CHANNELS:
      - 48
      - 96
      - 192
      FUSE_METHOD: SUM
    STAGE4:
      NUM_MODULES: 3
      NUM_BRANCHES: 4
      BLOCK: BASIC
      NUM_BLOCKS:
      - 4
      - 4
      - 4
      - 4
      NUM_CHANNELS:
      - 48
      - 96
      - 192
      - 384
      FUSE_METHOD: SUM

2 源码结构

下表列出HRNet中比较重要的文件：

文件名称	功能
tools/trian.py	训练脚本
tools/test.py	测试脚本
lib/dataset/mpii.py	对MPII数据集进行预处理
lib/dataset/JointsDataSet	数据读取脚本
lib/models/pose_hrnet.py	网络结构构建脚本
lib/utils	HRNet的一些方法
experiments/mpii/hrnet	HRNet网络的初始化参数脚本

接下来对一些重要文件，将一一讲解，并且说清数据流的走向和函数调用关系。

代码的总体结构如上图所示

1. data中有coco的ann，images，后一个person_detect_result是MS自己测试出来的框图结果。
2. experiment是网络训练中保存的参数，一般以yaml格式进行存储。针对不同的resnet，设置了不同的超参数数值。
3. lib内包含所有工程代码，

core中包含config，evaluate，function，inference，loss四个函数。
dataset包含继承nn.DataSet的JointsDataset，用于实现getitem方法，coco和mpii为从不同数据集获取图像的方法。用于解耦。
models包含pose_resnet，为模型的核心代码，继承了resnet非全连接层写法，并在后方添加了反卷积直接输出。nms方法，用于提升结果精度。
utils方法中包含transform，utils.py->create_logger, get_optimizer, save_checkpoint，vis保存图像，zipreader.

4. log记录按时间打的代码
5. models按不同的数据集，不同的backbone和inputsize记录了不同的ckpt
6. otuput按数据集->backbone->inputsize打log
7. pose_estimation包含train和valid两个算法，train的过程也执行了valid算法。
代码的总体逻辑：

使用JointDataSet进行获取数据后的处理，从coco数据集获取的图像仅仅是一个左上右下的框，如何将原始的框整合为统一尺度输入网络？其策略是：首先，当然不能resize，这样形状转变容易影响对于一个人的判断。它将尺度不一致的框，若w:h不是256：192,那么将w或者h进行扩充，直到框的比例达到256：192。其次，将图像的w，h与200做比，计算出图像的scale。第三步，已经确定了一个点center，center的位置就是进行仿射变换的256*192的图像中点。框图左上角的坐标就是输入图像的0，0坐标点，两点再确定一个中点，得到三个点就可以进行仿射变换了。图像仿射变换后需要记录原始图像的center和scale，以便之后逆变换回来。
图像输入网络时，网络使用的结构为resnet+反卷积网络结构。论文中说明，当heatmap为原图的1/4的时候，acc最高，所以没有恢复到原图的整体大小直接输出。输出之后将图像进行反转后再检测一次，融合两次的检测结果达到最高的精度。该网络使用常规的heatmap输出网络的结果，输出17张特征图，每张特征图的weight最大的时候，就是关键点的位置。使用debug模式将图像映射到torchvision.grids上，然后将grid转为numpy，将每个坐标乘以4之后(因为输出的heatmap是原始输入图片的1/4)，显示到图片上。
使用dataset.evaluate将图像的结果还原到整张大图上。该方法为，已知output的尺寸和output上的各个点，并且知道center和scale，也就是框图在原始图像中的位置，那么可以利用center和scale计算出三个点，仿射变换到output上。求出仿射矩阵。但是这时候需要反向映射到原图上，所以输入的三个点是output的三个点，映射的三个点是center上的三个点，也就相当于是一个逆仿射变换。
然后使用nms算法重定向？这一块还需要仔细查看一下具体做法，然后映射得坐标和框和图片整合成一个json保存下来作为最终得结果。
感受：第一次接触关键点检测感觉很神奇，首先关键点得映射我一直认为是一个回归问题，但是实际做法项目做成了分类问题。而且本文是个up-bottom得方法，先检测出框，然后将整个框缩放之后进行训练，也就解释了多人效果为啥那么好。还有就是映射得问题我一直没有看懂，为啥center与scale就能确定一个框，scale不是尺度吗？其实这个scale是基于200得比值结果，是个框得大小的意思。另外输出结果后，在debug模式我都没有搞明白为什么pred*4，跑去看model，看了半天才发现前面就是个纯resnet101，输出为7*7，后面为反卷积，反卷积了三次，也就是热图是原图的1/4，看论文才意识到热图为原图1/4时效果最好。所以pred*4之后的点才是输入图的关键点位置。最后一个evalute方法中output映射到原图的时候我一直在纠结output是原图的1/4，映射到output上不应该结果的关键点应该变为原图的1/4了吗？后来发现output的尺寸是输入，关键点的映射目标位置为center和scale，想反了。

3 get_pose_net搭建模型

文件路径：\PRTR-main\two_stage\lib\models\pose_transformer.py

def get_pose_net(cfg, is_train, **kwargs):
    model = PoseHighResolutionNet(cfg, **kwargs)
 
    if is_train and cfg['MODEL']['INIT_WEIGHTS']:
        model.init_weights(cfg['MODEL']['PRETRAINED'])
 
    return model

这里面用的model=PoseHighResolutionNet(cfg, **kwargs)来构建整个模型，所以我们来看PoseHighResolutionNet(cfg, **kwargs)类的forward函数，并且一节一节开始分析。

3.1 初步提特征

首先是最简单的一节，这一节就是先对输入的图片进行简单的提取特征，没啥好说的，自己对照这init函数看看就晓得了。

def forward(self, x):
    #初步的进行提取特征
    x = self.conv1(x)   #(h,w,3)-->((hin+1)/2,(win+1)/2,64)
    x = self.bn1(x)     #正则化
    x = self.relu(x)    #激活函数
    x = self.conv2(x)   #(h,w,64)-->((hin+1)/2,(win+1)/2,64)
    x = self.bn2(x)     #正则化
    x = self.relu(x)    #激活函数

模型结构是这样的：

(conv1): Conv2d(3, 64, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
(bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
(conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
(bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
(relu): ReLU(inplace=True)

3.2 利用残差结构，加深层数继续提特征

在forward函数中，初步提特征后下一行是：

    x = self.layer1(x)

我们先来看看self.layer1在init中的定义：

self.layer1 = self._make_layer(Bottleneck, 64, 4)

然后我们再进入到self._make_layer(Bottleneck, 64, 4)函数去看

def _make_layer(self, block, planes, blocks, stride=1):
    downsample = None
    
    #我们来看一下下面的if部分
    #在layer1中，block传入的是Bottlenect类，block.expansion是block类里的一个变量，定义为4
    #layer1的stride为1，planes为64，而self.inplane表示当前特征图通道数，经过初步提特征处理后的特征图通道数为是64，block.expanson=4，达成条件
    #那么downsample = nn.Sequential(
    #        nn.Conv2d(64, 64*4,kernel_size=1, stride=1, bias=False),
    #        nn.BatchNorm2d(64*4, momentum=BN_MOMENTUM),
    #    )
    #这里的downsample会在后面的bottleneck里面用到，用于下面block中调整输入x的通道数，实现残差结构相加
    if stride != 1 or self.inplanes != planes * block.expansion:
        downsample = nn.Sequential(
            nn.Conv2d(
                self.inplanes, planes * block.expansion,
                kernel_size=1, stride=stride, bias=False
            ),
            nn.BatchNorm2d(planes * block.expansion, momentum=BN_MOMENTUM),
        )
    
    layers = []
    #所以layers里第一层是：bottleneck(64, 64, 1, downsample)	(w,h,64)-->(w,h,256)	详细的分析在下面哦
    layers.append(block(self.inplanes, planes, stride, downsample))
    
    #经过第一层后，当前特征图通道数为256
    self.inplanes = planes * block.expansion
    
    #这里的block为4，即for i in range(1,4)
    #所以这里for循环实现了3层bottleneck，目的应该是为了加深层数
    #bottleneck(256, 64, 1)  这里就没有传downsample了哦，因为残差结构相加不需要升维或者降维
    #bottleneck(256, 64, 1)
    #bottleneck(256, 64, 1)
    for i in range(1, blocks):
        layers.append(block(self.inplanes, planes))
 
    return nn.Sequential(*layers)

#############################################################################

以layer1的第一层bottleneck(64, 64, 1, downsample)为例子，我们再来看看bottleneck到底干了个啥，bottleneck类的代码如下：

#这里只看代码干了啥，不详细解释残差结构的特点啊原理啥的
class Bottleneck(nn.Module):
    expansion = 4
 
    def __init__(self, inplanes, planes, stride=1, downsample=None):
        super(Bottleneck, self).__init__()
        self.conv1 = nn.Conv2d(inplanes, planes, kernel_size=1, bias=False)
        self.bn1 = nn.BatchNorm2d(planes, momentum=BN_MOMENTUM)
        self.conv2 = nn.Conv2d(planes, planes, kernel_size=3, stride=stride,
                               padding=1, bias=False)
        self.bn2 = nn.BatchNorm2d(planes, momentum=BN_MOMENTUM)
        self.conv3 = nn.Conv2d(planes, planes * self.expansion, kernel_size=1,
                               bias=False)
        self.bn3 = nn.BatchNorm2d(planes * self.expansion,
                                  momentum=BN_MOMENTUM)
        self.relu = nn.ReLU(inplace=True)
        self.downsample = downsample
        self.stride = stride
 
    def forward(self, x):
        residual = x
 
        out = self.conv1(x)		#n.Conv2d(64,64, kernel_size=1, bias=False)	（w,h,64)-->(w,h,64)
        out = self.bn1(out)
        out = self.relu(out)
 
        out = self.conv2(out)		#nn.Conv2d(64, 64, kernel_size=3, 1,padding=1, bias=False)	(w,h,64)-->(w,h,64)
        out = self.bn2(out)
        out = self.relu(out)
 
        out = self.conv3(out)		#nn.Conv2d(64, 64 * 4, kernel_size=1,bias=False)	(w,h,64)-->(w,h,256)
        out = self.bn3(out)
 
        if self.downsample is not None:
            #这里的downsample的作用是希望输入原图x与conv3输出的图维度相同，方便两种特征图进行相加，保留更多的信息（你要是看不懂这句话，就去先简单了解一下残差结构）
            #如果x与conv3输出图维度本来就相同，就意味着可以直接相加，那么downsample会为空，自然就不会进行下面操作
            residual = self.downsample(x)			#downsample = nn.Sequential(
    							#        nn.Conv2d(64, 64*4,kernel_size=1, stride=1, bias=False),
    							#        nn.BatchNorm2d(64*4, momentum=BN_MOMENTUM),
    							#    
 
        out += residual	#残差结构相加嘛
        out = self.relu(out)	得到结果
        return out

#############################################################################

那么这一部分的模型结构是这样子滴

(layer1): Sequential(
    (0): Bottleneck(
      (conv1): Conv2d(64, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (conv3): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn3): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
      (downsample): Sequential(
        (0): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (1): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      )
    )
    (1): Bottleneck(
      (conv1): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (conv3): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn3): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
    )
    (2): Bottleneck(
      (conv1): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (conv3): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn3): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
    )
    (3): Bottleneck(
      (conv1): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (conv3): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn3): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
    )
  )

那么我们就完成了总体特征图的这个部分

3.3 添加分支_make_transition_layer

接着往下看forward代码

    x_list = []
    #我们先看这个循环条件，在配置文件中self.stage2_cfg['NUM_BRANCHES']为2（其实总结构图上不也是画着两个分支嘛，分支也可以理解为有多少份不同尺寸的特征图）
    #所以这里有两个循环，i=0或1
    #在init中，有几行代码与self.transition1[i]有关，我们先搞清楚self.transition1[i]里到底是啥
    for i in range(self.stage2_cfg['NUM_BRANCHES']):
    	if self.transition1[i] is not None:
        	x_list.append(self.transition1[i](x))
    	else:
        	x_list.append(x)
    y_list = self.stage2(x_list)

在init中与self.transition1[i]有关的代码块：

''''''
extra['STAGE2']为
STAGE2:
  NUM_MODULES: 1
  NUM_BRANCHES: 2
  BLOCK: BASIC
  NUM_BLOCKS:
  - 4
  - 4
  NUM_CHANNELS:
  - 32
  - 64
  FUSE_METHOD: SUM
  ''''''
    self.stage2_cfg = extra['STAGE2']
    #num_channels此时为[32,64]，
    num_channels = self.stage2_cfg['NUM_CHANNELS']
    #block为basic，传入的是一个类BasicBlock，因为代码中定义了一个blocks_dict = {'BASIC': BasicBlock,'BOTTLENECK': Bottleneck}
    block = blocks_dict[self.stage2_cfg['BLOCK']]
    #num_channels =[32*1,64*1]，这里num_channels的意义是stage2中，各个分支的通道数，这里乘1是因为basicblock里面expansion是1，即残差结构不会扩展通道数
    num_channels = [num_channels[i] * block.expansion for i in range(len(num_channels))]
    #这里有引入一个新的函数self._make_transition_layer
    self.transition1 = self._make_transition_layer([256], num_channels)

于是我们再看看self._make_transition_layer这个函数到底做了什么

文件路径：\PRTR-main\two_stage\lib\models\hrnet.py

#两个参数，num_channels_pre_layer是之前每个分支的通道数，stage1的时候只有一个分支，通道数为256
#num_channels_cur_layer完成transition之后每个分支的通道数，这个上面已经设置好了，在stage1的时候为[32,64]
def _make_transition_layer(self, num_channels_pre_layer, num_channels_cur_layer):
    #计算现在和以后有多少分支
    num_branches_cur = len(num_channels_cur_layer)
    num_branches_pre = len(num_channels_pre_layer)
 
    transition_layers = []
    #stage1的时候，num_branches_cur为2，所以有两个循环，i=0、1
    for i in range(num_branches_cur):
        # 由于branches_cur有两个分支，branches_pre只有一个分支，
        #所以我们可以直接利用branches_pre已有分支作为branches_cur的其中一个分支
        #这个操作是hrnet的一个创新操作：在缩减特征图shape提取特征的同时，始终保留高分辨率特征图
        if i < num_branches_pre:
            #如果branches_cur通道数=branches_pre通道数，那么这个分支直接就可以用，不用做任何变化
            #如果branches_cur通道数！=branches_pre通道数，那么就要用一个cnn网络改变通道数
            #注意这个cnn是不会改变特征图的shape
            #在stage1中，pre通道数是256，cur通道数为32，所以要添加这一层cnn改变通道数
            #所以transition_layers第一层为
            #conv2d(256,32,3,1,1)
            #batchnorm2d(32)
            #relu
            if num_channels_cur_layer[i] != num_channels_pre_layer[i]:
                transition_layers.append(
                    nn.Sequential(
                        nn.Conv2d(
                            num_channels_pre_layer[i],
                            num_channels_cur_layer[i],
                            3, 1, 1, bias=False
                        ),
                        nn.BatchNorm2d(num_channels_cur_layer[i]),
                        nn.ReLU(inplace=True)
                    )
                )
            else:
                transition_layers.append(None)
        #由于branches_cur有两个分支，branches_pre只有一个分支
        #所以我们必须要利用branches_pre里的分支无中生有一个新分支
        #这就是常见的缩减图片shape，增加通道数提特征的操作
        else:
            conv3x3s = []
            #这里有一个for j作用：无论stage1的分指数为多少都能顺利构建模型
            #如果将stage1的分支设为3，那么需要生成2个新分支
            #第一个新分支需要由branches_pre最后一个分支缩减一次shape得到
            #但第二个新分支需要由branches_pre最后一个分支缩减两次shape得到，所以要做两次cnn，在第二次cnn才改变通道数
            #如果stage1分支设为4也是同样的道理
            #不过我们这里还是只考虑stage1分支为2的情况
            for j in range(i+1-num_branches_pre):
                #利用branches_pre中shape最小，通道数最多的一个分支（即最后一个分支）来形成新分支
                inchannels = num_channels_pre_layer[-1]
                #outchannels为64
                outchannels = num_channels_cur_layer[i] if j == i-num_branches_pre else inchannels
                conv3x3s.append(
                    nn.Sequential(
                        nn.Conv2d(
                            inchannels, outchannels, 3, 2, 1, bias=False
                        ),
                        nn.BatchNorm2d(outchannels),
                        nn.ReLU(inplace=True)
                    )
                )
    	#所以transition_layers第二层为:
           #nn.Conv2d(256, 64, 3, 2, 1, bias=False),
           #nn.BatchNorm2d(64),
           #nn.ReLU(inplace=True)
            transition_layers.append(nn.Sequential(*conv3x3s))
 
    return nn.ModuleList(transition_layers)

所以self.transition1为：

 (transition1): ModuleList(
    (0): Sequential(
      (0): Conv2d(256, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (2): ReLU(inplace=True)
    )
    (1): Sequential(
      (0): Sequential(
        (0): Conv2d(256, 64, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
        (1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (2): ReLU(inplace=True)
      )
    )
  )

而他的作用是将原来的1个分支变成两个分支：

3.4 继续加深层数，提取特征以及特征融合

我们重新回到forward

    x_list = []
    for i in range(self.stage2_cfg['NUM_BRANCHES']):
    	if self.transition1[i] is not None:
        	x_list.append(self.transition1[i](x))
    	else:
        	x_list.append(x)
#上面的代码就是增加分支了
#现在x_list里面有2个分支
#self.stage2, pre_stage_channels = self._make_stage(self.stage2_cfg, num_channels)，这里是用来做提取特征和特征融合的
#这里num_channels和上面的一样，是[32,64]
    y_list = self.stage2(x_list)

我们来看看self._make_stage如何实现提取特征和特征融合

文件路径：\PRTR-main\two_stage\lib\models\hrnet.py

def _make_stage(self, layer_config, num_inchannels,
                multi_scale_output=True):
    num_modules = layer_config['NUM_MODULES'] 	#1
    num_branches = layer_config['NUM_BRANCHES']	#2
    num_blocks = layer_config['NUM_BLOCKS']	#[4,4]
    num_channels = layer_config['NUM_CHANNELS']	#[32,64]
    block = blocks_dict[layer_config['BLOCK']]	#BASICBLOCK
    fuse_method = layer_config['FUSE_METHOD']	#SUM
 
    modules = []
    #num_modules表示一个融合块中要进行几次融合，前几次融合是将其他分支的特征融合到最高分辨率的特征图上，只输出最高分辨率特征图（multi_scale_output = False）
    #只有最后一次的融合是将所有分支的特征融合到每个特征图上，输出所有尺寸特征图（multi_scale_output=True）
    for i in range(num_modules):
        # multi_scale_output is only used last module
        if not multi_scale_output and i == num_modules - 1:
            reset_multi_scale_output = False
        else:
            reset_multi_scale_output = True
        #modules第一层是 HighResolutionModule(2,BASICBLOCK,[4,4],[32,64],[32,64],SUM,reset_multi_scale_output=True)
        modules.append(
            HighResolutionModule(
                num_branches,
                block,
                num_blocks,
                num_inchannels,
                num_channels,
                fuse_method,
                reset_multi_scale_output
            )
        )
        #获取现在各个分支有多少通道
        num_inchannels = modules[-1].get_num_inchannels()
 
    return nn.Sequential(*modules), num_inchannels

我们先看看HighResolutionModule的forward函数

def forward(self, x):
    #在stage1中self.num_branches为2，所以不符合if条件
    #如果只有1个分支，就直接将单个分支特征图作为输入进入self.branches里设定的layers
    if self.num_branches == 1:
        return [self.branches[0](x[0])]
        
    #如果有多个分支，self.branches会是一个有两个元素（这里的元素是预设的layers）的列表
    #把对应的x[i]输入self.branches[i]即可
    #self.branches = self._make_branches(2, BASICBLOCK, [4,4], [32,64])
    for i in range(self.num_branches):
        x[i] = self.branches[i](x[i])

我们再看看self._make_branches具体代码：

文件路径：\PRTR-main\two_stage\lib\models\hrnet.py

def _make_branches(self, num_branches, block, num_blocks, num_channels):
    """
     并行分支的 ModuleList 结构
    :param num_branches: 分支数
    :param block: BASIC/BOTTLENECK
    :param num_blocks: 每个分支 block 重复次数
    :param num_channels: 每个分支 channel
    :return:
    """

    branches = []
    #num_branch为2
    #在stage1中branch的第一个元素为self._make_one_branch(0, BASICBLOCK, [4,4], [32,64])
    #第二个元素为：self._make_one_branch(1, BASICBLOCK, [4,4], [32,64])
    for i in range(num_branches):
        branches.append(
            self._make_one_branch(i, block, num_blocks, num_channels)
        )
    return nn.ModuleList(branches)

self._make_one_branch代码：

文件路径：\PRTR-main\two_stage\lib\models\hrnet.py

def _make_one_branch(self, branch_index, block, num_blocks, num_channels,
                     stride=1):
        """
        一个分支的 Sequential 结构
        :param branch_index: 第几个 branch
        :param block: 类型
        :param num_blocks: 重复次数, cfg 每个 branch 设置的次数都 = 4
        :param num_channels: channel
        :param stride:
        :return:
        """
    
    #这里与上面第二步的self._make_layer类似，也是一个残差结构
    #这里block.expansion为1，self.num_inchannels是[32,64],num_channels[32,64]所以就不用下采样改变通道数了
    
    # 判断是否是 stage 连接处
    downsample = None
    if stride != 1 or \
       self.num_inchannels[branch_index] != num_channels[branch_index] * block.expansion:
        downsample = nn.Sequential(
            nn.Conv2d(
                self.num_inchannels[branch_index],
                num_channels[branch_index] * block.expansion,
                kernel_size=1, stride=stride, bias=False
            ),
            nn.BatchNorm2d(
                num_channels[branch_index] * block.expansion,
                momentum=BN_MOMENTUM
            ),
        )
 
    layers = []
    #layers第一层为：
    layers.append(
        block(
            self.num_inchannels[branch_index],
            num_channels[branch_index],
            stride,
            downsample
        )
    )
    #通道数依然是[32,64]
    self.num_inchannels[branch_index] = num_channels[branch_index] * block.expansion
    #num_blocks为[4,4]，所以有3个循环
    for i in range(1, num_blocks[branch_index]):
        layers.append(
            block(
                self.num_inchannels[branch_index],
                num_channels[branch_index]
            )
        )
 
    return nn.Sequential(*layers)

返回来看HighResolutionModule的forward函数：

def forward(self, x):
    if self.num_branches == 1:
        return [self.branches[0](x[0])]
 
    for i in range(self.num_branches):
        x[i] = self.branches[i](x[i])

这一部分做的其实就是每个分支继续加深层数，提特征

在stage1中，分支1所经历的layers：

(0): Sequential(
          (0): BasicBlock(
            (conv1): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
            (bn1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
            (relu): ReLU(inplace=True)
            (conv2): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
            (bn2): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          )
          (1): BasicBlock(
            (conv1): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
            (bn1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
            (relu): ReLU(inplace=True)
            (conv2): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
            (bn2): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          )
          (2): BasicBlock(
            (conv1): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
            (bn1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
            (relu): ReLU(inplace=True)
            (conv2): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
            (bn2): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          )
          (3): BasicBlock(
            (conv1): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
            (bn1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
            (relu): ReLU(inplace=True)
            (conv2): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
            (bn2): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          )
        )

分支2：

 (1): Sequential(
          (0): BasicBlock(
            (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
            (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
            (relu): ReLU(inplace=True)
            (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
            (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          )
          (1): BasicBlock(
            (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
            (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
            (relu): ReLU(inplace=True)
            (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
            (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          )
          (2): BasicBlock(
            (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
            (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
            (relu): ReLU(inplace=True)
            (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
            (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          )
          (3): BasicBlock(
            (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
            (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
            (relu): ReLU(inplace=True)
            (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
            (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          )
        )
      )

所以实际上实现了这个部分

3.5 特征融合

接下来看HighResolutionModule的forward函数后面部分：

    x_fuse = []
    
    #self.fuse_layers = self._make_fuse_layers()
    for i in range(len(self.fuse_layers)):
   	y = x[0] if i == 0 else self.fuse_layers[i][0](x[0])
    	for j in range(1, self.num_branches):
        		if i == j:
            		y = y + x[j]
        		else:
            		y = y + self.fuse_layers[i][j](x[j])
    	x_fuse.append(self.relu(y))
 
    return x_fuse

那么我们看看self._make_fuse_layers()代码：

文件路径：\PRTR-main\two_stage\lib\models\hrnet.py

def _make_fuse_layers(self):
    """
    混合 branch 输出结果，得到 fusion 特征
    :return:
     fuse ModuleList(): 每个 branch 都会输出一组 生成不同大小 output 的 Sequential
      [
          branch1 ModuleList(),  1/4  -> [1/4, 1/8, 1/16]
          branch2 ModuleList(),  1/8  -> [1/4, 1/8, 1/16]
          branch3 ModuleList(),  1/16 -> [1/4, 1/8, 1/16]
      ]
     """
    #如果只有一个分支，则不需要融合
    if self.num_branches == 1:
        return None
 
    num_branches = self.num_branches	#2
    num_inchannels = self.num_inchannels	#[32,64]
    fuse_layers = []
    #如果self.multi_scale_output为True，意味着只需要输出最高分辨率特征图，
    #即只需要将其他尺寸特征图的特征融合入最高分辨率特征图中
    #但在stage1中，self.multi_scale_output为True，所以range为2
    #i表示现在要把所有分支的特征（j）融合入第i分支的特征中
    for i in range(num_branches if self.multi_scale_output else 1):
        fuse_layer = []
        #对于j分支进行上采样或者下采样处理，使j分支的通道数以及shape等于i分支
        for j in range(num_branches):
            #j > i表示j通道多于i，但shape小于i，需要上采样
            if j > i:
                fuse_layer.append(
                    nn.Sequential(
                        nn.Conv2d(
                            num_inchannels[j],
                            num_inchannels[i],
                            1, 1, 0, bias=False
                        ),
                        nn.BatchNorm2d(num_inchannels[i]),
                        nn.Upsample(scale_factor=2**(j-i), mode='nearest')
                    )
                )
            #j = i表示j与i为同一个分支，不需要做处理
            elif j == i:
                fuse_layer.append(None)
    	#剩余情况则是，j < i，表示j通道少于i，但shape大于i，需要下采样，利用一层或者多层conv2d进行下采样
            else:
                conv3x3s = []
                #这个for k就是实现多层conv2d，而且只有最后一层加激活函数relu
                for k in range(i-j):
                    if k == i - j - 1:
                        num_outchannels_conv3x3 = num_inchannels[i]
                        conv3x3s.append(
                            nn.Sequential(
                                nn.Conv2d(
                                    num_inchannels[j],
                                    num_outchannels_conv3x3,
                                    3, 2, 1, bias=False
                                ),
                                nn.BatchNorm2d(num_outchannels_conv3x3)
                            )
                        )
                    else:
                        num_outchannels_conv3x3 = num_inchannels[j]
                        conv3x3s.append(
                            nn.Sequential(
                                nn.Conv2d(
                                    num_inchannels[j],
                                    num_outchannels_conv3x3,
                                    3, 2, 1, bias=False
                                ),
                                nn.BatchNorm2d(num_outchannels_conv3x3),
                                nn.ReLU(True)
                            )
                        )
                fuse_layer.append(nn.Sequential(*conv3x3s))
        fuse_layers.append(nn.ModuleList(fuse_layer))
 
    return nn.ModuleList(fuse_layers)

重新返回HighResolutionModule的forward函数后面部分：

    x_fuse = []
 
 	 #现在已知self.fuse_layers里面有num_branches（上面的i）个元素fuse_layer
    #接下来就把不同的x分支输入到相应的self.fuse_layers元素中分别进行上采样和下采样
    #然后进行融合（相加实现融合）
    for i in range(len(self.fuse_layers)):
   	y = x[0] if i == 0 else self.fuse_layers[i][0](x[0])
    	for j in range(1, self.num_branches):
        		if i == j:
            		y = y + x[j]
        		else:
            		y = y + self.fuse_layers[i][j](x[j])
    	x_fuse.append(self.relu(y))
 
    return x_fuse

所以， y_list = self.stage2(x_list)可以实现特征融合

在stage1中layer为：

(fuse_layers): ModuleList(
        (0): ModuleList(
          (0): None
          (1): Sequential(
            (0): Conv2d(64, 32, kernel_size=(1, 1), stride=(1, 1), bias=False)
            (1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
            (2): Upsample(scale_factor=2.0, mode=nearest)
          )
        )
        (1): ModuleList(
          (0): Sequential(
            (0): Sequential(
              (0): Conv2d(32, 64, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
              (1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
            )
          )
          (1): None
        )
      )
      (relu): ReLU(inplace=True)
    )
  )

返回到最初的forward函数，stage2和stage3的操作和stage1是一样的，只是像分支数这些参数有所不同

他们就是不断地增加分支、加深、融合

def forward(self, x):
    x = self.conv1(x)  
    x = self.bn1(x)     
    x = self.relu(x)    
    x = self.conv2(x)   
    x = self.bn2(x)     
    x = self.relu(x)    
 
    x = self.layer1(x)
 
    x_list = []    
    for i in range(self.stage2_cfg['NUM_BRANCHES']):
        if self.transition1[i] is not None:
            x_list.append(self.transition1[i](x))
        else:
            x_list.append(x)
    y_list = self.stage2(x_list)
 
    x_list = []
    for i in range(self.stage3_cfg['NUM_BRANCHES']):
        if self.transition2[i] is not None:
            x_list.append(self.transition2[i](y_list[-1]))
        else:
            x_list.append(y_list[i])
    y_list = self.stage3(x_list)
 
    x_list = []
    for i in range(self.stage4_cfg['NUM_BRANCHES']):
        if self.transition3[i] is not None:
            x_list.append(self.transition3[i](y_list[-1]))
        else:
            x_list.append(y_list[i])
    y_list = self.stage4(x_list)
 
    x = self.final_layer(y_list[0])
 
    return x

在原HRNET模型中，最后我们看self.final_layer(y_list[0])，输出关键点，至此，整个模型就结束了

self.final_layer = nn.Conv2d(
    in_channels=pre_stage_channels[0],
    out_channels=cfg['MODEL']['NUM_JOINTS'],
    kernel_size=extra['FINAL_CONV_KERNEL'],
    stride=1,
    padding=1 if extra['FINAL_CONV_KERNEL'] == 3 else 0
)

在PRTR模型中，最后是要生成heatmap图，通过以下的_make_head过程

def _make_head(self, pre_stage_channels):
        head_block = Bottleneck
        head_channels = [32, 64, 128, 256]

        # Increasing the #channels on each resolution
        # from C, 2C, 4C, 8C to 128, 256, 512, 1024
        incre_modules = []
        for i, channels in enumerate(pre_stage_channels):
            incre_module = self._make_layer(head_block,
                                            channels,
                                            head_channels[i],
                                            1,
                                            stride=1)
            incre_modules.append(incre_module)
        incre_modules = nn.ModuleList(incre_modules)

        downsamp_modules = []
        for i in range(len(pre_stage_channels)-1):
            in_channels = head_channels[i] * head_block.expansion
            out_channels = head_channels[i+1] * head_block.expansion

            downsamp_module = nn.Sequential(
                nn.Conv2d(in_channels=in_channels,
                          out_channels=out_channels,
                          kernel_size=3,
                          stride=2,
                          padding=1),
                nn.BatchNorm2d(out_channels, momentum=BN_MOMENTUM),
                nn.ReLU(inplace=True)
            )

            downsamp_modules.append(downsamp_module)
        downsamp_modules = nn.ModuleList(downsamp_modules)

        final_layer = nn.Sequential(
            nn.Conv2d(
                in_channels=head_channels[3] * head_block.expansion,
                out_channels=2048,
                kernel_size=1,
                stride=1,
                padding=0
            ),
            nn.BatchNorm2d(2048, momentum=BN_MOMENTUM),
            nn.ReLU(inplace=True)
        )

        return incre_modules, downsamp_modules, final_layer

通过以上过程生成大小为8*8的heatmap图，大体过程可以参考下图

经过多次卷积和pooling以后，得到的图像越来越小，分辨率越来越低。其中图像到 H/32∗W/32 的时候图片是最小的一层时，所产生图叫做heatmap热图，热图就是我们最重要的高维特征图。

4 数据集准备

4.1 mpii.py

文件路径：\PRTR-main\two_stage\lib\dataset\mpii.py

通过阅读源码可以知道，通过mpii.py文件中的MPIIDataset的初始化函数，将获得一个rec的数据，其中包含：MPII中所有人体，对应关键点的信息、图片路径、标准化以及缩放比例等信息。

4.1.1 _init_函数

class MPIIDataset(JointsDataset):
    def __init__(self, cfg, root, image_set, is_train, transform=None):
        super().__init__(cfg, root, image_set, is_train, transform)

        self.num_joints = 16
        self.flip_pairs = [[0, 5], [1, 4], [2, 3], [10, 15], [11, 14], [12, 13]]
        self.parent_ids = [1, 2, 6, 6, 3, 4, 6, 6, 7, 8, 11, 12, 7, 7, 13, 14]

        self.upper_body_ids = (7, 8, 9, 10, 11, 12, 13, 14, 15)
        self.lower_body_ids = (0, 1, 2, 3, 4, 5, 6)

        self.db = self._get_db()

        if is_train and cfg.DATASET.SELECT_DATA:
            self.db = self.select_data(self.db)

        logger.info('=> load {} samples'.format(len(self.db)))

MPIIDataSet类的初始化方法_init_需要如下参数：

num_joints : MPII数据集中人体关键点标记个数
flip_pairs : 人体水平对称关键映射
parents_ids : 父母ids
upper_body_ids : 定义上半身关键点
lower_body_ids : 定义下半身关键点
db : 读取目标检测模型

4.1.2 _get_db函数

def _get_db(self):
        # create train/val split
        file_name = os.path.join(
            self.root, 'annot', self.image_set+'.json'
        )
        with open(file_name) as anno_file:
            anno = json.load(anno_file)

        gt_db = []
        for a in anno:
            image_name = a['image']
            # mpii标注中的center和scale是指：
    		# H * W的原图像中，bbox的框原来应该是四个坐标确定，这里是用center和scale两个值来表示
		    # bbox的center即为center， 而bbox在mpii中默认是正方形，边长（宽） = scale * 200，这个200是官方定的
            c = np.array(a['center'], dtype=np.float)
            s = np.array([a['scale'], a['scale']], dtype=np.float)
            # 因为mpii直接默认bbox为正方形，因此可能真正的bbox是矩形，调成正方形后可能会把人体某些部分给裁掉，所以直接把正方形扩大
            if c[0] != -1:
                c[1] = c[1] + 15 * s[1]
                s = s * 1.25
            c = c - 1
            
            # 用到的都只有前两维
            joints_3d = np.zeros((self.num_joints, 3), dtype=np.float)
            joints_3d_vis = np.zeros((self.num_joints,  3), dtype=np.float)
            if self.image_set != 'test':
                joints = np.array(a['joints'])
                joints[:, 0:2] = joints[:, 0:2] - 1
                joints_vis = np.array(a['joints_vis'])
                assert len(joints) == self.num_joints, \
                    'joint num diff: {} vs {}'.format(len(joints),
                                                      self.num_joints)

                joints_3d[:, 0:2] = joints[:, 0:2]
                joints_3d_vis[:, 0] = joints_vis[:]
                joints_3d_vis[:, 1] = joints_vis[:]

            image_dir = 'images.zip@' if self.data_format == 'zip' else 'images'
            gt_db.append(
                {
                    'image': os.path.join(self.root, image_dir, image_name),
                    'center': c,
                    'scale': s,
                    'joints_3d': joints_3d, 
                    'joints_3d_vis': joints_3d_vis,
                    'filename': '',
                    'imgnum': 0,
                }
            )

        return gt_db

首先找到MPII数据集的分割依据文件annotaion，之后循环遍历该数据集，读取每张图片的名称、中心点位置、大小、人体关键节点位置（用三维坐标表示）、可见的人体关键节点位置并保存，形成一个字典不断加入到gt_db，循环结束返回。数据预处理到这并没有结束，因为还需要进一步处理，原因在于当计算loss的时候，我们需要的是热图(heatmap)。

4.2 JointsDataset.py

接下来，我们需要根据get_db中的信息，读取图片像素(用于训练)，同时把标签信息转化为heatmap。

文件路径：\PRTR-main\two_stage\lib\dataset\JointsDataset.py

4.2.1 init.py

class JointsDataset(Dataset):
    def __init__(self, cfg, root, image_set, is_train, transform=None):
        self.num_joints = 0# 人体关节的数目
        self.pixel_std = 200# 像素标准化参数
        self.flip_pairs = []# 水平翻转
        self.parent_ids = []# 父母ID==

        self.is_train = is_train# 是否进行训练
        self.root = root# 训练数据根目录
        self.image_set = image_set# 图片数据集名称,如‘train2017’

        self.output_path = cfg.OUTPUT_DIR# 输出目录
        self.data_format = cfg.DATASET.DATA_FORMAT# 数据格式如‘jpg’

        self.scale_factor = cfg.DATASET.SCALE_FACTOR# 缩放因子
        self.rotation_factor = cfg.DATASET.ROT_FACTOR # 旋转角度
        self.flip = cfg.DATASET.FLIP# 是否进行水平翻转
        self.num_joints_half_body = cfg.DATASET.NUM_JOINTS_HALF_BODY# 人体一半关键点的数目，默认为8
        self.prob_half_body = cfg.DATASET.PROB_HALF_BODY# 人体一半的概率
        self.color_rgb = cfg.DATASET.COLOR_RGB# 图片格式，默认为rgb

        self.target_type = cfg.MODEL.TARGET_TYPE# 目标数据的类型，默认为高斯分布
        self.image_size = np.array(cfg.MODEL.IMAGE_SIZE)# 网络训练图片大小,如[192,256]
        self.heatmap_size = np.array(cfg.MODEL.HEATMAP_SIZE)# 标签热图的大小
        self.sigma = cfg.MODEL.SIGMA# sigma参数，默认为2
        self.use_different_joints_weight = cfg.LOSS.USE_DIFFERENT_JOINTS_WEIGHT# 是否对每个关节使用不同的权重,默认为false
        self.joints_weight = 1# 关节权重

        self.transform = transform# 数据增强,转换等
        self.db = []# 用于保存训练数据的信息,由子类提供

_init_函数的功能在于初始化JointsDataset模型，设置一些参数和参数默认值，每个参数值的作用已经注释。通过这些初始化操作，可以获得一些基本信息，如人体关节数目、图片格式、标签热图的大小、关节权重等。

4.2.2 _getitem_函数

	def __getitem_(self,idx):	
        db_rec = copy.deepcopy(self.db[idx])
        image_file = db_rec['image']
        filename = db_rec['filename'] if 'fename' in db_rec else ''
        imgnum = db_rec['imgnum'] if 'imgnum' in db_rec else ''
        if self.data_format == 'zip':
            from utils import zipreader
            data_numpy = zipreader.imread(
                image_file, cv2.IMREAD_COLOR | cv2.IMREAD_IGNORE_ORIENTATION
            )
        else:
            data_numpy = cv2.imread(
                image_file, cv2.IMREAD_COLOR | cv2.IMREAD_IGNORE_ORIENTATION
            )

        if self.color_rgb:
            data_numpy = cv2.cvtColor(data_numpy, cv2.COLOR_BGR2RGB)
        if data_numpy is None:
            logger.error('=> fail to read {}'.format(image_file))
            raise ValueError('Fail to read {}'.format(image_file))
	
        joints = db_rec['joints_3d']# 人体3d关键点的所有坐标
        joints_vis = db_rec['joints_3d_vis']# 人体3d关键点的所有可视坐标

        # 获取训练样本转化之后的center以及scale,
        c = db_rec['center']
        s = db_rec['scale']
        
        # 如果训练样本中没有设置score,则加载该属性,并且设置为1
        score = db_rec['score'] if 'score' in db_rec else 1
        r = 0

        if self.is_train:
            if (np.sum(joints_vis[:, 0]) > self.num_joints_half_body
                and np.random.rand() < self.prob_half_body):
                c_half_body, s_half_body = self.half_body_transform(
                    joints, joints_vis
                )

                if c_half_body is not None and s_half_body is not None:
                    c, s = c_half_body, s_half_body
                  
            sf = self.scale_factor
            rf = self.rotation_factor
          
            s = s * np.clip(np.random.randn()*sf + 1, 1 - sf, 1 + sf)

            r = np.clip(np.random.randn()*rf, -rf*2, rf*2) \
                if random.random() <= 0.6 else 0
                
            if self.flip and random.random() <= 0.5:
                data_numpy = data_numpy[:, ::-1, :]
                joints, joints_vis = fliplr_joints(
                    joints, joints_vis, data_numpy.shape[1], self.flip_pairs)
                c[0] = data_numpy.shape[1] - c[0] - 1

        trans = get_affine_transform(c, s, r, self.image_size)

        input = cv2.warpAffine(
            data_numpy,
            trans,
            (int(self.image_size[0]), int(self.image_size[1])),
            flags=cv2.INTER_LINEAR)
	
        if self.transform:
            input = self.transform(input)
	
        for i in range(self.num_joints):
            if joints_vis[i, 0] > 0.0:
                joints[i, 0:2] = affine_transform(joints[i, 0:2], trans)
	
        target, target_weight = self.generate_target(joints, joints_vis)

        target = torch.from_numpy(target)
        target_weight = torch.from_numpy(target_weight)

        meta = {
            'image': image_file,
            'filename': filename,
            'imgnum': imgnum,
            'joints': joints,
            'joints_vis': joints_vis,
            'center': c,
            'scale': s,
            'rotation': r,
            'score': score
        }

        return input, target, target_weight, meta

首先根据idx从db获取样本信息，包括图片路径和图片序号等，如果数据格式为zip则解压，否则直接读取图像，获得像素值；再次读取db，获取人体关键点坐标、训练样本转化之后的center以及scale。
之后如果是进行训练，则判断可见关键点是否大于人体一半关键点，并且生成的随机数小于self.prob_half_body=0.3，如果是，则需要重新调整center和scale；再设置缩放因子和旋转因子大小，对数据进行数据增强操作，包括缩放、旋转、翻转等。
因为进行仿射变换，样本数据关键点发生角度旋转之后,每个像素也旋转到对应位置，所以人体的关键点也要进行仿射变换。
最终通过self.generate_target(joints, joints_vis)函数获得target，target_weight，shape为target[17,64,48], target_weight[17,1]。

4.2.3 cv2.warpAffine 参数详解

cv2.warpAffine 参数详解_qq878594585的博客-CSDN博客_cv2.warpaffine本文为作者原创文章，未经同意严禁转载！opencv中的仿射变换在python中的应用并未发现有细致的讲解，函数cv2.warpAffine的参数也模糊不清，今天和大家分享一下参数的功能和具体效果，如下：官方给出的参数为：cv2.warpAffine(src, M, dsize[, dst[, flags[, borderMode[, borderValue]]]]) → dst其中...https://blog.csdn.net/qq878594585/article/details/81838260

cv2.warpAffine(src, M, dsize[, dst[, flags[, borderMode[, borderValue]]]]) → dst

其中：

src - 输入图像。
M - 变换矩阵。
dsize - 输出图像的大小。
flags - 插值方法的组合（int 类型！）
borderMode - 边界像素模式（int 类型！）
borderValue - （重点！）边界填充值; 默认情况下，它为0。

上述参数中：M作为仿射变换矩阵，一般反映平移或旋转的关系，为InputArray类型的2×3的变换矩阵。

flages表示插值方式，默认为 flags=cv2.INTER_LINEAR，表示线性插值，此外还有：cv2.INTER_NEAREST（最近邻插值） cv2.INTER_AREA （区域插值） cv2.INTER_CUBIC（三次样条插值） cv2.INTER_LANCZOS4（Lanczos插值）

将之前得到的所有信息按照字典的形式，存储于meta中，并且返回input、target、 target_weight, meta。

def fliplr_joints(joints, joints_vis, width, matched_parts, pixel_align=True,             
    is_vis_logit=False):
    """
    flip coords
    """
    # Flip horizontal
    joints[:, 0] = width - joints[:, 0] - int(pixel_align)  # x坐标变为 w - x - 1

    # Change left-right parts
    for pair in matched_parts:
        joints[pair[0], :], joints[pair[1], :] = \
            joints[pair[1], :], joints[pair[0], :].copy()
        joints_vis[pair[0], :], joints_vis[pair[1], :] = \
            joints_vis[pair[1], :], joints_vis[pair[0], :].copy()

    if not is_vis_logit:
        joints *= joints_vis
    return joints, joints_vis # flip后的joint为什么还有和vis相乘我还是没搞懂？？？

4.2.4 half_body_transform函数

这个函数我觉得主要是用来数据增强的时候使用，也就是说，并不是所有的数据都是全身的关节，为了增强模型的鲁棒性，也应当适当加一些半身的图像进行训练。

  def half_body_transform(self, joints, joints_vis):
  
  	  # 首先获得上半身和下半身的关节id，这些关节必须都是可见的
      upper_joints = []
      lower_joints = []
      for joint_id in range(self.num_joints):
          if joints_vis[joint_id][0] > 0: # 这些关节必须都是可见的
              if joint_id in self.upper_body_ids:
                  upper_joints.append(joints[joint_id])
              else:
                  lower_joints.append(joints[joint_id])
	  # 根据概率决定是上半身还是下半身
      if np.random.randn() < 0.5 and len(upper_joints) > 2:
          selected_joints = upper_joints
      else:
          selected_joints = lower_joints \
              if len(lower_joints) > 2 else upper_joints

      if len(selected_joints) < 2:
          return None, None

      selected_joints = np.array(selected_joints, dtype=np.float32)
      center = selected_joints.mean(axis=0)[:2] # 计算选出来的关节的坐标中心
	  # 通过右下与左上得到半身区域的宽和高来得到scale
      left_top = np.amin(selected_joints, axis=0)
      right_bottom = np.amax(selected_joints, axis=0)

      w = right_bottom[0] - left_top[0]
      h = right_bottom[1] - left_top[1]
	  # 保证是正方形
      if w > self.aspect_ratio * h:
          h = w * 1.0 / self.aspect_ratio
      elif w < self.aspect_ratio * h:
          w = h * self.aspect_ratio

      scale = np.array(
          [
              w * 1.0 / self.pixel_std,
              h * 1.0 / self.pixel_std
          ],
          dtype=np.float32
      )
	  # 适当放大，避免裁剪到人
      scale = scale * 1.5

      return center, scale

4.2.5 get_affine_transform函数

此函数的作用是求得仿射变换矩阵，用于下一步的关键点变换。源码的这个函数我真的看不懂，于是我把stacked hourglass network源码里进行缩放和旋转的部分代替了源码的这个函数，发现两种方法对图像的效果是一样的，所以下面我说明的是stacked hourglass network源码里的做法。这个函数我也看了特别久，原因在于之前我对仿射变换了解很少，所以建议先学习一下仿射变换以及常见的仿射变换矩阵再来看这个函数就会简单得多。

旋转后点的坐标需要通过一个旋转矩阵来确定，在网上的开源代码中，作者使用了以下矩阵的变换矩阵围绕着 (x,y) 进行任意角度的变换。

def get_affine_transform(center, scale, res, rot=0):
    # Generate transformation matrix
	
	# 首先是缩放到res尺寸
	# 缩放矩阵本来应该就是[[W,0][0,H]]，但是为什么还有第三行和第三列那两个数我想了很久才想明白
    h = 200 * scale[0]
    t = np.zeros((3, 3))
    t[0, 0] = float(res[1]) / h
    t[1, 1] = float(res[0]) / h
    t[0, 2] = res[1] * (-float(center[0]) / h + .5)# 把中心变到原点
    t[1, 2] = res[0] * (-float(center[1]) / h + .5)# 把中心变到原点
    t[2, 2] = 1
    if not rot == 0:
        rot = -rot # To match direction of rotation from cropping
        rot_mat = np.zeros((3,3))
        rot_rad = rot * np.pi / 180
        sn,cs = np.sin(rot_rad), np.cos(rot_rad)
        rot_mat[0,:2] = [cs, -sn]
        rot_mat[1,:2] = [sn,  cs]
        rot_mat[2,2] = 1
        # Need to rotate around center
        t_mat = np.eye(3)
        t_mat[0,2] = -res[1]/2
        t_mat[1,2] = -res[0]/2
        t_inv = t_mat.copy()
        t_inv[:2,2] *= -1
        t = np.dot(t_inv,np.dot(rot_mat,np.dot(t_mat,t)))
    return t

为了更好的展示每个设置的作用，我首先把下面这两行注释掉并且把rot = 0，结果如下图所示，左边是注释前的，右边是注释后的。区别在于中心点的位置。

t[0, 2] = res[1] * (-float(center[0]) / h + .5)# 把中心变到原点
t[1, 2] = res[0] * (-float(center[1]) / h + .5)# 把中心变到原点

我再把rot = 10，结果如下图所示，左边是注释前的，右边是注释后的。区别感觉在于旋转中心点的位置。注意：rot > 0，是按逆时针旋转的。

4.2.7 generate_target函数

关键点检测主流做法还是以热图作为ground truth，通过MSE进行优化。

有关human pose estimation的问题都采用的在groundTruth坐标位置加二维高斯函数生成heatmap，从而让网络输出二维predictedHeatmap，训练后者与前者接近，最后用NMS或动态规划算法得到输出的二维坐标。

事实上，关节点检测的最终任务依然是输出预测关节点位置的坐标，然而直接让网络输出二维坐标来进行优化学习是一个极其非线性的过程，而且损失函数对权重的约束会比较弱。

那么构造heatmap实际上是构造了一个中间状态，这个heatmap有如下的一些优点：

1-可以让网络全卷积，因为输出就是2维图像，不需要全连接。

2-关节点之间（头和胸口，脖子和左右肩膀）是有很强的相关关系的。然而单独的对每一类关节点回归坐标值并不能捕捉利用这些相关关系，相反当回归heatmap时，一张输入图像对应的heatmap就存在这种相关关系，那就可以用来指导网络进行学习。简言之，头关节的回归可以帮助胸口关节，脖子关节的回归也可以帮助左右肩膀，反之亦然。

3-heatmap同样捕捉了前景（关节点）与背景的对比关系，同样可以用来指导网络进行学习。

这样，通过这条途径获得一个比较好的predictedHeatmap（易于学习，效果很好），再通过其他方法获得最终的关节点位置坐标，就是目前single person pose estimation的基本pipeline。

def generate_target(self, joints, joints_vis):
        target_weight = np.ones((self.num_joints, 1), dtype=np.float32)
        target_weight[:, 0] = joints_vis[:, 0]
        
        assert self.target_type == 'gaussian', \
            'Only support gaussian map now!'
        # 若生成heatmap的类型为高斯，初始化target[17,width/4(64),height/4(48)]
        if self.target_type == 'gaussian':
            # 生成heatmap_size大小的高斯热图
            target = np.zeros((self.num_joints,
                               self.heatmap_size[1],
                               self.heatmap_size[0]),
                              dtype=np.float32)
            tmp_size = self.sigma * 3    # 高斯半径的大小

            # 为每个关键点生成热图target以及对应的热图权重target_weight
            for joint_id in range(self.num_joints):
                # 先计算出原图到输出热图的缩小倍数
                feat_stride = self.image_size / self.heatmap_size
                mu_x = int(joints[joint_id][0] / feat_stride[0] + 0.5)
                mu_y = int(joints[joint_id][1] / feat_stride[1] + 0.5)
                # Check that any part of the gaussian is in-bounds 根据tmp_size参数,计算出关键点范围左上角和右下角坐标
                ul = [int(mu_x - tmp_size), int(mu_y - tmp_size)]
                br = [int(mu_x + tmp_size + 1), int(mu_y + tmp_size + 1)]
                # 判断该关键点是否处于热图之外,如果处于热图之外,则把该热图对应的target_weight设置为0,然后continue
                if ul[0] >= self.heatmap_size[0] or ul[1] >= self.heatmap_size[1] \
                        or br[0] < 0 or br[1] < 0:
                    # If not, just return the image as is
                    target_weight[joint_id] = 0
                    continue

                # # Generate gaussian 产生高斯分布的大小
                size = 2 * tmp_size + 1
                # x[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. 12.]
                x = np.arange(0, size, 1, np.float32)
                # y[[ 0.][ 1.][ 2.][ 3.][ 4.][ 5.][ 6.][ 7.][ 8.][ 9.][10.][11.][12.]]
                y = x[:, np.newaxis]
                # x0 = y0 = 6
                x0 = y0 = size // 2
                # The gaussian is not normalized, we want the center value to equal 1 g形状[13,13], 该数组中间的[7,7]=1,离开该中心点越远数值越小
                g = np.exp(- ((x - x0) ** 2 + (y - y0) ** 2) / (2 * self.sigma ** 2))

                # Usable gaussian range 判断边界,获得有效高斯分布的范围
                g_x = max(0, -ul[0]), min(br[0], self.heatmap_size[0]) - ul[0]
                g_y = max(0, -ul[1]), min(br[1], self.heatmap_size[1]) - ul[1]
                
                # Image range 判断边界,获得有有效的图片像素边界
                img_x = max(0, ul[0]), min(br[0], self.heatmap_size[0])
                img_y = max(0, ul[1]), min(br[1], self.heatmap_size[1])
		
                # 如果该关键点对应的target_weight>0.5(即表示该关键点可见),则把关键点附近的特征点赋值成gaussian
                v = target_weight[joint_id]
                if v > 0.5:
                    target[joint_id][img_y[0]:img_y[1], img_x[0]:img_x[1]] = \
                        g[g_y[0]:g_y[1], g_x[0]:g_x[1]]
        # 如果各个关键点训练权重不一样
        if self.use_different_joints_weight:
            target_weight = np.multiply(target_weight, self.joints_weight)

        return target, target_weight

对于人体姿态关键点的ground truth,采用二维高斯分布，在每个关键点的ground truth位置上以1个像素为中心，生成ground truth heatmpas。首先初始化target[17,width/4,height/4]表示每个关键点的heatmap,定义heatmap的生成方式为高斯，引入关键点可见度target_weight.然后遍历每个关键点，计算其高斯heatmap,首先求出对应关键点在heatmap中的坐标，这里定义feat_stride=4,即heatmap比原图的尺寸缩小4倍。然后检查对于此位置执行高斯操作时，是否会超过界限，若超出则将关键点的可见度置为0，跳出此次循环。若在范围内，则定义高斯size,执行高斯函数，将中心值设置为1。接着，分别计算出高斯和heatmap的有效范围，若此关键点的可见度大于0.5，则将对应区域的高斯值赋给heatmap。所以最后计算出了所有关键点的heatmap,若设置不同关键点加权，则执行权重与可见度相乘。

该函数的功能主要在于产生热图，并且制作热图的方式必须为gaussion。会为每个关键点生成热图target以及对应的热图权重target_weight，在生成期间还需判断该关键点是否处于热图之外,如果处于热图之外,则把该热图对应的target_weight设置为0,然后continue。最终生成高斯分布的热图表示，返回target和target_weight。

4.3 数据增强

transform是对bbox进行的，不是对原图像，因此要注意center的位置，要进行相应的平移把bbox移到想要进行的transform对应的初始坐标处。

总共分为两步：

缩放与平移：将原图坐标缩放到输出尺寸，然后将左上角变到原点
旋转：首先将轴心(x,y)移到原点，然后做旋转平移变换，最后再将图像的左上角转换为原点

4.3.1 缩放与平移

res的shape是(H, W)

变换过程可以用下式表示：

读入数据后，需要先把大小不一的标注图片统一转换成 256 x 256。

对于 LSP 测试集，作者使用的是图像的中心作为身体的位置，并直接以图像大小来衡量身体大小。数据集里的原图片是大小不一的（原图尺寸存在 bbox 里），一般采取 crop 的方法有好几种，比如直接进行 crop，然后放大，这样做很明显会有丢失关节点的可能性。也可以先把图片放在中间，然后将图片缩放到目标尺寸范围内原尺寸的可缩放的大小，然后四条边还需要填充的距离，最后 resize 到应有大小。

这里采用的是先扩展边缘，然后放大图片，再进行 crop，这样做能够保证图片中心处理后依然在中心位置，且没有关节因为 crop 而丢失。注意在处理图片的同时需要对标注也进行处理。

4.3.2 旋转

为什么要把中心移来移去？缩放变换的矩阵中心随意，只要把对应的W和H确定好就行，但是旋转就有中心一说了。我们想要缩放后的框按中心点旋转，旋转矩阵常见的起始点是原点，也即

							[cos, -sin]
							[sin, cos]

所以把缩放后的框移到对应的位置，就可以利用这个矩阵进行旋转了，当然也可以不移动，但是对应的旋转矩阵就要进行相应的变换，我只是解释一下源码的做法。

这里需要注意一下，图像的坐标轴和我们平时画的不一样（y轴的方向不一样）所以上面的矩阵在我们正常的坐标系里是逆时针，但在图像的坐标轴里，是我们人眼认知的顺时针。所以解释了源码里的这一句：

rot = -rot # To match direction of rotation from cropping

源码使用的旋转矩阵是正常情况下的逆时针旋转矩阵，那么会使图像顺时针转动，但是源码想要图像逆时针旋转r°，所以就把rot = -rot就变成了逆时针。

此步可以总结为以下变换矩阵。矩阵由来：首先将轴心(x,y)移到原点，然后做旋转缩放变换，最后再将图像的左上角转换为原点

def affine_transform(pt, t):
	#把对应的gt也进行相应的transform
	# 2,3 * 3, --->2,
    new_pt = np.array([pt[0], pt[1], 1.]).T
    new_pt = np.dot(t, new_pt)
    return new_pt[:2]

除此之外，以下数据增强的方法也很常见：

1. 从颜色上考虑，还可以做图像亮度、饱和度、对比度变化、PCA Jittering（按照 RGB 三个颜色通道计算均值和标准差后在整个训练集上计算协方差矩阵，进行特征分解，得到特征向量和特征值）；

2. 从图像空间性质上考虑，还可以使用随机裁剪、平移；

3. 从噪声角度，高斯噪声、椒盐噪声、模糊处理；

4. 从类别分布的角度，可以采用 label shuffle、Supervised Data Augmentation（海康威视 ILSVRC 2016 的 report）。

4.3.3 典型的仿射变换

5 HRNET模型设计

5.1 基本模块

如下的左图对应于resnet-18/34使用的基本块，右图是50/101/152所使用的，由于他们都比较深，所以有图相比于左图使用了1x1卷积来降维。

基本模块主要是BasicBlock、Bottleneck，现在进行逐个分析：

5.1.1 BasicBlock ：搭建上图左边的模块。

每个卷积块后面连接BN层进行归一化；
残差连接前的3x3卷积之后只接入BN，不使用ReLU，避免加和之后的特征皆为正，保持特征的多样；
跳层连接：两种情况，当模块输入和残差支路（3x3->3x3）的通道数一致时，直接相加；当两者通道不一致时（一般发生在分辨率降低之后，同分辨率一般通道数一致），需要对模块输入特征使用1x1卷积进行升/降维（步长为2，上面说了分辨率会降低），之后同样接BN，不用ReLU。

# 提前写好一个类，在HighResolutionModule中使用
# x: [batch_size, 256, 8, 8]
# out: [batch_size, 256, 8, 8]
class BasicBlock(nn.Module):
    expansion = 1

    def __init__(self, inplanes, planes, stride=1, downsample=None):
        super(BasicBlock, self).__init__()
        self.conv1 = conv3x3(inplanes, planes, stride)
        self.bn1 = nn.BatchNorm2d(planes, momentum=BN_MOMENTUM)
        self.relu = nn.ReLU(inplace=True)
        self.conv2 = conv3x3(planes, planes)
        self.bn2 = nn.BatchNorm2d(planes, momentum=BN_MOMENTUM)
        self.downsample = downsample
        self.stride = stride

    def forward(self, x):
        residual = x

        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu(out)

        out = self.conv2(out)
        out = self.bn2(out)

        if self.downsample is not None:
            residual = self.downsample(x)

        out += residual
        out = self.relu(out)

        return out

5.1.2 Bottleneck ：搭建上图右边的模块。

使用1x1卷积先降维，再使用3x3卷积进行特征提取，最后再使用1x1卷积把维度升回去；
每个卷积块后面连接BN层进行归一化
残差连接前的1x1卷积之后只接入BN，不使用ReLU，避免加和之后的特征皆为正，保持特征的多样性。
跳层连接：两种情况，当模块输入和残差支路（1x1->3x3->1x1）的通道数一致时，直接相加；当两者通道不一致时（一般发生在分辨率降低之后，同分辨率一般通道数一致），需要对模块输入特征使用1x1卷积进行升/降维（步长为2，上面说了分辨率会降低），之后同样接BN，不用ReLU。

# 在layer1中使用4个Bottleneck，验证论文中以高分辨率子网为第一阶段，维持高分辨率表示
# x: [batch_size, 256, 64, 64]
# output : [batch_size, 256, 64, 64]
class Bottleneck(nn.Module):
    expansion = 4

    def __init__(self, inplanes, planes, stride=1, downsample=None):
        super(Bottleneck, self).__init__()
        self.conv1 = nn.Conv2d(inplanes, planes, kernel_size=1, bias=False)
        self.bn1 = nn.BatchNorm2d(planes, momentum=BN_MOMENTUM)
        self.conv2 = nn.Conv2d(planes, planes, kernel_size=3, stride=stride,
                               padding=1, bias=False)
        self.bn2 = nn.BatchNorm2d(planes, momentum=BN_MOMENTUM)
        self.conv3 = nn.Conv2d(planes, planes * self.expansion, kernel_size=1,
                               bias=False)
        self.bn3 = nn.BatchNorm2d(planes * self.expansion,
                                  momentum=BN_MOMENTUM)
        self.relu = nn.ReLU(inplace=True)
        self.downsample = downsample
        self.stride = stride

    def forward(self, x):
        residual = x

        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu(out)

        out = self.conv2(out)
        out = self.bn2(out)
        out = self.relu(out)

        out = self.conv3(out)
        out = self.bn3(out)
    
        if self.downsample is not None:
            residual = self.downsample(x)

        out += residual
        out = self.relu(out)

        return out

5.2 高分辨率模块-HighResolutionModule

根据ResNet的设计规则，将深度分布到每个阶段，将通道数分布到每个分辨率，实例化了关键点热图估计网络。

HRNet，包含四个阶段，四个并行的子网，其分辨率逐渐降低到一半，相应的宽度(通道的数量)增加到原来的两倍。第一阶段包含4残差单位,每个单元和ResNet-50相同,由一个宽度64的瓶颈组成，紧接着一个3×3卷积将特征图的宽度减少到c，第二,第三,第四阶段分别包含1、4、3个交换块（多分辨率模块），四个分辨率卷积层的宽度(通道数)分别是C，2C，4C和8C。一个交换块（多分辨率模块）包含4个残差单元，其中每个单元在每个分辨率中包含两个3×3的卷积，一个交换单元跨分辨率。综上所述，共有8个交换单元，即，进行了8次多尺度融合。

在实验中，研究了一个小网络和一个大网络:HRNet-W32和HRNet-W48，其中32和48分别代表高分辨率子网在最后三个阶段的宽度(C)。其他三个并行子网的宽度分别为HRNet-W32的64、128、256和HRNet-W48的96、192、384。

当仅包含一个分支时，生成该分支，没有融合模块，直接返回；当包含不仅一个分支时，先将对应分支的输入特征输入到对应分支，得到对应分支的输出特征；紧接着执行融合模块。

class HighResolutionModule(nn.Module):
    def __init__(self,
                 num_branches,
                 block, num_blocks,
                 num_inchannels, num_channels,
                 fuse_method,  # sum / cat
                 multi_scale_output=True):
        """
        1.构建 branch 并行 多 scale 特征提取
        2.在 module 末端将 多 scale 特征通过 upsample/downsample 方式，并用 sum 进行 fuse
            注意：这里的 sum fuse 是值从 多个 branch(j) 到 branch_i 的聚合结果;
                 整个 module 的输出结果依然是 并行的 num_branch 个结果
        :param num_branches: stage 并行高度
        :param block: BASIC/BOTTLENECK
        :param num_blocks: 指定每个 block 重复次数
        :param num_inchannels: 由 NUM_CHANNELS 和 block.expansion 相乘得到
        :param num_channels:
        :param fuse_method: sum / cat
        :param multi_scale_output:
        """

5.2.1 _check_branches函数

判断num_branches (int) 和 num_blocks, num_inchannels, num_channels (list) 三者的长度是否一致，否则报错；

	# 判断三个参数长度是否一致，否则报错
    def _check_branches(self, num_branches, blocks, num_blocks,
                        num_inchannels, num_channels):
        if num_branches != len(num_blocks):
            error_msg = 'NUM_BRANCHES({}) <> NUM_BLOCKS({})'.format(
                num_branches, len(num_blocks))
            logger.error(error_msg)
            raise ValueError(error_msg)

        if num_branches != len(num_channels):
            error_msg = 'NUM_BRANCHES({}) <> NUM_CHANNELS({})'.format(
                num_branches, len(num_channels))
            logger.error(error_msg)
            raise ValueError(error_msg)

        if num_branches != len(num_inchannels):
            error_msg = 'NUM_BRANCHES({}) <> NUM_INCHANNELS({})'.format(
                num_branches, len(num_inchannels))
            logger.error(error_msg)
            raise ValueError(error_msg)

5.2.2 _make_one_branch函数

搭建一个分析，单个分支内部分辨率相等，一个分支由num_branches[branch_index]个block组成，block可以是两种ResNet模块中的一种；

首先判断是否降维或者输入输出的通道(num_inchannels[branch_index]和 num_channels[branch_index] * block.expansion(通道扩张率))是否一致，不一致使用1z1卷积进行维度升/降，后接BN，不使用ReLU；
顺序搭建num_blocks[branch_index]个block，第一个block需要考虑是否降维的情况，所以单独拿出来，后面1 到 num_blocks[branch_index]个block完全一致，使用循环搭建就行。此时注意在执行完第一个block后将num_inchannels[branch_index]重新赋值为num_channels[branch_index] * block.expansion。

 def _make_one_branch(self, branch_index, block, num_blocks, num_channels,
                         stride=1):
        downsample = None
        if stride != 1 or \
           self.num_inchannels[branch_index] != num_channels[branch_index] * block.expansion:
            downsample = nn.Sequential(
                nn.Conv2d(
                    self.num_inchannels[branch_index],
                    num_channels[branch_index] * block.expansion,
                    kernel_size=1, stride=stride, bias=False
                ),
                nn.BatchNorm2d(
                    num_channels[branch_index] * block.expansion,
                    momentum=BN_MOMENTUM
                ),
            )
        layers = []
        layers.append(
            block(
                self.num_inchannels[branch_index],
                num_channels[branch_index],
                stride,
                downsample
            )
        )
        self.num_inchannels[branch_index] = \
            num_channels[branch_index] * block.expansion
        for i in range(1, num_blocks[branch_index]):
            layers.append(
                block(
                    self.num_inchannels[branch_index],
                    num_channels[branch_index]
                )
            )
        return nn.Sequential(*layers)

5.2.3 _make_branches函数

循环调用_make_one_branch函数创建多个分支；

def _make_branches(self, num_branches, block, num_blocks, num_channels):
        branches = []

        for i in range(num_branches):
            branches.append(
                self._make_one_branch(i, block, num_blocks, num_channels)
            )

        return nn.ModuleList(branches)

5.2.4 _make_fuse_layers函数

HighResolutionModule 末尾的特征融合层

以下图红框即 stage3 中蓝色 branch 输出结果为例，其输出结果要转换成 4 种尺度的特征，用于每个 branch 末尾的特征融合

1/8 ↗ 1/4，不同层，channel 不同，size 不同通道转换 + 上采样 (在 forward 函数中由双线性插值完成)
1/8 → 1/8，相同层，channel 一致，size 一致 None，直接使用 feature
1/8 ↘ 1/16，不同层，channel 不同，size 不同通道转换 + 下采样 (通过串联的 stride=2 的 3x3 conv 完成)
1/8 ↘ 1/32，同上

(1) 如果分支数等于1，返回none，说明此时不需要使用融合模块

 if self.num_branches == 1:
     return None

(2) 双层循环

for i in range(num_branches if self.multi_scale_output else 1)

该语句的作用在于，如果需要产生多分辨率的结果，就双层循环num_branches次，如果只需要产生最高分辨率的表示，就将i确定为0。

如果j > i，此时的目标是将所有分支上采样到和i分支相同的分辨率并融合，也就是说j所代表的分支分辨率比i分支低，2**(j-i)表示j分支上采样这么多倍才能和i分支分辨率相同。先使用1x1卷积将j分支的通道数变得和i分支一致，进而跟着BN，然后依据上采样因子将j分支分辨率上采样到和i分支分辨率相同，此处使用最近邻插值；

if j > i:
	fuse_layer.append(
		nn.Sequential(
			nn.Conv2d(
				num_inchannels[j],
				num_inchannels[i],
				1, 1, 0, bias=False
			),
			nn.BatchNorm2d(num_inchannels[i]),
			nn.Upsample(scale_factor=2**(j-i), mode='nearest')
		)
	)

如果j = i，也就是说自身与自身之间不需要融合，nothing to do；

elif j == i:
    fuse_layer.append(None)

如果j < i，转换角色，此时最终目标是将所有分支采样到和i分支相同的分辨率并融合，注意，此时j所代表的分支分辨率比i分支高，正好和(2.1)相反。此时再次内嵌了一个循环，这层循环的作用是当i-j > 1时，也就是说两个分支的分辨率差了不止二倍，此时还是两倍两倍往上采样，例如i-j = 2时，j分支的分辨率比i分支大4倍，就需要上采样两次，循环次数就是2；

i. 当k == i - j - 1时，举个例子，i = 2,j = 1, 此时仅循环一次，并采用当前模块，此时直接将j分支使用3x3的步长为2的卷积下采样(不使用bias)，后接BN，不使用ReLU；

for k in range(i-j):
    if k == i - j - 1:
        num_outchannels_conv3x3 = num_inchannels[i]
        conv3x3s.append(
            nn.Sequential(
                nn.Conv2d(
                    num_inchannels[j],
                    num_outchannels_conv3x3,
                    3, 2, 1, bias=False
                ),
                nn.BatchNorm2d(num_outchannels_conv3x3)
            )
        )

ii. 当k != i - j - 1时，举个例子，i = 3,j = 1, 此时循环两次，先采用当前模块，将j分支使用3x3的步长为2的卷积下采样(不使用bias)两倍，后接BN和ReLU，紧跟着再使用(2.3.1)中的模块，这是为了保证最后一次二倍下采样的卷积操作不使用ReLU，猜测也是为了保证融合后特征的多样性；

else:
	num_outchannels_conv3x3 = num_inchannels[j]
	conv3x3s.append(
		nn.Sequential(
			nn.Conv2d(
				num_inchannels[j],
				num_outchannels_conv3x3,
				3, 2, 1, bias=False
			),
			nn.BatchNorm2d(num_outchannels_conv3x3),
			nn.ReLU(True)
		)
	)

5.3 整合模块-PoseHighResolutionNet

5.3.1 stage1

进行一系列的卷积操作，获得最初的特征图N11

		self.conv1 = nn.Conv2d(3, 64, kernel_size=3, stride=2, padding=1,
                               bias=False)
        self.bn1 = nn.BatchNorm2d(64, momentum=BN_MOMENTUM)
        self.conv2 = nn.Conv2d(64, 64, kernel_size=3, stride=2, padding=1,
                               bias=False)
        self.bn2 = nn.BatchNorm2d(64, momentum=BN_MOMENTUM)
        self.relu = nn.ReLU(inplace=True)
        self.layer1 = self._make_layer(Bottleneck, 64, 4)

5.3.2 stage2

首先根据原先设定，获得相关配置信息。对于第二阶段，num_channels=[32,64]，num_channels表示输出通道，最后的64是新建平行分支N2的输出通道数；block为Bottleneck，在论文中提到，第一个stage到第二个stage变换时，使用Bottleneck.
之后会生成新的平行N2分支网络，即N11 --> N21,N22这个过程，同时如果输入输出通道不一致时。会对输入的特征图x进行通道变换.
最后对平行子网进行加工，让其输出的y，可以当做下一个stage的输入x，这里的pre_stage_channels为当前阶段的输出通道数，也就是一个stage的输入通道数，同时平行子网信息交换模块，也包含其中

		self.stage2_cfg = extra['STAGE2']
        num_channels = self.stage2_cfg['NUM_CHANNELS']
        block = blocks_dict[self.stage2_cfg['BLOCK']]
        num_channels = [
            num_channels[i] * block.expansion for i in range(len(num_channels))
        ]
        
        self.transition1 = self._make_transition_layer([256], num_channels)
      
        self.stage2, pre_stage_channels = self._make_stage(
            self.stage2_cfg, num_channels)

5.3.3 stage 3

首先根据原先设定，获取stage3的相关配置信息。对于第三阶段，num_channels=[32,64,128],num_channels表示输出通道,最后的128是新建平行分支N3的输出通道数；这里的block为BasicBlock,在论文中有提到,除了第一个stage到第二个stage变换时使用Bottleneck,其余的都是使用BasicBlock
之后会生成新的平行分支N3网络,即N22–>N32,N33这个过程时，如果输入输出通道不一致时。会对输入的特征图x进行通道变换.
最后对平行子网进行加工，让其输出的y，可以当做下一个stage的输入x，这里的pre_stage_channels为当前阶段的输出通道数，也就是一个stage的输入通道数，同时平行子网信息交换模块，也包含其中

		self.stage3_cfg = extra['STAGE3']
        num_channels = self.stage3_cfg['NUM_CHANNELS']
        block = blocks_dict[self.stage3_cfg['BLOCK']]
        num_channels = [
            num_channels[i] * block.expansion for i in range(len(num_channels))
        ]
        
        self.transition2 = self._make_transition_layer(
            pre_stage_channels, num_channels)
   
        self.stage3, pre_stage_channels = self._make_stage(
            self.stage3_cfg, num_channels)

5.3.4 stage 4

首先根据原先设定，获取stage4的相关配置信息。对于第四阶段，num_channels=[32,64,128,256],num_channels表示输出通道,最后的256是新建平行分支N3的输出通道数；这里的block为BasicBlock
之后会生成新的平行分支N3网络,即N33–>N43,N44这个过程时，如果输入输出通道不一致时。会对输入的特征图x进行通道变换.
最后对平行子网进行加工，让其输出的y，可以当做下一个stage的输入x，这里的pre_stage_channels为当前阶段的输出通道数，也就是一个stage的输入通道数，同时平行子网信息交换模块，也包含其中

		self.stage4_cfg = extra['STAGE4']
        num_channels = self.stage4_cfg['NUM_CHANNELS']
        block = blocks_dict[self.stage4_cfg['BLOCK']]
        num_channels = [
            num_channels[i] * block.expansion for i in range(len(num_channels))
        ]
        
        self.transition3 = self._make_transition_layer(
            pre_stage_channels, num_channels)
        
        self.stage4, pre_stage_channels = self._make_stage(
            self.stage4_cfg, num_channels, multi_scale_output=False)

5.3.5 整合预测

对最终的特征图混合之后，进行一次卷积，预测人体关键点的heatmap

		self.final_layer = nn.Conv2d(
            in_channels=pre_stage_channels[0],
            out_channels=cfg['MODEL']['NUM_JOINTS'],
            kernel_size=extra['FINAL_CONV_KERNEL'],
            stride=1,
            padding=1 if extra['FINAL_CONV_KERNEL'] == 3 else 0
        )
	
        self.pretrained_layers = extra['PRETRAINED_LAYERS']

5.3.6 _make_transition_layer

该函数的作用在于生成下一阶段同等分辨率和一般分辨率的分支。首先会进行循环遍历，对每个分支进行处理

不是最后一个分支：如果当前一层的输入通道和输出通道不相等，则通过卷积对通道数进行变换；如果当前层的输入=输出通道数，则维持原样；

是最后一个分支：新建一个分支，并且这个分支分辨率会减少一半

def _make_transition_layer(
            self, num_channels_pre_layer, num_channels_cur_layer):
        num_branches_cur = len(num_channels_cur_layer)
        num_branches_pre = len(num_channels_pre_layer)
        
        """
        :param num_channels_pre_layer: pre_stage output channels list
        :param num_channels_cur_layer: cur_stage output channels list
            cur 总比 pre 多一个 output_channel 对应增加的 1/2 下采样
                    stage2      stage3          stage4
            pre:    [256]       [48,96]         [48,96,192]
            cur:    [48,96]     [48,96,192]     [48,96,192,384]

            每个 stage channels 数量也对应了 stage2/3/4 使用 BASIC block; expansion=1
        :return:
            transition_layers:
                1.完成 pre_layer 到 cur_layer input channels 数量对应
                2.完成 feature map 尺寸对应
        """

        transition_layers = []
        for i in range(num_branches_cur):
            if i < num_branches_pre:
                if num_channels_cur_layer[i] != num_channels_pre_layer[i]:
                    transition_layers.append(
                        nn.Sequential(
                            nn.Conv2d(
                                num_channels_pre_layer[i],
                                num_channels_cur_layer[i],
                                3, 1, 1, bias=False
                            ),
                            nn.BatchNorm2d(num_channels_cur_layer[i]),
                            nn.ReLU(inplace=True)
                        )
                    )
                else:
                    transition_layers.append(None)
            else:
                conv3x3s = []
                for j in range(i+1-num_branches_pre):
                    inchannels = num_channels_pre_layer[-1]
                    outchannels = num_channels_cur_layer[i] \
                        if j == i-num_branches_pre else inchannels
                    conv3x3s.append(
                        nn.Sequential(
                            nn.Conv2d(
                                inchannels, outchannels, 3, 2, 1, bias=False
                            ),
                            nn.BatchNorm2d(outchannels),
                            nn.ReLU(inplace=True)
                        )
                    )
                transition_layers.append(nn.Sequential(*conv3x3s))

        return nn.ModuleList(transition_layers)

以下为 hrnet_w48 的 transition 具体结构

# stage 1-2
  (transition1): ModuleList(
    # input channels，从 1/4 到 1/4，完成通道数量转换
    (0): Sequential(
      (0): Conv2d(256, 48, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (1): BatchNorm2d(48, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (2): ReLU()
    )
    # input channels + downsample，从 1/4 到 1/8，不仅通道数量，而且使用 stride=2 进行下采样
    (1): Sequential(
      (0): Sequential(
        (0): Conv2d(256, 96, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
        (1): BatchNorm2d(96, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (2): ReLU()
      )
    )
  )
 
# stage 2-3
  (transition2): ModuleList(
    (0): None  # 因为 同层对应的连接处的 feature map channels 和 size 一致，所以不需要转换
    (1): None
    # downsample，stage2 末尾，从 1/8 到 1/16，需要使用 stride=2 下采样
    (2): Sequential(
      (0): Sequential(
        (0): Conv2d(96, 192, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
        (1): BatchNorm2d(192, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (2): ReLU()
      )
    )
  )
  
# stage 3-4
  (transition3): ModuleList(
    (0): None
    (1): None
    (2): None
    # downsample，同 stage2 用法一样，因为前3个branch对应的 feature map 可以直接连接，所以只要对末尾完成 1/16 到 1/32 下采样
    (3): Sequential(
      (0): Sequential(
        (0): Conv2d(192, 384, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
        (1): BatchNorm2d(384, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (2): ReLU()
      )
    )
  )

5.3.7 _make_stage函数

该函数的作用在于生成stage时的HighResolutionModule

 def _make_stage(self, layer_config, num_inchannels,
                    multi_scale_output=True):
        """
                当stage=2时： num_inchannels=[32,64]           multi_scale_output=Ture
                当stage=3时： num_inchannels=[32,64,128]       multi_scale_output=Ture
                当stage=4时： num_inchannels=[32,64,128,256]   multi_scale_output=False
        """
        # 当stage=2,3,4时,num_modules分别为：1,4,3
        # 表示HighResolutionModule（平行之网络交换信息模块）模块的数目
        num_modules = layer_config['NUM_MODULES']

        # 当stage=2,3,4时,num_branches分别为：2,3,4,表示每个stage平行网络的数目
        num_branches = layer_config['NUM_BRANCHES']

        # 当stage=2,3,4时,num_blocks分别为：[4,4], [4,4,4], [4,4,4,4],
        # 表示每个stage blocks(BasicBlock或者BasicBlock)的数目
        num_blocks = layer_config['NUM_BLOCKS']

        # 当stage=2,3,4时,num_channels分别为：[32,64],[32,64,128],[32,64,128,256]
        # 在对应stage, 对应每个平行子网络的输出通道数
        num_channels = layer_config['NUM_CHANNELS']

        # 当stage=2,3,4时,分别为：BasicBlock,BasicBlock,
        block = blocks_dict[layer_config['BLOCK']]

        # 当stage=2,3,4时,都为：SUM,表示特征融合的方式
        fuse_method = layer_config['FUSE_METHOD']

        modules = []
        # 根据num_modules的数目创建HighResolutionModule
        for i in range(num_modules):
            # multi_scale_output is only used last module
            # multi_scale_output 只被用再最后一个HighResolutionModule
            if not multi_scale_output and i == num_modules - 1:
                reset_multi_scale_output = False
            else:
                reset_multi_scale_output = True

            # 根据参数,添加HighResolutionModule到
            modules.append(
                HighResolutionModule(
                    num_branches,
                    block,
                    num_blocks,
                    num_inchannels,
                    num_channels,
                    fuse_method,
                    reset_multi_scale_output
                )
            )
            # 获得最后一个HighResolutionModule的输出通道数
            num_inchannels = modules[-1].get_num_inchannels()

        return nn.Sequential(*modules), num_inchannels

5.4 forward

5.4.1 第一阶段

经过一系列的卷积, 获得初步特征图,总体过程为x[b,3,256,192]–>x[b,256,64,48]

		x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu(x)
        x = self.conv2(x)
        x = self.bn2(x)
        x = self.relu(x)
        x = self.layer1(x)

5.3.2 第二阶段

其中包含了创建分支的过程,即 N11–>N21,N22

总体过程为:
x[b,256,64,48] —> y[b, 32, 64, 48] 因为通道数不一致,通过卷积进行通道数变换
y[b, 64, 32, 24] 通过新建平行分支生成

		x_list = []
        for i in range(self.stage2_cfg['NUM_BRANCHES']):
            if self.transition1[i] is not None:
                x_list.append(self.transition1[i](x))
            else:
                x_list.append(x)
         y_list = self.stage2(x_list)

5.3.3 第三阶段

其中包含了创建分支的过程,即 N22–>N32,N33

总体过程为：

y[b, 32, 64, 48] —> x[b, 32, 64, 48] 因为通道数一致,没有做任何操作
y[b, 64, 32, 24] —> x[b, 64, 32, 24] 因为通道数一致,没有做任何操作
x[b, 128, 16, 12] 通过新建平行分支生成

		x_list = []
        for i in range(self.stage3_cfg['NUM_BRANCHES']):
            if self.transition2[i] is not None:
                x_list.append(self.transition2[i](y_list[-1]))
            else:
                x_list.append(y_list[i])
        y_list = self.stage3(x_list)

5.3.4 第四阶段

其中包含了创建分支的过程,即 N33–>N43,N44

总体过程为：

y[b, 32, 64, 48] —> x[b, 32, 64, 48] 因为通道数一致,没有做任何操作
y[b, 64, 32, 24] —> x[b, 64, 32, 24] 因为通道数一致,没有做任何操作
y[b, 128, 16, 12] —> x[b, 128, 16, 12] 因为通道数一致,没有做任何操作
x[b, 256, 8, 6 ] 通过新建平行分支生成

		x_list = []
        for i in range(self.stage4_cfg['NUM_BRANCHES']):
            if self.transition3[i] is not None:
                x_list.append(self.transition3[i](y_list[-1]))
            else:
                x_list.append(y_list[i])

之后进行多尺度特征融合：

x[b, 32, 64, 48] —>
x[b, 64, 32, 24] —>
x[b, 128, 16, 12] —>
x[b, 256, 8, 6 ] —> y[b, 32, 64, 48]

5.3.5 预测阶段

y[b, 32, 64, 48] --> x[b, 16, 64, 48]

x = self.final_layer(y_list[0])

6 transformer模型设计

7 源码分析（训练阶段）

解析参数->构建网络模型->加载训练测试数据集迭代器->迭代训练->模型评估保存

def parse_args():
    parser = argparse.ArgumentParser(description='Train keypoints network')
    # general 指定yaml文件的路径
    parser.add_argument('--cfg',
                        help='experiment configure file name',
                        required=True,
                        type=str)
# 暂时没有具体实现
    parser.add_argument('opts',
                        help="Modify config options using the command-line",
                        default=None,
                        nargs=argparse.REMAINDER)

    # philly 模型的目录
    parser.add_argument('--modelDir',
                        help='model directory',
                        type=str,
                        default='')
    # log 输出tensorboard的目录
    parser.add_argument('--logDir',
                        help='log directory',
                        type=str,
                        default='')
    # data 训练数据的目录
    parser.add_argument('--dataDir',
                        help='data directory',
                        type=str,
                        default='')
    # premodel 预训练模型的目录
    parser.add_argument('--prevModelDir',
                        help='prev Model directory',
                        type=str,
                        default='')

    args = parser.parse_args()

    return args


def main():
    args = parse_args() # 对输入的参数进行解析
    update_config(cfg, args) # 根据输入参数对cfg进行更新 

# 创建logger，用于记录训练过程的打印信息
    logger, final_output_dir, tb_log_dir = create_logger(
        cfg, args.cfg, 'train')

    logger.info(pprint.pformat(args))
    logger.info(cfg)

    # cudnn related setting 使用GPU的一些相关设置
    cudnn.benchmark = cfg.CUDNN.BENCHMARK
    torch.backends.cudnn.deterministic = cfg.CUDNN.DETERMINISTIC
    torch.backends.cudnn.enabled = cfg.CUDNN.ENABLED

#根据配置文件构建网络
    print('models.'+cfg.MODEL.NAME+'.get_pose_net')
    model = eval('models.'+cfg.MODEL.NAME+'.get_pose_net')(
        cfg, is_train=True
    )

    # copy model file 拷贝lib/models/pose_hrnet.py文件到输出目录之中
    this_dir = os.path.dirname(__file__)
    shutil.copy2(
        os.path.join(this_dir, '../lib/models', cfg.MODEL.NAME + '.py'),
        final_output_dir)
    # logger.info(pprint.pformat(model))

    # 用于训练信息的图形化表示
    writer_dict = {
        'writer': SummaryWriter(log_dir=tb_log_dir),
        'train_global_steps': 0,
        'valid_global_steps': 0,
    }

    dump_input = torch.rand(
        (1, 3, cfg.MODEL.IMAGE_SIZE[1], cfg.MODEL.IMAGE_SIZE[0])
    )
    writer_dict['writer'].add_graph(model, (dump_input, ))

    logger.info(get_model_summary(model, dump_input))

    # 让模型支持多GPU训练
    model = torch.nn.DataParallel(model, device_ids=[0,]).cuda()

    # 用于计算loss
    # define loss function (criterion) and optimizer
    criterion = JointsMSELoss(
        use_target_weight=cfg.LOSS.USE_TARGET_WEIGHT
    ).cuda()

    # Data loading code 对输入图像数据进行正则化处理
    normalize = transforms.Normalize(
        mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]
    )
    # 创建训练以及测试数据的迭代器
    train_dataset = eval('dataset.'+cfg.DATASET.DATASET)(
        cfg, cfg.DATASET.ROOT, cfg.DATASET.TRAIN_SET, True,
        transforms.Compose([
            transforms.ToTensor(),
            normalize,
        ])
    )
    valid_dataset = eval('dataset.'+cfg.DATASET.DATASET)(
        cfg, cfg.DATASET.ROOT, cfg.DATASET.TEST_SET, False,
        transforms.Compose([
            transforms.ToTensor(),
            normalize,
        ])
    )

    train_loader = torch.utils.data.DataLoader(
        train_dataset,
        batch_size=1,
        shuffle=cfg.TRAIN.SHUFFLE,
        num_workers=0,
        pin_memory=cfg.PIN_MEMORY
    )
    valid_loader = torch.utils.data.DataLoader(
        valid_dataset,
        batch_size=1,
        shuffle=False,
        num_workers=0,
        pin_memory=cfg.PIN_MEMORY
    )

    # 模型加载以及优化策略的相关配置
    best_perf = 0.0
    best_model = False
    last_epoch = -1
    optimizer = get_optimizer(cfg, model)
    begin_epoch = cfg.TRAIN.BEGIN_EPOCH
    checkpoint_file = os.path.join(
        final_output_dir, 'checkpoint.pth'
    )

    if cfg.AUTO_RESUME and os.path.exists(checkpoint_file):
        logger.info("=> loading checkpoint '{}'".format(checkpoint_file))
        checkpoint = torch.load(checkpoint_file)
        begin_epoch = checkpoint['epoch']
        best_perf = checkpoint['perf']
        last_epoch = checkpoint['epoch']
        model.load_state_dict(checkpoint['state_dict'])

        optimizer.load_state_dict(checkpoint['optimizer'])
        logger.info("=> loaded checkpoint '{}' (epoch {})".format(
            checkpoint_file, checkpoint['epoch']))

    lr_scheduler = torch.optim.lr_scheduler.MultiStepLR(
        optimizer, cfg.TRAIN.LR_STEP, cfg.TRAIN.LR_FACTOR,
        last_epoch=last_epoch
    )

    # 循环迭代进行训练
    for epoch in range(begin_epoch, cfg.TRAIN.END_EPOCH):
        lr_scheduler.step()

        # train for one epoch
        train(cfg, train_loader, model, criterion, optimizer, epoch,
              final_output_dir, tb_log_dir, writer_dict)


        # evaluate on validation set
        perf_indicator = validate(
            cfg, valid_loader, valid_dataset, model, criterion,
            final_output_dir, tb_log_dir, writer_dict
        )

        if perf_indicator >= best_perf:
            best_perf = perf_indicator
            best_model = True
        else:
            best_model = False

        logger.info('=> saving checkpoint to {}'.format(final_output_dir))
        save_checkpoint({
            'epoch': epoch + 1,
            'model': cfg.MODEL.NAME,
            'state_dict': model.state_dict(),
            'best_state_dict': model.module.state_dict(),
            'perf': perf_indicator,
            'optimizer': optimizer.state_dict(),
        }, best_model, final_output_dir)

    final_model_state_file = os.path.join(
        final_output_dir, 'final_state.pth'
    )
    logger.info('=> saving final model state to {}'.format(
        final_model_state_file)
    )
    torch.save(model.module.state_dict(), final_model_state_file)
    writer_dict['writer'].close()


if __name__ == '__main__':
    main()

8 源码分析（测试阶段）

人体姿态估计推导inference的过程如下。首先读入验证集数据，初始化预测关键点结果的矩阵和人体姿态边界框。在这个过程中将batch归一化和dropout都禁用。控制数据不计算梯度和反向传播。将所有数据导入设备当中。调用model分别对原始图片和反转后的图片执行正向传播过程，将所得到heatmap结果进行融合。然后计算output与target之间的loss,和进行评估得到准确率值。
对于在HRNet model中具体的执行步骤如下图。输入图片首先通过两组conv+bn+relu操作，然后建立新的分支得到两个子网，在stage2中有进行1次信息交换；再建立新的分支得到三个子网，在stage3中有4次信息交换；建立最后一个分支，得到4个子网，在stage4中有3次信息交换，最后通过卷积层输出。在建立分支过程中，特征分辨率逐渐减半。

9 亲测结果

Results on MPII val：绿色背景部分表示已亲测验证，详细结果见下标题截图

Arch	Input Size	Head	Shoulder	Elbow	Wrist	Hip	Knee	Ankle	Mean	[email protected]
prtr_res50	256x256	94.577	93.088	83.109	74.079	84.733	74.732	69.367	82.865	22.602
prtr_res50	384x384	96.010	94.124	86.586	79.940	86.464	81.604	74.563	86.310	28.704
prtr_res50	512x512	96.555	95.007	88.597	83.383	88.731	84.002	79.121	88.493	34.036
prtr_res101	256x256	94.816	93.461	84.728	76.853	87.000	79.730	72.768	84.975	25.517
prtr_res101	384x384	96.282	94.990	88.307	82.353	88.125	83.639	77.445	87.916	31.642
prtr_res101	512x512	96.828	95.839	90.234	84.633	89.302	85.049	80.043	89.409	37.198
prtr_res152	256x256	96.146	94.480	86.108	78.515	87.658	81.826	74.634	86.313	26.885
prtr_res152	384x384	96.419	94.871	88.444	82.627	88.575	84.143	78.365	88.215	32.160
prtr_hrnet_w32	256x256	96.794	95.584	89.603	83.143	88.731	83.739	78.012	88.584	33.206
prtr_hrnet_w32	384x384	97.340	96.009	90.557	84.479	89.700	85.533	78.956	89.526	35.410

9.1 prtr_hrnet_w32 256x256

9.2 prtr_hrnet_w32 384x384

9.3 prtr_res152 384x384

9.3 prtr_res152 256x256

10 参考链接

HRNet_qq_39862223的博客-CSDN博客论文链接：https://arxiv.org/abs/1902.09212代码链接：https://github.com/leoxiaobin/deep-high-resolution-net.pytorch论文源码分析：1 源码准备在指定文件夹下，输入命令：git clone https://github.com/leoxiaobin/deep-high-resolution-net.pytorch.git下载完成后，得到HRNet源码2 源码结构下表列出HRNet中比较重要的文件：.https://blog.csdn.net/qq_39862223/article/details/109360652?spm=1001.2014.3001.5506hrnet模型源代码详解_绵绵是一只鹅呀的博客-CSDN博客_hrnet代码（仅为个人学习笔记，如果有错误欢迎提出）请对照源代码和本帖子观看：https://github.com/leoxiaobin/deep-high-resolution-net.pytorch建议先看看论文大概了解hrnet特点再看我们先看看代码里用来搭建模型的方法：def get_pose_net(cfg, is_train, **kwargs): model = PoseHighResolutionNet(cfg, **kwargs) if is_train and chttps://blog.csdn.net/qq_36382582/article/details/119541890?spm=1001.2014.3001.5506https://segmentfault.com/a/1190000019167646https://segmentfault.com/a/1190000019167646[论文阅读]HRNetV1,HRNetV2,HRNetV2p_gefeng1209的博客-CSDN博客_hrnet图像分类1.Deep High-Resolution Representation Learning for Human Pose Estimation(HRNetV1)2.High-Resolution Representations for Labeling Pixels and Regions(HRNetV2,HRNetV2p)1.Introduction人体姿势估计（又称关键点检测）旨...https://blog.csdn.net/gefeng1209/article/details/93142916

HRNet 源代码结构详解 - 简书Github: https://github.com/HRNet/HRNet-Semantic-Segmentation[https://github.com/HRNet/H...https://www.jianshu.com/p/7e55b80614a7

关键点检测一：HRNet数据预处理（MPII）_Mr.Pru-CSDN博客_hrnet关键点检测关键点检测一：HRNet数据预处理（MPII）前言HRNet源码数据预处理目录位置源码分析JointsDataset类`__init__``_get_db``half_body_transform``__getitem__``get_affine_transform``generate_target`前言最近在做考场行为分析的一个项目，其中我负责的是使用关键点检测算法来进行考生异常行为检测。之前只接触过分类算法，写与看的代码也只限于分类任务。而检测任务工程量太大，因此在看官方源码时非常的吃力，因此希望写 https://blog.csdn.net/qq_43312130/article/details/122034420

11 仿射变换

如何通俗地讲解「仿射变换」这个概念？ - 知乎简单来说，“仿射变换”就是：“线性变换”+“平移”。先看什么是线性变换？1 线性变换线性变换从几何直…https://www.zhihu.com/question/20666664

你可能感兴趣的:(姿态识别,python,计算机视觉)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
春季养肝正当时 dxn悟
重温快乐2023年2月4日立春。春天来了，春暖花开，小鸟欢唱，那在这样的季节我们如何养肝呢？自然界的春季对应中医五行的木，人体五脏肝属木，“木曰曲直”，是以树干曲曲直直地向上、向外伸长舒展的生发姿态，来形容具有生长、升发、条达、舒畅等特征的食物及现象。根据中医天人相应的理念，肝五行属木，喜条达，主疏泄，与春天相应，所以春天最适合养肝。养肝首先要少生气，因为肝喜条达恶抑郁。人体五志肝为怒，生气发怒最
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

PRTR论文代码解读

1 HRNET网络结构解析

1.1 High-to-low and low-to-high

1.2 多分辨率子网络

1.3 HRNet 结构

1.4 HRNet 构建函数 def HRNet(cfg_path, **kwargs)

2 源码结构

3 get_pose_net搭建模型

3.1 初步提特征

3.2 利用残差结构，加深层数继续提特征

3.3 添加分支_make_transition_layer

3.4 继续加深层数，提取特征以及特征融合

3.5 特征融合

4 数据集准备

4.1 mpii.py

4.1.1 _init_函数

4.1.2 _get_db函数

4.2 JointsDataset.py

4.2.1 init.py

4.2.2 _getitem_函数

4.2.3 cv2.warpAffine 参数详解

4.2.4 half_body_transform函数

4.2.5 get_affine_transform函数

4.2.7 generate_target函数

4.3 数据增强

4.3.1 缩放与平移

4.3.2 旋转

4.3.3 典型的仿射变换

5 HRNET模型设计

5.1 基本模块

5.1.1 BasicBlock ： 搭建上图左边的模块。

5.1.2 Bottleneck ：搭建上图右边的模块。

5.2 高分辨率模块-HighResolutionModule

5.2.1 _check_branches函数

5.2.2 _make_one_branch函数

5.2.3 _make_branches函数

5.2.4 _make_fuse_layers函数

5.3 整合模块-PoseHighResolutionNet

5.3.1 stage1

5.3.2 stage2

5.3.3 stage 3

5.3.4 stage 4

5.3.5 整合预测

5.3.6 _make_transition_layer

5.3.7 _make_stage函数

5.4 forward

5.4.1 第一阶段

5.3.2 第二阶段

5.3.3 第三阶段

5.3.4 第四阶段

5.3.5 预测阶段

6 transformer模型设计

7 源码分析（训练阶段）

8 源码分析（测试阶段）

9 亲测结果

9.1 prtr_hrnet_w32 256x256

9.2 prtr_hrnet_w32 384x384

9.3 prtr_res152 384x384

9.3 prtr_res152 256x256

10 参考链接

11 仿射变换

你可能感兴趣的:(姿态识别,python,计算机视觉)

1.4 HRNet 构建函数 `def HRNet(cfg_path, **kwargs)`

5.1.1 BasicBlock ：搭建上图左边的模块。