基于top-down方法的人体姿态估计模型源码解析
Rethinking on Multi-Stage Networks for Human Pose Estimation 源码分析_那时那月那人的博客-CSDN博客
HRNet 源码分析_那时那月那人的博客-CSDN博客
CPN-Cascaded Pyramid Network for Multi-Person Pose Estimation 源码分析_那时那月那人的博客-CSDN博客
论文地址https://arxiv.org/pdf/1603.06937.pdf
GitHub - princeton-vl/pytorch_stacked_hourglass: Pytorch implementation of "Stacked Hourglass Networks for Human Pose Estimation"Pytorch implementation of "Stacked Hourglass Networks for Human Pose Estimation" - GitHub - princeton-vl/pytorch_stacked_hourglass: Pytorch implementation of "Stacked Hourglass Networks for Human Pose Estimation"https://github.com/princeton-vl/pytorch_stacked_hourglass
top-down 方法依赖于 目标检测 需要先检测出一个个人 然后对单个人进行后续姿态估计
比如: Stacked Hourglass Networks 、Cascaded Pyramid Network、CPN 、MSPN、HRNet等等。
bottom-up 和 top-down 相反 先确定人 然后在进行分组 比如 open-pose、HigherHRNet等等。
首先我们分析下网络结构:
class PoseNet(nn.Module):
def __init__(self, nstack, inp_dim, oup_dim, bn=False, increase=0, **kwargs):
super(PoseNet, self).__init__()
self.nstack = nstack
self.pre = nn.Sequential(
Conv(3, 64, 7, 2, bn=True, relu=True),
Residual(64, 128),
Pool(2, 2),
Residual(128, 128),
Residual(128, inp_dim)
)
self.hgs = nn.ModuleList( [
nn.Sequential(
Hourglass(4, inp_dim, bn, increase),
) for i in range(nstack)] )
self.features = nn.ModuleList( [
nn.Sequential(
Residual(inp_dim, inp_dim),
Conv(inp_dim, inp_dim, 1, bn=True, relu=True)
) for i in range(nstack)] )
self.outs = nn.ModuleList( [Conv(inp_dim, oup_dim, 1, relu=False, bn=False) for i in range(nstack)] )
self.merge_features = nn.ModuleList( [Merge(inp_dim, inp_dim) for i in range(nstack-1)] )
self.merge_preds = nn.ModuleList( [Merge(oup_dim, inp_dim) for i in range(nstack-1)] )
self.nstack = nstack
self.heatmapLoss = HeatmapLoss()
def forward(self, imgs):
## our posenet
# shape (B, H, W, C) -> (B, C, H, W)
x = imgs.permute(0, 3, 1, 2) #x of size 1,3,inpdim,inpdim
# 图片缩小四倍 经过一个 k=7, s=2得卷积核缩小2倍 接一个 残差块
# 然后经过一个池化层在缩小2倍 通道输变成 256 然后在接 两个残差块
# shape (B, 256, H // 4, W // 4)
x = self.pre(x)
combined_hm_preds = []
# 堆叠得 stack hourglasses 层数 可以自己设置 这里 是 8 个
for i in range(self.nstack):
# 这里 就是一个 类似 unet结构得残差连接
# 先下采样到 H // (4 * 8) * W // (4 * 8) 然后在上采用到 (H // 4, W // 4)
# shape: (B, H // 4, W // 4, 256)
hg = self.hgs[i](x)
# shape: (B, 256, H // 4, W // 4)
feature = self.features[i](hg)
# shape: (B, num_joints, H // 4, W // 4) 连接数
preds = self.outs[i](feature)
combined_hm_preds.append(preds)
# 对于前面得堆叠让其进行 预测 也就是 论文中所述: 中间监督 让网络越来越好
if i < self.nstack - 1:
# 让 heatmap 和 feature 融合 进入下一个 hourglasses
x = x + self.merge_preds[i](preds) + self.merge_features[i](feature)
# 将所有堆叠得 hourglasse 输出返回
return torch.stack(combined_hm_preds, 1)
现在网络结构和输出都有了 我们来看下 网络得损失函数 损失函数很简单 就是 用MSE
def calc_loss(self, combined_hm_preds, heatmaps):
combined_loss = []
# 对每个堆叠块 进行损失计算
for i in range(self.nstack):
# 计算每个堆叠块得损失
combined_loss.append(self.heatmapLoss(combined_hm_preds[0][:,i], heatmaps))
combined_loss = torch.stack(combined_loss, dim=1)
return combined_loss
class HeatmapLoss(torch.nn.Module):
"""
loss for detection heatmap
"""
def __init__(self):
super(HeatmapLoss, self).__init__()
def forward(self, pred, gt):
"""
pred: shape (B, num_joints, H, W)
gt shape (B, num_joints, H, W)
"""
# 就是 简单得平方差 计算
l = ((pred - gt)**2)
l = l.mean(dim=3).mean(dim=2).mean(dim=1)
return l ## l of dim bsize
最后分析下 heatmap 对应得groundtruth怎么生成得。其实很简单就是 用二维高斯函数来计算周围点到 关键点得距离 。当然heatmap如果很大 计算所有点没必要。所有只需要就算距离关键点(x,y)一定范围内得距离即可。为什么不直接 设置关键点为1 其他点都为0 这样导致 负样本过多,正样本只有一个,模型无法学习。
class GenerateHeatmap():
def __init__(self, output_res, num_parts):
self.output_res = output_res
self.num_parts = num_parts
# 计算一个一定范围得二维高斯函数
sigma = self.output_res/64 # 这里 sigma = 1
self.sigma = sigma
size = 6*sigma + 3 # size = 9 一般都是取一奇数 这样有中心点 也就是对应关键点得位置
x = np.arange(0, size, 1, float)
y = x[:, np.newaxis]
x0, y0 = 3*sigma + 1, 3*sigma + 1
# 得到一个 (size, size) 得 二维高斯函数 中心点值为1 其余点按照高斯分布降低
self.g = np.exp(- ((x - x0) ** 2 + (y - y0) ** 2) / (2 * sigma ** 2))
def __call__(self, keypoints):
# (num_joints, H, W)
hms = np.zeros(shape = (self.num_parts, self.output_res, self.output_res), dtype = np.float32)
sigma = self.sigma
for p in keypoints:
for idx, pt in enumerate(p):
if pt[0] > 0:
x, y = int(pt[0]), int(pt[1])
if x<0 or y<0 or x>=self.output_res or y>=self.output_res:
continue
# 取一个 范围 来用上面计算得高斯函数来进行覆盖
ul = int(x - 3*sigma - 1), int(y - 3*sigma - 1)
br = int(x + 3*sigma + 2), int(y + 3*sigma + 2)
c,d = max(0, -ul[0]), min(br[0], self.output_res) - ul[0]
a,b = max(0, -ul[1]), min(br[1], self.output_res) - ul[1]
cc,dd = max(0, ul[0]), min(br[0], self.output_res)
aa,bb = max(0, ul[1]), min(br[1], self.output_res)
# 用 self.g 来进行赋值
hms[idx, aa:bb,cc:dd] = np.maximum(hms[idx, aa:bb,cc:dd], self.g[a:b,c:d])
return hms
这是一个 经典得 top-down 形式 人体姿态估计网络。