baolinq

Paperreading之五 Stacked Hourglass Networks(SHN)和源码阅读（PyTorch版本）

1.前言

这篇文章是ECCV2016的论文，Jia Deng组的工作，是top-down算法，非常经典，当时也是在各种公开数据集上霸榜。在FLIC和MPII上都是第一名（在当时），是sota算法。现在很多关于姿态估计的论文都有参考SHN或者会拿他作对比，可以说是比较典型的姿态估计算法。

2. 网络结构

SHN网络名字起的很不错，级联的沙漏网络，顾名思义，沙漏网络就表示该网络具有高度对称性，多个沙漏网络进行级联，其实不级联也是可以检测的，只是检测效果会差一些，作者认为人体关节点之间有较强的相关性，前面沙漏检测出的关键点对后面的检测有帮助，所以前面的输出可以作为后面的输入的一部分，见下图的虚线部分，这个后面再讨论。

级联的沙漏网络

2.1单个沙漏网络

单个沙漏网络如上图所示，这是一个4阶版本的沙漏网络，表示有四次下采样和四次下采样。方块大小表示feature maps大小，方块变小方式下采样，方块变大是上采样，加号表示按元素相加。其他全部都是残差模块，上方的连线方式也是一些残差模块，但是没有改变feature maps的大小，只是改变通道数，变成与下面相同，然后才可以按元素相加。

看一下更加具体的版本

该图来自https://blog.csdn.net/shenxiaolu1984/article/details/51428392。浅绿色部分是一些残差模块。看上去很明朗，就是一些残差模块，先下采样然后上采样，这样的网络结构提取特征很充分，在不同的分辨率有进行卷积，然后还有特征融合。但是也有一些弊端，不能使用pretrained model，因为它不像cpn那样，GlobalNet是resnet50或者resnet101，可以直接使用在ImageNet上预训练的模型进行初始化。没有预训练模型用来初始化，一般需要训练更久然后效果会更差一些，但是没有预训练的情况下，当数据很充分，训练也很充分，合理使用BN或者GN，炼丹能力较好的情况下，是可以达到预训练的效果（Kaiming He的最新论文的结论，Rethinking）。

2.2看一下Pytorch版本实现

class HourglassNet(nn.Module):
    '''Hourglass model from Newell et al ECCV 2016'''
    def __init__(self, block, num_stacks=2, num_blocks=4, num_classes=16):
        """
        参数解释
        :param block: hg块元素
        :param num_stacks: 有几个hg
        :param num_blocks: 在两个hg之间有几个block块
        :param num_classes: keypoint个数,也就是最后的heatmap个数
        """
        super(HourglassNet, self).__init__()

        self.inplanes = 64
        self.num_feats = 128
        self.num_stacks = num_stacks
        self.conv1 = nn.Conv2d(3, self.inplanes, kernel_size=7, stride=2, padding=3,
                               bias=True)   # 第一次下采样
        self.bn1 = nn.BatchNorm2d(self.inplanes) 
        self.relu = nn.ReLU(inplace=True)
        self.layer1 = self._make_residual(block, self.inplanes, 1)  #self.planes = 64，有downsample（只是改变channel数）
        self.layer2 = self._make_residual(block, self.inplanes, 1)  #有downsample（只是改变channel数）
        # 这一次的bottleneck没有downsample，因为self.planes == planes(self.num_feats=128)*2 = 256
        self.layer3 = self._make_residual(block, self.num_feats, 1)
        self.maxpool = nn.MaxPool2d(2, stride=2)   #第二次下采样
        # build hourglass modules
        ch = self.num_feats*block.expansion   #128*2=256
        hg, res, fc, score, fc_, score_ = [], [], [], [], [], []
        for i in range(num_stacks):
            hg.append(Hourglass(block, num_blocks, self.num_feats, 4))  #block, num_blocks, planes, depth=4
            res.append(self._make_residual(block, self.num_feats, num_blocks))
            fc.append(self._make_fc(ch, ch))
            score.append(nn.Conv2d(ch, num_classes, kernel_size=1, bias=True))
            if i < num_stacks-1:
                fc_.append(nn.Conv2d(ch, ch, kernel_size=1, bias=True))
                score_.append(nn.Conv2d(num_classes, ch, kernel_size=1, bias=True))
        self.hg = nn.ModuleList(hg)
        self.res = nn.ModuleList(res)
        self.fc = nn.ModuleList(fc)
        self.score = nn.ModuleList(score)
        self.fc_ = nn.ModuleList(fc_) 
        self.score_ = nn.ModuleList(score_)

    def _make_residual(self, block, planes, blocks, stride=1):  #planes = 64,blocks=4
        downsample = None
        if stride != 1 or self.inplanes != planes * block.expansion:
            # 这里的downsample只有改变通道数的功能，并没有下采样的功能，因为调用时stride固定为1
            downsample = nn.Sequential(
                nn.Conv2d(self.inplanes, planes * block.expansion,
                          kernel_size=1, stride=stride, bias=True),
            )

        layers = []
        # 只在每个block的第一个bottleneck做downsample，因为channel数不相同
        layers.append(block(self.inplanes, planes, stride, downsample))
        self.inplanes = planes * block.expansion  #self.planes是改变的,从最开始的64，128,256
        for i in range(1, blocks):   #因为blocks=1 ，后面都不会执行
            layers.append(block(self.inplanes, planes))

        return nn.Sequential(*layers)

    def _make_fc(self, inplanes, outplanes):
        bn = nn.BatchNorm2d(inplanes)
        conv = nn.Conv2d(inplanes, outplanes, kernel_size=1, bias=True)
        return nn.Sequential(
                conv,
                bn,
                self.relu,
            )

    def forward(self, x):
        out = []
        x = self.conv1(x)  #下采样
        x = self.bn1(x)
        x = self.relu(x) 

        x = self.layer1(x)  
        x = self.maxpool(x)  #下采样
        x = self.layer2(x)  
        x = self.layer3(x)  

        for i in range(self.num_stacks):
            y = self.hg[i](x)
            y = self.res[i](y)
            y = self.fc[i](y)
            score = self.score[i](y)
            out.append(score)
            if i < self.num_stacks-1:
                fc_ = self.fc_[i](y)
                score_ = self.score_[i](score)
                x = x + fc_ + score_

        return out

在上面，Bottleneck是使用expansion=2的版本的残差Bottleneck，通常是是使用4阶版本的沙漏网络，结构就跟上图一样，很多残差模块加下采样和上采样。这个实现使用了递归实现，这么短的代码就实现了那么长的网络结构，PyTorch真香，呵呵~

2.3完整网络结构

看了上面的单个Hourglass结构，下面看下完整的网络结构。很简单，前面加了几层卷积，后面就是Hourglass的级联模式，Hourglass之间的级联稍微有一些特殊处理。

网络的从一个7*7的卷积开始，然后接着3个残差模块，这一共会经过两次下采样，如果输入是256*256的，那么经过这个前端网络处理feature maps变为64*64的尺寸。后面就开始级联多个Hourglass部分接口，只与多少个可能要根据实际情况确定。作者实验试过2,4,8，好像是越多越好，然后越到后面输出预测越准，符合直觉预期，说明经过级联是有效的，前面的输出对后面的训练是有帮助的。

下面是Hourglass之间的连接结构图，有一些特征融合在里面。

图来自https://blog.csdn.net/wangzi371312/article/details/81174452

如上图，N1代表第一个沙漏网络，提取出的混合特征经过1个1x1全卷积网络后，分成上下两个分支，上部分支继续经过1x1卷积后，进入下一个沙漏网络。下部分支先经过1x1卷积后，生成heat map，就是图中蓝色部分.

上图中蓝色方块比其他三个方块要窄一些，这是因为heat map矩阵的depth与训练数据里的节点数一致，比如 [1x64x64x16]，其他几个则具有较高的depth，如 [1x64x64x256]

heat_map继续经过1x1卷积，将depth调整到与上部分支一致，如256，最后与上部分支合并，一起作为下一个沙漏网络的输入。

前面提到过，由于人体关节点之间的较强相关性，作者认为前面检测出的heat maps对后面的预测是有帮助的，最初的输入，heatmaps经过1*1卷积调整channels数，以及上一级Hourglass的输出三个做按元素相加，作为下一级Hourglass的输入。

2.4 完整网络结构PyTorch实现

class HourglassNet(nn.Module):
    '''Hourglass model from Newell et al ECCV 2016'''
    def __init__(self, block, num_stacks=2, num_blocks=4, num_classes=16):
        """
        参数解释
        :param block: hg块元素
        :param num_stacks: 有几个hg
        :param num_blocks: 在两个hg之间有几个block块
        :param num_classes: keypoint个数,也就是最后的heatmap个数
        """
        super(HourglassNet, self).__init__()

        self.inplanes = 64
        self.num_feats = 128
        self.num_stacks = num_stacks
        self.conv1 = nn.Conv2d(3, self.inplanes, kernel_size=7, stride=2, padding=3,
                               bias=True)
        self.bn1 = nn.BatchNorm2d(self.inplanes) 
        self.relu = nn.ReLU(inplace=True)
        self.layer1 = self._make_residual(block, self.inplanes, 1)  #self.planes = 64
        self.layer2 = self._make_residual(block, self.inplanes, 1)
        self.layer3 = self._make_residual(block, self.num_feats, 1)  #这一次的bottleneck没有downsample，因为self.planes == planes(self.num_feats=128)*2 = 256
        self.maxpool = nn.MaxPool2d(2, stride=2)   #TODO 这个maxpool需不需要。论文里是有2次下采样，从256降到64，

        # build hourglass modules
        ch = self.num_feats*block.expansion   #128*2=256
        hg, res, fc, score, fc_, score_ = [], [], [], [], [], []
        for i in range(num_stacks):
            hg.append(Hourglass(block, num_blocks, self.num_feats, 4))  #block, num_blocks, planes, depth=4
            res.append(self._make_residual(block, self.num_feats, num_blocks))
            fc.append(self._make_fc(ch, ch))
            score.append(nn.Conv2d(ch, num_classes, kernel_size=1, bias=True))
            if i < num_stacks-1:
                fc_.append(nn.Conv2d(ch, ch, kernel_size=1, bias=True))
                score_.append(nn.Conv2d(num_classes, ch, kernel_size=1, bias=True))
        self.hg = nn.ModuleList(hg)
        self.res = nn.ModuleList(res)
        self.fc = nn.ModuleList(fc)
        self.score = nn.ModuleList(score)
        self.fc_ = nn.ModuleList(fc_) 
        self.score_ = nn.ModuleList(score_)

    def _make_residual(self, block, planes, blocks, stride=1):  #planes = 64,blocks=4
        downsample = None
        if stride != 1 or self.inplanes != planes * block.expansion:
            downsample = nn.Sequential(
                nn.Conv2d(self.inplanes, planes * block.expansion,
                          kernel_size=1, stride=stride, bias=True),
            )

        layers = []
        layers.append(block(self.inplanes, planes, stride, downsample))  #只在每个block的第一个bottleneck做下采样，因为channel数不相同
        self.inplanes = planes * block.expansion  #self.planes是改变的,从最开始的64，128,256
        for i in range(1, blocks):
            layers.append(block(self.inplanes, planes))

        return nn.Sequential(*layers)

    def _make_fc(self, inplanes, outplanes):
        bn = nn.BatchNorm2d(inplanes)
        conv = nn.Conv2d(inplanes, outplanes, kernel_size=1, bias=True)
        return nn.Sequential(
                conv,
                bn,
                self.relu,
            )

    def forward(self, x):
        out = []
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu(x) 

        x = self.layer1(x)  
        x = self.maxpool(x)
        x = self.layer2(x)  
        x = self.layer3(x)  

        for i in range(self.num_stacks):
            y = self.hg[i](x)
            y = self.res[i](y)
            y = self.fc[i](y)
            score = self.score[i](y)
            out.append(score)
            if i < self.num_stacks-1:
                fc_ = self.fc_[i](y)
                score_ = self.score_[i](score)
                x = x + fc_ + score_

        return out

fc和score分别表示hourglass的输出两个支路，score是得到heatmaps，经过的卷积的channel 数好keypoints个数相同。fc_和score_分别表示当后面还需要级联Hourglass时，需要做一些1*1的卷积改变featuremaps的通道数，这样后面才能做按元素相加，然后作为后面的输入。

3. 中继监督

通过端到端地堆叠多个沙漏，我们将网络架构进一步细化，将一个沙漏的输出作为输入提供给下一个沙漏，但是每个Hourglass都会输出heatmaps，然后也会计算loss。这提供了具有用于重复自底向上、自顶向下的推理的机制的网络，允许在整个图像上重新评估初始估计和特征。这种方法的关键是预测我们可以应用损失的中间群体。预测是在通过每个沙漏之后生成的，其中网络有机会在本地和全局上下文中处理特性。随后的沙漏模块允许再次处理这些高级特征，以进一步评估和重新评估高阶空间关系。这与其他姿态估计方法类似，这些姿态估计方法在多个迭代阶段和中间监督下表现出很强的性能。

下面这个图挺有意思的，这个Ablation实验部分。作者实验了不同的级联方式对准确率的影响，和中间Hourglass输出heatmaps的准确率规律，在参数量几乎相同的情况下，每个残差模块有不同的个数，这样网络的总层数几乎相同。可以看到，小的Hourglass多级联几次有利于准确率提升，后面层的输出比前面的输出效果好非常多，在小的Hourglass上看的尤其明显，级联了8次，前面2级的效果很差。

作者还做了一些有趣的实验，loss计算位置，在网络结构相似的情况下，loss影响不是特别大，在每个Hourglass的单独输出上计算loss效果是最好的。

4. 训练设置

5. 结论与结果

设计了一个新的单人姿态估计网络Hourglass，效果也是棒棒的，如果用于多人需要单独的行人检测作为前端预处理。
中继监督的作用很大，
级联的Hourglass效果非常好，当时sota方法
但对一些遮挡问题难以处理，这是绝大部分算法的难题

参考文献：

[1] Newell A , Yang K , Deng J . Stacked Hourglass Networks for Human Pose Estimation[J]. 2016.

[2] https://github.com/bearpaw/pytorch-pose

[3]https://blog.csdn.net/wangzi371312/article/details/81174452

[4] https://blog.csdn.net/shenxiaolu1984/article/details/51428392

[论文阅读]Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression qian9905 姿态估计论文阅读论文阅读深度学习机器学习
该论文发表于CVPR2021Background背景该论文关注的是的是自底向上的关键点回归人体姿态估计，作者认为回归关键点坐标的特征必须集中注意到关键点周围的区域，才能够精确回归出关键点坐标。因此提出了一种名为解构式关键点回归（DEKR）的方法。这种直接回归坐标的方法超过了以前的关键点热度图检测并组合的方法，并且在COCO和CrowdPose两个数据集上达到了目前自底向上姿态检测的最好结果上图作者
基于OpenCV 的人体姿态估计欣然～ 3d
这是一个基于OpenCV的人体姿态估计系统，能够从摄像头视频流中实时检测人体关键点，并通过简化算法重建3D姿态，最后在3D空间中进行仿真展示。系统主要包含2D姿态检测、3D姿态重建和3D仿真三个核心模块。模块导入与环境准备python运行importcv2importnumpyasnpimportosimporttimeimportmatplotlib.pyplotaspltfrommpl_too
H36M-Toolbox 开源项目教程章来锬
H36M-Toolbox开源项目教程H36M-Toolbox项目地址:https://gitcode.com/gh_mirrors/h3/H36M-Toolbox项目介绍H36M-Toolbox是一个用于处理和分析Human3.6M数据集的工具箱。Human3.6M是一个大规模的人体姿态估计数据集，包含超过300万张图像和详细的3D姿态标注。H36M-Toolbox提供了一系列工具和脚本，帮助研究
Deepmotion技术浅析（四）：人体姿态估计爱研究的小牛 AIGC—虚拟现实 AIGC—视频 AIGC—游戏制作人工智能深度学习机器学习 AIGC
人体姿态估计是DeepMotion动作捕捉和3D重建流程中的核心模块之一。该模块的主要任务是从输入的视频帧中检测并定位人体关键点（如关节、头部、手脚等）的位置。DeepMotion的人体姿态估计模块不仅支持2D关键点检测，还能够进行3D关键点估计，为后续的动作追踪、3D重建和动画生成提供基础数据。包括：1.2D关键点检测工作原理模型架构详解（OpenPose,HRNet）模型结构公式推导训练过程关
在瑞芯微RK3588平台上使用RKNN部署YOLOv8Pose模型的C++实战指南机＿长 YOLO系列模型有效涨点改进深度学习落地实战 YOLO c++开发语言
在人工智能和计算机视觉领域，人体姿态估计是一项极具挑战性的任务，它对于理解人类行为、增强人机交互等方面具有重要意义。YOLOv8Pose作为YOLO系列中的新成员，以其高效和准确性在人体姿态估计任务中脱颖而出。本文将详细介绍如何在瑞芯微RK3588平台上，使用RKNN（RockchipNeuralNetworkToolkit）框架部署YOLOv8Pose模型，并进行C++代码的编译和运行。注本文全
MoveNet: PyTorch实现的轻量级人体姿态估计框架侯深业Dorian
MoveNet:PyTorch实现的轻量级人体姿态估计框架movenet.pytorch项目地址:https://gitcode.com/gh_mirrors/mo/movenet.pytorchMoveNet是一个基于PyTorch的人体姿态估计算法实现，由开发者fire717贡献至GitCode平台。该项目旨在提供一个高效、易用的解决方案，用于实时处理视频或图像中的人体动作识别。通过其强大的性
Simple Pose: Rethinking and Improving a Bottom-up Approach for Multi-Person Pose Estimation MatthewHsw Simple Pose
arxiv:https://arxiv.org/pdf/1911.10529.pdfgithub:https://github.com/jialee93/Improved-Body-Parts原作者在知乎有讲解，链接既然是Rethinking,那么就要先只出需要rethinking的内容.文章主要针对于人体姿态估计中的bottom-up的方法,提出了关于bottom-up方法里的一些问题的思考:人
3D人体姿态估计（教程+代码）毕设阿力 3d 计算机视觉深度学习
3D人体姿态估计是指通过计算机视觉技术和深度学习算法，从图像或视频数据中准确地推测出人体的三维姿态信息，包括关节位置、角度和运动轨迹等。这项技术在虚拟现实、增强现实、运动分析、人体动作捕捉等领域具有广泛的应用前景。实现3D人体姿态估计的关键挑战之一是从二维图像中还原出人体的三维结构。通常，这需要使用多视角图像、深度传感器或者先进的深度学习模型来提取更丰富的信息以重建三维姿态。目前，基于深度学习的方
论文阅读：《Deep Learning-Based Human Pose Estimation: A Survey》——Part 1：2D HPE 自信且放光芒66 深度学习论文阅读深度学习人工智能
目录人体姿态识别概述论文框架HPE分类人体建模模型二维单人姿态估计回归方法目前发展优化基于热图的方法基于CNN的几个网络利用身体结构信息提供构建HPE网络视频序列中的人体姿态估计2D多人姿态识别方法自上而下自下而上2DHPE总结数据集和评估指标2DHPE数据集2DHPE评价指标2DHPE方法性能的比较单人2DHPE多人2DHPE未来展望人体姿态识别概述应用模块：人机交互、运动分析、增强现实、虚拟现
【iOS ARKit】3D人体姿态估计实例扬帆起航&d ios 3d
与2D人体姿态检测一样，在ARKit中，我们不必关心底层的人体骨骼关节点检测算法，也不必自己去调用这些算法，在运行使用ARBodyTrackingConfiguration配置的ARSession之后，基于摄像头图像的3D人体姿态估计任务也会启动，我们可以通过session（_session:ARSession,didUpdateanchors：［ARAnchor］）代理方法直接获取检测到的ARB
【iOS ARKit】3D 人体姿态估计扬帆起航&d ios 3d
与基于屏幕空间的2D人体姿态估计不同，3D人体姿态估计是尝试还原人体在三维世界中的形状与姿态，包括深度信息。绝大多数的现有3D人体姿态估计方法依赖2D人体姿态估计，通过获取2D人体姿态后再构建神经网络算法，实现从2D到3D人体姿态的映射。在ARKit中，由于是采用计算机视觉的方式估计人体姿态，与2D人体姿态估计一样，3D人体姿态估计也受到遮挡、光照、姿态、视角的影响，并且相比于2D人体姿态估计，3
基于 pytorch-openpose 实现 “多目标” 人体姿态估计北桥苏 pytorch 人工智能 python
前言还记得上次通过MediaPipe估计人体姿态关键点驱动3D角色模型，虽然节省了动作K帧时间，但是网上还有一种似乎更方便的方法。MagicAnimate就是其一，说是只要提供一张人物图片和一段动作视频(舞蹈武术等)，就可以完成图片人物转视频。于是我就去官网体验了一下，发现动作的视频长度不能超过5秒，当然，如果说要整长视频可以切多段处理再合成解决。主要的还是视频需要那种背景相对较纯的，不然提交表单
【时间序列篇】基于LSTM的序列分类-Pytorch实现 part3 化为己用钟的子期深度学习 lstm 分类 pytorch
系列文章目录【时间序列篇】基于LSTM的序列分类-Pytorch实现part1案例复现【时间序列篇】基于LSTM的序列分类-Pytorch实现part2自有数据集构建【时间序列篇】基于LSTM的序列分类-Pytorch实现part3化为己用在一个人体姿态估计的任务中，需要用深度学习模型来进行序列分类。化为己用，实现成功。文章目录系列文章目录前言一、模型训练1导入库和自用函数2导入数据集3设备部署4
【时间序列篇】基于LSTM的序列分类-Pytorch实现 part2 自有数据集构建钟的子期深度学习 lstm 分类 pytorch
系列文章目录【时间序列篇】基于LSTM的序列分类-Pytorch实现part1案例复现【时间序列篇】基于LSTM的序列分类-Pytorch实现part2自有数据集构建【时间序列篇】基于LSTM的序列分类-Pytorch实现part3化为己用在一个人体姿态估计的任务中，需要用深度学习模型来进行序列分类。时间花费最多的是在数据集的处理上。这一节主要内容就是对数据集的处理。文章目录系列文章目录前言一、任
OPENPOSE人体姿态估计课程设计冰雪与岩石 python 人脸识别手势识别
心路历程：拿到这个题目一脸懵，完全不知道要做什么，尽管模型不需要自己训练（模型来源），可是完全不知道怎么使用，帮助文档好长，看了好久。最后运行了demo后，也不知道这东西有什么用（应该是这东西我有什么是能做出来的。陷入无限百度…）一、模型下载下载下来的模型文件中有一个demo，在bin文件夹下，命令行下使用python是openpose的示例。（我下载的模型文件夹）此外，里面models文件夹里有
Python+OpenCV+OpenPose实现人体姿态估计（人体关键点检测） weixin_44079197 python 开发语言
目录1、人体姿态估计简介2、人体姿态估计数据集3、OpenPose库4、实现原理5、实现神经网络6、实现代码1、人体姿态估计简介人体姿态估计(HumanPostureEstimation)，是通过将图片中已检测到的人体关键点正确的联系起来，从而估计人体姿态。人体关键点通常对应人体上有一定自由度的关节，比如颈、肩、肘、腕、腰、膝、踝等，如下图。通过对人体关键点在三维空间相对位置的计算，来估计人体当前
第十四周周报 Joy_moon 机器学习图像处理
文章目录摘要文献阅读Openpose方法模型的任务具体工作流程模型工作流程PAF（部分亲合场）匈牙利算法数据标签的制作总结摘要上周在那篇综述文章里，分视角和单视角去实现3d人体姿态估计。我就找了一篇多视角实现的人体估计的文章。使用openpose和评估3d无标记运动捕捉，然后我看了一篇使用openpose和评估3d无标记运动捕捉。然后我实在不懂这个openpose的原理，我就又去找了openpos
3D人体姿态估计从懒虫到爬虫 3d 目标检测
3D人体姿态估计是指通过算法对输入的图像或视频进行分析，推断出人体的三维姿态信息。该技术可以应用于许多领域，如虚拟现实、运动分析、人机交互等。1.算法原理：3D人体姿态估计利用深度学习模型作为算法的核心，通过网络学习人体姿态的表示和映射关系。该算法有两个阶段，第一阶段是从输入的图像或视频中提取人体的二维姿态信息；第二阶段是通过三维姿态恢复算法将二维姿态信息映射到三维空间中。2.视觉特征提取：3D人
3D人体姿态估计（教程+代码）阿利同学 3d 3d姿态估计姿态估计手势识别姿态识别
3D人体姿态估计是指通过计算机视觉和深度学习技术，从图像或视频中推断出人体的三维姿态信息。它是计算机视觉领域的一个重要研究方向，具有广泛的应用潜力，如人机交互、运动分析、虚拟现实、增强现实等。传统的2D人体姿态估计方法主要关注通过二维图像进行姿态推断，即从图像中提取人体关键点位置信息，然后根据这些关键点的空间关系推断出人体的姿态。然而，由于2D图像投影存在深度信息的缺失和模糊，2D姿态估计往往无法
Human3.6m数据处理（mhformer代码解读）从月亮走向月亮7 计算机视觉
对于3d人体姿态估计任务中数据集human3.6m的处理写在最前面：这是我自己的理解，说的不一定对。human3.6m有很多格式的数据，包括视频、2dgroundtruth、3dgroundtruth，还分为xyz坐标的表示形式和旋转向量表示形式，这篇只用到2d和3dgroundtruth（坐标表示的）。这篇csdn以cvpr2022的mhformer为例，基本上videopose3d之后数据处理
YOLOv7+Pose姿态估计+tensort部署加速从懒虫到爬虫 YOLO
YOLOv7是一种基于深度学习的目标检测算法，它能够在图像中准确识别出不同目标的位置和分类。而姿态估计pose和tensort则是一种用于实现人体姿态估计的算法，可以对人体的关节位置和方向进行精准的检测和跟踪。下面我将分点阐述YOLOv7姿态估计pose+tensort部署加速的相关内容：1.YOLOv7的特点和优势YOLOv7是目前比较流行的目标检测算法之一，它具有以下特点和优势：（1）快速高效
2D行人姿态估计和跟踪：*Simple Baselines for Human Pose Estimation and Tracking AIRV_Gao 论文笔记算法计算机视觉深度学习
2D行人姿态估计和跟踪：SimpleBaselinesforHumanPoseEstimationandTracking论文网址：https://arxiv.org/abs/1804.06208论文代码：https://github.com/Microsoft/human-pose-estimation.pytorch论文类型：2018ECCV1.简介本论文介绍了人体姿态估计和跟踪方法。虽然目前在
人体姿态估计：BlazePose AIRV_Gao 论文笔记
BlazePose:On-deviceReal-timeBodyPosetracking解析1.概述2.模型构架和pipeline设计2.1推理流程（Inferencepipeline）2.2Persondetector2.3拓扑结构（Topology）2.4数据集2.5网络结构2.6对齐和遮挡增强3.实验论文连接：https://arxiv.org/pdf/2006.10204.pdf论文代码：
视频姿态估计：DeciWatch AIRV_Gao 论文笔记姿态估计 transformer
DeciWatch:ASimpleBaselinefor10×Efficient2Dand3DPoseEstimation解析摘要1.简介2.RelatedWork2.1高效的人体姿态估计2.2MotionCompletion（运动补全）3.Method3.1问题定义和概述3.2获取采样姿势3.3DenoisingtheSampledPoses（去噪采样的姿态）3.4RecoveringtheSa
2023 英特尔On技术创新大会直播 |探索视觉AI的无限可能以山河作礼。活动文章人工智能
2023英特尔On技术创新大会直播|探索视觉AI的无限可能前言一·未来的AI：释放视觉AI真正潜力二·AI技术突破、视觉Al挑战及前沿研究创新三·全尺度视觉学习全尺度视觉学习示例1.GridConv实现三维人体姿态估计更高准确率2.KW预训练及迁移模型性能3.无数据增强稠密对比知识蒸馏(Af-DCD)4.全扩展视觉AI-OSVAlModelLearnerZoo四·沟建AI技术闭环、释放视觉AI真正
YOLOv8-DeepSort/ByteTrack-PyQt-GUI：全面解决方案，涵盖目标检测、跟踪和人体姿态估计从懒虫到爬虫 YOLO pyqt 目标检测
YOLOv8-DeepSort/ByteTrack-PyQt-GUI是一个多功能图形用户界面，旨在充分发挥YOLOv8在目标检测/跟踪和人体姿态估计/跟踪方面的能力，与图像、视频或实时摄像头流进行无缝集成。支持该应用的Python脚本使用ONNX格式的YOLOv8模型，确保各种人工智能（AI）任务的高效和准确执行。全面的AI任务该应用支持一系列AI任务，包括：目标检测：使用YOLOv8模型在图像或
人体姿态估计算法 Jiaxxxxxx 计算机视觉算法计算机视觉
人体姿态估计算法1什么是人体姿态估计2基于经典传统和基于深度学习的方法2.1基于经典传统的人体姿态估计算法2.2基于深度学习的人体姿态估计算法OpenPoseAlphaPose(RMPE)3算法应用4Paper人体姿态估计在现实中的应用场景很丰富，如下动作捕捉：三维特效场景人机交互：动作控制、手势控制VR,AR：元宇宙数字人、抖音尬舞机、3D试衣、虚拟主播肢体语言理解：机场、交警警察手势翻译、手语
YOLOv8界面-目标检测+语义分割+追踪+姿态识别（姿态估计）+界面DeepSort/ByteTrack-PyQt-GUI 阿利同学 YOLO 目标检测 pyqt yolov8界面姿态估计语义分割实例分割
YOLOv8-DeepSort/ByteTrack-PyQt-GUI：全面解决方案，涵盖目标检测、跟踪和人体姿态估计YOLOv8-DeepSort/ByteTrack-PyQt-GUI是一个多功能图形用户界面，旨在充分发挥YOLOv8在目标检测/跟踪和人体姿态估计/跟踪方面的能力，与图像、视频或实时摄像头流进行无缝集成。支持该应用的Python脚本使用ONNX格式的YOLOv8模型，确保各种人工智
人体姿态估计 - Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression（DEKR） tang-0203 关键点检测人体姿态估计
B站：https://www.bilibili.com/video/BV1ky4y1s76X?spm_id_from=333.999.0.0人体姿态估计方法分类Top-Downpipeline：图片->检测器->多个行人->forpersonindetectedpersons，单独做关键点检测优点：精度高缺点：计算量大，耗时高Bottom-Uppipeline：图片->关键点回归(heatmap估
AlphaPose-RKNN-rk3588 呆呆珝深度学习人工智能
1.AlphaPose背景介绍AlphaPose是一个用于人体姿态估计的开源工具。人体姿态估计在计算机视觉中是一个核心问题，它旨在定位并识别图像或视频中的人体关键点和骨骼结构。在许多应用中，如动作识别、行为分析、虚拟现实和增强现实，人体姿态估计都发挥着重要作用。2.基本思路姿态估计有自顶向下（top-down）和自底向上（bottom-up）的两种策略。其中：自顶向下策略首先检测图像中的人物实例，
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一