light169

姿态估计之3D 人体姿态估计 - 总结（1）【转】

参考

3D 人体姿态估计简述 - 知乎
3D人体姿态估计（介绍及论文归纳）
【2021-CVPR】Graph Stacked Hourglass Networks for 3D Human Pose Estimation
2D/3D人体姿态估计（2D/3D Human Pose Estimation）

0 前言

3D Human Pose Estimation（以下简称 3D HPE ）的目标是在三维空间中估计人体关键点的位置。3D HPE 的应用非常广泛，包括人机交互、运动分析、康复训练等，它也可以为其他计算机视觉任务（例如行为识别）提供 skeleton 等方面的信息。关于人体的表示一般有两种方式：第一种以骨架的形式表示人体姿态，由一系列的人体关键点和关键点之间的连线构成；另一种是参数化的人体模型（如 SMPL [2]），以 mesh 形式表示人体姿态和体型。

近几年，随着深度学习在人体姿态估计领域的成功应用，2D HPE 的精度和泛化能力都得到了显著提升。然而，相较于 2D HPE，3D HPE 面临着更多的挑战。一方面，受数据采集难度的限制，目前大多数方法都是基于单目图像或视频的，而从 2D 图像到 3D 姿态的映射本就是一个多解问题。另一方面，深度学习算法依赖于大量的训练数据，但由于 3D 姿态标注的难度和成本都比较高，目前的主流数据集基本都是在实验室环境下采集的，这势必会影响到算法在户外数据上的泛化性能。另外，2D HPE 面临的一些难题（例如自遮挡）同样也是 3D HPE 亟待解决的问题。

一、基本概念

1.1 算法改进思路：

网络设计
特征流
损失函数
把问题黑箱化或者半黑箱化，然后从神经网络结构设计、数据处理、增强以及其他机器学习数学方法去暴力式的解决。
PersonLab和PifPaf引入复合场(Composite Field)的概念，预测人为设计好的高维度向量来处理人体姿态预测问题，让模型预测更加巧妙的监督信息, 并且能降低量化误差，设计保持期望的一致性的关联肢体得分公式，再加之快速贪心算法，利用人体的连通特性就能得到多人姿态
提出无监督的方式处理人体部件

1.2 数据集

目前，3D姿态估计的主要瓶颈是缺少大型的室外数据集，并缺少一些特殊姿态的数据集（如摔倒, 打滚等）。这主要由于3D姿态数据集是依靠适合室内环境的动作捕捉（MOCAP）系统构建的，而MOCAP系统需要带有多个传感器和紧身衣裤的复杂装置，在室外环境使用是不切实际的。因此数据集大多是在实验室环境下建立的，模型的泛化能力也比较差。

1.2.1 类型

RGB图像
- 特征：形状、颜色和纹理
- 用途：提取兴趣点和光流
深度图像
- 深度信息对光照变化不敏感
- 深度信息对颜色和纹理不变性
- 可靠地估计人体轮廓和骨架
- 提供场景中丰富的三维结构信息
RGB+D图像
- 骨骼数据
- 包含人体关节位置

不同数据类型的识别方法

1.2.2 可用信息

空间信息（spatial information）
时间信息（temporal information）
结构信息（structural information）

1.2.3 姿态数据集

1、PoseTrack：人体及关键点的跟踪数据集

2、CrowdPose

3、Human3.6M

数据集链接
处理数据方式：
Toolbox
fetch

1.3 人体姿态估计

集成新一代AutoML技术，降低算法试错成本
人体姿态估计（Human Pose Estimation）：指图像或视频中人体关节的定位问题。即，在所有关节姿势的空间中搜索特定姿势。
2D姿态估计（2D Pose Estimation）：从RGB图像估计每个关节的2D Pose (x, y) 坐标。
3D姿态估计（3D Pose Estimation）：从RGB D图像中估计每个关节的3D Pose (x, y, z) 坐标。
Human Pose Estimation 又被称为 Human Keypoint Detection
人体位姿：
- 位姿中的每一个坐标点被称为一个“部分 (part) ”或关节 (joint) 或关键点 (keypoint)
- 两个部分之间的有效连接被称为一个“对 (pair) ”或肢体
- 不是所有的关节之间的两两连接都能组成有效的pair（肢体）
基于判别的方法：把姿态估计当做一个回归问题

1.3 人体结构化特性

身体部位比例
左右对称性
互穿性约束
关节界限（例如肘部不能向后弯曲）
身体的连通性（例如手腕与肘部刚性相关）

姿态估计难点

小且几乎看不到的关节
部分遮挡 (partial occlusion)
不同视角 (view-point)
衣服颜色 (black is bad) 及材质
光照变化 (lighting change)
背景杂乱 (background clutter)

1.4 2D 姿态估计

单人姿态估计
- Benchmark: MPII (2014)
- 代表作： CPM (CVPR 2016), Hourglass (ECCV 2016)
多人姿态估计
- Benchmark: COCO (2016), CrowdPose (2018)
- 自下而上: OpenPose (CVPR 2017), Associative Embedding (NIPS 2017)
- 自上而下: CPN (CVPR 2018), MSPN (Arxiv 2018), HRNet (CVPR 2019)
挑战：遮挡、复杂背景、特殊姿态

1.5 3D 姿态估计

1.5.1 问题

从图片或视频中估计出关节点的三维坐标 (x, y, z) （回归问题）

输入：包含人体的图片
输出：N*3个人体关节点

1.5.2 挑战

巨大的3D姿态空间、自遮挡
单视角2D到3D的映射中固有的深度模糊性、不适定性（一个2D骨架可以对应多个3D骨架）
缺少大型的室外数据集（主要瓶颈）
- 缺少特殊姿态的数据集（如摔倒，打滚等）
- 由于数据集是在实验室环境下建立的，模型的泛化能力较差
- 3D姿态数据集是依靠适合室内环境的动作捕捉（MOCAP）系统构建的，系统需要带有多个传感器和紧身衣裤的复杂装置，在室外环境使用是不切实际的

1.5.3 应用

动画、游戏、运动捕捉系统、行为理解、姿态估计可以作为其他算法的辅助环节
人体姿态估计与人体相关的其他任务一起联合学习（人体解析）

1.5.4 方法

1、从2D图片直接暴力回归得到3D坐标

3D Human Pose Estimation from Monocular Images with Deep Convolutional Neural Network (ACCV 2014)
Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose (CVPR 2017)
通过深度学习模型建立单目RGB图像到3D坐标的端到端映射，虽然能从图片中获取到丰富的信息，但没有中间监督的过程，模型受到图片的背景、光照和人的穿着影响较大，对于单一模型来说需要学习的特征也太过复杂。

2、先获取2D信息，然后再“提升”到3D姿态

联合2D，3D共同训练（2D信息通常以heatmap来表示）
- Towards 3D Human Pose Estimation in the Wild (ICCV 2017)
- 3D Hand Shape and Pose Estimation from a Single RGB Image (CVPR 2019)
- 需要复杂的网络架构和充足的训练样本。
直接用预训练好的2D姿态网络，将得到的2D坐标输入到3D姿态估计网络中（得益于2D姿态估计较为成熟）
- Simple Yet Effective Baseline (ICCV 2017)
- 3D human pose estimation in video with temporal convolutions (CVPR 2019)
- 2D姿态网络: Hourglass (ECCV 2016), CPN (CVPR 2018)
- 优点：
  - 减少了模型在2D姿态估计上的学习压力
  - 网络结构简单，轻量级
  - 实时性，快速
  - 训练快，占用显存少
- 缺点
  - 缺少原始图像输入，可能会丢失一些空间信息
  - 2D姿态估计的误差会在3D估计中放大
为什么要从2D姿态估计到3D姿态估计
- 因为基于检测的模型在2D的关节点检测中表现更好，而在3D空间下，由于非线性程度高，输出空间大，所以基于回归的模型比较流行。

1.6 当前主流研究的基本问题与难点

在神经网络结构的设计。目前的研究方法可以分成两大种类：

1.6.1 Top-Down 自上而下

先通过目标检测检测到人体，再做人体姿态估计的两阶段方法。
（G-RMI, RMPE, CPN, SimpleBaseline, HRNet, …）

优缺点：
- 受到了目标检测任务的限制
- 基于 bounding box 的单人姿态估计问题，在面对遮挡问题容易受到挫折
- 精度高，实时性较差
- 小尺寸图像限制
- 计算资源有限
- 量化精度问题：量化精度问题实际上是一种工程问题, 它的本质来源在于, 计算机图像像素位置处于离散空间, 但是真实关键点位置位于连续空间,很多数据变换公式只能近似到离散的像素位置, 所以很多估计都是有偏的, 也有论文19-arXiv-The Devil is in the Details: Delving into Unbiased Data Processing for human pose estimation 在讨论姿态估计中数据变换出现的偏差问题.

1.6.2 Bottom-Up 自下而上

针对整副图像的多人关键点检测，检测所有关键点候选位置的同时，一般会有一定的算法关联或匹配到相似人体（openpose动态规划, associative embedding的tag匹配, personlab的贪婪算法等等Deepcut, OpenPose, Aassociative Embedding, PersonLab）。
Bottom-up方法是一种更值得研究的方法，是走向实时姿态估计的主要途径。
相关论文：ICCV-19, 也提出了single-stage multi-person pose machine；19-arxiv-objects as points；19-arxiv-DirectPose: Direct End-to-End Multi-Person Pose Estimation

优缺点：
- 精度不如Top-down的更加精准，但是实时性更好
- bounding box free
- 面对拥挤问题、遮挡问题仍然容易受到挫折
- 图像上的人体的尺度大小，未经归一化，分布很不均匀，关键点特征的提取难大于Top-down的方法
- 小尺寸图像的量化精度问题 (PersonLab, Pifpaf的offset预测)

1.7 发展（CVPR论文归纳——2D/3D姿态估计）

发迹于2014年, CVPR: Google的DeepPose，同年出现了MPII数据集（Max-Planck ）以及MS-COCO数据集。NeurIPS还出现了纽约大学LeCun等人将CNN和Graphical Model联合训练，并使用了heatmap的表示方法。
2016年: CVPR：CMU的Convolutional Pose Machine (CPM)和德国的马克斯普朗克研究所Deepcut以及Stacked Hourglass 网络结构设计的出现。
2017年: CVPR：Google的G-RMI开启基于目标检测的人体姿态估计方法。CMU的OpenPose系统出现，致力于打造实时姿态估计系统。Deepcut的改进版DeeperCut出现。同年ICCV上，Mask RCNN、上海交通大学的RMPE以及随后的AlphaPose崭露头角, NeurIPS2017也出现了 Associative Embedding 以新的端到端的方式来避免人体姿态估计多阶段不连续学习的问题。
2018年：CVPR上出现了旷世的CPN拿下了2017年COCO挑战赛的冠军, ECCV上微软亚洲研究院的SimpleBaseline用自上而下的方法为姿态估计打造最简单的baseline，并刷新了COCO数据集的新高。ECCV上还出现了来自中东技术大学的Muhammed Kocabas提出了MultiPoseNet，以及Google的自下而上多任务的新作PersonLab, 值得一提的是还有一些开辟新的研究角度的方法如ECCV上美国西北大学part-based的姿态估计方法Deeply learned compositional models 。2018年的另外一个趋势就是，新问题新任务的出现，比如CVPR18的DensePose标志着密集关键点人体姿态估计任务的出现, 2D pose track 任务(CVPR2018 PoseTrack数据集)的提出, 以及3D 姿态估计问题的兴起…
2019年CVPR, 姿态估计再次呈现一个小爆发. HRNet的出现, 成为了姿态估计任务中更强的baseline模型, 其结构本身也具备较强的泛化性, 可以作为backbone的候选. 2019 CVPR上还有 PIFPAF,针对小尺度的姿态， Enhanced Channel-Wise and Spatial Information Pose加入了attention的模块到神经网络结构中，Related Parts Help 探讨了将人体部件划分为多个group进行学习的好处，Crowded Pose 针对拥挤场景, Fast Human Pose 使用大模型的知识蒸馏，Pose2Seg 引入像素分割等等, ICCV2019 上也有了 single-stage multi person pose machines, 大量的研究在探讨姿态估计的问题, 并且3D 姿态估计即将成为主流。当然, 2D姿态估计任务仍然是值得去深入探讨的问题, 因为一些本质上的难题目前还没有完全的洞察和有效的解决方案, 比如严重遮挡,多人重叠问题等等。另外，数据集MPII, COCO数据集上的"刷性能" 也依然是大家孜孜不倦的追求，性能再次来到了新高。

2020年CVPR：

Distribution-Aware Coordinate Representation for Human Pose Estimation
主页：https://ilovepose.github.io/coco/
论文地址：https://arxiv.org/abs/1910.06278
代码：https://github.com/ilovepose/DarkPose
Cascaded Deep Monocular 3D Human Pose Estimation With Evolutionary Training Data
论文地址：https://arxiv.org/abs/2006.07778
代码：https://github.com/Nicholasli1995/EvoSkeleton
Bodies at Rest: 3D Human Pose and Shape Estimation from a Pressure Image using Synthetic Data
论文地址：https://arxiv.org/abs/2004.01166
代码：https://github.com/Healthcare-Robotics/bodies-at-rest
数据集：https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/KOA4ML
Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image Synthesis
主页：http://val.cds.iisc.ac.in/pgp-human/
论文地址：https://arxiv.org/abs/2004.04400
Compressed Volumetric Heatmaps for Multi-Person 3D Pose Estimation
论文地址：https://arxiv.org/abs/2004.00329
代码：https://github.com/fabbrimatteo/LoCO
Cross-View Tracking for Multi-Human 3D Pose Estimation at over 100 FPS
论文：https://arxiv.org/abs/2003.03972
数据集：暂无
Back to the Future: Joint Aware Temporal Deep Learning 3D Human Pose Estimation
论文地址：https://arxiv.org/abs/2002.11251
代码：https://github.com/vnmr/JointVideoPose3D
VIBE: Video Inference for Human Body Pose and Shape Estimation
论文地址：https://arxiv.org/abs/1912.05656
代码：https://github.com/mkocabas/VIBE

2021年CVPR：

Pose Recognition with Cascade Transformers
论文地址：https://arxiv.org/abs/2104.06976
代码：https://github.com/mlpc-ucsd/PRTR
DCPose: Deep Dual Consecutive Network for Human Pose Estimation
论文地址：https://arxiv.org/abs/2103.07254
代码：https://github.com/Pose-Group/DCPose
HybrIK: A Hybrid Analytical-Neural Inverse Kinematics Solution for 3D Human Pose and Shape Estimation
主页：https://jeffli.site/HybrIK/
论文地址：https://arxiv.org/abs/2011.14672
代码：https://github.com/Jeff-sjtu/HybrIK
Monocular 3D Multi-Person Pose Estimation by Intergrating Top-Down and Bottom-Up Networks
论文地址：https://arxiv.org/abs/2104.01797
github地址：https://github.com/3dpose/3D-Multi-Person-Pose（暂未开源）

1.8 评估指标

Mean Per Joint Position Error (MPJPE): Protocol 1，关节点坐标误差的平均值
- 网络输出的关节点坐标与ground truth的平均欧式距离（通常转换到相机坐标）
Procrustes analysis MPJPE (P-MPJPE): Protocol 2，基于Procrustes分析的MPJPE
- 先对网络输出进行刚性变换（平移，旋转和缩放）向ground truth对齐后，再计算MPJPE
Percentage of Correct Key-points (PCK)，正确关键点的百分比
- 如果预测关节与ground truth之间的距离在特定阈值内，则检测到的关节被认为是正确的
- [email protected]：阈值=头骨连接的50% (head bone link)
- [email protected]：预测关节和真实关节之间的距离<0.2*躯干直径（torso diameter）
- 有时采用150mm作为阈值, 由于较短的肢体具有较小的躯干和头部骨骼连接，因此可以缓解较短肢体的问题
- PCK可用于2D和3D
Percentage of Correct Parts (PCP)，正确部件的百分比
- 如果两个预测的关节位置与ground truth之间的距离小于肢体长度的一半，则认为肢体被检测到
- 如果两个预测关节位置和真实关节位置之间的距离小于肢体长度的一半（通常表示为[email protected]），则认为检测到肢体（正确的部分）
- 测量肢体的召回率。缺点是，由于较短的肢体具有较小的阈值，因此它对较短的肢体的惩罚更大
- PCP越大，模型越好
Percentage of Detected Joints - PDJ，检出关节的百分比
- 如果预测关节和真实关节之间的距离在躯干直径的某一比例范围内，则认为检测到的关节是正确的
- [email protected]=预测关节和真实关节之间的距离<0.2*躯干直径
Object Keypoint Similarity (OKS) based mAP
- 用于COCO关键点检测挑战赛中

1.8 代码

Pytorch-Human-Pose-Estimation
microsoft / human-pose-estimation.pytorch
facebookresearch / DensePose
- 数据集
CMU-Perceptual-Computing-Lab / openpose C++
- 数据集
Convolutional Pose Machines
Fast Human Pose Estimation CVPR2019
DarkPose- UESTC

人体坐姿检测系统开发实战（YOLOv8+PyTorch+可视化） Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
本文将手把手教你构建智能坐姿检测系统，结合目标检测与姿态估计技术，实现不良坐姿的实时识别与预警###一、项目背景与价值现代人每天平均坐姿时间超过8小时，不良坐姿会导致：-脊椎压力增加300%-颈椎病发病率提升45%-腰椎间盘突出风险增加60%本系统通过计算机视觉技术实时监测坐姿状态，对驼背、侧倾、前倾等不良姿势进行智能识别和预警。相较于传统传感器方案，我们的视觉方案具有非接触、低成本、易部署的优势
【无人机/平衡车/机器人】详解STM32+MPU6050姿态解算—卡尔曼滤波+四元数法+互补滤波——附3个算法源码
1.卡尔曼滤波卡尔曼滤波是一种线性最优估计方法，用于估计动态系统的状态。在姿态解算中，我们可以使用卡尔曼滤波来融合陀螺仪和加速度计的数据，以获得更稳定的姿态估计。以下是一个简单的卡尔曼滤波器实现：```c#include"kalman.h"voidKalman_Init(Kalman_TypeDef*Kalman){Kalman->P[0][0]=1;Kalman->P[1][1]=1;Kalma
使用MATLAB和Simulink来构建一个基于扩展卡尔曼滤波器（EKF）的定位系统 xiaoheshang_123 手把手教你学 MATLAB 专栏 MATLAB 开发项目实例 1000 例专栏 matlab simulink
目录一、准备工作二、步骤详解第一步：创建Simulink模型第二步：定义传感器模型第三步：设计扩展卡尔曼滤波器（EKF）第四步：实现EKF控制器第五步：整合控制系统第六步：设置参考轨迹或姿态第七步：运行仿真并分析结果注意事项结论基于多传感器融合的卡尔曼滤波定位系统仿真可以帮助我们理解如何利用不同类型的传感器数据来提高四翼无人机（Quadcopter）的位置和姿态估计精度。在这个教程中，我们将使用M
实时姿态估计：MediaPipe人体关键点检测实战教程 AIGC应用创新大全 ai
实时姿态估计：MediaPipe人体关键点检测实战教程关键词：实时姿态估计、MediaPipe、人体关键点检测、BlazePose、计算机视觉摘要：本文将带你从0到1掌握MediaPipe人体关键点检测技术。我们会用“给人体贴标记”的生活比喻解释核心概念，通过Python代码实战演示如何在5分钟内实现实时姿态估计，并结合健身动作分析、AR互动等真实场景，帮你理解这项技术的底层逻辑和应用价值。无论你
基于深度学习的IMU解算 SEU-WYL 深度学习dnn 深度学习人工智能 dnn
基于深度学习的惯性测量单元（IMU）解算是一种利用深度学习算法处理和分析IMU数据，以提升姿态估计、运动轨迹跟踪和定位精度的方法。IMU通常由加速度计、陀螺仪和磁力计组成，广泛应用于智能手机、无人机、机器人、虚拟现实（VR）和增强现实（AR）等领域。以下是关于这一领域的系统介绍：1.任务和目标IMU解算的主要任务是从IMU传感器数据中准确估计物体的姿态（姿态角、姿态矩阵或四元数）、速度和位置。具体
深入了解MediaPipe：谷歌开源的跨平台视觉AI框架云探手势识别人工智能 python 手势识别 MediaPipe
在计算机视觉领域，实时性、跨平台支持与开发效率一直是开发者追求的目标。Google推出的开源框架MediaPipe正是为了解决这些问题而生。无论你是从事人脸识别、姿态估计还是手势识别，MediaPipe都能为你提供高效、实时的解决方案。本文将带你全面了解MediaPipe的功能、架构、应用场景及如何快速上手使用。一、什么是MediaPipe？MediaPipe是GoogleResearch推出的一
使用预训练PoseNet模型在安卓应用中进行人体关键点检测 t0_54program 大数据与人工智能 android 个人开发
在当今的计算机视觉领域，姿态估计是一项关键任务，它旨在检测物体的姿态，也就是物体的方向和位置。其实现原理是通过检测一系列关键点，借此了解物体的主要部分，并估计其当前的方向。基于这些关键点，我们能够以2D或3D形式构建物体的形状。在本篇教程中，我们将利用预训练的PoseNet模型，在安卓应用里检测人体的关键点。一、基础安卓项目为节省时间，我们以TensorFlowLitePoseNet安卓演示项目为
Unity+MediaPipe虚拟试衣间技术实现全攻略白木橙花 unity 游戏引擎
引言：数字时尚革命的序章在元宇宙概念席卷全球的今天，虚拟试衣技术正成为连接物理世界与数字孪生的关键桥梁。本文将深入解析基于Unity引擎结合MediaPipe姿态估计框架的虚拟试衣系统实现，涵盖从环境搭建到完整AR试穿界面开发的全流程，最终实现支持实时人体追踪、多服装物理模拟及用户反馈的完整解决方案。一、技术选型与架构设计1.1技术栈组合逻辑Unity3D引擎：跨平台渲染核心，提供物理引擎(Phy
[论文阅读]Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression qian9905 姿态估计论文阅读论文阅读深度学习机器学习
该论文发表于CVPR2021Background背景该论文关注的是的是自底向上的关键点回归人体姿态估计，作者认为回归关键点坐标的特征必须集中注意到关键点周围的区域，才能够精确回归出关键点坐标。因此提出了一种名为解构式关键点回归（DEKR）的方法。这种直接回归坐标的方法超过了以前的关键点热度图检测并组合的方法，并且在COCO和CrowdPose两个数据集上达到了目前自底向上姿态检测的最好结果上图作者
基于OpenCV 的人体姿态估计欣然～ 3d
这是一个基于OpenCV的人体姿态估计系统，能够从摄像头视频流中实时检测人体关键点，并通过简化算法重建3D姿态，最后在3D空间中进行仿真展示。系统主要包含2D姿态检测、3D姿态重建和3D仿真三个核心模块。模块导入与环境准备python运行importcv2importnumpyasnpimportosimporttimeimportmatplotlib.pyplotaspltfrommpl_too
nlf 2025 部署笔记 AI算法网奇动捕人工智能
目录jit部署测试命令nlf-pipepinenlf-pipeline依赖项：stcnbuf人体分割，没有sam2好framepump库报错：分割算法：stcn.pth相机姿态估计：jit部署测试命令python-c"importtorch;importtorchvision;torch.jit.load('/shared_disk/models/others/nlf/models/nlf_l/n
建筑工地安全智能监测：基于多任务姿态估计与场景理解的联合优化方案燃灯工作室 Ai 深度学习 pytorch 零售神经网络
一、技术原理与数学模型1.1姿态估计基础模型采用OpenPose架构改进方案，定义人体关节点坐标预测公式：P=f(I;θ_p)=[(x_1,y_1,c_1),...,(x_n,y_n,c_n)]其中I为输入图像，θ_p为姿态估计网络参数，c_i为置信度评分1.2场景理解图卷积网络构建场景元素关系图G=(V,E)，节点特征更新公式：h_v^{(l+1)}=σ(W^{(l)}h_v^{(l)}+∑_{
计算机视觉入门到精通：从理论到实战的全面指南 qsmyhsgcs 计算机视觉人工智能图像处理神经网络深度学习图像分割 OpenCV
一、引言计算机视觉旨在让计算机能够“看”懂世界，通过对图像或视频数据的处理和分析，提取出有用的信息。随着深度学习技术的飞速发展，计算机视觉领域取得了突破性进展，许多曾经难以解决的问题如今都得到了有效解决。本文将围绕计算机视觉的核心内容，为读者提供一份全面的学习指南。二、计算机视觉基础概念1.计算机视觉的主要任务计算机视觉的主要任务包括图像分类、目标检测、图像分割、人脸识别、姿态估计和图像增强等。图
YOLOv8-pose+streamlit 实现人体关键点检测/姿态估计系统 Jumbuck_10 深度学习项目 YOLO 深度学习关键点检测计算机视觉 python 健身姿态估计
人体关键点检测系统一、安装与配置1.1安装Streamlit1.2配置文件1.3运行Streamlit应用1.4找模板二、人体关键点检测算法2.1关键点序号2.2YOLOv8-pose图像推理三、将YOLOv8-pose算法内置到streamlit中3.1整体结构3.2常见问题-RGB通道颠倒-Numpy与OpenCV之间的转换四、效果展示五、源码一、安装与配置1.1安装Streamlit在命令行
基于Python和PyTorch的实现示例，结合YOLOv8进行人体检测、HRNet进行姿态估计，以及LSTM进行时间序列分析。人工智能专属驿站计算机视觉
视频输入：从摄像头或视频文件中读取视频流。人体检测与跟踪：使用目标检测模型（如YOLOv8、EfficientDet）检测视频帧中的人体。使用目标跟踪算法（如DeepSORT）跟踪人体，确保连续帧中的人体ID一致。姿态估计：使用姿态估计模型（如HRNet、OpenPose）提取人体的关键点（如头、肩、肘、膝、踝等）。关键点信息用于分析人体的姿态和运动。时间序列分析：使用时间序列模型（如LSTM、G
ROS & ROS2 机器人深度相机激光雷达多传感器标定工具箱强化学习与机器人控制仿真机器人数码相机人工智能深度学习计算机视觉视觉检测自动驾驶
系列文章目录目录系列文章目录前言三、标定目标3.1使用自定义标定目标四、数据处理4.1相机数据中的标定目标检测4.2激光雷达数据中的标定目标检测输入过滤器：正常估算：区域增长：尺寸过滤器：RANSAC：4.3用于2D-3D姿态估计的透视点算法4.4用于3D-3D配准的GICP4.5误差计算和标定确定性估计五、工作区5.1机器人工作区5.1.1初始化新机器人工作区六、节点、可组合节点和小节点6.1节
H36M-Toolbox 开源项目教程章来锬
H36M-Toolbox开源项目教程H36M-Toolbox项目地址:https://gitcode.com/gh_mirrors/h3/H36M-Toolbox项目介绍H36M-Toolbox是一个用于处理和分析Human3.6M数据集的工具箱。Human3.6M是一个大规模的人体姿态估计数据集，包含超过300万张图像和详细的3D姿态标注。H36M-Toolbox提供了一系列工具和脚本，帮助研究
基于MediaPipe的智能俯卧撑计数与姿势矫正系统机器懒得学习 python 人工智能深度学习
在现代健身和体能训练中，俯卧撑是最基础也是最有效的自重训练动作之一。然而，许多人在进行俯卧撑训练时常常存在姿势不正确、计数不准确等问题。本文将介绍如何利用计算机视觉和姿态估计技术，开发一个智能的俯卧撑计数与姿势矫正系统。技术背景本系统主要基于以下核心技术：MediaPipePose解决方案：Google开发的实时姿态估计框架OpenCV：计算机视觉处理库NumPy：科学计算库，用于角度计算Pand
Deepmotion技术浅析（四）：人体姿态估计爱研究的小牛 AIGC—虚拟现实 AIGC—视频 AIGC—游戏制作人工智能深度学习机器学习 AIGC
人体姿态估计是DeepMotion动作捕捉和3D重建流程中的核心模块之一。该模块的主要任务是从输入的视频帧中检测并定位人体关键点（如关节、头部、手脚等）的位置。DeepMotion的人体姿态估计模块不仅支持2D关键点检测，还能够进行3D关键点估计，为后续的动作追踪、3D重建和动画生成提供基础数据。包括：1.2D关键点检测工作原理模型架构详解（OpenPose,HRNet）模型结构公式推导训练过程关
点云数据集汇总整理（持续更新......）点云SLAM 点云数据处理技术点云数据集点云数据模型 SLAM 点云识别点云分割点云配准深度数据
点云数据集在计算机视觉和深度学习中用于各种任务，包括三维重建、物体识别、语义分割、姿态估计等。整理点云数据集时，可以根据应用场景和数据集的特性进行分类。以下是一些知名和常用的点云数据集的汇总：1.ModelNet系列ModelNet10/ModelNet40：描述：包含3DCAD模型的点云数据集，用于分类任务。ModelNet10包含10类物体，ModelNet40包含40类物体。应用：物体分类、
【每日论文】DINeMo: Learning Neural Mesh Models with no 3D Annotations WHATEVER_LEO 每日论文 3d 人工智能计算机视觉神经网络深度学习自然语言处理
下载PDF或查看论文，请点击：LlamaFactory-huggingfacedailypaper-每日论文解读|LlamaFactory|LlamaFactory探索LlamaFactory，为你解读AI前沿技术文章，快速掌握最新技术动态https://www.llamafactory.cn/daily-paper/detail/?id=1793摘要层级3D/6D姿态估计是实现全面3D场景理解的
3d pose 指标和数据集 AI算法网奇数据结构与算法 3d
目录3D姿态估计、3维重建指标：数据集EHF数据集SMPL-X3D姿态估计、3维重建指标：MVE、PMVE和p-MPJPE都是用于评估3D姿态估计、三维重建等任务中预测结果与真实数据之间误差的指标。MVE(MeanVertexError)：是指模型重建过程中每个顶点的预测位置与真实位置之间的平均误差。通常用于评估三维重建的精度。PMVE(Pre-matchedVertexError)：这个指标是在
YOLOv8目标检测算法详解培根芝士 AI YOLO 目标检测
YOLOv8是Ultralytics公司最新推出的Yolo系列目标检测算法，建立在Yolo系列历史版本的基础上，并引入了新的功能和改进点，以进一步提升性能和灵活性。它是实现目标检测、图像分割、姿态估计等任务的最佳选择之一。YOLOv8是一种基于深度学习的目标检测算法，其核心思想是将目标检测问题转化为一个回归问题，通过一次前向传播过程即可完成目标的位置和类别预测。它继承了YOLO系列算法的优点，如速
Python 的 ultralytics 库详解白.夜人工智能
ultralytics是一个专注于计算机视觉任务的Python库，尤其以YOLO（YouOnlyLookOnce）系列模型为核心，提供了简单易用的接口，支持目标检测、实例分割、姿态估计等任务。本文将详细介绍ultralytics库的功能、安装方法、核心模块以及使用示例。1.ultralytics库简介ultralytics库由Ultralytics团队开发，旨在为YOLO系列模型提供高效、灵活且易
TPAMI 2025 | Glissando-Net: 基于单视图的类别级姿态估计与3D重建小白学视觉论文解读 IEEE TPAMI 3d 深度学习论文解读顶刊论文 IEEE TPAMI
论文信息Glissando-Net:DeepSinglevIewCategoryLevelPoseeStimationANd3DReconstructionGlissando-Net:基于单视图的类别级姿态估计与3D重建作者：BoSun;HaoKang;LiGuan;HaoxiangLi;PhilipposMordohai;GangHua论文创新点联合估计3D形状和6D姿态：Glissando-N
EDPose：探讨端到端的实时多人姿态估计烧技湾 AI &Computer Vision HPE 人体姿态估计端到端检测
作者：曾爱玲（港中文博士，现已入职腾讯）单位：IDEA（深圳数字经济研究院）源码：github/ED-Pose该篇论文取得效果如下：这篇文章的优势在于：在复杂的多人场景下能够取得不错的性能提升，虽然在COCO等数据集上的提升不明显。这种端到端的方法，优势在于检测到人体是检测到关键点的一个保证。目录摘要一、介绍二、相关工作2.1.单阶段多人姿态估计2.2检测变压器：三、重新思考单阶段多人姿态估计3.
【计算机视觉】手势识别油泼辣子多加计算机视觉计算机视觉 opencv 人工智能
手势识别是计算机视觉领域中的重要方向，通过对摄像机采集的手部相关的图像序列进行分析处理，进而识别其中的手势，手势被识别后用户就可以通过手势来控制设备或者与设备交互。完整的手势识别一般有手的检测和姿态估计、手部跟踪和手势识别等。一、手掌检测importcv2importmediapipeasmp#初始化MediaPipe手部模型mp_hands=mp.solutions.handshands=mp_
【模块】Non-local Neural dearr__ 扒网络模块深度学习 pytorch python
论文《Non-localNeuralNetworks》作用非局部神经网络通过非局部操作捕获长距离依赖，这对于深度神经网络来说至关重要。这些操作允许模型在空间、时间或时空中的任何位置间直接计算相互作用，从而捕获长距离的交互和依赖关系。这种方法对于视频分类、对象检测/分割以及姿态估计等任务表现出了显著的改进。机制非局部操作通过在输入特征图的所有位置上计算响应的加权和来实现，其中权重由位置之间的关系（如
YOLOv11快速上手：如何在本地使用TorchServe部署目标检测模型 SYC_MORE YOLOv11 系列教程：模型训练优化与部署全攻略 TorchServe YOLOv11教程模型部署与推理 TorchServe应用目标检测模型训练 YOLO模型导出
引言YOLOv11是最新的目标检测模型，以其高效和准确著称，广泛应用于图像分割、姿态估计等任务。本文将详细介绍如何使用YOLOv11训练你的第一个目标检测模型，并通过TorchServe在本地进行部署，实现模型的快速推理。环境准备在开始之前，确保你的开发环境满足以下要求：Python版本：3.8或以上PyTorch：1.9或以上CUDA：如果使用GPU，加速训练和推理TorchServe：用于模型
在瑞芯微RK3588平台上使用RKNN部署YOLOv8Pose模型的C++实战指南机＿长 YOLO系列模型有效涨点改进深度学习落地实战 YOLO c++开发语言
在人工智能和计算机视觉领域，人体姿态估计是一项极具挑战性的任务，它对于理解人类行为、增强人机交互等方面具有重要意义。YOLOv8Pose作为YOLO系列中的新成员，以其高效和准确性在人体姿态估计任务中脱颖而出。本文将详细介绍如何在瑞芯微RK3588平台上，使用RKNN（RockchipNeuralNetworkToolkit）框架部署YOLOv8Pose模型，并进行C++代码的编译和运行。注本文全
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本