链接:人体关键点检测与MMPose_哔哩哔哩_bilibili
赶了个进度,实际上没听到,一个方向被浓缩成50分钟是有点难度。后续有需要再回顾吧
人体姿态估计:识别人体关键点坐标。模式识别任务,难点是始终在变化。以关键点连线,2/3D中还原人体姿态。PoseC3D:基于人体姿态识别行为动作。CG动画追踪表情、手势姿态等。
将关键点的检测变成一个回归问题
输入一张图像,输出一个回归的坐标,类似于boundingbox回归的感觉。但是精度不高。是监督学习。
不直接回归关键点坐标,量预测关键点任务变成每个位置的概率
表示关键点位于的概率为1,是热力图,尺寸与原图像相同或者按比例缩小,概率图啊。
类似于分类概率了吧。可以通过求极大值的方法得到关键点的坐标。
热力图相对回归坐标容易一些,模型精度也更高(讲着认为热力图识别关键点符合神经网络特性),但是热力图计算量也比较大。
搜索
将每个点的概率,通过高斯核变成一个热力的概率图。
输入图像->预测热力图
关键点->高斯模糊后的热力图
损失函数是1范式或者2范式
因为是网络是反向传播,模型可以求导,热力图是可以求导的,坐标也可以求导,从而指引热力图
先检测人,然后做单肢体的估计
先检测关键点,然后在组合成单个任务形态
DeepPose(2014)
所有预测类的网络都里能发现这种思路,多阶段变成单阶段,然后单网络变成级联网络。
优势:
劣势:
Residual Log-likelihood Estimation(RLE) (2021)
对关键点位置进行更准确的概率建模,从而提高位置预测的精度
高斯分布不一定符合数据的真实分布???使用均值比较,就是默认服从高斯分布,如果均值一致,服从的分布一致???这里的高斯核刚才讲到的热力图,通过高斯模糊是一个意思,点位置的高斯。
RLE主要是构建概率分布,然后通过最大似然。
回归和最大似然估计的联系。
这里揭示了为啥基于均值比较的二范数回归问题暗含高斯分布。固定方程和各向同性???
RLE是一个可学习的分布???
标准化流 Normalizing Flow
这个是什么意思呢?神经网络学习一个映射?将最初的概率分部映射成复杂的概率密度函数 ?
正向变换是求解映射函数?逆向映射就可以将复杂概率函数恢复成原始的概率分部。
实际上应该是复杂、都类型的分布以通用形式组合而来,类似于小波变换什么的。。。
重参数化设计
也就是将复杂的概率分部通过使用高斯分布去表示,这个是网络模型中常用的方案,在VAE等模型中也提到过。
残差似然函数
也就是在高斯分布x的基础上有一个x_0的概念,这个x_0就是残差似然
残差似然 x 基础似然,通过均值和方差进行平移拉伸,得到最终的似然函数P
网络模型少不了的几大内容都提到了,局部信息、全局信息、残差链接,最终的目的生成热力图
级联的hourglass模块
常规的级联套路,就是一级一级的裁剪、细化
特征提取网络改成resnet了
HRNet
多分辨率网络结构的特征融合,实际上这种网络画起来这种形式反而不好看懂。
这里讲的更多的是融合策略,maxpooling,感觉这种网络结构比较复杂,鲁棒性可能更低,因为相对而言被过拟合了。
HRNet配合不同任务头
Part Affinity Fields & OpenPose
先检测关键点,和四肢走向(四肢走向?),然后利用聚类,两个关键点有某段肢体相连,则关键点属于同一人。
关键点与肢体预测
预测全部肢体的方向场,关键点和对应向量,下一个点也能得到。
肢体定义的关键点亲和度
这里类似于不连续线段检测,如何将不连续的线段组合成一条长的连续线段。
基于亲和度匹配关键点
K部图???不是很懂,大意可能就是首先所有节点全连接,然后按照一定拓扑结合删掉某些链接
单阶段方法
SPM
structured pose representation(spr)
位置和不同的方向的回归
hierarchical SPR
降低由于形变带来的关节点距离差异变化导致的回归难度。
网络设计
根节点+稠密位移图
损失函数
PRTR2021
主要是全局信息吧
STN网络就很常见了,主要是应对多种变化的
TokenPose(2021)
每个关键点是一个token???是把位置信息作为关键点,和token组合了?那预测呢
任务描述
绝对坐标VS相对坐标
难点:从2D图像中回复3D信息
视频帧之间的变换
Coarse-to-fine
Simple Baseline 3D
VideoPose3D
这个是不是就是利用时空信息
VoxelPose
DensePose
mesh