视频实时多人姿态估计 cpu fps33+

基于人体姿态的时空动作检测(cpu fps25+)
实时视频动作检测(action detection)
基于人体姿态的跌倒检测.
yolov5 烟雾和火焰检测
文章用到的恒源云详细说明

多人姿态估计是近几年众多领域研究的热点问题。在学科交叉研究方面,人体姿态估计及到计算机科学、运动人体科学、环境行为学和材料科学等。随着相关研究的逐步深入以及计算机视觉、5G通信的飞速发展,人体姿态估计技术已应用于自动驾驶、影视创作、安防异常事件监测和体育竞技分析、康复等实际场景。成为人工智能领域研究的前沿课题,此类研究也将在竞技体育、运动康复、日常健身等方面发挥非常重大的意义。

采用类似centernet结构。
1.Backbone很简单
2.Header的构建就更简单了,输入backbone的特征图,经过各自的几个卷积层,最后输出各自维度的特征图即可。head_center,head_reg,head_offset以便说明:head_heatmap的维度是[N,K,H,W],n是batchsize,训练时自己指定,预测时一般为1;K代表关键点数量,比如17;H、W就是对应的特征图了,这里输入是192x192,降采样4倍就是48x48;它所代表的意义就是当前图像上所有人的关键点的heatmap,注意是所有人的;head_center的维度是[N,1,H,W],这里的1代表的是当前图像上所有人的中心点的heatmap,你可以简单理解为关键点,因为只有一个,所以通道为1;即每一个人的所有关键点的算术平均数,但是我实测这样效果并不好,我自己最终是取得所有关键点得最大外接矩形的中心点,当存在一些较远的关键点的时候,可能算术平均数可以很好的训练大部分距离近的点,但是对较远的点效果差点,而我比较关注手腕这种较远的点,按我这么取对每一个点学习起来差不多,这个就仁者见仁智者见智了,以自己场景实验结果为准;head_reg的维度是[N,2K,H,W],K个关键点,坐标用x,y表示,那么就有2K个数据,就是对应这里的2K通道;那么数据如何构造呢?根据模型结构的拆解,就是在每个人的center坐标位置,按2K通道顺序依次赋值x1,y1,x2,y2,…,这里的x、y代表的是每个人的关键点相对于中心点的偏移值,原始用的是特征图48尺寸下的绝对偏移值,实测换成相对值(即除以size48转换到0-1区间)也是可以的,可以稍微加快收敛,不过几乎没有区别;head_offset的维度是[N,2K,H,W],通道意义一样都是对应K个关键点的坐标,只不过上面是回归偏移值,这里是offset,含义是我们模型降采样特征图可能存在量化误差,比如192分辨率下x=0和x=3映射到48分辨率的特征图时坐标都变为了0。
视频实时多人姿态估计 cpu fps33+_第1张图片
视频实时多人姿态估计 cpu fps33+_第2张图片
源码直接用预训练没有训练代码源码下载
demo视频
下载后有问题可以加) 568897492

你可能感兴趣的:(深度学习,音视频,计算机视觉,人工智能,人体姿态,多人姿态估计)