首先,人体的行为特征识别是目前国内外研究和应用的热点,一般结合了机器学习、人工智能、计算机视觉、传感器等技术。而当下国内外对于人体姿态行为的检测方法的研究,主要分为两个方向:一个是基于传感器的接触式姿态行为检测,另一个是基于机器视觉的姿态行为检测。无论是收集行为特征的力学信息和空间信息,还是收集姿态特征的图像信息,都是根据特征数据的特点建立模型,然后进行行为特征的识别判决。基于传感器的接触式行为检测,采集数据方便可靠,但一般需要接触人体,且其精度受传感器硬件、信号传输过程的噪声和环境等不可抗力因素的影响较显著。基于视觉的行为检测在室内环境下具有非接触式的特点,束缚感小,且随着处理器和显卡的运行速度加快,对图像的处理能力己经达到了新的高度,相对稳定,受影响较小,但同时也受环境、设备和算法等因素的影响。
国内而言:
在基于传感器的姿态行为检测领域:
Min Weidong等在2018年提出了一种基于场景识别和语义分析的检测方法对不健康的坐姿进行研究。利用微软Kinect传感器检测和跟踪人体的关键骨骼点,使用快速响应神经网络,通过高斯混合行为聚类进行语义分析,将特征融合到语义特征中,对不同类型的坐姿进行区分。结果表明,该方法能够准确有效地检测屏幕阅读中的各种不健康坐姿,能够检测到更多类型的不健康坐姿,可以广泛地应用到医疗辅助领域。
杜英魁等在2020年设计了一种人体坐姿感知终端。这种感知终端结合端云技术框架,采用电阻式薄膜压力传感器组,采集人体坐姿状态的腿部和臀部压力特征,提出了一种复合限幅滤波方法,进行异常值滤除和平滑预处理,对预处理的压力数据进行降维。在云端构建了使用支持向量机的坐姿多分类算法,从终端获取到轴倾系数,完成人体姿态的多分类计算,通过无线网卡将数据发送至感知终端。实验结果验证了所提算法的有效性。而上述两则成果中,传感器功能较单一,无法满足对人体其他特征行为的检测与判断。
在基于机器视觉的姿态行为检测领域:
香港中文大学汤晓鸥团队设计的GaussianFace_算法,在LFW人脸数据库上准确率达98.52%,首次突破了人眼的识别能力,之后又发表了DeepID系列算法并成功实现了商用。但同时其设计的传统的基于手工设计的人脸特征提取方法人脸识别的准确率往往取决于样本类型和预先编写的规则,无法覆盖到所有的人脸特征和姿态,准确率不高。
2015年,贾若辰通过训练级联分类器,用于人脸识别,通过KLT算法对人脸进行跟踪,但对于特殊人群如身高过高或过低的检测识别率较低。
刘敏等在2019年提出一种基于MTCNN算法的坐姿检测方法,通过卷积神经网络和肩膀区域的定位采集到关键数据,通过支持向量机分类器对六种坐姿进行分类。但是通过背景差分的方法对于肩膀区域不对称的情况未做讨论。李博等提出了一种基于Kinect V2的人体测量和神经网络的人体姿态识别混合方法,该方法综合利用了深度数据、骨骼数据、人体测量学知识和反向传播神经网络(BPNN)。实验证明了混合方法的时效性。识别准确率高,平均值为99.09%.
另外邹方园等人提出一种基于多关联特征的坐姿判别方法。能够对阅读坐
姿的健康性进行评估,能够根据空间方位提取坐姿特征通过交换机神经网络学
习分类,实现了坐姿的判别。
魏华良、王金祥在2020年通过使用帧间差分法和背景差法对背景进行更新,对从室内摄像头采集到的图像进行二值化、滤波去燥处理,创新性地采用基于连通域的方法分析提取特征,使用形心这个指标来反映目标的整体位置,判断得到儿童学习姿势状态,最后对儿童不当姿势进行警告提示。
可以看到国内对于姿态行为检测的研究起步较晚,但也己取得一定的成果,但在深度学习实现姿态行为检测这一方面还有欠缺,研究的深度与广度还不足,尤其是在产品是否能够满足人体特定行为检测的普适性与多样性这一方面。
对于国外:
基于传感器的姿态行为检测方面:
韩国Yong Min Kim等利用机器学习算法开发一个儿童坐姿分类识别系统。使用卷积神经网络算法,初步实现了深度学习,通过压力传感器垫来收集用于分类识别坐姿的数据。提取出五种指定姿势的特征数据。经实验,该算法的准确率较高,有望建立综合姿态监测系统。
Paul等利用机器学习技术识别轮椅使用者姿势,使用压缩最近邻规则选择
原型,使用Kennard-Stone算法进行数据平衡,以及通过主成分分析方法进行
降维。最后,对平衡的预处理数据进行姿态分类识别。
Muhammad Tariq等在2019年将Kinect和多种传感设备整合到物联网框架
中,对坐姿相关的辅助活动的检测方法进行改进。增加了对运动传感器的数据
的收集,然后通过隐马尔可夫模型的交叉验证来分析该数据的鉴别能力。实验
表明,在运动传感器数据的补充下,Kinect平均减少了12%的混淆情况。
基于机器视觉的姿态行为检测方面:
艾哈迈德等提出了一种基于随机决策森林的深度图像无骨架自由落体跌倒
检测系统。通过分析深度像素的局部变化进而识别所采用的姿势。使用类似
Kinect的传感器获取的输入深度帧,处理后使用随机决策森林以分类站立、坐
着和跌倒姿势。使用支持向量机识别坠落事件。具有很高的灵敏度。
Tayyaba Azim 等[1]通过Viola-Jones 人脸检测算法对实验人进行面部定位,根据模糊 C 均值聚类方法对嘴唇位置图像进行分割提取,并将嘴唇区域的几何状态作为特征传递至支持向量机进行分类,以此检测实验人当前的面部姿态。
而国外基于深度学习与机器视觉的人脸检测算法大致可以分为两类:目标检测法和级联法。
目标检测算法的开山鼻祖 Girshick 等人提出 R-CNN[2]模型,该模型首次利用卷积神经网络提取的局部区域特征来进行目标检测,把检测的问题转化为分类问题。一方面能够充分利用卷积神经网络提取到鲁棒的超完备特征,另一方面得益于提出的边框回归算法,能够在粗略选中目标的基础上更加精确的描述目标位置。改进版本Fast R-CNN[3]针对特征的重复计算问题进行了改进,极大提升了检测速度。随后提出的 Faster R-CNN[4]又提升了检测速度和准确度。用 VGG 网络[5]作为特征提取网络时在VOC2007 上的 mAP 可以达到到 73%。
级联法,如 Cascaded CNN[6],是对经典的 Viola-Jones 方法的深度卷积网络实现。 为了减少计算开销,Cascaded CNN前面的神经网络结构较简单,后面的网络结构较复杂,从而得到更加准确的结果。MTCNN[7]同样采用了三阶级联,该算法有三个阶段组成:第一阶段,利用浅层卷积神经网络快速的生成候选区域;第二阶段,通过较复杂的卷积神经网络精炼候选区域,丢弃大量的重叠区域;第三阶段,使用更加复杂的卷积神经网络,实现候选区域的判定,同时预测出五个面部关键点的位置信息。
然而这些方法大多都没有进行联合训练,而是利用贪婪算法进行优化,导致这些方法忽略了卷积神经网络可以被联合优化的特性。此外,由于对多个卷积神经网络进行训练,这些方法的训练开销往往较大。
另外,在基于深度学习与机器视觉的产品测试方面,国外的测试数据集包括:JAFFE日本女性表情数据集,Cohn-Kanade人脸表情数据集,FER2013比赛数据集及耶鲁大学人脸数据集。
综合国内和国外关于姿态行为检测的研究现状,基于传感器的姿态行为检测产品基本无法满足实际需求,而基于机器视觉的姿态行为检测产品具有更大的市场潜力和竞争力,同时也是各方研究的热点,然而当下产品的普适性、完备性还有待考量。因此本项目将着重于引入深度学习的理念,与机器视觉相结合,共同实现对人体行为姿态的检测,以提高产品的功能性,满足各方诉求。
[2] R.B.Girshick, J.Donahue, T.Darrell, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Columbus, 2014, 580-587.
[3] R.B.Girshick. Fast R-CNN[J]. International conference on computer vision, 2015: 1440-1448.
[4] S.Ren, K.He, R.B.Girshick, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[5] K.Simonyan, A.Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. International conference on learning representations, 2015.
[7] K.Zhang, Z.Zhang, Z.Li, et al. Joint Face Detection and Alignment Using Multitask Cascaded