利用机器学习(mediapipe),进行人手的21个3D手关节坐标检测

感知手的形状和动作的能力可能是在各种技术领域和平台上改善用户体验的重要组成部分。例如,它可以构成手语理解和手势控制的基础,并且还可以在增强现实中将数字内容和信息覆盖在物理世界之上。虽然自然而然地出现在人们手中,但是强大的实时手感知力无疑是一项具有挑战性的计算机视觉任务,因为手经常相互遮挡自己或彼此(例如手指/手掌遮挡和握手),并且缺乏高对比度模式。

 MediaPipe Hands是一种高保真手和手指跟踪解决方案。它采用机器学习(ML)来从一个帧中推断出手的21个3D界标。

MediaPipe Hands利用ML管道,该ML管道由多个相互配合的模型组成:

一种手掌检测模型,可在完整图像上运行并返回定向的手边界框。

一个手部界标模型,该模型在由手掌检测器定义的裁剪图像区域上操作并返回高保真3D手部关键点。

将精确裁剪的手部图像提供给手部界标模型可以极大地减少对数据增强(例如旋转,平移和缩放)的需求,并且可以使网络将其大部分功能专用于坐标预测精度。

手掌检测模型

为了检测手的初始位置,设计了模型,该模型针对移动实时使用进行了优化,其方式类似于的人脸检测模型。

通过上述技术,在手掌检测方面达到了95.7%的平均精度。使用规则的交叉熵损失并且没有解码器给出的基线仅为86.22%。

手地标模型

在整个图像上进行手掌检测之后,我们随后的手界标模型将通过回归(即直接坐标预测)对检测到的手区域内

你可能感兴趣的:(mediapipe对象检测算法,机器学习,人工智能,mediapipe,计算机视觉)