肢体语言识别系统OpenPose问世,它甚至能明白你的表情

4月23日,卡内基梅隆大学感知计算实验室将其打造的OpenPose——一套可以读懂人类肢体语言的库放在了GitHub上,并于6月和7月相继开源了核心的面部和手部识别源代码。源码网址:https://github.com/CMU-Perceptual-Computing-Lab/openpose

据放在GitHub上的资料显示,OpenPose是世界上第一个实时多人关键点检测和多线程的C++库,归属于卡内基梅隆大学6月刚启动,旨在推进人工智能研究和教育的CMU AI计划。任何人,只要不涉及商业用途都可以用它来构建自己的肢体跟踪系统。

OpenPose整个项目的开发者有6人,分别是来自机器人学院的助理研究员Ginés Hidalgo Martínez、Zhe Cao、Shih-En Wei,博士生Tomas Simon、Hanbyul Joo以及提供指导意见的副教授Yaser Sheikh。而OpenPose实际就是他们在做实时多人2D姿态估计、动态3D重建与手部关键点检测等多项计算机视觉项目的成果。

此外,他们还开发有面部跟踪库IntraFace和形似冰屋的大型多视点系统Panoptic Studio,这些也被用到OpenPose的开发中,以拓展其功能,因而,现在的OpenPose不仅可以跟踪人体躯干和四肢,连面部动作和单个手指都可以被捕捉到。

识别的大致过程是,首先由摄像机捕获到2D图像,之后OpenPose中的关键点检测器会识别并标记出身体特点的部位,帮助身体跟踪算法了解不同角度下每个姿势的表现,并以3D彩色火柴人的形式呈现出来。识别的过程与摄像系统和计算能力息息相关,因而在由500多台摄像机构成的Panoptic Studio中,OpenPose的性能十分夸张,可以实时检测130个人体关键点,而放到个人计算机上运行,追踪的人越多,则计算与渲染的时间则越长,耗时一百多个小时也不是没有可能,因而OpenPose才要配置多线程模块来加速处理。

总的来说,OpenPose相当于以前体感游戏所应用的身体追踪技术的升级版,但与微软Kinect追踪20个关键点相比,OpenPose要细致得多,同一个动作,Kinect感知到一个人在抬手,而OpenPose则可以观察到这个人实际是用手指指向了某样东西。面部跟踪方面,Kinect里整个头部只是一个点,而OpenPose里眉、眼、鼻、口能被数十个关键点描绘出来,别说肢体语言,就是表情都能被识别。

用开发者Yaser Sheikh自己的话来讲,OpenPose本质是是开辟了一种新的人机交互方式。相比于键盘鼠标而言,人用肢体动作和面部表情能表达的内容比键盘鼠标要丰富得多,比如目前的体感设备就无法区别,面前这个手舞足蹈的人,究竟是兴奋呢,还是因愤怒而发泄。

而当OpenPose被运用到了时兴的人工智能与VR/AR领域,即便脱离了键鼠,人与计算机的沟通也不会存在障碍,反而更贴近现实之中人的沟通、更自然一点,可以把死的设备当成一个能大致了解你情绪的对象,进而,在如康复治疗、社交等领域,人工智能就能结合当时的情况揣摩用户心理,提供更个性化的方案。或者,当它“看到”一群人都在等红灯,突然一个人朝着马路对面走过去,这时就能立即发出警告,这也是多人追踪更广阔的应用之一。

目前,OpenPose的开源已经吸引了数千用户参与完善,而包括汽车集团在内的20多个企业也对这个项目产生了兴趣。感知计算实验室正在制定软件下载和商业许可证,其很快将被应用于现实生产和生活中。

你可能感兴趣的:(机器学习)