摘要:进入21世纪以来,人机交互技术持续发展,手势识别是代表之一。2013年,华盛顿大学的研究人员提出了使用无线信号进行手势识别的方法,给传统的手势识别技术带来的一定的挑战,但是这一技术并不是很成熟,暂时没有投入商业使用。本文详细介绍了手势识别,并叙述了基于无线射频的手势识别的研究现状。
关键词:无线信号、手势识别、人机交互
一、背景
进入二十一世纪以来,随着世界科技持续不断的进步以及计算机突飞猛进的发展和普及,人机交互技术(Human-Computer Interaction,简称HCI)在世界各国的可持续发展中变得越来越重要。人机交互指的是人与计算机这两者之间通过使用某种指定的交互方式(如鼠标、手势、声音等),去完成指定任务而产生信息交换的过程[1]。人们研究HCI技术的主要目的是实现人与计算机之间的沟通和交流,使得计算机懂得人类的意图,去帮助人们提高其生活质量,构建更加智能的社会。
近年来,伴随虚拟现实、增强现实、可穿戴计算等技术的出现,此时的HCI技术(以计算机为中心的、传统的、基于鼠标和键盘的、单一的交互技术)越来越不能满足人们的需求。因此,多渠道的自然用户交互界面应运而生,顾名思义就是在原有的HCI中,加入了手势、唇语、语音、表情、眼神、意念等人类很自然的信息进行多渠道的交互。更进一步地,我们不仅可以和计算机交互,还可以和手机、智能电视等智能设备进行交互,比如最广为人知的微软公司生产的体感游戏控制系统Kinect[2],不但极大地丰富了人们的生活,而且拓展了HCI技术的应用领域。
手势是一种直观、形象、容易学习、信息量丰富和具有很强视觉冲击的人体语言,通常利用人体发出的动作来传达相关信息,可以称得上是人们日常生活中的第二语言[3]。手势语言清晰明了、自然友好,受到了人们、特别是相关研究人员越来越广泛的关注。由于我们可以用手做出千变万化的动作,而每个动作所代表的含义也是丰富多彩的,因此,研究手势识别对于发展 HCI技术有十分重大的作用,同时对改善人类社会的生活有着巨大的意义:可用于智能家居对家居进行手势控制,减弱对遥控器、移动终端的依赖,减少额外成本;可用于手语识别,帮助聋哑人等不方便人群提高其生活水平;可用于汽车领域中的车联网,如通过用不同的手势唤醒汽车系统的不同功能,如打开娱乐系统,调出导航系统等,不用亲自去按开关按钮,方便司机的操作,减少风险,提高其工作效率;可用于机器人的远程控制,如火灾现场、抗洪抢险一线、矿下作业、化学实验现场等危险不便直接操控的特殊场合下,我们通过手势远程控制机器人作业;可用于搭建家庭娱乐平台,丰富家庭生活,比如应用于体感游戏,增加游戏的趣味性和可玩性;可用于教学或会议,如用手势控制PPT的翻页,文档的打开与关闭,报表的展示等,方便工作[4]。
目前,手势识别的方式主要有基于传感器的手势识别、基于视觉的手势识别、基于无线射频的手势识别。本文重点讨论基于无线射频的手势识别。其中比较成熟的基于无线射频的手势识别系统有:WiVi[5]、WiSee[6]、AllSee[7]、WiTrack[8]等。
二、研究现状
2.1 概述
在人机交互迅猛发展的时代,手势识别作为其极其重要的研究领域,已经引起了世界各国的高度重视。根据手势动作数据采集的渠道不同,我们可以将其主要分为三个方向(Figure 1):基于传感器(Sensor-based)的手势识别、基于视觉(Vision-based)的手势识别和基于无线射频(RF-based)的手势识别[4]。
随着无线技术(Wireless Technology)的提高和无线网络的覆盖范围面积的扩大,基于IEEE 802.11a/g/n协议的无线路由器慢慢普及到我们的日常生活当中。我们周围几乎时时刻刻都存在着无线信号(如图1-5),如中国移动的CMCC等。WiFi信号具有低开销,容易部署等优点。在 SIGCOMM’ 13上,Fadel Adib和Dina Katabi利用MIMO Interface Nulling和逆合成孔径雷达(Inverse SyntheticAperture Radar,简称ISAR)技术去消除静止物体的反射,捕捉运动物体的反射信号,从而识别出运动物体的轨迹[5]。随后,华盛顿大学的Qifan Pu等人在USRP-N210实验平台上利用无线射频的多普勒效应(目标靠近或远离无线热点都引起无线信号的改变),提出了WiSee,实现了覆盖整个家庭的九个手势识别,如推、拉、踢、闪等,平均识别率高达94%[6]。2014年,哥延根大学的Stephan Sigg等人,从简单方便的思路出发,提取了接收信号强度指示器(Received Signal Strength Indicator,RSSI)的强度来进行简单的动作识别[9]。MIT的研究人员开发的Witrack采用调频连续波(Frequency Modulated Continuous Wave,简称FMCW)技术去计算从发射端出发,经过目标物体再反射回到接收端的时间(Time of Flight, TOF)去追踪目标[8]。他们最近的研究结果Wiz可以检测多个用户的动作和识别三维的手势指向[10]。 WiTrack和Wiz都可以植入消费电子产品当中,用于判断用户进出门,从而自动开关灯;识别手势指向,自动打开空调等设备。而Bryce Kellogg等人从功耗角度出发,制作了特殊的低开销的硬件AllSee,从电视信号和RFID信号中提取出手势的相关信息,从而识别出八个手势[7]。Pedro等人在运行 IEEE 802.11 a/g/n协议的WARP(Wireless Open-Access Research Platform)平台上实现了细粒度的手势识别[11]。
2.2 WiTrack
WiTrac是一种三维运动追踪与检测装置。它的工作过程是发射无线信号并接受从人体反射回来的无线信号,通过相应算法,得出人体各部分的距离信息,完成三维追踪。它不要求用户携带任何无线收发设备,而且它可以在有墙或者其他WiFi信号干扰的环境下使用。WiTrack设备的功耗很低,它所发送的无线信号的功率比普通WiFi信号小100倍,比手机信号小1000倍。
WiTrack技术利用人体对于无线电信号的反射来实现对人体的定位和运动追踪。试验设备是一个T型的支架,中间点放置一个receiver,三个顶点放置三个transmitters,这样的设置使得设备可以立体地监测人体运动。
Witrack的优点在于可以进行厘米级地运动追踪,它可以把人体的中心定位在一个x,y轴上10-13厘米,z轴上21厘米的三维空间中,还可以对被测人体的手的指向进行粗追踪,这一功能具有96.9%的精度。WiTrack技术可以融入到电子消费产品中,适用于一系列的应用中:
应用于游戏:用户在配备有WiTrack的游戏设备情况下,再也不用像以前一样坐在电视电脑前玩游戏。用户可以在家中自由地走动,设备可以自动追踪用户的动作,比如用户可以通过躲在沙发或者墙的后面来控制游戏中人物躲避敌人。
应用老年人照护:众所周知,跌倒是造成65岁以上老年人致命或非致命性伤害的首要元凶。当前的两种跌倒检测方法,一种需要老年人佩戴可穿戴式传感器,这使得老年人生活不便,一种需要使用摄像头来检测老年人跌倒,这会侵犯到老年人的隐私。WiTrack则可以通过从人体反射回的无线信号强度的变化来检测老年人是否跌倒,其准确率可达96%。
应用于智能家居:WiTrack可以通过检测用户手指的方向来控制用户手指方向的家具的开关,如灯的开关。用户只需要在开灯前,用手指一下要开的灯即可。
2.3 WiSee
研究人员证实,通过使用客厅里的一个经改装的WiFi路由器和几个无线设备,用户仅用一个简单的手势就可在家里的任何房间操控自己的电子产品和家用电器该项目首席研究员、华盛顿大学计算机科学与工程助理教授西亚姆·高勒科塔将之称为对既有无线信号进行再利用的新方式。利用无线信号进行手势识别,免去了部署更多传感器的需要。
华盛顿大学研究团队将此项技术命名为“WiSee”,它可以聪明地测出WiFi信号下人们动作所产生的多普勒频移。就目前9个手势的平均识别率为94%,标准偏差为4.6%。研究报告已提交给第19届国际移动计算和网络大会。“WiSee”在概念上与微软Xbox Kinect类似,但技术更简单,价格也更便宜,并且用户不必在同一房间控制其设备,因为WiFi信号可穿越墙壁,不受视线或声音障碍的约束。
研究团队将一台标准WiFi路由器改装成“智能”接收设备,其基本上能侦听房间中智能手机、笔记本电脑、平板电脑等所有电子设备发出的无线信号。
一个人在移动时,会造成无线信号频率的轻微变动。手或脚的移动会导致接收设备检测到多普勒频移变化。与WiFi信号动辄20兆的带宽及5吉赫的运行频率相比,这些频变是非常小的,通常只有几个赫兹。研究人员开发了一种算法来检测这些细微的变化。
该技术目前可识别推、拉、刺、投等9种不同的手势。WiSee在一个两居室内测试证明,它还可以将系统放到人所在的另外的房间。除了在范围上有优势外,一个配备多天线及支持MIMO的WiFi基站可以支持多人识别,这样可让多达5人在同一住所同时操作手势而不混淆。当一个人移动,会稍微改变无线信号的频率。移动一只手或一只脚,会导致接收器探测到被称为多普勒频移的模式变化。研究者开发出一套算法用以侦测频移。它能辨识九种不同的全身姿势,从推、拉、挥拳到全身扭动。在执行的总共900个手势中,WiSee的辨识准确度达到94%。
如果用户想使用WiSee,必须执行一个特定的重复手势顺序来获得接收机的访问权。此种密码概念将保持系统的安全和防止邻居或黑客控制用户家中的设备。无线接收器与用户锁定后,用户才可与家中的电子设备进行正常的手势互动。接收机则要进行编程以理解对应每个电子设备的特定手势。
不过,这个技术的操作过程是否简便,使用者是否需要熟记手势来进行操作这些都是需要考虑的问题。如果该技术可以趋向成熟,它在智能家居上将起到非常大的作用,而且这还是在WiFi本身已经有所普及的情况下。要想真正做到实用,还需要商榷怎样使这项技术做到简单、方便。
2.3 WiG
WiG是深圳大学的何文锋同学在他的硕士学位论文中提到的由作者搭建的基于WiFi的手势识别实验系统。它是一个基于现有的 WiFi 设备和商用的无线网卡,利用无线信号物理层的信道状态信息 CSI 来进行的 device-free(不需携带额外设备)的手势识别系统,包含硬件模块和软件模块。
在硬件模块中,发射端是一个普通的商用路由器,称为AP (Access Point)。接收端是一个装有商用无线网卡(如Intel 5300无线网卡)的台式电脑,称为DP(Detect Point) 。AP和DP通过无线网卡连接上,然后AP在持续不断地发送无线信号,与此同时,实验人员在AP与DP之间做手势动作。
在软件模块中,包含CSI数据采集、CSI数据预处理、CSI数据去噪、CSI数据异常检测、特征提取和分类器分类这六部分。
WiG系统分为三个流程: CSI数据采集、CSI 数据预处理和去噪、CSI 数据异常检测、特征提取和分类。
WiSee[6], Al1See[9], WiTrack[8]等都是基于软件无线电平台USRP或专用的硬件上实现的。虽说Pedro等人不是使用软件无线电平台,而是WARP平台,但是WARP和USRP一样,使用昂贵的振荡器,成本很高。一套WARP实验平台就需要十几万人民币,不利于大规模部署。
而WiG系统使用的是现有的无线设施以及商用的无线网卡,因此WiG系统为更普遍的基于无线信号的手势识别提供了一种可行的方案,但是其实际的效果有待进一步考证。
三、总结和展望
3.1 总结
手势识别是HCI技术研究中非常关键的一个部分。基于无线射频的系统,如WiVi, WiSee, Al1See等都是基于软件无线电平台USRP或专用的硬件上实现的,成本很高,不利于推广普及。WiG系统使用了现有的无线设施以及商用的无线网卡,但是其实际效果有待进一步考证。
基于无线射频的手势识别有其本身的有点,比如:低开销、容易大规模部署、可以在黑暗中使用、可以穿墙等等;但是它也有其本身的局限性,如手势的准确定义以及何文锋的论文中提到的“不能进行身份识别”等。
3.2 展望
针对何文锋的论文中提到无线射频技术“不能进行身份识别”,笔者认为,姿势识别可以结合WiFi定位[12]、姿势识别、步态分析等技术:先进行姿势识别和WiFi定位,将识别后的姿势以及位置信息传给步态分析系统,一定时间内可以达到身份识别的目的,之后继续利用WiFi定位进行人物跟踪。这一方法对WiFi定位技术和姿势识别的精确度较高,目前可能很难达到,在此只是提出可能的猜想。
随着对手势识别的深入,基于无线射频的手势识别相关算法的精确度必将进一步提升,使得其对相关设备的要求降低,甚至使用普遍的WiFi设施以及商业化的无线网卡既可达到使用标准,最终实现这一技术的普及。
参考文献
[1]王雁.交互信息设计研究[D].湖南:中南大学.2011.
[2]Microsoft.Kinect[EB/OL].[2014-12-12].http://www.microsoft.com/en-us/kinectfowindows.
[3]百度百科.手势DEB/OLD. X2014-12-25].http://baike.baidu.com/view/179746.htm
[4]何文锋。基于WIFI的手势识别研究[D].深圳:深圳大学.2015
[5] Adib F, Katabi D. Seeing Through Walls Using WiFi [C]. Proceedings of the ACM SIGCOMM 2013 conference. Hong Kong: ACM, 2013.
[6] Pu Q, Gupta S, Gollakota S, et al. Whole-home gesture recognition using wireless signals[C]Proceedings of the 19th annual international conference on Mobile computing & networking.ACM, 2013: 27-38.
[7] Kellogg B, Talla V, Gollakota S. Bringing gesture recognition to all devices[C] Proceedings of the 11th USENIX Symposium on Networked Systems Design & Implementation. Seattle, Wa: ACM, 2014, 14
[8] Adib F, Kabelac Z, Katabi D, et al. 3d tracking via body radio reflections[C] Proceedings of the 11th USENIX Symposium on Networked Systems Design &Implementation. Seattle, Wa: ACM,2014, 14
[9] Sigg S, Blanke U, Troster G. The telepathic phone: Frictionless activity recognition from WiFi-rssi[C]Proceedings of the IEEE international conference on Pervasive Computing and Communications. Budapest: IEEE, 2014: 148-155.
[10] Adib F, Kabelac Z, Katabi D. Multi-Person Motion Tracking via RF Body Reflections [J]. 2014.
[11] Melgarejo P, Zhang X, Ramanathan P, et al. Leveraging directional antenna capabilities for fine-grained gesture recognition}C}//Proceedings of the 2014 ACM International Joint Conference on Pervasive and Ubiquitous Computing. Seattle, Wa: ACM, 2014: 541-551.
[12]刘春燕. 基于 WIFI与惯性技术的行人室内定位算法研究 [D].北京:中国地质大学.2015