作者:库什纳(David Kushner)
我曾经能控制天气,至少有过一次。在美国密歇根州安阿伯Cybernet Systems 技术研发公司一个没有窗户的演播室里,我站在一块绿色的背景幕前。面前有一部数码摄像机,正在将我的影像实时传送到一个电视监视器。监视器上的背景是一个典型的晚间天气预报画面,我出现在那画面中,站在一幅美国中西部地图前。我将一只手伸到代表底特律的光点上方转动了几下。地图中的底特律地区立即开始放大,转眼间占据了整个画面,而且清清楚楚。各位朋友,瞧,看样子那地方将要下雨。
这是Cybernet 研制的GestureStorm 软件系统。使用这种系统后,天气预报员只需将手轻轻拨动几下就能制造出特别的视频效果来配合他们所预报的天气。没有电线,没有按钮,也没有古怪吓人的影声控制台。将一只手这样动就能使屏幕出现微雨或雷雨,而那样动就能煽起一个龙卷风。换句话说,手势就是界面。
这只是一个开端,这种技术在将来还会有很多其他应用。研究人员的目标是将手势识别技术发展成为遥控工具,让我们可以灵活、随心所欲地与周围的数码设备互动。请回想一下美国电影《少数派报告》(Minority Report)。在这部电影中,男主角克鲁斯(Tom Cruise)站在一台未来的数码显示器前,对着大量连续涌现的图像和文件指指点点并不时挥手,抽丝剥茧地进行调查。这种事情以前只能在科幻小说中见到,但如今终于在我们的现实生活中渐渐出现了。
2003 年12 月,美国佛罗里达州奥兰多的WKMG 电视台开始应用GestureStorm,成为第一家使用这种系统的电视台。在2003 年7 月,索尼计算机娱乐公司(Sony ComputerEntertainment)发行了EyeToy 。这是PlayStation 2(PS2)游戏机的外围设备,通过使用一种特别的软件和一部并不昂贵的数码摄像机,能将玩游戏者的视频资料传输到游戏的画面中,甚至使游戏与玩游戏者互动。例如,玩游戏者如要攻击一个歹徒,再也不必猛按控制器上的按钮,只需象空手道那样朝他劈手一砍就行了。
在2004 年,有两家公司推出了虚拟键盘,让用户可以用手势来控制个人数字助理(PDA)和某些机动设备。Cybernet的研发副总裁科恩(Charles Cohen)认为,手势识别技术的时代已经到来。他说:“手势识别是一种只需挥一下手的遥控技术。”
我给底特律上空搅起了几团暴风云之后,立即明白了他这句话的含意。当然,正如科恩和其他研发这种技术的科学家所了解的那样,扮演天气预报员是一回事,而将手势识别技术引入日常生活却是另一回事。
乐在其中
就手势识别技术这一领域而言,要评定什么是它最拿手的本领,最好的评审员也许是一个年仅4 岁的孩子。我首次将自己的PS2 游戏机连接到一部EyeToy 时,就邀请了这样一个孩子帮忙。
EyeToy 是一种小巧的设备,可发展为流行的手势界面。它敏锐、有趣、有形化,而且体现了手势识别产品的前景。这个前景就是自由,让用户可以摆脱那些拥有14个按钮的控制器、键盘、鼠标及电线。美国纽约Jupiter Research 技术研发公司的首席分析师拉兹罗(Joe Laszlo)说:“所有人都认同键盘不一定是最佳的互动工具。”
EyeToy 可能是市场上第一种可用来取代键盘或游戏控制器的手势识别设备。该产品是一台黑色肋骨状的长方形数码摄像机,大小相当于一副扑克牌,其插头可插入PS 游戏机前端的一个USB 端口。在美国,你支付约50美元就可以买到一部这样的摄像机,外加一片载有12 种游戏的CD 光盘。将这一设备连接到PS 游戏机,再将它放在电视机的顶上,镜头向前。一个人体轮廓会出现在屏幕的中央,而这时你应该走到镜头前面站好,将你自己的影像填进那个轮廓。
我对4岁的女儿说:“小宝贝,到这里来吧。”我帮她站到适当的位置,让她的影像正好在那个轮廓的中间。她谨慎地对她自己的影像挥了挥手,然后问:“游戏在哪里呀?”我回答:“你已经在游戏里了。”
在屏幕中,我女儿影像的前方飘浮着许多五彩缤纷的圆盘。每一个圆盘代表一种游戏,当她决定要玩哪一种时,必须朝相应的那个圆盘挥一挥手。这些游戏都很简单,很容易玩,简直象雅达利公司(Atari)的经典网球和战斗游戏的21世纪版本。其中有一个拳击游戏、一个玩杂耍游戏和一个跳舞游戏。
我女儿喜欢听擦窗游戏Wishi Washi 中的声音,于是我们选择了这个游戏。转眼间,在她的影像前面布满了肥皂泡沫。这一游戏的目标是将屏幕“擦”得干干净净,在过程中会不断播放爵士音乐。起先我女儿有些犹豫,手臂只是轻轻挥动,仿佛在制造雪人,屏幕上的泡沫相应消失了些许。摄像机把她的一举一动实时显现在屏幕上,不久,她明白除了用手之外还可以用其他方式,于是她又跳又踢,不时倾身向前或拍打,几乎什么动作都用上了,终于将肥皂泡沫全部擦干净。玩视频游戏竟然玩到满头大汗,这是很少见的。
事实上,有很多人经常在EyeToy 前面玩得汗流浃背。在游戏行业中,销售量达到50 万套可以说是非常成功了。而到2004 年3 月为止,EyeToy 在美国已卖出了50 多万套,在欧洲的总销量则超过200万套。
施展魔法
EyeToy 摄像机所拍摄的录像首先会被压缩,然后被馈送并穿过USB 端口。录像一旦进入了PS2 游戏机,就会被以“概念减法”(Conceptual subtraction)进行处理,即比较其在连续画面内的影像。对于这项处理工作,PS2 游戏机只需动用其处理能力的10%,留下90%的能力来表现游戏本身的爆炸效果、泡沫浴和其他图形特征。 以往的EyeToy 只能做到动作侦测,不过未来的版本将包括更多先进特点。例如,索尼公司已研制出一种新型EyeToy软件,能在一个环境中追踪不同的色彩,甚至不同的面部表情。它还具备更妙的手势识别功能。例如,它能使《哈利·波特》视频游戏变得非常逼真:你用自已的魔杖画一个三角形就能使屏幕上出现一股风暴式烈火,画一个圆圈就能将敌人变成一堆白雪或石头。
美国索尼计算机娱乐公司研发部特殊项目经理马克斯(Richard Marks)说:“你只需在空中画出各种形状就能施展出各种不同的魔法。”EyeToy 就是马克斯研发出来的。马克斯以前曾在加州莫斯兰丁的蒙特里湾水族馆研究所工作,负责研发供水下机器人操作的摄像机,而当时他已经开始研究“计算机视觉”(这是一种可以使计算机辨别周围物体的技术)。他说:“当时我就认为PS2可以进一步发展到具有良好的计算机视觉。”
但整套机器最初仍存在着一些缺陷。例如,USB 端口只有有限的数据处理能力,而这会导致视频失真,使用户无法在线上进行多人EyeToy 游戏。此外,如果环境明亮且纷杂(例如在一个典型的家庭房间里),这一软件可能难以识别玩家的动作。不过PS3 游戏机正式上市时,这些问题已经消失。
新一代的控制台包括一个USB 2.0 端口(速度比USB 1快40 倍),可以令失真度大大减少。用户在明亮且纷杂的背景中玩游戏时,可能需要挥动一根桃红色的游戏杆或戴上专用手套,好让软件能够更容易识别其手势。索尼正在陆续发布各种软件工具,以帮助不同的游戏开发商利用这一新技术设计新游戏。
最终目标是你不需要任何道具。马克斯说:“你需要的惟一工具就是你的手。”
天作之合
Cybernet 从一开始就将其主要目标定为将手势界面技术商业化。我曾经凝视过计算机屏幕无数个小时,但这天早上在该公司的办公室里,情况看起来却有点不同。屏幕上有一批典型的文件夹和程序图标。然而,当我注视左上角的Internet Explorer 图标时,奇怪的事发生了。我的眼睛望向哪里,光标就移动到哪里。没有鼠标,没有键盘,我的双手一直一动不动地放在我的两边。它真的象一块魔板!
我使用的是Navigaze。这是一种完全基于眼球运动的新界面,例如,你再也不用双击鼠标,改为眨两下眼睛就行了。采用了Navigaze 后,即使是全身瘫痪的病人也能上网到处浏览。Cybernet 在数年前同时推出Navigaze及改良版的游戏技术“用头指挥”(Use Your Head)。这种系统最初在2000 年面市,你只需摆动脑袋就能输入方向指令。一部摄像机负责追踪玩游戏者的头部运动,而屏幕中的影像会相应地改变。例如,你把头偏向左,你的视野会转向左边,把头偏向右,视野就会转向右边。
Cybernet 在20 世纪80 年代以研发力反馈技术而出名。所谓力反馈技术,就是如今应用于视频游戏、汽车工业及医疗业的触觉技术。科恩认为手势识别技术是另一个即将兴旺的领域。他说:“手势识别技术的发展情况相当于10 年前力反馈技术的发展情况。”
Cybernet 于1998 年开始进军手势识别技术。当时,美国陆军与该公司签约,委托该公司创建一个以手势为基础的计算机培训系统,让受训者可以利用一系列的手部动作来指挥一队模拟士兵。其后,美国国家航空和航天局(NASA)也委托该公司建立一个基于手势、供公众使用的查询服务台,但这一项目最终未能成功。科恩说:“那些学生总是将口香糖吐在服务台上,弄得一团糟。”
该公司致力于研发手势界面程序,包括一种能在指挥控制地图上处理图像的军用系统。某电视台的主管从报纸上读到有关这一程序的报道之后,表示有兴趣将这种技术应用于天气预报节目。科恩回忆道:“我当时立即就说:‘真可以说是天作之合!怎么我们从来没想到过这样做呢?’”
这种软件之所以特别适用于电视天气预报节目,其中一个主要原因是天气预报节目的环境无需采取特别措施去控制。你使用EyeToy 时必须站在某一特定位置,否则摄像机不能产生作用。如果有人挡住了摄像机的镜头,屏幕会变得一片空白。电视天气预报员总是站在一个连贯且毫无障碍的背景之前,因此上述情况可以完全避免。
虚拟键盘
云开雨停了,我的GestureStorm 表演已接近尾声。我决定吹一口气将云送走,让底特律恢复平静、安宁。
我和科恩在附近一家意大利餐厅用午餐时,他指出,手势识别技术并非用来取代键盘和鼠标,而是要弥补它们的不足。他说:“我不会说手势识别技术是最好的、万能的。”
事实上,有一种很有趣的应用程序说明了手势识别技术怎样与常规界面密切配合。美国加州圣何塞Canesta 公司研发的一种装置(在2004 年年底上市)把手势识别技术引入PDA。这种装置利用一个内置于PDA 的微小镜头,将一幅键盘图像投射到一个平面(例如办公桌的桌面)上。然后,一束射在键盘图像上方的红外线能即时准确地感应出用户手指的位置。其原理是这样的:这种装置能监控红外线的脉冲,测量它们从离开发射器到触及移动中的指尖而反射回来,最终抵达PDA 中的传感器所需的时间。脉冲来回所需的时间就相当于一段特定距离,于是它们提供了一幅三维图,显示指尖曾在键盘上按了哪些键。因此,无论用户在虚拟键盘上键入什么内容,这些内容都会即时被PDA 以数字化形式获取。 这种装置以每秒50 多个画面的速度运作,因此即使遇上最快的打字员,它也能追得上。此外,通过利用红外线来测量目标的距离,它也许还能解决索尼和Cybernet 仍未解决的一个问题,即如何在明亮或纷杂的背景中识别手势。例如,当我女儿采用EyeToy 玩Wishi Washi 游戏时,假如我从摄像机所对着的背景前经过,她的游戏会立即变得一团糟。如果采用Canesta 公司的技术,让红外线只对准我女儿,游戏就不
会因为我的出现而受影响。
Canesta 公司计划向每年销售额高达110 亿美元的视频游戏业进军。此外,以色列耶路撒冷的VKB 公司也在2004 年年底推出一种颇具竞争力的虚拟键盘,所用的技术类似Canesta 所用的。
情感信息
除了可以应用于虚拟键盘、天气预报和视频游戏之外,手势识别技术也许还能在许多不同的环境中改变人与计算机互动的方式。
多年以来,世界各地许多大学一直在研究这种技术。例如,美国乔治亚理工学院的研究人员正在探索如何利用手势识别技术来帮助减少汽车意外事故。该校的一个研究小组在斯塔纳(Thad Starner)领导下已发明了一种“手势仪表板”,用来取代传统的仪表板控制装置。在汽车上安装了这种新型仪表板之后,汽车驾驶员要调整车厢内的温度或音响系统的音量时不必再把视线移离马路。他只需将手伸到一个指定的区域做一个手势,就能做到他想做的事。
美国麻省理工学院媒体实验室的研究人员也研究如何利用手势改进各种不同的娱乐设备。例如,StoryMat 能识别儿童游戏垫上某些特定玩具的动作,并根据这些动作产生反应。另外,“会讲话的虚拟人”(Conversational Humanoid)能通过一具配戴在用户身上的电磁追踪装置感应用户的动作,然后产生反应。其他的研究项目包括探查手势和姿态所传达的情感信息。该媒体实验室情感计算研究组的主任皮卡德(Rosalind W. Picard)说,研究已经表明,我们可以为机器编程,用来帮助识别儿童在与教育软件互动时所表现出来的情绪。一种能够感应这类情绪反应的程序会相应地作出反应,例如,也许会在那些儿童显然感到厌烦且恹恹欲睡时启动一些有趣的活动。
有些研究人员正尝试为微软产品配置手势界面。在20 世纪90 年代,英国剑桥大学的研究人员研发了一种名叫小丑(Jester)的试验性系统,应用手势识别技术Windows 操作系统中“冲浪”。可是,这种系统始终未能走出实验室。另一方面,一种为流行的演示软件PowerPoint 研发的手势界面看起来很有希望取得成功。Cybernet 的科恩正在研发这种界面。它可能只需要演示者戴上一只特别的手套,好让计算机视觉系统识别。研究人员指出,这种时髦界面的可能用途会多到超出我们的想象。
不过,目前还没有什么东西能象我正在使用的普通键盘这么有效率、这么反应敏捷。键盘在任何强度的光线下都能正常运作,而且即使我的孩子突然冲进房间,它也不会受到影响。在一个鼠标的帮助下,键盘使我能在转眼间便将文件调出来并打开。
分析师拉兹罗说:“无论何时,如果你想引进一种新的用户界面,它是否简单和容易操作总是成败的关键。当年鼠标问世时也不是一下子就得到大众接受。”
毫无疑问,这给Cybernet 等公司带来了一些希望。毕竟,没有什么比挥一挥手更容易了。
上述文章来源于:http://www.techcn.com.cn/index.php?doc-view-135071.html