智能空间:和谐的人机交互环境
智能空间是研究和谐人机交互原理与技术的典型环境,智能空间的应用价值还可以直接体现在其具体用途上,如智能会议室、作战指挥室、智能教室、能照料人的智能家居等,本文将对智能会商室进行重点介绍。
智能空间(Smart Space)是嵌入了计算、信息设备和多模态的传感装置的工作或生活空间,具有自然便捷的交互接口,以支持人们方便地获得计算机系统的服务。人们在智能空间的工作和生活过程就是使用计算机系统的过程,也是人与计算机系统不间断的交互过程。在这个过程中,计算机不再只是一个被动地执行人的显式的操作命令的信息处理工具,而是协作人完成任务的帮手,是人的伙伴,交互的双方具有和谐一致的协作关系。这种交互中的和谐性主要体现在人们使用计算机系统的学习和操作负担将有效减少,交互完全是人们的一种自发的行为。自发(spontaneous)意味着无约束、非强制和无须学习,自发交互就是人们能够以第一类的自然数据(如语言、姿态和书写等)与计算机系统进行交互。
当前,普适计算(Pervasive Com-puting)是计算技术研究和应用的热点,而自发交互是普适计算脱离桌面计算交互模式束缚的关键问题,具有重要的研究价值,智能空间成为研究和谐人机交互原理与技术的典型环境。
认识智能空间
普适计算将使计算和信息服务以适合人们使用的方式普遍存在于我们的周围,以往相互隔离的信息空间和物理空间将相互融合在一起。在这个融合的空间中,人们可以随时随地、透明地获得计算机系统的服务。普适计算中信息空间和物理空间的融合可以在不同尺度上得到体现,其在房间、建筑物这个尺度上的体现就是智能空间。
NIST(美国国家技术标准研究院)给出的智能空间具备的功能和为用户提供的服务包括:
● 能识别和感知用户以及他们的动作和目的,理解和预测用户在完成任务过程中的需求;
● 用户能方便地与各种信息源(包括设备和数据)进行交互;
● 用户携带的移动设备可以无缝地与智能空间的基础设施进行交互;
● 提供丰富的信息显示;
● 提供对发生在智能空间中的经历的记录,以便在以后检索回放;
● 支持空间中多人的协同工作以及与远程用户的沉浸式的协同工作。
有学者指出,将来不太可能存在一个全球统一的普适计算系统,而会存在许多因为管理区划、地域区划和文化区划而互相分离的、有明确边界的智能空间系统。这些智能空间系统间可以有一定的交互,人和各种可携带设备可以透明地在它们之间移动。
智能空间的特点
目前国际上对智能空间的研究开展得相当广泛,表明了智能空间在普适计算研究中的重要作用。这些研究计划中,智能空间以不同的应用形态展现出来,并被分别赋予了研究者希望中的普适计算的特性,对这些研究计划的分析,能够分析出智能空间的三个主要特征和三个发展阶段。
首先,处于计算环境中的计算设备不再像在桌面计算模式下,要求用户端坐在计算机前或者处于某个固定位置才能完成计算任务。大量的计算设备、多模态交互技术模块、情景感知(context awareness)模块被嵌入并隐藏在实际的物理环境中,这些模块需要能互相协作并能主动为用户提供服务,使得智能空间能拥有立体、连续的交互通道。例如一个智能书房能检测到用户在其中阅读书籍,它可能会打开窗帘来为用户提供足够的照明; 随着时间的推移,夜幕降临,智能书房还可能根据当前的光照条件,逐渐加强房间中的灯光照明。
其次,智能空间的一个重要特性称为游牧服务(cyber foraging)。它是指用户携带入空间的无线手持设备可以充分利用其周围基础设施中的相对较强的设备的能力,同时其上运行的模块也可以与空间中的其他模块进行交互和协作,以共同为用户提供增强的服务。这也是信息空间与物理空间融合的一个体现。这种融合使得空间距离对计算的含义与传统分布式计算正好相反。传统的分布式计算是试图用网络消灭空间距离,而智能空间是强调找到离用户最近的各种资源和服务。反过来,基础设施也应该能够利用用户所携带的移动设备的功能,为用户提供个性化或者增强的服务。例如,当用户甲在一个智能会议室开会时,系统检查到乙给甲发了一个重要的E-mail,并希望甲马上能阅读其内容。智能会议室则应该根据当前的情景(在开会)以及甲所携带的移动设备(手机或者PDA)做出判断,将此E-mail转发到手机上,并通过震动提醒甲,而不是通过会议室的大屏幕显示出来。而如果只是甲单独待在智能会议室,该E-mail则可经由声音提示,显示在大屏幕上。
作者简介:史元春
清华大学计算机系教授,系学术委员会副主任,人机交互与媒体集成研究所所长,兼任中国计算机学会理事、普适计算专业委员会主任、IEEE北京分会教育委员会主席。曾在MIT人工智能实验室作高级访问学者。主要研究方向为人机交互、分布式多媒体信息处理、普适计算、远程教育。
最后,不同的空间之间也应该能够自发地发生交互。当一个空间的资源无法满足用户的需要时,智能空间应该根据用户的要求向临近的空间发出请求来完成用户的任务。例如,处于智能空间用户需要打印一张彩色图片,由于该空间中只有黑白打印机,智能空间可能会拒绝用户的请求并告诉用户任务无法完成。但是,如果智能空间发现在附近的环境中存在一个彩色打印机,则它有可能向用户提示该彩色打印机的位置,并询问用户是否需要使用该打印机来打印。
智能空间的发展阶段
上面所列举的三点可以被看作是三个具有递进关系的特点。事实上我们认为这三个特点是智能空间发展的三个不同阶段的特征体现。图1描述了智能空间发展的这三个阶段,并说明了每一个阶段所重点关心和研究的问题。
独立智能空间(Individual Smart Space)系统是智能空间研究的第一个阶段。在这个阶段里,其主要的研究内容是空间内模块的通信与协调方式、自然的人机交互接口,同时还要求系统具有持久性以及透明性的特点。为了支持模块间的协调,人们研究了协调模型、多Agent系统以及通信语言等,构筑智能空间的软件支撑平台,并应用大量可触摸接口、传感器以及感知模块来获得更友好的人机交互能力。松散耦合结构应用系统提高了系统的持久性,而嵌入式技术的应用使得计算设备能够退到环境中去,并从人们的视线中消失。
智能空间发展的第二个发展阶段是开放的智能空间(Open Smart Space),要同时关注大量应用的移动设备。移动设备随着用户在空间的漫游,它们能发现计算环境的存在,同时自发地与计算环境发生交互。这个阶段需要研究的问题涉及了计算环境的发现、异构通信信道的互通、资源管理、代理以及复合服务等技术应用。
事实上,我们认为,在将来智能空间可能会构成层次的结构。空间与空间之间将会互联,并且单个智能空间可能联合起来构成一个大的空间(例如清华大学的媒体所的所有房间构成整个清华的智能媒体所)。这些空间同样可能继续构成更为复杂的空间(例如清华媒体所、清华网络所、清华软件所、清华高性能所、清华电子系等构成整个清华的东主楼)。最终,智能空间将构成一系列智能社区(Smart Community)。智能社区中的智能空间将以怎样的形式组织在一起,如何进行跨空间的交互,如何进行跨空间的资源访问则是需要研究的问题。
需要说明的是,这些问题是按照逻辑关系而不是按时间关系出现的(如图1所示,在从左向右的发展中,新的问题不断加入)。各个阶段之间连接使用的是调制符号,以表示在原有问题的解决过程中因新问题的加入而使之变得更为复杂。阶段论的观点同时也表示前一个阶段提出的问题并不意味着它们在后一个阶段不重要,只是我们在后一个阶段中不去重点考虑这些问题,而是假设这些问题已经有了比较好的解决方案。我们在前一阶段的基础上重点开展后一阶段的研究。
就目前的研究现状而言,多数项目已经对第一个阶段(智能空间内部的协作机制)进行了比较深入的研究,研究的重点开始向第二个阶段转移。也有少数项目(如MIT的AIRE计划)已经开始就第三个阶段的问题展开了一定程度的研究。
智能会商室原型系统
在信息时代,面临重大突发事件时,决策小组需要在很短的时间内了解大量复杂的信息,并在决策人员间进行充分的交流讨论,以迅速做出正确的决策。
决策过程是人对信息综合的过程,单纯的决策支持软件系统作用的有限、尤其是人机隔阂的使用方式不利于决策人员获取和交流信息。只有把决策人员和信息化系统有机地结合起来,在两者之间建立自然、高效的交互通道才能充分利用信息、高效决策。
智能会商室(SEMIC: Smart Environment for Multi-user Interactive Cooperation)以重大突发事件的战略决策为应用背景,通过开发和集成先进的和谐交互技术,为决策人员提供一个高效的信息获取、交流的工作空间,从而促使显著提高决策效率。
在智能会商室中,多种来源的相关信息将集成显示在会商室的三维物理空间中,会商人员可以在多个显示表面上以自然便捷的方式直接与信息系统交互、或与远程的同事进行充分的协作交流,整个会商过程还将被自动存放为可索引的决策记录或参考案例。智能会商室是一个典型的多用户和谐人机交互环境,目标是促使决策人员在复杂的情况下尽快地理解和掌握当前形势并快速地做出合理的决策,关键是要为开放式信息集成、多用户自然交互提供支撑技术。
图2是智能会商室原型系统的一个现场照片。该原型系统建立在一个5米×6米的房间中,开发和集成的硬件设备主要有: 一个交互显示墙、一个大屏幕触摸式显示板、一个交互桌面、一个平板电脑、2个PDA、多功能交互笔(每个用户配备1支)、线阵麦克风阵列2个、室内定位系统1套(包括7个接收器和5个用户徽章)、用于识别交互笔和过程记录的摄像头4个、计算机主机7台。开发和集成的软件模块主要有: 基于多Agent的软件支撑平台、过程记录与检索、无缝数据管理、远程协作、手写标注识别以及GIS地理信息系统。
图2 智能会商室实验系统
智能会商室基于普适计算中的智能空间技术营造全方位信息显示与和谐交互环境,将大大提高决策的快速性和可靠性。其创新特点主要体现在:
● 新型交互方式自然便捷,能使决策人员集中精力于信息本身,决策效率将大幅提高;
● 松耦合的计算平台能较好地与现有信息系统快速集成,最大限度地增进多系统的协调工作;
● 远程实时的深度协同提高了决策过程中远程协作时的效率,能有效降低决策的风险;
● 超媒体的过程记录和多线索的索引技术为决策分析提供了真实全面的记录。
集成化的信息显示
会商过程中需要理解和交流的各种信息被集成显示在整个房间中,营造出一个全方位的信息空间。根据决策过程中不同的信息访问方式,配置了不同类型的显示设备(如大面积的交互显示墙、交互桌面、触摸式挂板、便携终端等),一改目前信息显示通道与信息交互通道相分离的应用模式,均支持在信息显示表面上直接操作信息内容,提供用户全方位、高效率的信息访问界面。同时,各种显示设备通过底层的计算平台互联起来,使得信息在不同显示设备上的迁移直观便捷。
会商过程中有新的重要信息源时,例如随身携带的个人笔记本或来自网络的新的数据,智能会商室的底层计算平台可以通过协议自动发现信息源,并调度软硬件资源,提供合适的调度和信息显示方式,无需复杂的手工配置。
1.软件支撑平台——Smart Platform
软件支撑平台是智能会商室计算平台的系统软件,负责智能会商室中各种软硬件模块的协调与通信,最终将各种功能模块组成一个有机的整体。平台面临的主要问题是要集成各种异质的具有计算、传感能力的交互设备,实现设备间数据的交互、资源的发现、协作等。
软件平台Smart Platform基于多Agent模型,原因是: 它鼓励计算实体行为自主,以适应系统组成和结构的动态性; Agent封装程度和抽象层次更高,可降低复杂系统的构建难度; 计算实体间通过较高层的Agent间语言协调,耦合度小,利于系统的鲁棒性和功能扩展。
图3是我们设计的基于多Agent模型的系统软件结构,(a)表示系统软件是在底层操作系统和网络之上的中间件,应用、资源和服务等将被封装成为Agent,系统的通信层、协调层和通用服务将提供Agent的运行环境和上层应用开发工具; (b)表示系统的运行时结构: Container管理单机本地的Agent,DS(Directory Service)负责Agent全局注册、运行环境的管理及消息转发。其特点是:
图3 多Agent软件支撑平台Smart Platform
● 松耦合结构使系统具有良好的可扩展性,并有利于提高系统的鲁棒性。
● 点到点通信通道和层次转发通信通道相结合,兼顾了Agent间消息和实时数据流交互的需要。
● 协调层采用基于消息组的发布/订阅模式,可有灵活的订阅粒度控制,利于Agent间自发交互; 基于XML的消息格式描述能力强,支持异构,便于开发和移植。
● 充分的通用服务支持应用层功能的开发。
2.无缝数据管理——Liquid
Smart Platform协调层的无缝数据管理模块(Liquid)能够统一管理存储在不同计算设备上的信息源(以文件为粒度)。从用户的角度来看,进入会商室后,不同计算设备上的信息被放置在一个系统中,用户无需关心信息的上传和下载,只需利用下文介绍的多功能交互笔就能在不同显示设备上方便地显示、切换、标注这些信息,使得用户的注意力能主要放在讨论和信息理解的过程中,无需过多理会计算系统的细节。远程用户被允许接入会商室后,也能利用无缝数据管理模块来提供和共享信息。图4是该模块的结构图。
便捷的交互方式
在多种显示设备集成的信息空间中,决策人员可以通过物理环境(如墙面、桌面)、日常用具(如笔、激光笔),新型信息设备(如PDA、麦克风阵列),以及语音命令等自然便捷的方式与信息系统交互,无需依赖传统的鼠标键盘,以使对计算机不熟练的人员也能够直观地访问、处理信息。原型系统主要通过语音命令和多显示表面上的笔式交互提供直接的支撑技术。
1.多功能交互笔——uPen
在会商室这样一个包括多种显示设备的三维交互空间中,用传统的鼠标键盘进行交互是相当繁琐的: 每个显示设备都需要单独配备鼠标或键盘; 对于不熟练的计算机用户来说,这种交互方式效率很低; 对某些操作,例如绘制图标,即使是熟练的计算机用户用鼠标和键盘也很麻烦。
我们设计实现了一种多功能交互笔uPen,它是一个具有压力传感器的触摸笔,可以发射激光,笔身上还有激光发射和鼠标左右键共三个功能按键。结合触摸板和计算机视觉技术,用户利用一只uPen就能够以便捷的方式在会商室中与各种显示设备进行交互。这种笔势交互的模式摆脱了鼠标键盘,使用户在会议室的各个位置都能与显示设备交互,而且交互方式统一便捷。
每一支uPen在使用过程中能向系统发送惟一的ID信息,为多支uPen同时工作提供了基础。结合室内定位系统,就能够确定使用人员的当前交互状态,为系统的主动服务和用户相关的过程记录提供了可能。
2.交互显示墙——iWall
显示墙是多人协同工作情况下的有效的信息呈现手段。目前,高级指挥或决策中心大都已经使用了一定的显示墙技术来提供多路信息的同时呈现。智能会商室中的交互显示墙包括利用投影仪投放到普通墙面的主屏幕,以及若干个小面积显示屏组成的辅助屏幕(图2中的墙面投影及右侧墙面及其下方的辅助小屏幕)。主屏幕的大小和辅助屏幕的数量可以根据需要方便地扩展。
用户对交互显示墙的操作通过uPen完成,其基本原理是用视觉跟踪的技术识别uPen发出的激光点在交互显示墙上的位置,用户手持uPen可以改变激光点的位置和发出无线命令信号。系统根据识别得到的激光点轨迹和接收到的无线命令信号执行操作,例如改变交互显示墙上的内容,完成在主辅显示屏之间的切换等。
3.交互桌面——iTable
在决策的多人讨论交流过程中,决策人员仍然喜欢围坐在桌旁利用纸和笔方式进行交流,其原因是操作更为快捷和直观,也便于多人面对面的交流。但这种方式失去了计算机可以提供的许多文档显示、编辑功能和联网协作功能。我们设计的交互桌面(iTable)结合了两种方式的优点,即: 使用者可以用笔或手指直接在大尺寸的桌面式显示平面上与计算机交互、又保留了传统的会议桌的讨论方式。
iTable结合uPen,能够提供多人同时操作的解决方案。基本原理是基于压力传感和视觉跟踪的技术。交互桌面的表面装备摄像头跟踪uPen的轨迹,用户手持的uPen笔尖装有压力传感器,当笔尖接触到交互桌面时,通过uPen轨迹、笔的当前受压时间和自身的 ID,系统将可区分多支笔在桌面上同时操作时的当前位置和ID。进一步地考虑用户在绘制过程中像素的连续性和运动特性,即可把各支笔和它们各自绘制的笔画对应起来,从而解决了多人在桌面上进行同时操作的问题,目前支持两人并行工作。
4.室内定位系统——Cicada
智能会商室是一个典型的多人协作的工作环境。利用室内定位系统、麦克风阵列以及能区分人员身份信息的交互笔来自动区分决策人员以及他们当前的活动状态。在此基础上,结合具体的决策流程,为决策人员提供与其职责相匹配的主动服务,提高决策效率。
同时,智能会商室内的人员可以与远程决策人员进行不同于传统的视频会议系统的充分的远程协作。智能会商室除具备音视频通道外,将为身处不同地点的决策人员提供丰富的信息共享和自如的交互能力,使各方能充分觉察对方决策所依据的思路过程,在共享的工作空间上克服空间阻隔充分交流协作。
会商室是一个典型的多用户工作环境,为支持不同身份人员的高效工作,一个重要的前提是能够区分不同的人员,检测当前人员的活动状况。清华大学研制了一种新型室内定位系统——Cicada,它基于射频和超声波达到时间差来测量距离。Cicada不仅能对静止和移动物体进行准确定位(静止误差在5cm以内),而且拥有全向型的工作区。由于它的小巧和轻便(如图6所示),可以配置在用户的胸牌等随身携带的物品中。
图5 Cicada的系统架构
图6 电子徽章和接收器
自动记录决策过程
决策过程记录是重要的参考,单纯的文字记录或者视频录像都是不够的,前者丢失了对于理解决策过程十分关键的数据本身,而后者无法对信息进行精确的还原,同时视频本身缺乏结构性,不便于检索。智能会商室能够实现对空间中发生的事件的多线索数据流的同步记录、索引和回放。
我们研制的过程记录模块能够对决策全过程做多线索数据流的同步记录,包括交互显示墙、交互桌面等设备显示的各种信息和数据、决策人员对交互设备操作,如交互显示墙主屏幕的切换过程、交互桌面上的动作以及基本的现场音频、视频等; 这些不同线索流上的数据在时间上保持同步,这样回放时可以全面地重现决策过程。记录下来的数据用XML语言描述,保证了通用性。为便于记录的快速浏览和查询,过程记录模块从用户、时间、位置和事件四个维度上自动建立起索引结构,并且开发了用户友好的图形查询界面,支持快速回放和图形化查询。
链接:智能教室
普适计算研究中的一个重要问题是如何把这项研究与当前的应用相结合,远程教育是一个很好的结合点。图7示例的是清华大学研制的一个智能教室系统。
图7 智能教室系统示意图
智能教室(Smart Classroom)是一个依靠智能交互空间技术增强了的真实的教学环境。除了传统教室中的讲台、课桌椅,智能教室的讲台上方投影的是电子讲义(如图7所示),左侧墙壁上显示的是远程学生的情况和教室虚拟管理员的头像。系统的运行需要多台计算机的支持,但教室中的师生并不需要面对和操作计算机本身。教师可以像在传统教室一样自然而方便地进行教学活动,他通过板书、语音命令、激光笔指点等方式获得计算机辅助教学和远程教学的便利,从而摆脱远程教学桌面交互模式的限制。同时,大量的参加远程学习的学生可以以不同的接入方式通过互联网加入这个课堂。这个教室还可以自动判别课堂当前的焦点,自动地将合适镜头的视频传送给远程的学生。远程学生可以和教室中的学生一样参与课堂教学,如发言和板书等。讲课过程还可被自动记录成为可检索的复合多媒体文档,作为现场课件使用。
作为一个研究实验平台,智能教室在智能空间和多媒体远程交互等课题方向上已取得了一定进展: 多模态信息融合、智能空间中基于上下文的行为语义、智能交互空间的分布计算环境、内容相关的自适应传输、可伸缩群组交互机制、无缝的可移动性、过程记录、基于内容的多媒体检索等。这个课题还集成了清华大学计算机系多年来在计算机视觉和语音处理方面的优秀成果,包括人的跟踪、基于生物特征的身份鉴别、虚拟人合成等。该课题成果已经投入清华大学继续教育学院的远程教学的实际应用。传统的远程教育系统中的教师是面向计算机的屏幕,而不是学生,这阻碍了教师与学生之间的面对面的交流。在基于智能空间的远程教育系统中教师可面向学生进行教学,同时又可充分地享受信息访问和交互的服务,从而把远程教育技术提高到一个新的水平。
目前,清华大学智能空间的研究已经从面向一个教师为主的教室环境,发展到面向多个用户的会议室环境,随着用户数和开放程度的增加,交互和服务的复杂度将增加维度,面临的问题将更具挑战性。
http://www.e-gov.org.cn/xinxihua/news008/200807/91012.html
人机交互技术
人机交互技术(Human-Computer Interaction,HCI)致力于人与计算机的协调,旨在消融这两个智能系统间的通讯和对话界线,使得人与机器的信息交流便捷而通畅。计算机系统的人机交互是以用户界面(User Interface,UI)为中介的人与计算机间信息传递和转换过程:人向计算机传达交互意图 — 用户通过其侧重于多媒体信息接受的感觉通道(包括:视觉、听觉、触觉和嗅觉等)对用户界面中诸如语音、图形和图像等多媒体信息的感知,先利用逻辑思维和形象思维能力产生对交互意图的心理描述,再按用户界面对交互的输入要求使用其侧重于过程控制与信息输入的效应通道为(包括:手、嘴、眼、头、足及身体等)来实施交互行;计算机向人传递计算和反馈结果 — 它利用其感知机制从精确的用户界面框架结构中获取用户的交互信息,并完成获取交互行为信息的感知处理、判断用户交互意图的认知处理和回馈交互结果的响应处理等一系列计算过程,最终运用其输出机制以用户界面所定义的特定形式输出其计算结果。
从信息传递的角度来看,用户界面的任务是为人类的感觉和效应通道与计算机的感知和输出机制提供通信接口,计算机系统的人机交互包含互不可分的两类感知过程:一类是人对计算机所提供信息的感知过程。在这个过程中,计算机利用其计算能力和各种媒体处理技术将计算机可供交互的输入要求或交互处理结果的反馈以适当形式在用户界面上呈现给用户;而人类使用感觉通道(如:视觉和听觉)接受和理解用户界面所提供的各种信息。这种感知过程的关键是用户界面所呈现信息的形式和丰富程度,并部分与用户的心理因素及其认知能力相关,这决定了人机交互中计算机与人间通信的输出带宽。另一类是计算机对人及其所处环境的感知过程。在这个过程中,人类按照计算机所要求的输入事件使用效应通道(如:语音和动作等)在用户界面中输入交互操作和指令;计算机则通过对来自用户界面的用户交互媒介信号的处理和分析来获取和识别用户交互意图,并以适当形式在用户界面上呈现给用户。这种感知过程不仅取决于计算机感知和识别人和物及其检测用户情绪变化或用户个性等信息处理能力,而且取决于用户有意识地将交互意图“分解”和“组织”为计算机所特有输入事件过程中所付出的“认知努力”,这决定了人机交互中计算机与人间通信的输入带宽。此外,如果计算机是可以感知外部世界的机器,还存在两种特殊的感知:一种是计算机感知并传递人及其环境信息,人借助于计算机传递感知信息,它基本上不属于人机交互的感知,但可以作为人机交互感知的基础。例如:在视频会议、远程教学和远程医疗等系统中,计算机并不一定需要识别人的交互行为和信息,而只成为两人或多人之间的相互交流的媒介;另一种是人作为虚拟世界中的成员而从计算机中获得的感知,这种感知是人机交互的感知,而且人和计算机的感知地位是等同的,其感知信息的形态不仅内容丰富,而且可以是现实世界里所看不到的(例如:虚拟的场景、文本和语音等)。
从信息转换的角度来看,用户界面的作用是实现“用户认知空间”与“计算机信息处理空间”间信息的双向映射。由于人类的交互意图通常是一个涉及人的认知和行为因素的高维复杂信息,且这些信息是非精确的或模糊的;而计算机遵循线性信息表示和存储模式来表示和处理交互信息,所能捕获和处理的必须是形式化的精确信息,且其感知和处理结果不一定能够依从人的感知规则。两者间的差异决定了其双向映射实现的技术复杂性和方式多样性,因此,人机交互技术的任务就是要选择合适的映射方式来解决其技术实现的复杂性与用户交互的易用性问题。技术实现的复杂性主要体现在如何提升计算机感知和识别用户交互行为和状态并进而理解其交互意图;用户交互的易用性则表现为如何充分利用和协调人类的多个感觉和效应通道并进而降低其完成交互行为所需付出的“认知努力”。显然,一个良好的映射方式将会极大地提高人机交互的自然性和高效性。在人机交互技术发展历程中,人机交互的界面形式经历了手工作业、命令接口(作业控制语言及交互命令语言批处理)、(文本)菜单到多通道、多媒体人机交互和虚拟现实系统;人机交互的信息载体经历了以文本和符号为主字符用户界面(Character UI)、以二维图形为主的图形用户界面(Graphic UI)、兼顾视听感知的多媒体用户界面(Media UI)及综合运用多种感觉(包括触觉等)的虚拟现实系统(VR:Virtual Reality);人机交互的信息维度从一维(主要指文本流)、二维(主要是利用色彩、形状、纹理等维度信息的二维图形技术)、三维(主要是三维图形技术,但图形显示仍以二维平面为主)向多维空间(利用人的多个感觉通道和效应通道的信息)发展,计算机与用户间的通信带宽不断提高。就其技术机理本质而言,这种发展蕴涵着对人机交互中两个主体不同侧重点的映射方式演化:
一种是以机器为中心的受限方式。这种方式强调将计算机的信息处理需求有效地呈现给用户,为用户提供一个形式化、半双工、串行的低维度信息展现和操作界面,主要表现在两个方面:一是人的交互需基于离散事件,用户界面等同于一个解释器,它接受事件输入并反馈计算机处理的结果,在此过程中,多维信息矢量被压缩为一个低维矢量,形成一个串行的输入流;二是人的交互必须基于精确交互:用户在交互中需要把意图按模型要求“分解”并“组织”为计算机所特有的输入事件,以完全说明用户交互目的和意度。用户必须面对机器操作定义的限制并付出较多的认知努力来使用计算机。从用户角度来看,这种方式支持的是受限人机交互(Formal HCI),用户需饱受命令记忆和新功能学习之苦。例如,用户通过使用鼠标、键盘和显示器来与传统的桌面计算机进行交互时,与计算机及其上运行软件间的交互存在着“受限的”交互次序:完成特定序列的操作来创建Word文档、输入文本并将其打印,等等。这种方式的实现关键在于计算机及其软件处理能力展示的有效性和合理性及用户操作的简便性和易记忆程度,具体表现为两个方面的问题:一是如何充分而有效地展示计算机及其软件的处理能力,即:如何定义操作及其布局,如:弹出菜单、下拉菜单、分层菜单等;二是如何让用户方便地使用和记忆,即:用户采用何种方式进行操作,如:命令语言、文字菜单和图标点击,等等。显然这种方式限制了人机间的通信带宽,使得既不能有效地利用当今计算机的强大计算和处理能力,也给用户使用电脑有诸多不便。
传统用户界面都是采用了这种映射方式。它主要包括三大类:
(1). 命令语言交互(Command HCI):这种人机交互始于联机终端的出现,用户与计算机间借助一种双方都能理解的语言进行对话。根据语言特点可分为:① 形式语言。这是一种人工语言,特点是简洁、严密、高效,如:应用于数学、化学、音乐、舞蹈等各领域的特殊语言,计算机语言则不仅是操纵计算机的语言,而且是处理语言的语言;② 自然语言。特点是具有多义性、微妙、丰富。③ 类自然语言。这是计算机语言的一种特例,命令语言的典型形式是动词后面接一个名词宾语,即:“动词+宾语”结构,二者都可带有限定词或量词。命令语言可以具有非常简单的形式,也可有非常复杂的语法。它要求惊人的记忆和大量的训练,且容易出错,但具有灵活和高效的特点,适合于专业人员使用。
(2). 图形交互(Graphic HCI):图形用户界面(Graphics UI,GUI)是当前人机交互的主流,成熟的商品化系统有Apple的Macintosh、IBM的PM(Presentation Manager)、Microsoft的Windows和运行于Unix环境的X-Window、OpenLook和OSF/Motif等。这种界面包含三个重要思想:① 桌面隐喻(Desktop Metaphor),即在用户界面中用人们所熟悉的桌面上的物品来清楚地表现计算机可处理的能力;② WIMP(Windows、Icons、Menu and Pointer)是组成图形用户界面的基本单元,以可重叠多窗口管理的窗口管理系统为核心,使用键盘和鼠标器作为输入设备,并广泛采用事件驱动(Event-Driven)技术;③ 直接操作及所见即所得(What You See is What You Get)的界面,交互过程极大地依赖用户视觉和手动控制的参与,具有强烈的直接操作特点。菜单(Menu)本身与图形人机交互并没有必然联系,在图形用户界面出现前,字符型菜单已经在用户界面中得到了广泛应用。但图形人机交互中菜单的表现形式比字符人机交互更为丰富,在菜单项中可以显示不同的字体、图标甚至产生三维效果,同时,还可以诸如层叠式(Hierarchy)、弹出式(PopUp)、下拉式(PullDown)和滚动式(scrolling)及其组合等多种形式出现,菜单式人机交互与命令语言人机交互相比,用户只需确认而不需回忆系统命令,从而大大降低记忆负荷,其缺点是灵活性和效率较差,可能不适合于专家用户。图形人机交互具有一定的文化和语言独立性,并可提高视觉目标搜索的效率;其主要缺点是需要占用较多的屏幕空间,并且难以表达和支持非空间性的抽象信息的交互。
(3). 直接操纵(Direct-manipulation HCI):直接操纵更多地借助物理的、空间的或形象的表示,而不是单纯的文字或数字表示。前者已为心理学证明有利于“问题解决”和“学习”。视觉的、形象的(艺术的、右脑的、整体的、直觉的)人机交互对于逻辑的、直接性的、面向文本的、左脑的、强迫性的、推理的人机交互是一个挑战。直接操纵人机交互的操纵模式采用“宾语+动词”结构,Windows 95设计者称之为“以文档为中心”,用户最终关心的是其欲控制和操作的对象,即:只关心任务语义,而不用过多为计算机语义和句法而分心。对于大量物理、几何空间及形象的任务,直接操纵表现出巨大的优越性,但它在抽象而复杂的应用中具有局限性。对于用户界面设计者来说,图形的设计比较因难,需大量测试和实验;而复杂和抽象语义的表示比较困难,不容易实现交互与应用程序的独立设计。
另一种是以用户为中心的非受限方式。这种方式强调将对人类自然能力(尤其交流、运动和感知能力)与计算设备及其感知和推理结合起来,通过采用多种模态(Multimodal)感知人类的自然行为,并以易理解的多媒体(Multimedia)形式实现多通道(Multichannel)通信,建立“以人为中心”的感知用户界面(Perceptive User Interface,PUI)[10]。这种界面旨在充分使用人类诸如语音、手势、视线及头部跟踪等多个感觉和效应通道,并使之可选择地并行和协作来实现多通道、非精确、高带宽、高效及不限制地点的人机通信[11],以拓展人机间信息通信的“带宽”,减少人类的交互认知努力,提高人机交互的自然性和高效性。从用户角度来看,这种方式支持的是非受限人机交互(Informal HCI)[12][13],其主要出发点是借助于媒体感知技术获取并理解用户动作、行为、习惯、偏好及其它相关交互信息,来缓解以至于消除计算机和用户对交互意图的认识和描述存在的精确信息(人机系统的内部表示)和非精确信息(人机系统的外部表示)间的“鸿沟”;其实现的关键在于计算设备对人的动作和行为识别的有效性,因此,支持这种交互方式的用户界面又称为基于识别的用户界面(Recognition-based User Interface)。
这种方式的用户界面则代表着人机交互技术的发展方向,体现了对人的因素的重视,标志着人机交互技术从“人适应计算机”向“计算机不断地适应人”方向发展,就是要给用户“充分的自由”,使得人类不再需要按机器的要求扭曲自己最自然的思维和行为方式,而可以像在电脑出现前人类那样自由地工作和生活。传统的界面事实上成为隔离物质世界和信息世界之间的屏障,虚拟现实、网络计算、智能代理和软件机器人、计算机支持的协同工作等技术的应用,将实现“虚物实化”和“实物虚化”,消除物理对象和抽象对象、输入装置和输出装置在交互空间中的差别,并为人提供多感觉通道的自然临境体验;语音及文字识别和自然语言理解等言语计算,手写体和手绘草图识别等笔式计算及手势和表情识别、视觉-目标拾取认知技术等视觉计算等技术的不断发展和完善,将不断提高人机交互的智能化程度,使机器能够根据上下文及使用者的特点主动识别人的身体姿态、手势、语音和表情等各种自然行为,进而判断出人的意图。同时,机器的功能齐全、高效,既适于人的操作使用,也能满足人的审美和认知需要,机器的操控和使用将更加符合人的习惯,并具备听、看和说的能力,人可以语言、文字、图像、手势、表情等自然方式与机器打交道,恰如与他人交流一样自然。因此,用户界面是能模拟多种智能和真实环境的虚拟空间,人们能够在任何时间、任何地点与任何需要的环境(包括人)以最自然和“身临其境”的方式来完成所需要完成的工作;实现“无形而又无处不在,有形而又自然和谐”的普适交互(Ubiquitous/Pervasive HCI)模式,这种方式的特性体现在以下三个方面:
• 以用户为中心(Human-Centered):以用户对人机交互的需求变化为出发点,使人机交互的外在形式和内部机制能符合不同用户的需要。人类的交互行为是自然的,用户将可利用语音、手势、笔划等自然方式,不受地点限制地与计算机进行交互,既能满足用户个性化的需要,又使得用户不脱离自然社会关系(包括社会经济环境和人类沟通交流)。
• 多模态(Multimodal)交互:充分利用人类多种感觉和效应通道的互补特性,并使之可选择地、充分地并行和协作来捕捉用户的交互意图,从而增进用户交互的自然性。模态(modal)和通道(Channel)间的联系和区别主要在于:人类通过视觉、听觉、触觉、味觉和嗅觉这五种感官的信息发送和接收来实现与世界交互的,一种模态对应一种官能;而通道是指信息传递的过程或途径。在人机交互应用中,通道描述一种交互技术,这种技术可基于某种特殊设备,如:键盘或鼠标,也可基于某种特殊行为,如口语、书面语或手势。如:命令语言用户界面中的每个命令都会使用视觉和触觉等多种模态;而图形用户交互既使用了视觉和触觉等多种模态,又用到了诸如键盘、鼠标和声音及图像等多种通道。多模态人机交互是使用同等方式将两种或两种以上输入模态相结合的技术,其重点是将基于诸如语音识别、笔形手势识别、计算机视觉等传感识别的输入技术集成到用户界面中。也就是说,多模态人机交互使用多种模态来实现多种通道通信。使用多种模态生成单独的通道,如:利用视觉和声音进行三维用户定位,属多传感器融合(Multisensor Fusion);类似地,使用一种模态生成多种通道,如:左手鼠标指示,右手鼠标选择,则属于多通道或多设备(Multichannel or multi-device)人机交互。
• 多媒体感知((Multimdia Perceptive):机器利用其感知及推理能力对来自用户感觉和效应通道的交互信号进行识别、集成和协调,并获取用户动作和行为习惯、偏好及其它相关信息,并以人类易理解的多媒体信息方式为用户提供输出信息,从而提供不受时空限制而又效能最大化的个性化计算服务。这种人机交互方式的双向信息流动是以多媒体感知和处理为核心的:用户通过其感觉和效应通道传递的交互意图在计算机内表示为文本、语音、图形和图像等多媒体信息,人到机(Human to Compute)信息流动是多媒体信息的获取及识别过程;计算机经过处理的信息需要以文本、语音、图形和图像等用户理解概念所需的多媒体信息形式展现出来,机到人(Computer to Human)的信息展流动是多媒体信息的合成和呈现过程。
自Weiser博士提出普适计算(Ubiquitous/Pervasive Computing)以来,人类开始向未来计算探索的进程,也催生了以网格计算(Grid Computing)和云计算(Cloud Computing)为代表的计算分布化(Distribution)、以嵌入式计算(Embed Computing)为代表的计算透明化(Transparent)、以虚拟现实(Virtual Reality)和可穿戴计算机(Wearable Computer)为代表的计算机系统拟人化(Personate)和有形化(Tangible)、以手持电脑(PDA)和智能手机(Smart Phone)为代表的计算机系统微型化(Micromation)和随身化(Mobile)及以智能空间(Smart Space)和环境智能(Ambient Intelligence)为代表的计算机系统嵌入化(Embeded)和无形化(Invisible)等众多新型计算技术,推动着“机箱时代”迈向一个崭新时代:计算设备将从人类视野中“消失”,那些装在机箱中的声音、视频和通信等将“游荡”于我们周围环境中而变得“无处不在”。这个时代具有两个重要特征:一方面,小型化嵌入式计算设备将使得人类生活的自然环境“具有”计算能力,它能自主感知人的存在,并在人类需要时出现和对其行为作出反应;另一方面,计算将日常生活化,能帮助人类安排、构造和控制日常生活,人类将能享受的计算服务,人类能以最自然的方式、在任何时间、任何地点、通过任何设备从环境中“无意识地”获取“有感觉”的计算资源和计算服务。概括地讲,在这个时代,人类生活将片刻离不开机器,人与机器间的交流更加自然和没有阻碍,人和计算间将是非侵入且不可见的交互,现实世界就成为用户界面,用户只需运用其日常技能来操作和使用计算设备,而不再关注交互媒体形式,也无需特定的用户界面,即:Idea Interface is no interface。这既对人机交互技术提出了更高的要求和新的挑战,也为人机交互技术的发展注入了新的动力,因此,自然、高效、无障碍的新型人机交互技术成为该领域发展方向和研究热点。
新型人机交互技术的最主要特性就在于用户交互的“非受限性(Informaity)”:机器给人以最小的限制并对人的各种动作做出反应,人是主动参与者,可以最大的自由度操作机器,如日常生活中人与人间的交流一样自然、高效和无障碍。这种人机交互技术强调两个关键特征:一是交互隐含性。理想的人机交互应当使用户把所有注意力集中于完成任务而无需为交互操作分心,且应允许使用模糊表达手段来避免不必要的认识负荷,有利于提高交互活动的自然性和高效性。传统用户界面都是等待用户输入命令才开始采取行动,而新颖人机交互技术的用户界面则应是积极地感觉和理解世界,并让用户在各个层次上根据目标和已有知识采取行动,并以充分性代替精确性。理想地,这是一个使用“被动”或“非侵入性”感知的“主动”交互方式,无需用户显式说明交互成分,仅在交互过程中隐含地表现而允许非精确的交互,如:用户视线自然地落在所感兴趣的对象上;用户的手自然地握住被操纵的目标;等等。二是交互多模态性和双向性。允许使用多种感知模态(如:视觉、听觉、触觉等)或多个感觉和效应通道,突破了模态和鼠标键盘显示器通信通道的限制,使用连续形式和并行形式在内的多种模态。尽管感觉通道侧重于多媒体信息的接受,效应通道侧重于交互控制与信息输入,但两者是密不可分、相互配合:只用一种通道不能充分表达意图,就需要其它通道信息辅助。有时,使用辅助通道仅为增强表达力,否则,就必须允许充分地并行和协作的通道配合关系。此外,人的感觉和效应通道通常具有双向性特点,如:视觉可看又可注视;手可控制又可触及;等,新颖人机交互技术让用户避免生硬、频繁或耗时的通道切换,从而提高自然性和效率。如:视线跟踪系统可促成视觉交互双向性;听觉通道在利用三维听觉定位器实现交互双向性;等等。
新型人机交互技术的核心问题在于如何确保计算设备对人的动作和行为识别的有效性并实现人机的和谐共处。计算设备及其传感器是透明和被动的,但可以主动感知人类相关通信通道并输出人类可理解的结果。这就需要不同类型和层面技术的集成,并随着关键维度或特征发生变化,包括:输入模态的数目和类型;通信通道的数目和类型;使用并行模式、串行模式或同时使用并行和串行模式的能力;识别模式的大小和类型;传感器和通道的集成方法及支持的应用种类,等等。依据充分利用人类感觉和效应通道并使得人机交互更加自然的目标,新型人机交互的关键技术主要集中在以下几个方面:
(1). 支持语音交互(Speech-Based HCI)的言语计算(Speech Computing):语音是人类一种重要而灵活的通信模态,言语交互的核心是语音识别,其任务就是利用语音学和语言学知识,先对语音信号进行基于信号特征的模式分类(这是语音信号处理的范畴)得到拼音串,再利用语言学知识对拼音串进一步处理,得到一个符合语法和语义的句子。简单地说,语音识别就是让计算机能听懂人说话,将人说的话转换成计算机文本。
(2). 支持笔迹交互(Pen-Based/Calligraphic HCI)的笔迹计算(Calligraphic Computing):笔迹交互是通过计算机软硬件技术和相关领域的研究,模拟人类“笔录纸现”这一日常技能的一种人机交互方式。在这种用户界面中,用户借助鼠标、笔迹交互器及触摸屏等设备用手自由地书写或绘制各种文字和图形,计算机通过对这些输入对象的识别和理解获得执行某种任务所需要的信息。它充分利用书写的自然性和墨水丰富的表达能力,从而拓宽了人机交互的频带,使人们通过笔迹交互自然地使用计算机的高性能计算能力:从计算机处理角度看,笔迹交互可以在一个或多个连续的笔画中自然地提交计算任务所需要的命令和参数;从人机交互角度来看,它通过将用户的交互意图映射为由压力、方向、位置和旋转等信息共同构成的多维矢量序列[11][2];从认知心理学角度看,用户的交互意图通过几个效应和感知通道提交。与言语交互相比,笔迹交互以视觉形象表达和传递概念,既有抽象、隐喻等特点,还具有形象、直观等特征,易于理解和记忆,更适于推论和构思;与传统图形图像工具相比,它具有自然、简便,可表达不完备模糊概念,拥有强大的信息表达能力,有利于创造性思想的快速表达、抽象思维的外化和自然交流。
(3). 支持视觉交互(Vision-based HCI)的视觉计算(Vision Computing):在人类日常面对面交互中,除使用语音和文字外,还可利用身体各部位的姿态和动作(即所谓身体语言)来表达自己的意思。视觉和言语是联合表达、相互补充的通道,诸如脸部表情、注视焦点、肢体动作及其它活动等行为线索能为交流提供相关上下文信息,这些信息不仅能加强语音的表达能力,还能起到语音交互所不能起到的作用,并影响交谈的内容和进程,如:头部动作可能是“否定”或“肯定”的信号,脸部表情可能是“无奈”或“赞许”的表式,注视角度可能可消除“这边”或“那边”等语言中指代不明的问题。视觉交互技术(Vision-based Interaction)的目标就是在人机交互中采用计算机视觉作为有效的输入模态,探测、定位、跟踪和识别用户交互中有价值的行为视觉线索,进而预测和理解用户交互意图并做出响应。这种技术可以支持人机交互中的一系列的功能,如:人脸检测、定位和识别(确定场景中的人数、位置和身份等);头和脸部的跟踪(用户的头部、脸部的位置和方向);脸部表情分析(用户表情状态:微笑、大笑、皱眉、说话、困乏等);视听语音识别(协助判断用户说话内容);眼睛注视跟踪(用户的眼睛朝向);身体跟踪(用户身体的位置,身体的动作等);手跟踪(确定用户手的位置,二维或三维模型、手的结构等);步态识别(识别人的走路/跑步的风格);姿势、手势和活动识别等,最终实现人与机器的“行为交互(Behaviour Interaction)”。
(4). 支持情感交互(Affective-based HCI)的情感计算(Affective Computing):众所周知,人类相互之间的沟通与交流是自然而富有感情的,计算机没有情感能力,就很难指望它具有类似人一样的智能,也很难期望人机交互真正实现和谐与自然。因此,人们在与计算机交互的过程中,也期望计算机具有情感和自然和谐的交互能力[14]。而情感交互就是要赋予计算机类似于人一样的观察、理解和生成各种情感特征的能力,它是通过各种传感器获取由人的情感所引起的表情及其生理变化信号,利用“情感模型”对这些信号进行识别,从而理解人的情感并做出适当的响应。其重点就在于创建一个能感知、识别和理解人类情感的能力,并能针对用户的情感做出智能、灵敏、友好反应的个人计算系统[14]。拥有情感能力的计算机能够对人类的情感进行获取、分类、识别和响应,进而帮助使用者获得高效而又亲切的感觉,并有效减轻人们使用电脑的挫败感,甚至帮助人们便于理解自己和他人的情感世界。情感交互还能帮助我们增加使用设备的安全性、使经验人性化、使计算机作为媒介进行学习的功能达到最佳化。
(5). 支持可穿戴交互(Wearable HCI)的穿戴计算(Wearable Computing):可穿戴计算机是一类超微型、可穿戴、人机“最佳结合与协同”的移动信息系统。可穿戴计算机在体系结构、功能、形态、用途及使用方式上与现在流行的笔记本电脑、掌上电脑(HPC)、个人数字助理(PDA)等移动计算装置迥然不同:可穿戴计算机不只是将计算机微型化和穿戴在身上,它还实现了人机的紧密结合,使人脑得到“直接”和有效的扩充与延伸,增强了人的智能。这种交互方式由微型的、附在人体上的计算机系统来实现,该系统总是处在工作、待用和可存取状态,使人的感知能力得以增强,并主动感知穿戴者的状况、环境和需求,自主地做出适当响应,从而弱化了“人操作机器”,而强化了“机器辅助人”。
上述技术都是利用人与人及人与世界间口头或非口头的交互方式,使用各种模态来实现多通道通信,本质上都属于支持感知交互的感知计算(Sentient Computing)。
(6). 支持虚拟交互(VR HCI)的虚拟现实(Virtual Reality):虚拟现实的基本原理是采用摄像或扫描的手段(而不是传统的建模手段)来创建虚拟环境中的事件和对象,生成一个逼真的三维视觉、听觉、触觉或嗅觉等感觉世界,让用户可以从自己的视点出发,利用自然的技能和某些设备对这一生成的虚拟世界客体进行浏览和交互考察。其特点包括:逼真的感觉(视觉、听觉、触觉、嗅觉等)、自然的交互(运动、姿势、语言、身体跟踪等)、个人的视点(用户的眼、耳、身所感到的感觉信息)和迅速的响应(感觉信息根据视点变化和用户输入及时更新)。这些特点可概括为三大特征:沉浸感(Iimmersion):是指用户作为主角存在于虚拟环境中的真实程度;交互性(Iinteraction):指用户对虚拟环境内的物体的可操作程度和从环境得到反馈的自然程度(包括实时性);想象力(Imagination ):指用户沉浸在多维信息空间中,依靠自己的感知和认知能力全方位地获取知识,发挥主观能动性,寻求解答,形成新的概念。
(7). 支持人脑交互(Brain-Computer Interaction)的脑计算(Brain Computing):最理想的人机交互形式是直接将计算机与用户思想和目的进行连接,无需再包括任何类型的物理动作或解释,实现“Your wish is my command”的交互模式[15]。虽然在可预见的未来这种思想不太可能实现,但对“人脑计算机界面(Brain-Computer Interface,BCI)”的初步研究可能是迈向这个方向的一步,它试图通过测量头皮或者大脑皮层的电信号来感知用户相关的大脑活动,从而获取命令或控制参数。人脑交互不是简单的“思想读取”或“偷听”大脑,而是通过监听大脑行为决定一个人的想法和目的,是一种新的大脑输出通道,一个可能需要训练和掌握技巧的通道。
当前,采用第一种方式的图形用户界面仍是应用的主流,尤其是以超文本标记语言(HTML)及超文本传输协议(HTTP)为基础的网络浏览器和搜索引擎的桌面网络用户界面最为普遍,包含了适应不同带宽(从高速视频点播到低速移动电话)、不同尺寸(从手表、掌上电脑到墙壁大小)的各种用户界面;而采用第二种方式的语音、手写等易用而方便的界面也正逐步普及,多通道、多媒体的自然、高效、智能化用户界面正得到快速发展和应用。
[2]. 栗阳, 关志伟, 戴国忠, 笔式用户界面开发工具研究, 软件学报, 2003,14(3):392-400.
[3]. Ivan Sutherland,Sketchpad: a man-machine graphical communication system, In: Proceedings of the 1963 Spring Joint Computer Conference, Baltimore, MD: Spartan Books, 1963: 45-53.
[4]. Microsoft Presspass, Digital Ink, Breakthrough Technology in Tablet PC: Brings the Power of the Pen to the Desktop, http://www.microsoft.com/presspass/features/2002/, 2002
[5]. Walid G Aref, Daniel Barbará, Daniel P Lopresti, Ink as a First-Class Datatype in Multimedia Databases, Jajodia S and Subrahmanian V S, Multimedia Databases, SpringerVerlag,1995:pp. 113-163.
[6]. Daniel P. Lopresti, Ink as Multimedia Data, In: Proceedings of the Fourth Intl. Conference on Information, Systems, Analysis and Synthesis, Orlando FL, 1998. 122-128.
[7]. http://www.w3c.org/TR/InkML
[8]. Rejean Plamondon and Sargur N Srihari,On-Line and off-line Handwriting Recognition: A Comprehensive Survey, IEEE Trans. On Pattern Analysis and Machine Intelligence, 2000,22(1):63-84.
[9]. 孙正兴, 冯桂焕, 周若鸿, 基于手绘草图的人机交互技术研究进展, 计算机辅助设计与图形学学报, 2005,17(9): 1891-1899.
[10]. Matthew Turk and Mathias Kolsch,Perceptual Interfaces, University of California, Santa Barbara, Technical Report 2003.
[11]. 王坚,董士海等,基于自然交互风格的多通道人机交互模型,计算机学报,1996, 19(增)。
[12]. Ian H S Cullimore, An analysis and implementation of informal Human-Computer Interaction, Cognitive and Computing Sciences, The University of Sussex, May 2000.
[13]. Sun Zhengxing and Liu Jing, Informal User Interface for Graphical Computing, Lecture Notes in Computer Science, Springer-Veralg, Vol 3784, 2005: 675-682.
[14]. Picard R D著,罗森林译,情感计算,北京理工大学出版社,2005.
M.A.L. Nicolelis, Action from thoughts. Nature, 409, 2001: pp. 403–407.
[1]. Jorge J A and Glinert E P, Calligraphic Interfaces: towards a new generation of interactive systems, Computers & Graphics, 2000, 24(6): 817-823。
http://blog.sciencenet.cn/home.php?mod=space&uid=39479&do=blog&id=332668
加载中,请稍候......