Pokemon Go、支付宝 AR 红包……想必你已经对这些 AR 相关的产品耳熟能详。如果你需要设计/开发一款AR产品,该如何着手?
AR指的是一种实时地计算摄影机影像的位置及角度并加上相应图像、视频、3D模型的技术,这种技术的目标是在屏幕上把虚拟世界叠加在现实世界上,并且可以实时互动。AR技术最早应用于1961年,在美国空军阿姆斯特朗实验室中,Louis Rosenberg 开发出了 Virtual Fixtures 技术来实现对机器的远程操作。
之所以能够带来用户体验的跃迁、推动各行业进行产品创新,AR技术主要有以下三个独特之处:
融合虚拟和现实
与VR不同,AR不会把使用者与真实世界隔开,而是将计算机生成的虚拟信息叠加到现实场景中,以实现对现实场景更加直观和深入的理解。增强的信息包含两大类:a叠加在真实物体上的非几何信息,如文字、图片、视频等;b完全虚拟的几何信息,如三维物体、场景等。
实时交互
借助于AR设备,用户以更加自然的方式与增强现实环境进行交互,这种交互必须要满足实时性。目前,这些交互方式主要包括手势、语音等。
三维注册
所谓注册,可以分解为识别和定位,指的是将计算机产生的虚拟物体与真实环境进行无缝对接,且用户在真实环境中运动时,也将继续维持正确的对准关系。
AR的产品设计方向与消费者的硬件和使用环境强相关,按照AR的硬件迭代,目前 AR产品方向 主要包括以下几类:
1. 基于手持式AR进行设计:简单来说就是手机+AR,典型应用就是pokemon go。
2. 基于空间式AR进行设计:目前很多商场会有一些人体识别和人脸识别的一些硬件产品,主要用于买衣服、玩游戏等。
3. 基于透射式AR进行设计:以Hololens为代表,独立计算,便捷携带。
4. 基于数字光场进行设计:以magic leap为代表,但目前证明,该项技术还没有到产品化的层面。
由于 手持式AR 能够在手机端实现更贴合现实的沉浸式显示体验,并且实现原理简单、技术门槛不高,是目前四类方式中最普及的一种,下文将主要聚焦在 手持式AR 部分进行重点介绍。
AR产品有丰富的用户端产品和商业产品的想象空间,按照C端用户和B端用户的视角分类,可能应用的行业和场景如下:
用户端产品
由于AR技术良好的互动和拓展性,用户端可能应用的行业包括工具、娱乐、游戏、社交、内容等领域,场景则更多的是基于用户行为的产品化。
根据以下两个维度可以判断该领域与AR结合的前景:a用户行为与硬件属性的结合程度;b用户量。
据此我们可以很容易的列举一些产品设想:美图之于摄像头和用户的拍照行为以及对美的需求、陌陌之于LBS和用户的社交需求、微信之于通信和用户的IM需求等。
商业端产品
在商业端AR可应用的行业则包括制造业、军工、物流、医疗、教育、汽车、旅游、餐饮等行业。其中军工和物流很可能是接下来AR应用比较有前景的行业,它们都有AR这类视觉助手的需求和很强的付费能力,AR的应用将使行业的效果和效率提高明显。
尽管目前在软件和硬件上,AR交互还没有形成标准。但基于人机交互自然性的趋势以及市场上业已存在的产品,我们试图探讨AR交互的可能性。
目前已存在的或者可能存在的交互范畴主要包括以下几个维度:
第一、由人主动发起的交互:偏向于控制,如手势交互、体感交互、语音交互等。这类交互发出的都是确定性的指令性信息,旨在正确地触达某些特定的目的,但也会耗费最多的精力和体力。
第二、由机器主动发起的交互:偏向于识别,如眼球跟踪、头部位置跟踪、表情识别等,这类交互是机器通过感知使用者的状态来进行交互的,在很多时候,使用者不需要耗费太多精力。
第三、机器对环境的感知交互:如三维重建、情景感知、物体分割识别等。这一点主要适应于AR。在AR中,只有先做好对外在环境的感知,人与机器之间的交互才能顺畅。
结合人的自然交互以及之前成功的交互方式,一个好的交互方式需满足以下三点:
第一、具备确定性的反馈。这一点是交互的核心,确定性的反馈比什么都重要。试想一下,如果我们点击鼠标,但鼠标有什么动,有什么不动,会严重影响用户的使用预期的。
第二、低耗能。这一点决定该类交互方式是否可以长期、高频被使用,太费体力和精力的交互,一定不是主流交互。比如,同样是游戏,用户坐在PC前,可以玩一整天,但通过目前的VR设备来玩,就比较耗体力。还有Kinect,它只能玩一两个小时,很难玩一天。
第三、操作简单。好的交互方式,一定都不复杂,或者说,对目标用户来说是这样的。这一点从PC到智能手机、iPad特别明显,三岁小孩可以玩iPad,但很难玩PC。
整个AR是一个很复杂的系统,在剖析其技术原理时,我们将其分为输入端和输出端,中间的虚实融合,均体现在输入和输出环节,这里就不再单独叙述。
输入端主要承担「识别信息→跟踪定位信息」两个职能,通常由客户端工程师实现捕捉图像、处理和上传数据部分的工作,然后由图像算法工程师通过训练好的算法模型去识别和持续定位需要识别的物体。
一、识别技术
对AR系统的输入端来说,首先,要解决“是什么”的问题,也就是要知道和理解场景中存在什么样的对象和目标,主要通过以下两个角度入手解决:
1. 图像分类:
通过算法训练得到某一类对象的一般性特征,从而生成数据模型,它的目标不是具体的个体,而是一类对象,如汽车、人脸等。由于其是语义上的检测和识别,所以并不存在精确的几何关系。在应用场景上,更适用于强调增强辅助信息,而不是强调具体位置。
2. 图像匹配:
这种识别技术的前提是数据库中保存了图像的特征以及对应的标注信息,在实际使用过程中,通过图像匹配的方法找到最相关的图像,从而定位环境中的目标,进一步得到识别图像和目标图像的精确位置。在应用场景上,适用于需要对环境进行精确跟踪。
二、跟踪定位技术
其次,要解决“在哪里”的问题,也就是要对场景结构进行分析,实现跟踪定位和场景重构,这个是跟踪定位问题。
1. 基于硬件
基于硬件设备的三维跟踪定位方法在实现跟踪定位的过程中使用了一些特殊的测量仪器或设备。常用的设备包括机械式跟踪器、电磁式跟踪器、超声波跟踪器、惯性跟踪器以及光学跟踪等。光学跟踪和惯性跟踪是比较常用的两种硬件跟踪方式。
2. 基于视觉
视觉跟踪方法由于只需要依赖摄像头一种硬件,为AR的跟踪定位提供了一种非接触式的、精确的、低成本的解决方法,具备更强的扩展性(目前手机AR的跟踪定位都依赖于基于视觉的识别算法)。
根据数据生成的方式,视觉定位的算法又可分为两种:
(1) 基于模板匹配的方式:预先对需要跟踪的目标进行训练,在跟踪时通过不断的跟预存训练数据进行对比,计算当前的位姿。这类方法的好处是速度较快、数据量小、系统简单,适用于一些特定的场景,但不适用于大范围的场景。
(2) SLAM方法:即即时定位和地图构建技术。SLAM不需要预存场景信息,而是在运行阶段完成对于场景的构建和跟踪。其优点是不需要预存场景,可以跟踪较大范围,适用面广,在跟踪的同时也可以完成对于场景结构的重建。但目前这类技术计算速度慢、数据量大、算法复杂度高,对于系统的要求也较高。例子:Hololens、Magic Leap。
一、 透射式显示
根据真实环境的表现形式划分,主要有视频透视式和光学透视式。
1. 视频透射式:基于视觉
首先,通过设备上的微型摄像头,获取外部真实环境的图像;其次,程序通过场景理解和分析将所要添加的信息和图像信号叠加在摄像机的视频信号上,将程序生成的虚拟场景与真实场景进行融合;最后,通过一个显示屏呈现给用户。视频透射式的好处在于可实现、成本较低,适用于一些小的场景。目前,大多数手机AR用的就是这一原理。
2. 光学透射式:基于光学
与视频透射式不同,光学透视式的“实”来自于真实的光源,经过透视光学系统直接进入眼睛,计算机生成的“虚”则经过光学系统放大后反射进入眼睛,最后真实信息和虚拟信息汇聚到视网膜上,从而形成虚实融合的成像效果。光学透射式的优点在于结构相对简单,分辨率更高,因其能够直接看到外部,真实感和安全性也更强,但也更依赖于硬件能力,目前Hololens和亮风台的HiAR Glasses采用这种方案。
二、 光场显示
通过光场显示,用户可以真正感受到物体间的相对距离,更接近人眼本身的视觉体验。但在实际应用中,受限于计算能力、3D注册能力、外部光源的影响、工艺问题、设备小型化等问题,这种技术还处于研究阶段,在此不做赘述。
AR产品在用户端、商业领域的不断发展,也会推动AR相关产业链的扩大。需要我们保持对以下行业技术创新的关注,争取利用新技术提升产品功能来实现更多的创新:
一、AI:从AR的输入、虚实融合和输出,整个一条链都需要AI的支持。
二、云计算和大数据:由于AR结合的是现实,所以它的计算量和数据量会呈现指数级上升,它的发展也离不开云计算和大数据的支持。
三、计算机视觉:比之于PC和手机,AR的本质是信息呈现方式的升级,由二维升级到三维。不管是AR的输入,还是输出,都离不开计算机视觉。
四、核心的交互技术:包括手势交互、语音交互、眼球追踪等。目前来看,裸手交互有望成为AR的核心交互方式之一。典型公司:leap motion、科大讯飞等
五、操作系统:AR要成为下一代计算平台,就必须有自己的操作系统,就像windows之于PC,ios/安卓之于手机一样。操作系统的好处就在于给产业上下游一个行业标准,利于行业发展。典型公司:微软、谷歌。
一、芯片:对标英特尔在PC时代和高通在手机时代的地位,AR也需要自己的芯片。相对于PC和手机偏向于CPU,AR和VR更偏向于GPU。典型公司:英特尔、高通、英伟达、AMD。
二、传感器:这部分更多的是服务于信息输入和输出,而且感应的维度会更加立体,如人的动作、眼神等。典型公司:PrimeSense。
三、光学镜片:这是AR在显示上显著不同于PC和手机的地方,目前的难点在于工艺,主要是视角小、加工生产、设备小型化等问题。典型公司:水晶光电、lumus等。
本文参考:https://www.pmcaff.com/article/index/875767906021504?from=profile