[草稿] VR/AR原理、技术、平台、应用案例整理

人机交互方式发展太快了，它与我们的生物反应及处理过程同步，例如眼球转动、思维过程、动觉、文化偏好等，所以最近想收集整理这方面的知识。

VR产品的构成

目前VR产品由计算设备、显示终端和辅助设备三部分构成。

计算设备包含了基于GPU/CPU的硬件与虚拟现实软件体系，用于图形渲染、逻辑运算、数据的存储与传输等。

显示终端目前主要是头盔形式，其中包含高清显示屏幕、光学镜片、陀螺仪等，向用户展示计算设备输出的VR画面，并捕捉用户头部位置与角度等信息。

辅助设备，包含了交互控制、定位感应、动作捕捉、手势识别等设备，用于提升用户沉浸式操控体验。

VR常见产品形态

VR头戴硬件设备包含三大常见产品形态：头盔、眼镜、一体机。

头盔是VR设备巨头们主打的高端产品，高端头盔在像素、视野、刷新率上有绝对的优势，使用有线连接主机与头盔，减少了延迟，设备本身融合了多重传感器技术以及室内空间定位技术，是目前沉浸感最好的VR产品。

眼镜利用手机作为计算设备并应用手机内置陀螺仪定位和屏幕显示，眼镜只用包含内置光学镜片，手机+眼镜的VR产品价格便宜、门槛低，各公司的产品除了外观上不同，基本技术原理如出一辙。眼镜具有体验效果较差，无法提供精确定位与较好的交互体验的缺陷。VR眼镜是不透明的，只显示虚拟世界，把物理世界完全挡住。

一体机是指将计算设备内置于VR头盔中，由头盔完成从逻辑运算、3D图形渲染到屏幕展示的一体化功能，该类产品沉浸体验感相对PC+头盔设备有所欠缺，但其价格适中、并具有移动属性

原理：

用户带上特殊的眼镜后，一只眼睛只能看到奇数帧图像，另一只眼睛只能看到偶数帧图像，奇、偶帧之间的不同也就是视差就产生了立体感。当我们向左看，头部追踪技术能够识别这一动作，这时硬件就会即时渲染出左边的场景，这样，我们往左看就能看到左边的场景，往右看则能看到右边的场景，而不会发生场景跟着我们移动的意外。眼球跟踪技术是通过追踪我们的瞳孔实现的，算法能够根据我们注视的景物来变换景深，从而带来更出色的沉浸体验。

交互方式：

1）动作捕捉 2）眼球追踪 3）头部跟踪 4）语音交互 5）传感器 6）触觉反馈（振动） 7)手势跟踪

产业链：

VR关键技术：

VR硬件厂商：

Oculus、索尼(PlayStation VR)、HTC(Vive)和三星(Gear VR)

VR开发平台：

Unity，Unreal Engine，CryENGINE，Source Engine

Web上开发VR应用，有下面三种方式：

HTML5+ Java Scnipt + WebGL + WebVR API

传统引擎 + Emscripten

第三方工具，如A-Frame

第一种方法是使用WebGL与WebVR API结合，在常规Web端三维应用的基础上通过API与VR设备进行交互，进而得到对应的VR实现。第二种是在传统引擎开发内容的基础上，比如Unity、Unreal等，使用Emscripten将C/C++代码移植到Java Scnipt版本中，进而实现Web端的VR。第三种是在封装第一种方法的基础上，专门面向没有编程基础的普通用户来生产Web端VR内容。

具体如何开发见这篇

目前火狐、IE、谷歌都支持了

VR主要公司：

VR应用场景分析

目前火热VR应用开发主要集中在VR+游戏、教育、影视、社交、购物等领域。

“VR+”出行：

VR旅游借助VR头盔，将景色、文化、历史等以3D交互视频的形式，360度全景式呈现在用户眼前。用户可以借助虚拟现实来实现预览、规划、演示的目的，更轻松的指定行程和计划。对于感兴趣的目的地，能够选择性的体验其民俗风情和景点特色，进行真实旅游前的一次预观光，将比从互联网搜寻旅游攻略更有效。全新的虚拟现实旅游体验模式，将改变人们的旅游方式，成为未来旅行、观光、文化传播的一种重要发展方向。

“VR+”房地产：

VR技术为用户提供360度全景沉浸式看房体验，使购房者不用再约时间去真实楼盘看房，减少了看房过程的繁琐与纠纷，提高了时间使用合理度与交易效率。购房者带上VR头盔，进入房地产开发商开发的VR样板房系统，可直观感受房间布局与内部结构。用户对环境设施、房屋结构、门窗位置以至装修方案提出自己的意见，可以大幅度提高生产生产效率。

“VR+”购物：

VR购物将成为继移动互联网购物的新一代购物方式。用户使用VR头盔可以进入到自己常去的大型步行街进行逛街购物，可以对物品细节进行观察甚至进行使用。更多的商品可以采用定制的形式进行生产销售，用户对物品的尺寸、材质等信息提出自己的想法，进而进行定制生产，这将减少物品过多生产浪费。

“VR+”社交：

作为VR全景内容生成器，其主打VR全景照片和视频拍摄，可一键拍摄720度VR全景照片和视频，全方位全维度记录生活场景，拍摄画面更全、内容更多，机内秒级自动拼接渲染，即时实现回放拍摄内容，提供多种滤镜个性化编辑功能，快捷分享到微信、微博等各大社交平台，同时还支持新浪微博VR全景视频直播。

此外，普通手机通过链接就可浏览VR全景照片和视频，支持普通、鱼眼、小行星、小星球和VR眼镜等多种浏览模式，可使用手指上下左右滑动画面或转动手机使用随动显示功能，以交互的方式浏览720度VR全景画面，带给用户平面拍摄无法实现的多种震撼空间观感，享受VR全景照片和视频给予的身临其境的全景视觉体验。令人惊喜的的是，在浏览设置里选择VR眼睛模式，可以通过VR眼罩浏览VR全景拍摄内容，享受沉浸式体验。

“VR+”教育：

1）在加州的贝尔蒙特，高中的生物学老师一直都在使用zSpace Studio的混合现实电脑进行教学。这种电脑配置有特殊的眼镜，可以让细胞和器官在3D屏幕上“弹出”，从而帮助学生更好地了解心脏的工作原理。

通过使用诸如Cyber Science、zSpace Studio以及Human Anatomy Atlas的应用程序，学生可以清楚地观察到，随着心脏的跳动，动脉的血液在一直流动，而且血管时刻打开和关闭。

2）职业技术学校：“虚拟汽车培训应用程序将几年前的“汽车商店”类应用推到了一个全新的水平。传统的教科书和课件是二维的，而实际的汽车训练是不可逆且昂贵。”zSpace的总裁兼首席执行官Paul Kellenberger在一份声明中说，“通过VR应用，学生们反复练习维修和技术，建立强大的技能，也为学校节省资了金和上课空间。”

“VR+”公共安全：

模拟现实：《VR地震逃生》通过虚拟现实技术模拟家庭地震来临时的现场环境，引导体验者在感受到地震的紧张、急迫的同时，通过冷静判断，找到逃生的正确方式。

“VR+”买前试"吃"：

1）近日在纽约举办的一次ARKit聚会上，一家公司展示了一款基于ARKit的应用，借助该应用，顾客在点菜的时候可以把各个菜品可视化，这就大大方便了文字阅读有困难或者语言不通的顾客。此外，基于ARKit的应用还可用于装修，比如消费者可以借助基于ARKit的应用在买沙发前看看把沙发放在家里好不好看，再决定是否购买

2）汽车制造商马自达将在其购物中心之旅加入向客户提供VR实车测试

VR用户发现，能够在买家具前看看把家具放在家里是什么样，用VR试试车还有虚拟试衣是很有意思的。

3）利用电子商务网站的产品数据，生成高度逼真的AR图像，包括珠宝、眼镜、手表和家具。该专利认为，让消费者在购买前“试用”产品能够减少退货（多数在线零售商的主要支出项）、减少“维护店面的后勤事务和成本”。用摄像头和传感器来追踪消费者及其所在环境，并移动物体，创造“穿戴”体验。

4）它缩短的是房屋的销售周期。如果 VR 的体验够真实，一家楼盘可能在动土开工前就收获一批买家。搭建实体样板间的时间也被缩短的话，营销人员可以提前锁定客户、提前销售。

“VR+”婚礼服务：

由HEY VR制作出品的《我的VR婚礼》，让没有去到现场的你戴上VR眼镜，瞬间脱离现实世界，完全置身于海岛婚礼的美妙体验中。

VR前景：

1）移动性和电池续航等问题尚未解决。

2）VR和VR技术目前还很难说服人们在台式机、笔记本、平板电脑和智能手机之外，再购买额外的HMD设备

3）存在延迟、显示、安全、医疗隐私和其他方面的挑战

4）无线连接与HMD设备的普及程度。HMD设备要想真正腾飞，必须要解决无线连接问题。更快的WiFi或蜂窝技术连接能满足HMD设备所需的大量数据传输，将成为确保HMD设备大规模普及的重要保障。另一方面，新的压缩技术也能加快无线连接传输速度。

5）晕屏(看屏幕时有恶心、眩晕的感觉)是最迫切需要解决的问题，因为在过去这就是一个最大的阻力之一。

6）电池技术是确保HMD设备移动性的关键瓶颈。另一方面，快速充电即使也是一个中长期解决方案。

7）价格降低是硬件普及的关键因素

----------------------------------

AR和VR区别：

区分VR和AR的一个简单的方法是：VR需要用一个不透明的头戴设备完成虚拟世界里的沉浸体验，而AR需要清晰的头戴设备看清真实世界和重叠在上面的信息和图像。

从目前的观察来看，AR比较适合服务企业级用户，而VR同时适用于消费者和企业用户。

AR硬件产品形态：

• 手持设备（Handheld Devices）

• 固定式AR系统（Stationary AR Systems）

• 空间增强现实（SAR）系统（Spatial Augmented Reality Systems）

• 头戴式显示器（Head-mounted Displays ，即HMD）

• 智能眼镜（Smart Glasses）

• 智能透镜（Smart Lenses

AR主要硬件厂商：

包括微软(HoloLens)、谷歌(Google Glass)和Magic Leap。

AR开发平台：

Vuforia，EasyAR，苹果(ARKit)

AR系统结构：

由虚拟场景生成单元以及显示器和头盔等交互设备构成。其中虚拟场景生成单元负责虚拟场景的建模、管理、绘制和其它外设的管理；显示器负责显示虚拟和现实融合后的信号；头部跟踪设备跟踪用户视线变化；交互设备用于实现感官信号及环境控制操作信号的输入输出。

AR技术原理：

首先摄像头和传感器采集真实场景的视频或者图像，传入后台的处理单元对其进行识别“是什么”和生成数据模型，并结合头部跟踪设备的数据来分析虚拟场景和真实场景的相对位置（在哪里），实现坐标系的对齐并进行虚拟场景的建模绘制融合计算；交互设备采集外部控制信号，实现对虚实结合场景的交互操作。系统融合后的信息会实时地显示在显示器中，展现在人的视野中。

AR的关键技术

目前AR技术的技术难点在于：精确场景的理解、重构和高清晰度、大视场的显示技术。

1、对现实场景的理解和重构

在增强现实系统中，首先要解决“是什么”的问题，也就是要理解、知道场景中存在什么样的对象和目标。第二要解决“在哪里”的问题，也就是要对场景结构进行分析，实现跟踪定位和场景重构。

物体检测和识别的目的是发现并找到场景中的目标，这是场景理解中的关键一环。广义的物体检测和识别技术是基于图像的基本信息（各类型特征）和先验知识模型（物体信息表示），通过相关的算法实现对场景内容分析的过程。在增强现实领域，常见的检测和识别任务有，人脸检测、行人检测、车辆检测、手势识别、生物识别、情感识别、自然场景识别等。

目前，通用的物体检测和识别技术，根据不同的思路可以分为两种：一种是从分类和检测的角度出发，通过机器学习算法训练得到某一类对象的一般性特征，从而生成数据模型。这种方法检测或者识别出的目标不是某一个具体的个体，而是一类对象，如汽车、人脸、植物等。这种识别由于是语义上的检测和识别，所以并不存在精确的几何关系，也更适用于强调增强辅助信息，不强调位置的应用场景中。如检测人脸后显示年龄、性别等。另外一种识别是从图像匹配的角度出发，数据库中保存了图像的特征以及对应的标注信息，在实际使用过程中，通过图像匹配的方法找到最相关的图像，从而定位环境中的目标，进一步得到识别图像和目标图像的精确位置，这种识别适用于需要对环境进行精确跟踪的应用场景。

跟踪定位技术则分为基于硬件的定位技术和基于视觉的定位技术2点。其中基于视觉的跟踪定位技术最核心的技术，也是主流技术

基于SLAM的三维环境定位

标准的视觉SLAM问题可以这么描述为：把你空投到一个陌生的环境中，你要解决“我在哪”的问题。这里的“我”基本上等同于相机或者眼睛（因为单目，即单相机，请把自己想象成独眼龙），“在”就是要定位（就是localization），“哪”需要一张本来不存在的需要你来构建的地图（就是mapping）。你带着一只眼睛一边走，一边对周边环境进行理解（建图），一边确定在所建地图中的位置（定位），这就是SLAM了。换句话说，在走的过程中，一方面把所见到（相机拍到）的地方连起来成地图，另一方面把走的轨迹在地图上找到。

这类技术不需要预存场景信息，而是在运行阶段完成对于场景的构建以及跟踪。其优点是不需要预存场景，可以跟踪较大范围，适用面广，在跟踪的同时也可以完成对于场景结构的重建。但目前这类技术计算速度慢、数据量大、算法复杂度高，对于系统的要求也较高。

原理拓展见这里

AR交互方式：

手势识别的红外摄像头

AR系统基本具备以下三个特点：

1、真实世界和虚拟世界的信息集成；

2、具有实时交互性；

3、是在三维尺度空间中增添定位虚拟物体。

AR应用：

1）自拍。这是一款把卫生巾和AR技术结合的手机APP,用户通过扫描一片苏菲口袋魔法卫生巾，即有萌兔子秒现眼前！卫生巾冒出和真人互动的裸眼3D兔！同时也是自拍神器。该款应推荐iPhone4s及以上机型适用。

2）AR+电商。

A、让顾客了解产品。类似于小熊的基于AR技术的应用都符合一个基本的套路，就是通过先进的AR技术让平面图片或卡牌“立体动起来”。用户只需要下载相应的专用软件，利用使用移动设备扫描AR卡，即可出现角色的立体图像。

B、买前试”吃“。在宜家《家居指南》应用中，AR技术主要用于演示视频，主要是3D和扩增实境技术。视频中主要的概念有两个，一个是用户可以通过宜家的官方杂志作为识别卡，展示此杂志中的宜家家居产品，并将这些产品通过增强现实技术摆放到家中的各个角落。从而更方便地测试家具的尺寸、风格、颜色摆在某个位置是否合适。

C、AR抢优惠券。iButterfly是日本广告公司电通推出的一款手机应用，它利用LBS与AR技术将商家发放广告和优惠券的营销活动通过捕捉蝴蝶变成了一个充满趣味性的小游戏。用户可以在手机相机取景器上的现实场景中，通过前后晃动手机捕捉飞舞的虚拟蝴蝶。不同地点蝴蝶的种类不同，搜集蝴蝶的同时也收集了各种各样的优惠，用户还可以通过蓝牙和其他人交换蝴蝶，趣味十足。抓蝴蝶还能拿优惠券，真是美哉乐哉。

D、做一款AR应用，让大家可以看到宣传册模特，穿内衣时的样子。

E、门店。Ar增强现实技术+GPS位置定位技术的App，用户在东京的任何一地点打开App，就会有水族馆可爱的企鹅为用户做导航，指引用户到水族馆参观。

3）教育+出版类AR应用。

A、对准写有化学元素名或化学式的卡片，手机或平板界面就可以显示出立体的分子结构。如果这款App还能显示出化学反应的过程，那就更好了。

B、口袋动物园是一款与AR结合的早教类应用，通过卡片或马克图识别出各种各样的动物帮助儿童学习。产品的出现让广大儿童们足不出户便可以在移动设备上看到各种各样的动物，而这一方式也彻底颠覆了传统卡片学习，给孩子们带来了全新的体验。

C、阅读。出版商Tigger Global想出了书籍结合AR应用的点子。读者可以下载应用，用iPad对准正在阅读的书籍，屏幕上就会呈现出书中所描述的场景，以及对应的章节，用虚拟场景给枯燥的阅读带来一些调剂

D、观星。通过定位和指南针让你通过移动设备便能观看到浩瀚的星空。你只需将屏幕对准天空，便可以看到你想看的星星们。

E、选取景色。Yocli是一个简单的增强现实实景选取颜色应用程序，旨在建立最简单的方式来捕捉你身边的颜色。让用户轻松保存为十六进制代码的颜色。并支持通过电子邮件或Twitter与朋友分享你捕捉的美丽颜色。

F、语言翻译是AR应用中最具发展前景的领域之一。现有的一款应用Word Lens兼容于几乎所有智能手机，能够将文本同步翻译成另一种语言。打开应用后，用户只要将设备对准外国文字即可。设备就会将此信息翻译成用户母语并显示出来。而且翻译后的文本是同样的字体，印在同一面墙上——就跟原始文本一样。

系统在汽车运转失常时派上用场，帮助用户进行汽车维修及维护。它能通过物体识别技术识别出汽车零部件，实时详细地将所有必需的维修、维护步骤描述并图示出来，并配有需要用到哪些设备的信息。这款应用可以在多种移动设备上运行。目前，该系统为大众服务独家使用，不过可以想象，未来消费者都会用上类似的系统，不太了解汽车机械的人都能修好自己的汽车

视觉拣货。该系统包括头戴式显示器（HMD）之类的移动AR装置，相机，可穿戴PC，以及续航至少为一班次时长的电池模块。其视觉拣货软件功能包括实时物体识别，条形码读取，室内导航，以及与仓库管理系统（Warehouse Management System，简称WMS）的无缝信息整合。借助于这样的一套系统，每位仓库工都能在视野中看到数字拣货清单，还能受益于室内导航功能，看到最佳路径，通过有效路径规划减少移动耗时。该系统的图像识别软件能自动读取条形码以确认仓库工是否到达正确位置，并指引他在货架上快速定位待拣物品。接着，仓库工可以扫描该物品，将此流程同步登记到仓库管理系统中，实现实时的库存更新。AR设备能够登记一批货物是否完整、可供分拣。通过标识或先进的物体识别技术，捕捉货盘和包裹的数量、体积。识别到无损包裹数量正确后，AR自动确认、交付分拣。

包裹配载。未来在配送中心，每个司机通过AR设备看一下包裹，就会接收到该包裹的关键信息。该信息可包括运输商品的种类，每个包裹的重量、配送地址，是否易碎，是否需要正确摆放以避免损坏。接着，AR设备会实时计算每个包裹的空间需求，扫描车辆货箱寻找合适的空位，然后提示司机应该将包裹摆放在哪个位置，并记入规划路线中。

最后一公里。司机将AR设备指向某个建筑或建筑群，它会显示出谷歌街景之类的信息，或源自其它数据库的相关详情。如果在公共数据库中找不到可用信息，还可以使用AR设备根据入口位置或其它当地特征来放置标记，从而逐渐建立起一个独立的数据库。下一次再配送到这个地址时，AR设备会访问之前收集的数据；同时渲染相应的虚拟信息图层。

签收包裹。在面部识别技术的帮助下，签收包裹的人无需出示任何身份证件即可被精确识别。AR设备会拍照并自动与社保数据库进行比对。考虑到数据隐私问题，需要在得到签收人许可的前提下才能使用这种AR面部确认技术。

AR导航

AR面临的挑战：

1、相机质量与成像处理。智能手机通常配备的相机传感器在弱光条件下表现糟糕：图像模糊，开始出现明显色差。相机传感器硬件通常禁止低层级访问。API只提供了相机传感器的高层级访问，无法控制曝光、光圈及焦距。小型CCD传感器导致相机采样噪点增加，进而严重影响后续CV算法的发挥。图像获取过程中的质量损失很难通过后期处理步骤补偿。

2、电量消耗。电池电量近年来并没有显著提升。相机传感器在以高帧率持续运行时耗电量很大，其主要原因是目前手机的设计用途仍然是拍照，而不是摄影。另外，传感器和网络接口也是耗电大户。运行功能强大的AR应用会让电池迅速耗干。因此，AR应用必须只能设计成供短时间使用，而不是一种“常开”功能。

3、网络依赖性。远程访问大量数据受到几个因素的影响。首先，网络延迟会导致令人不爽的延迟，拖累AR应用的瞬时表现。其次，访问远程数据仅在开了流量套餐时才有可能做到，而流量套餐可能过于昂贵或者无法开通。最后，某些地区的网络覆盖可能不满足条件。于是完全独立的AR应用成为了唯一的可行选择，这就意味着需要在设备上占用大量的存储空间。

4、可视化与交互的可能性。智能手机的外形因素在购买决策中发挥着重要作用。实际上，可接受最大设备的尺寸严格制约了显示屏的大小。交互技术同样存在着类似的限制。多点触控界面或许是最为先进的交互机制，但它在某些特定任务——如像素级的选取上表现糟糕。

5、动态场景与AR真实感的矛盾。目前的AR应用假设场景中的一切事物都是静态的。然而，现实恰好与之相反。尤其在室外场景中，几乎所有物体都在变化：行人，光照和天气条件，甚至是建筑物每隔几年也会刷上新的颜色。定位会因此受到严重影响。在动态场景中，大多数算法的基本假设从一开始就是错误的。比如说你正在对一个建筑立面进行增强，行人路过挡住了部分视野。由于算法缺少阻挡推理，就算增强内容的视觉效果再好，未来硬件平台的性能再强大，也会出现碍眼的错误。动态物体与虚拟内容之间交互的缺失绝对会损害AR应用的真实感。

文字大部分出处来自：这里

待续