AR 是什么？北大博士说增强现实将是我们所有人的栖身之地

北京大学博士生扔翔

以下是扔翔为我们的科技播客准备的采访笔记。因为时间的限制，很多内容都没来得及聊到，所以特地放上来供有兴趣的同鞋们学习。

扔翔北京大学地图学与地理信息系统博士生

我是扔翔，现在是北京大学地图学与地理信息系统专业的在读博士。主要研究方向是无人机图像处理和无人机增强现实，现在的毕业设计题目是无人机热红外视频的增强现实。

这技术可以在能见度低的环境下辅助无人机的操作人员快速了解工作区域的各种信息，比如地面的道路和建筑名称，地面工作人员的位置和状态等等。

迷之增强现实

增强现实简单来说就是介于完全的现实世界和完全的虚拟世界之间的一种状态，学术上把这种介于两者之间上的状态统称为混合现实 Mixed Reality 。

MR 又分为增强现实和增强虚拟现实。现实的场景占比多的叫作增强现实，还有一种虚拟成分占比多的叫作增强虚拟现实，现在增强虚拟现实的概念比较抽象，相关的应用也比较少，还是增强现实比较多。

增强现实可以在现实场景中把虚拟的记号、图形等信息叠加进来，并且这些虚拟的标记可以随着三维空间中场景的变化而移动，而不是电影字母那样楞迭加上去而和场景中的内容没有空间上的联系。

其实将虚拟的记号叠加进现实的场景中并不是一个新的想法，最早的有文字记录的尝试可以追溯到 19 世纪末 20 世纪初。

1902 年的《 Nature 》登载过一篇文章，描述了一种通过光学手段在射手的视野中投射瞄准标记的装置。这个装置可以让射手避免将视野聚焦在机械准星上时看不清目标，而将视野聚焦在目标上的时候看不清准星的难题。

后来德国人在一战中率先将这种原理的瞄准具装在了作战飞机上。飞行员通过面前的一个倾斜的玻璃面板追踪敌机，而玻璃面板上同时还会有帮助飞行员瞄准敌机的，相当于准星一样的光学标记。

这种瞄准装置后来成了各国战斗机上的标准配置，并且随着电子技术的发展可以同时显示飞机的各种状态信息、机载计算机根据飞机和敌机的运动状态预测的弹道、机载雷达对敌机的锁定状态等更复杂的信息。

现在我们的大飞机 C919 的驾驶舱也开始装备类似的装置来帮助飞行员更好的完成飞行任务。

而学术界公认的增强现实技术诞生时间是 1968 年，那一年计算机图形学界的大佬 Ivan Sutherland 公布了“达摩克里斯之剑”装置，利用两个半透的反射镜，让用户可以同时看到现实世界和计算机生成的画面。

另外还有两种装置来追踪用户头部的运动，一套是机械式，一套是超声波式。当追踪到用户头部的姿态之后，计算机就可以计算与当前用户视野对应的虚拟画面，并且通过半透的显示装置显示给用户。

为了达到 3D 的显示效果，用户左右眼看到的画面还由两套显示装置分别显示。实际上除了硬件原理受到时代限制之外，这套装置与现在的 HTC Vive 、 Oculus ，Hololens 之类的 VR/AR 设备并没有本质的区别，可以说相当超前又具有开创性。

“增强现实”这个概念被正式提出是在 1992 年，波音的两个工程师提出了一套装置，用来帮助工人完成越来越复杂的飞机装配任务。

在描述这套装置的论文中，这两位工程师将这种虚拟标记和现实场景叠加，并且虚拟标记还会随着用户视野移动而移动的技术称为“增强现实” Augmented Reality。

1994 年，学术界正式提出了一个从现实世界到虚拟世界的连续统的概念，用来描述虚拟现实、增强现实和混合现实这些“现实”之间的关系。

简单来说就是一根数轴，一头是现实世界，另一头是虚拟世界（虚拟现实），而在中间介于现实世界和虚拟世界之间的，统称为混合现实，其中更靠近现实世界的叫 AR ，更靠近虚拟世界的叫做 Augmented Virtuality ，不过这个概念现在比较少见。

AR 和 AV 统称为 Mixed Reality ，所以 Hololens 被微软称为 MR ，其实更多的是商业上的考虑，为了避免给人跟风的感觉，所以用了一个更大的名字。

在 1993 年， GPS 行程全球服务能力之后，增强现实的研究者们获得了在地理空间确定用户目标的能力。在这之后涌现出了许多在户外范围进行的增强现实研究，研究者利用 GPS 确定用户的位置，然后利用固定在用户头部的姿态传感器确定用户的视野方向，这样就可以结合计算机中存储的地图确定用户视野里都有什么建筑物，以及这些建筑物的相关信息。（ Touring Machine ）。

1997 年， Azuma 提出了到现在为止接受度最高的增强现实定义。

以上这些增强现实的研究都是通过外部的传感器确定用户的位置和视野方向，从而在用户视野里的合适位置增强相应的内容。

而我们更熟悉的通过计算机视觉在画面里显示增强信息的方式要更晚熟。

1999 年，广岛城市大学的加藤博一等人发布了一套叫 ARToolKit 的增强现实开发包，为开发者提供了通过识别诸如二维码之类的二维标记实现在画面里增强一些三维模型的功能。后来我们接触到的各大厂的增强现实 API 或多或少的受到 ARToolKit 的影响。

2000 年，增强现实第一次踏入了游戏领域。当时的研究者把著名的 FPS 游戏 Quake 通过增强现实搬到了现实世界。用户背上配备有 GPS 接收机、便携电脑和头戴显示器的背包之后，这套装置就可以在用户身处的现实场景中添加进游戏的物体和角色，用户可以在现实环境中与敌人进行战斗。

2003 年，吃豆人也被搬上了增强现实。

2010 年， Yelp 把增强现实放进了 App 。增强现实也逐渐在移动端开始商业化。

点击收听扔翔关于 AR 增强现实的语音访谈

点击访问上面的链接，找到 Apple 播客和喜马拉雅上扔翔的访谈。

AR 和 VR 的区别

从前面的讨论中我们知道了增强现实是介于完全的虚拟世界和完全的现实世界之间的一种状态，所以它和虚拟现实的最大区别就是他带有现实世界的成分。而虚拟现实则是给用户呈现出一个完全由计算机产生的虚拟世界。

AR 和 VR 依赖的主要技术有相同的部分，也有不同的部分。比如在现在的技术形态下，消费者端的 AR 和 VR 最终都需要高质量的头戴显示器，并且都需要精确追踪用户头部的运动。但是这些技术在应用于 AR 和 VR 时又有显著的区别。

在追踪用户头部运动这方面，如果在室内条件下增强现实和虚拟现实使用的技术可以做到无限接近，基本上你能用的我也能用。

但是考虑到增强现实会有很多户外的应用场景，对卫星定位之类地理定位技术的运用就是 AR 与 VR 的一个显著区别，毕竟用户戴着 VR 眼镜基本不可能在户外尺度的空间中移动，这也违反了虚拟现实的初衷。

在显示方面，虚拟现实为用户显示的是一个纯粹的虚拟画面，所以只需要像提升游戏质量那样不断提升渲染效果就可以为用户提升更好的体验。

而增强现实由于要同时顾及渲染出来的物体和现实世界的物体，所以就麻烦不少，比如要把虚拟的物体渲染进一个现实的场景里，如果想要逼真，就需要虚拟的光照无限接近现实的光照，所以对现实场景的光照估计也是增强现实研究的一个重要方向。

现在常见的增强现实大概有两种将虚拟物体叠加进现实世界的方式，一种是用摄像头拍下画面，然后在数字的图像里面叠加信息，还有一种就是像达摩克里斯之剑那样，用类似半透明的反光板这种光学的方式。

这两种方式都有一些技术难题，用摄像头的话就要解决视频的延迟，以及摄像头与用户的眼睛位置不同造成的用户运动感的混乱，这个我比较有体会。

本科的时候我们实验室曾经制作过一套增强现实系统，在头盔上固定了摄像头，然后通过眼睛前面的头戴显示器显示，结果给我的感觉就是视觉上感觉自己长高了好多，并且需要一段时间去适应，因为头顶上的摄像头偏离了正常的眼睛的位置。

而对于使用半透明反光板之类的光学方式而言，怎样把用户的视野和反光板上的画面完美对齐就是一个非常麻烦的事，因为每个用户的脑袋尺寸都不一样，都会造成误差。

美军 F35 装备的 AHMS 头盔，为了达到精确的对其效果，甚至需要精确测量每位飞行员脑袋的外形，然后为飞行员定制专属的头盔内衬。

另外还有一种投影式的，不过只能在特定场合用，受到的关注不多。

还有虚拟物体和现实物体的相互遮挡也是虚拟现实不会遇到的大麻烦，这需要对场景进行精确的三维建模，甚至使用基于深度学习的目标识别才能实现。

在类似于使用半透明反射镜之类的方式将虚拟物体叠加进现实场景中时，半透明的反射镜也会使得虚拟的物体无法完全遮挡住应该被遮挡的现实物体。

为了解决这些问题也有不少研究者做过相关工作。而他们都面临一个现实画面并不在实际的距离上，导致眼球聚焦距离的错乱。 Magicleap 当年的卖点也是这个。不过确实画的饼太大了。让市场的心理落差非常大。

更大的区别在于这两种技术本身的特性。 AR 它显示的基础仍然是现实世界，用户想要从不同的位置和角度去观察世界，自身也必须在现实世界进行移动。用户从视觉感受到的自身运动就是自己身体实实在在的运动。

而虚拟现实为用户提供了近乎无限的活动范围，但由于用户自身肉体和 VR 设备的限制，用户又不可能完全在实际的物理空间里随心所欲地移动。这样眼睛看到的运动和身体感受到的运动就产生了矛盾，用户从 VR 设备里看到了自己在移动，但是身体又没有感受到这种移动。这就是我们说的 VR 眩晕。大胆一点说，除非人类可以把大脑和计算机直接建立数据连接，否则这个问题将一直是 VR 的一大困扰。

Facebook 的 VR Vs. Apple 的 AR

在我看来其实这两个公司对 AR 和 VR 的倾向最终还是体现了这两家公司本身的产品传统。我们知道 FB 是做社交网络起家，对于 FB 的大部分产品，用户只依赖线上的服务就可以使用。

而 Apple 的产品线以 iPhone 、 iPad 之类的硬件设备领衔，担负更多连结用户线下生活和线上服务的任务。

所以从两家公司的产品传统出发， Apple 选择可以将线上数据与虚拟世界融入现实的 AR ，而 FB 选择对现实世界依赖更少的 VR 。这两家公司对 AR / VR 的不同倾向体现了这两家公司产品路线的自然延续。

毕竟人类还无法完全把大脑泡进缸里，所以依然需要用实实在在的肉体去与现实世界进行交流

就短期而言，毕竟人类还无法完全把大脑泡进缸里，所以依然需要用实实在在的肉体去与现实世界进行交流，我们需要开动现实世界的机器，运输现实世界的货物，并且住现实的房子、使用现实的家具，这大量的与现实世界互动的人类活动，又遇到了一个空前的对万物进行数据化的时代，我们就需要有一种合适的方式更好的向用户呈现这种活动。

很显然增强现实就是这样一种技术。人们不需要抬头看一眼现实，再低头在屏幕上看对应的数据，在用户的视野里，数据就出现在它们所描述的物体旁边。

所以从这个角度来看我觉得在能触摸到的未来各个行业对增强现实的需求会大于对虚拟现实的需求，但是这里面会有大量的行业用户，而不是普通消费者。

Apple 的 ARkit 会如何促进 AR 使用场景的扩展？

ARKit 除了大家都知道的降低开发难度，让开发者更快上手之类的，我觉得最重要的是提供了感知物体实际尺寸的能力。

我们之前提到过 1999 年就有了第一套开源的增强现实 API ARToolKit 。从那时起的各种基于识别图像进行注册（就是获得摄像机姿态和位置，从而把虚拟的物体摆到正确位置的过程）的增强现实套件都是相对的位置和姿态，很难做到确定图像里物体的尺度。

要想确定尺度的话，一般就需要多个摄像头，或者加入深度传感器之类的辅助设备，而这对大部分日常设备来说又会增加成本和设计难度。所以这期间大部分 API 都无法确定你给他的是一个一米乘一米的桌面，还是你从三楼窗户拍的十米乘十米的地面。

而 Apple 的 ARKit 2 引入尺度预测功能之后，程序不光可以知道“这是一个平面，可以在上面摆放物体”，还能知道面前物体的大概尺寸（应该还有离用户的距离）。

这就使得增强现实应用立刻可以与现实世界进行更深度的交互，而不仅仅是在桌面上显示一些花花草草。

例如我想买一个家具，但是不知道家里能不能放下，就可以用商家提供的实际尺寸的三维模型，利用增强现实往家里一摆，就立刻能知道合不合适。在以前如果没有尺度信息的话，我就不知道这个家具在渲染的时候到底应该渲染多大，因为我不知道场景中物体的实际尺寸。

从更新的 iOS 自带的测距仪 App 来看，这一点应该也是 Apple 想主推的新特性。这个特性未来可能也会为电商之类的领域带来一些有趣的新机会。

同步最新资讯

及时获取最新播客资讯和各种让你灵感迸发的内容，立即加入我们

AR 会朝什么方向发展？

游戏确实是 AR 的一个重要应用领域， AR 也确实会为游戏产业带来更多的可能。

但增强现实在发展初期，更多是作为一种提高生产力的工具被开发的。比如最早提出增强现实概念的那篇论文，是为了帮助波音的飞机制造工人更好的完成布设飞机的线缆等工作。在未来，增强现实也会在包括但不局限于娱乐的许多领域发挥强大的作用。

增强现实用于导航可能是增强现实最经典的应用之一了。我们看科幻片的时候应该都见过这样的场景，主人公带的高科技头盔，或者眼镜之类的东西，可以为主人公指示奔跑、驾车或者飞行的路线，这就是非常典型的增强现实在导航方面的应用。

而在现实中我们开车的时候，特别是像在北京开车，经常会有很多个出口距离非常近，即使手机开着导航一不小心也会开错。而且手机开着导航就有一个低头看一眼手机抬头看一眼路，这样的视野切换问题。

在驾驶员视野中用增强现实把正确路线的道路铺上绿色，只要顺着绿色道路开，就可以降低开错的概率，应该也会是一件很有趣的事。

我个人觉得装在汽车里的增强现实导航可能是理论上相对比较容易实用化的应用场景。现在其实市面上也有很多汽车里的抬头显示器产品，但这些产品大多是在前风挡的视野里显示一些固定的记号，还不是非常符合增强现实的特点。

但是依托汽车这样一个平台，没有头戴显示器在重量、体积上的限制，并且用户的视野相对来说变化范围不会太大。在增强现实的实现难度上，相对戴在头上的眼镜或者头戴显示器来说可能会低一些。

当然在这方面还有一个变数是无人驾驶，如果汽车连司机都不需要的话，似乎增强现实也就不大需要了。

我们现在毕竟还有着大量的有人驾驶车辆，无人驾驶的研究虽然火热并且成效显著，但完全取代有人驾驶还需要一段时间，所以在这个时间差里增强现实仍然可以为人类驾驶员们提供更好的导航支持。

当然不只是在汽车上还有飞行，航海。水道和航路的信息也可以直接出现在飞行员和船长的视野里，周围的飞机和传播也可以用更醒目的记号来提示。

旅游

旅游是与驾驶类似的一个应用场景，都是要在相对陌生的环境下为用户提供与周围物体有关的信息。

由于观光景点的多种多样， AR 在旅游方面的应用也会更丰富多彩一些。比如 2002 年时，就有科学家构建过增强现实系统，用来向人们展示古代遗迹上曾经的古人生活的场景。

早些年圆明园也有过类似的系统，不过我去体验了之后感觉效果并不是很让人满意。

医疗

比如 Sonic torch 。

教育

比如，不能亲身去动物园的话，就来个增强现实的小动物吧。

电视转播

这个已经应用了比较长时间了，比如游泳比赛时，赛道上会出现同时出现世界纪录的进度，运动员触摸池壁之后马上就会弹出时间和名字，这些都是通过电子裁判系统和转播系统联动实现的增强现实。

最近几年中央电视台和各个地方台的春晚也尝试过很多在电视转播时使用增强现实增强舞台效果的尝试。

前一阵美国的一次天气预报，也利用了增强现实向观众展示不同深度洪水造成的破坏效果，引发了不少关注。

制造和设备维护

从 1992 年开始，复杂的布线。波音和空客一直在尝试。现在飞行器更复杂。也有利于从设计到制造的全面电子化。

增强现实的说明书，也比平面的更生动。

物流

物联网的所有数据，我们用增强现实来展示吧。

设计

钢铁侠是最好的栗子， Hololens 的广告片也有体现。

军事

F35 的 AHMS 系统，不光可以显示各种记号，还可以通过机身上的许多光学、红外摄像头组成的阵列，给飞行员一种“穿透飞机地板”的显示效果。

另外现在许多装甲车辆也有类似的尝试，甚至直接使用商用套件。士兵在眼镜里直接获得别的单位指示的目标，或者向别的单位指示目标。

社会治理

交警戴上车牌和人脸识别的眼镜，会识别更多犯罪吧。

通信

一个用数据信息展现的人像站在你面前说话，简直就像星球大战一样。

等等，更多的应用还等着大家去发现和创造。

就用我最近在读的一本书的标题来总结吧，增强现实在未来将是我们所有人的栖身之地。

doko.com

享乐主义行思之本

可持续生活和商业