(农历立春,纽约暴雪,银装素裹,天地苍茫。)
本周二,Magic Leap官方表示获得由阿里巴巴集团领投的约7.94亿美元融资。加上上轮由谷歌领投的5.42亿美元,至2014年年底以来,该公司总计已完成13.4亿美元投资,总估值约45亿。
这家位于佛罗里达的创业公司已经创业数十年,阵容豪华,规模庞大,但却对其核心技术讳莫如深,异常神秘。间或泄露几条演示视频,举世惊艳,旋即哗然。那么,Magic Leap究竟有何惊世骇俗的技术秘密?在此,老顾大胆推测,力图在其扑朔迷离的表象下,探究技术的实质。
在计算机图形学领域,三维场景渲染演示技术的演化进程可以大致划分成如下的历史阶段:针孔相机,双目立体视觉,光场,数字全息。简而言之,针孔相机演示技术的代表作是早期的动画电影《最终幻想》,双目立体视觉的代表作是3D版的《阿凡达》,光场的代表作就是Magic Leap, 数字全息技术的代表作是《星球大战》中的场景。
图3. 最终幻想:光线跟踪法渲染,针孔相机显示技术。
图4. 3D版的《阿凡达》,双目立体视觉。
图·5. Magic Leap,增强现实,光场技术。
图6. 星球大战,数字全息技术。
Magic Leap 实现并普及了光场显示技术,这是三维场景显示技术的一场实实在在的革命,获得空前的投资自然是名至实归。那么,什么是光场?这一技术是完全崭新的吗?这一技术发展的历史脉络如何?存在其他以光场技术起家的公司吗?我们在下面的讨论中,逐一解释。
针孔相机传统的光学相机,其理想模型就是针孔相机。在计算机图形学中,传统的渲染方法都是基于这种相机模型。如图7所示,从相机的光心(optical center)出发,经过成像屏幕的每一个像素,发出一条射线。光学跟踪法(ray tracing)用几何光学的物理法则计算这条射线的颜色,即为相应像素的颜色。图8展示了一个用光学跟踪法算出的渲染图像。在这里,我们需要一个概念上的转换,每个像素不是一个点,而是一条射线,这是理解光场的关键!换言之,一张相片就是通过光心的一簇射线。《最终幻想》就是用光学跟踪法来渲染制作的。
图7. 光线跟踪法中的针孔相机模型。
图8. 用光线跟踪法渲染的一幅场景。
传统的显示方法,例如屏幕,LCD/LED,是基于传统观念的,即把每个像素作为一个点,从不同的角度看过去,同一个像素的颜色不变。换言之,这种显示方式失去了射线方向的信息。
双目立体视觉 人类具有两只眼睛,观看物体时两眼各自成像,大脑根据两眼成像的细微差别计算每一点的深度信息,从而得到立体感觉。模仿人眼,我们可以用双镜头相机得到双目立体相片。
图9. 双目立体相机。
图10. 阿波罗登月计划中拍摄的双目立体相片。
本质上而言,双目立体视觉相片就是从两个光心出发的两簇射线。3D版《阿凡达》就是以此原理制作的。相对于单目相机,双目立体视觉时间复杂度和空间复杂度加倍。
图11. 光场(Light Field)的魔盒解释。
光场(Light Field)- 魔盒解释
我们假设用一个玻璃盒子罩住一只兔子,然后透过玻璃盒子来观察这只兔子。从盒子表面的任意一点,向三维空间的任意一个方向发出一条射线,这条射线的颜色由兔子和光照条件所决定。我们用来表示玻璃盒子,表示单位向量,一条射线表示为,所有射线的集合记为 。 每条射线对应着一个颜色,我们用三维空间中的一个点来表示。因此,光场就是从射线空间到颜色空间的映射,换言之,光场是定义在射线空间上的矢量值函数:
。
假设我们去掉了玻璃盒子中的兔子,但是这个玻璃盒子是一个魔盒,光场信息被完美保留。当我们观察这一魔盒的时候,所有经过一只眼睛的射线合成了视网膜上的一幅图像。我们可以自由地改变距离和视角,兔子在视网膜上的图像相应地自然变化,根本觉察不到兔子的消失。因此,有了魔盒,我们不再需要真正的兔子。这个魔盒就是兔子的光场。
在光学领域中,光场是一个古老的概念。在1996年被微软和斯坦福学者引进到计算机图形学领域,发展到2016年的今天,已经整整二十个年头了。虽然在学术界,人们不懈地研究深化,真正在工业界产生影响,还是近几年的事情。Magic Leap应该算是Light Field理论在现实应用中的一个巅峰。
光场渲染 我们可以用兔子的光场来取代兔子,渲染生成各种角度的照片,这样我们无需为建立兔子的几何模型,纹理模型和光照模型。对于大场景,复杂光照条件,或者复杂几何模型(如长绒玩具)等等,光场比实物的数字模型更为简单,或者光场比光线跟踪得到的渲染结果更加逼真,或者更加高效,我们用光场来渲染。这是所谓的基于图像的渲染方法( Image Based Rendering )。历史上,微软曾经出过一版基于光场的游戏,类似孤岛寻宝,所有场景都是从真实自然中采集,非常逼真,但是最后没有引起任何反响,无疾而终。
光场采集 光场是定义在射线空间上的函数,射线空间是4维的,传统的针孔相机只能采集二维射线簇,因此光场采集具有本质的难度。早期光场采集的方法简单粗暴,就是用大规模相机阵列,如图12所示的二维相机阵列。这种光场相机笨重昂贵,无法普及。
图12. 斯坦福的光场相机:16x8多相机阵列。
依随数字相机技术的成熟,针孔相机愈来愈小,可以密集的集成在一起,从而缩小了光场相机的体积。但是镜头的尺寸无法缩减,如图13所示。
图12. 斯坦福的光场相机:相机阵列。
真正的突破来自于仿生学。许多昆虫都有复眼( Compound Eye ), 复眼获取的就是光场信息。
图13. 昆虫的复眼:光场相机。
人类模仿昆虫,制造了类似复眼的镜头,如图14所示,在一个大镜头上集成了数十个小镜头。依随光学工艺的改进,人们制造出在一张塑料薄膜上集成了数千个微小镜头。斯坦福的博士生吴任基于这种想法,创立了光场相机Lytro公司。
图14.Adobe制造的人造复眼原型。
传统的相机需要先对焦,再照相。Lytro相机提出的口号是“先照相,再对焦”。因为Lytro相机得到的光场信息,使用者可以由4维光场合成不同角度,深度的二维相片。
图15. Lytro相机。
如图16所示的婚纱摄影:同一个光场相片,我们既可以聚焦于靠近镜头的新郎;也可以聚焦于远离镜头的新娘。
图16. Lytro婚纱照:同一张光场相片,可以聚焦在不同的区域。左帧,聚焦在新郎上;右帧,聚焦在新娘上。
光场显示 传统的显示方式,屏幕,LCD/LED,只保留了射线穿过屏幕的交点的几何信息和颜色信息,没有保留射线的方向信息。屏幕是漫反射的,从屏幕上某一点发出的所有射线都是相同颜色的,而光场显示要求从同一点出发的不同射线具有不同的颜色,如图16所示。光场显示,正是Magic Leap的核心技术。
图16. 显示模式对比:左图是传统屏幕,过一点的所有射线同样颜色;右图是光场显示,过一点的不同射线不同颜色。
USC的光场显示 南加州大学提出并制作了一种光场显示装置,如图17,18所示,有一个四面透光的玻璃柜子,柜子中间是一面和水平面夹角为45度的镜子,柜子顶部安装了一台高速投影仪,投影仪垂直向下投影,光线经过镜子反射后水平射出。同时,镜子高速旋转。一颗幽灵般的透明人头悬浮在空气之中,当我们绕着柜子走的时候,我们可以看到人头的各个侧面,并且这颗人头对你挤眉弄眼。
图17. USC Light field display,一颗漂浮的人头。
图18. USC Light field display用于远程会议系统。
图19. USC Light Field display 专利图。
图19展示了这一光场显示仪器的原理。45度倾斜的镜子(114)被电机马达(115)带动旋转,图形处理器(130)生成图像传递给高速投影仪(120),投影仪投射到镜子上,经反射水平射向四周。这样,经过严格同步控制,我们就显示了一个三维的光场。这一装置笨重而昂贵,同时高速旋转的镜子使得系统的稳定性下降。任何机械振动都会影响光场显示效果。
Magic Leap 光场显示 - 手电筒解释
Magic Leap 的核心技术是一种特殊的光场显示设备:光导纤维投影仪 (Fiber Optic Projector )。激光在光导纤维中传播,在纤维的端口射出,输出方向和纤维相切。改变纤维在三维空间中的形状,特别是改变纤维端口处的切方向,我们可以控制激光射出的方向。这就犹如我们拿着一个手电筒,通过改变手电筒的位置,和指向改变输出光柱的方向。如果我们快速摇动手腕,手电筒发出的光柱在空中划出了一个圆锥面,这个圆锥面打到一面墙上成为一个圆周。通过快速改变手腕摇动的幅度,我们可以控制这个圆周半径大小,从而得到一系列的同心圆,这一系列同心圆覆盖了一张圆盘。如果,手电筒的光柱颜色会变化,则我们在墙上画出了一个彩色圆盘。这样,通过快速摇动一只手电筒,我们得到了一幅图像,或者覆盖了一簇射线。假设有很多人,站在不同的空间位置,每人都摇动一只手电筒,则我们得到了一个光场。这就是Magic Leap的光场显示设备:光导纤维投影仪的原理。
图20. Magic Leap的手电筒。
图20显示了Magic Leap的手电筒,促动器(206)相当于人的手腕,光纤(208)相当于手电筒,促动器使得纤维顶端周期性地颤动,纤维顶端螺旋地画出了一些列的同心圆,激光经由透镜系统输出,在空中画出了一簇射线。投射到平面上照亮了一个圆盘。同步地改变经过颜色和强度,一根纤维利用分时技术得到一幅图像,如图21所示。
图21.一根纤维利用分时技术得到一幅图像。
在Magic Leap的纤维光投影仪中,有许多根光导纤维,集结成二维阵列,每根纤维都相当于一个针孔相机,二维相机阵列生成了光场。
光场显示的优势 相比于双目立体视觉,光场显示有很多优势。人类获取三维深度信息有两种途径,“shape from stereo” 和 “shape from focus”。我们用两只眼睛看同一个物体,同一个三维空间中的点,映到左右视网膜不同的像素上。我们人脑能够通过视网膜上的像素,反算对应的空间的射线,从而得到两条射线的交点,得到深度信息,这一过程是“shape from Stereo”。我们每只眼睛看物体的时候,大脑会自动调节眼睛的晶状体的曲率,使得物体在视网膜上清晰成像。调节晶状体的肌肉紧张程度使得大脑能够计算物体的深度信息,即所谓的“shape from focus”。看3D版的《阿凡达》的时候,我们只用到了“shape from Stereo”, 眼睛的焦距一直固定,因为眼睛到屏幕的距离不变,因此没有“shape from focus”的过程。但是,人类经过漫长的进化,这两种过程自然而然地紧密联系在一起。人为地割裂它们,就会使人目眩头晕。相反地,如果用光场显示技术,我们同时需要“shape from Stereo” 和“shape from focus”,因此观看时不会头晕目眩,光场显示技术更加自然健康。
光场显示的挑战 作为一场革命的开端,Magic Leap的技术面临着许多挑战。最为直接的就是:传统的显示技术只需要计算四维光场中的一个二维切片,而光场显示需要计算整个四维光场,其计算复杂度提高几个数量级,这是技术瓶颈之一。同时,精确的调控机械部件,使得每一个纤维都稳定自然地颤动,并且颤动的模式要和数据传输相互同步,并且这种颤动不受外界噪音的影响,这也需要令人匪夷所思的技术。
数字全息 光场从概念的提出到Magic Leap的投资狂潮已经走了二十年,而数字全息技术的发展历史更加漫长。光场本质上还是几何光学,而数字全息则是波动光学。目前数字全息技术日益成熟,依随蓝色激光的发明,彩色数字全息技术成为可能。目前发展的瓶颈一是计算量巨大,远远超过光场计算,二是数字全息显示中需要特殊的一种晶体,每个像素的折射率能够由电压控制。目前这种光学器件依然昂贵,并且尺寸较小。我们相信依随光场技术的广为接受,数字全息技术也会长足发展。
光场技术的启示 光场技术的历史发展使我们看到颠覆性的技术革命往往起源于基础科学和非商业功利的学术界。从学术界酝酿成熟,到商业界呼风唤雨往往要几十年。Magic Leap的技术突破来自于对于内窥镜技术的转用,这显示了跨界科研的重要性。
期待有一天,电视电影都是用光场摄像机拍摄,观众可以任意动态选择观看角度。或许这一天要等待另一个二十年,或许只需三五年。我相信,不久的将来,淘宝网上的照片都会被光场相片所取代,而Magic leap头盔,成为每一个网购者的标配。
请长按下方二维码,选择“识别图中二维码”,即可关注。
【老顾谈几何】邀请国内国际著名纯粹数学家,应用数学家,理论物理学家和计算机科学家,讲授现代拓扑和几何的理论,算法和应用。
今年三月份,Facebook 对外宣布了将以 20 亿美元收购 Oculus VR,如果说 2014年 还有什么新闻能让给我同样的震撼,那一定就是Google 5.42 亿美元领投 Magic Leap 了。
Magic Leap是一个及其低调又隐蔽的项目,除了获得 5000 万美金早期投资的消息,很少有消息见诸报道。最绝的是,连官网都神秘到不肯告诉你他们做的是什么的。消息出来,问了好多国内外做 VR、AR 的创业者,大家对于这家公司也是知之甚少。
估计所有人心里都有一个疑问,这到底是一家什么样的神奇公司,能让巨头如此青睐。本着八卦的心态,我也搜集了一些资料并整理了出来抛砖引玉。当然啦,作为一个技术白,估计此文还有很多不准确或者有误的地方,欢迎知情人士各种拍砖、剧透 ([email protected])。
类 Avegant 的虚拟视网膜技术
Magic Leap 说他们生产能够产生 “Cinematic Reality” 效果的软硬套件,能呈现比 Oculus Rift 更具现实感的 3D 体验,这种体验如同建立在真实世界之上。当你调整 焦点时会有不同的角度和深度随之转换,正如光场相机的效果一般。Magic Leap 称 “ 这种体验既不是虚拟现实,也不是增强现实,而是一种 30-40年 后的计算技术”。
从Re/code 的描述以及Magic Leap 的虚拟现实 3D 成像系统专利申请来看,Magic Leap 的成像技术可能和 Avegant 类似。Avegant 的成像原理与 Oculus 完全不同,采用一种叫作 VRD 虚拟视网膜技术(Virtual Retinal Display),可以在没有实体 “显示设备” 的情况下,将图像直接投射到用户的视网膜上。
对滴,写到这里你一定觉得这就是 AR 增强现实技术。Magic Leap 及他们的 Cinematic Reality 还是与传统的 AR 技术有一些区别的,区别主要是在呈现的效果上。传统的 AR 技术中,文字、图像以及其他虚拟元素会层层堆积在现实世界之上,让人觉得他们是漂浮在实景世界之上的。而 Magic Leap 和 Avegant Glyph 所产生的画面会更加真实,虚拟部分与现实部分会结合在一起,共同成为你视觉的一部分。所以正式因为这个原因,Magic Leap 把他们的技术定义成了 “Cinematic Reality ” ,如同电影般的现实。事实上,福布斯的专栏作家Parmy Olson在体验 Avegant Glyph 的产品时,给出的评价就是,“给人的印象就是在一家小型影院里通过电影放映窗在看电影”。
这种成像技术的另一个好处就是成像更加 “真实”,不会产生 “晕 3D” 的问题了。关于虚拟视网膜技术,Nvidia 的研究人员在 2013年 的时候发布过一套类似的头戴显示系统,M.I.T. Media Lab也发布过类似的产品和方案,相关的原件都有大规模商业生产的可能性。
Magic Leap 在做的事情
回到正题,那么 Magic Leap 到底是通过什么设备成像的呢?Magic Leap 官方没有说,国内外的报道也没有说。我们就来从现有的一些报道里找些蛛丝马迹吧。
纽约时报的编辑 John Markoff 在今年7月 的报道里,没有提及他们使用了何种设备,只是说Magic Leap 希望未来可以将设备做成一副眼镜。
作为一家能被 Google 看中的公司,自然是一家 “技术流” 公司。我查了下Magic Leap 的专利,大概包括了:3D 虚拟与增强现实系统、符合人体工程学的头戴式显示器、触觉手套、紧凑型成像系统、可让用户互动的 “大型同步远程数字存在技术”。因此,很可能是通过符合人体工程学的头戴显示设备显示,通过触觉手套交互。
从符合人体工程学的头戴显示设备这项专利来看,Magic Leap 使用的设备很可能具有眼镜状的外观,内置自由形式的光学系统。从上图中可以看出,设备中很可能包含了一个波导棱镜,有多个自由折射和反射表面,作为导光装置。光线从图像显示单元发出,经由棱镜的第一折射面,注入到波导棱镜。所注入的光线经由多重反射(通常为 3 个或更多)的波导棱镜,经由棱镜的第二折射面继续传播,直达用户的视网膜。
从触觉手套的专利描述来看,这是一个动作捕捉的输入设备,可以用来对眼前的图片交互。也许,未来很可能是这个样子的:Magic Leap 在你眼前呈现了一个键盘,你动动手指,就真的操作了它,不仅有实质上的输出,很可能还会有实际的手感。
输入、输出都有了,Magic Leap 就像是一个体系、一个系统了。事实上,他们也在这么做,他们的专利中还有一项就是Massive simultaneous remote digital presence world,展示的是一个与虚拟出来的现实世界展示、交互的装置和方法。
为什么 Google 愿意参投 Magic Leap
写到这里,为啥 Google 愿意参投 Magic Leap 就显而易见了吧。Google Glass 虽然不会像 Oculus 一样,让用户产生眩晕。但它也有大硬伤,那就是不能产生 3D 的视觉效果。
目前的 Google Glass 与 Moto 360 本质上都一样,都是手机的外设,都是现有设备的延伸。但加上 Magic Leap ,也许就是下一个计算平台了,像当年的 PC 和手机一样,能够同时满足办公与娱乐的需求。而随着生产力的发展与物质的富足,娱乐显然是大势。
今年3月,Facebook 收购 Oculus 的时候,我还在遗憾,为啥不是 Google 提前买下未来的无限可能和抵御 Facebook 的护城河。现在想想,Google 选了另一条路。在 VR 与 AR 之间,Google 很一开始就选择了 AR。Google Glass 是第一步,Magic Leap 则是第二步,也许未来加上 Google 的人工智能技术和智能机器人,也许会在现实的世界 “虚拟” 出一个平行的 “现实世界”,我想见的人随时随地以幻像的形式出现在我的世界,还能与我有互动;游戏不再仅仅是 2D、3D 的,而是像《彩虹尽头》里描述的那样,以实体的游戏场出现,允许我在其中 “真实” 的格斗、探险……
下一代计算平台
在《愚人节的胡言乱语:十年为期,以 Oculus VR 为代表的虚拟现实设备很有可能会成为下一代计算平台》中有这样一段话,我印象特别深刻:
想想看,如果十年内 Oculus VR 能做到太阳镜大小,戴上它,你的视界中出现了一层新的计算界面,可以同现实世界并行不悖,也可以选择完全沉浸式体验也就是抹掉外界信息。
事实上,Magic Leap 现在就在做这件事了。目前猜测,应该做的还不错。据说他们计划明年推出开发者套件,两年内有可能推出 500 美元的消费者版本。
像 Oculus 和 Magic Leap 做的事情,之所以恐怖就在于他们创造了一个新的平台,创造了新的人机交互,创造了新的媒介。历史上,每一次新平台的诞生,都促进了新的领域、行业的诞生;每一次人机交互的创新,都会改写人类的行为习惯;而每一次新媒介的出现,都会或多或少的改写人类历史的发展和走向。
而在未来,VR 与 AR 能够带给人的,肯定不仅仅是虚构一个游戏的世界、幻化一个逼真的任务、打造一个仿真的体验,很可能将是 “铸造” 全新的世界与认知。一两百年前,人们已经完成了声音的虚拟化,现在以 Oculus 和 Magic Leap 为代表的产品正在进行第二步,虚拟现实人们的视觉,未来加上 Ophone 这样能够虚拟现实嗅觉体验的产品:一个看似更加真实的虚拟世界正在向我们挥手。
比新的计算平台更重要的是新的 “Reality”
“Reality” 是什么?我们会翻译成现实、实体的东西,认为一切我们感知到的实体都可能是现实。当未来像 Oculus 和 Magic Leap 这样的公司可以把 VR 和 AR 做到足够 “真实”,可以以假乱真的时候,你还能分得清哪是现实、哪是虚构么?
也许是时候去想一想,新的 “Reality” 是什么了。
中国人数学好、擅长制作,在硬件复兴的时代,看起来具有天然的优势。为什么还没有颠覆性的、革命性的产品和技术呢?除了浮躁,也许就是我们对于技术本身的认知还存在问题。不知道是偶然还是必然,国外的很多大牛在讲硬件的时候,总会从大脑、从神经讲起,让这些技术看起来玄之又玄,看似多余的背后也许是另一种技术的理念。技术真正牛 X 的地方,也许并不至于可以实现什么样的功能,而在于如何改变人心。
自帕斯卡尔时代起,科学的所有进步都在于更好地确定 “生存”、“境遇” 和 “意识” 之间的边界。人类的特征就是拒绝有限性,想要确保 “意识” 对 “生存”、“境遇” 的控制,不断地突破那些将它封闭在空间、时间和精神之中的界限,也就是说,勇敢面对无限。而 Magic Leap 所想要做的,正是重新融合这三者,消除这些边界,这就是人类未来的命运。
另一篇说的比较好的~