洪泰高级经理宋楠是一个才思敏捷、毒舌与段子齐飞的微胖届投资人,可能是现实对他太过残酷,他一直钟情于虚拟现实、人工智能。
在洪泰的办公室,你经常能看到他头戴各种设备,一边挪动丰满的身躯,一边口吐各种惊叹词。
今天,我们推出宋楠的一篇文章,说的是MR(混合现实)。我们看完觉得可能是假宋楠写的,因为这篇文章专业术语横飞,句句有深意。
洪泰智造工场创始人乔会君看完后傲娇地说:我觉得除了我,洪泰没有人能不借助度娘看懂。
我们不信,所以发出来给你们看看。
本文4649字,看完需要5分钟,完全看懂可能需要1小时-5天不等,出于公德心,我们先来几条核心提示:
1、VR(虚拟现实)、AR(增强现实)殊途同归,未来只有MR(混合现实)。
2、PC、手机之后,以语音交互为核心的HMD(头戴式显示器)将是下一代计算平台。
3、微软的头戴显示器Hololens是MR行业的标杆。
4、被斥为骗子,靠“特效视频”融资的Magic Leap其实另一个MR核心选手。
5、二者共同定义了MR的3个核心能力:空间视觉、镜片背后的光学系统、硬件及架构思路。
6、前两名甩开了其他对手,但技术边界并没有看上去那么牢固。意识到核心能力是什么,不难赶上。
7、最后,这也是MR投资和创业领域的路线图。
让我们先从那个著名的“鲸鱼从体育馆甲板一跃而起”视频开始吧。
Magic Leap——MR市场中唯二的玩家
某种程度上,整个AR行业都因为这个炫酷的视频而带上光环。
所以,当人们知道这并不是真的来自AR技术,而是源于好莱坞式的特效,视频的”出品方”Magic Leap备受争议。它著名的中国投资者马云也因此受到一些奚落。
2月份,Magic Leap2017年董事会召开,并且公布了一个“简陋”的样机照片后,尘埃落定了,野心家与阴谋论者中混杂着各种各样“死道友不死贫道”的心情,简单的把Magic Leap钉在了耻辱柱上。一言以蔽之:“盛名之下,其实难副”。
无可否认,Magic Leap真真假假的宣传策略客观上拉高了吃瓜群众对它的预期,把自己架上神坛之后与其告诉大家“虽然我很好但是也没有你想的那么牛”,不如干脆保持沉默闷声发财。
但必须要说,微软(Hololens)以及Magic Leap是我看来MR市场中唯二的玩家,虽然可能二者目前来看微软领先,但如果我们将MR看做下一代计算平台的核心概念,怎么吹Magic Leap都不过分,毕竟他是一个“挑战巨头的初创公司”。
至于Meta、ODG、Lumus、Infinity AR等等等等的公司,在我看来至少目前他们在核心能力上还都有欠缺,暂且按下不提。
首先,Magic Leap到底在干啥?
先上两张图:
上图是Magic Leap第一批被扒出来的专利图之一,清晰地展示了其HMD(头戴显示器)的设计思路:为了减轻重量,把计算单元和电池都外置,眼镜上只留下必要的传感器以加强佩戴舒适度。
而下图是刚刚流出的Magic Leap原型机“谍照”,也是印证了之前专利图中的设计思路,所有的计算单元包括电源都是外置的,头上的眼镜只是做输入输出设备。
虽然巨大的开发板简直无法直视,不过我们仍然能从开发板中获得一些信息(以下信息有推测部分,不保证完全正确):
首先,从散热器看,和NVIDIA JETSON TX1的散热器一模一样,以及没有在图片中找到其他处理器,大概率是用的Nvidia Tegra平台。
Jetson TX1 开发板官方图
其次,假设使用的是TX1,TX1是Nvidia针对机器学习推出的嵌入式系统平台,处理器性能提升并不明显,侧面反映了Magic Leap设备目前通用计算的量不大,而含256个CUDA核心的GPU肯定是为了MR设备的高图形运算需求而生的,但是带来了另外的发热以及功耗方面的困扰:
巨大的风扇和开发板直接用AC电源输出,这块峰值功率达到10W的开发板,不知未来小型化的前景如何,虽然一个“外置式”的计算模块对重量要求可能会降低,但是“板砖”估计也不能被接受的。
技术总是在不断衍进的。刚刚发布的Nitendo Switch就搭载了Nvidia最新一代的Tegra Parker处理器。不排除Magic Leap已经跳过了TX1直接上Parker平台,毕竟TX1硬伤太明显,Nvidia并没有在这一代平台上发力,有可能集中精力在做下一代Parker平台。
看上去是干活的,但是究竟干得怎么样?
首先,这里要明确一个观点:技术的边界是趋同的(特别是做软件、算法层面的公司)。在对真正前沿科技的探索上,同领域的顶级公司技术差距其实并不大(因为大家用的技术框架其实都很类似)。
举个例子, 在图像识别领域,每年ImageNet的比赛顶级team之间的差距并不大(标准实验室环境下),每年的冠军也是轮流换,真正有巨大提升的,是Hinton12年用深度学习来做图像识别那一年,之后大家都换成了深度学习框架,竞争又变成了一个两个百分点的竞争。
当然如果变成了复杂环境或者说真实环境,大家的技术体验就更相似了:40%正确率和60%正确率,对于用户来说都是一样的:不准!
另外一个例子就是VR行业:Oculus相对VIVE,起步早一些,但是实际能拿出的产品从体验上来看区别不大,甚至PS VR虽然技术指标不如前两者,实际上却是出货量最大也最受好评的VR平台。
所以,如果我们把Hololens所定义的MR当做这个行业目前的标杆,跻身行业一线玩家行列,需要具备什么样的条件呢?
首先是空间视觉能力,或者说是基于嵌入式平台的SLAM(即时定位与地图构建,或并发建图与定位)。Hololens之所以带来这么大的震撼,主要也是因为这是第一个公开销售并集成了Inside-out追踪技术的HMD系统(什么是Inside-out空间定位技术,简单来说就是利用设备自身,而不依靠外部的传感器等配件,实现虚拟场景里的空间定位,以及更多的人机交互)。
在这之前,所有HMD搭载的定位系统都是outside-in方案,即需要外置的摄像头拍摄头盔或者控制器的mark点来定位。从使用难度来讲相去不可以道里计(用过VIVE的都懂)。
Inside-out技术简示
其次,光有Inside-out本身是不足以支撑混合现实体验的,还需要空间信息或者说深度信息的叠加,才能够真正实现定位+空间重建来支撑完整的混合现实体验。深度信息与SLAM的叠加从技术难度上来说并不高,但是目前鉴于大家连inside-out还没做好,空间信息的叠加还需等待。
SLAM本身并不是一个新东西,国内也有相当多的团队在做,比较突出的包括速感科技,Perceptin等等,但是目前都还是作为一个双目空间摄像头模块存在,Ximmerse拿出了自己的inside-out方案,也是取了个巧,利用摄像头拍摄手柄上的光点进行定位,还不能算是广义上的inside-out方案。
国外目前在做空间视觉的创业公司包括Infinity AR,Occitipal等等,今年CES2017几家公司也均有参展,Infinity AR的Demo是一个飞机在桌子上起落飞翔的动态演示,但是跑道与桌子的贴合包括整体影像的晃动都很剧烈,演示效果离Hololens的稳定状态还有比较大的差距。
相比之下Occitpal的演示则更令人印象深刻,整体体验非常好,但我个人怀疑是针对特定的演示场景做了优化,实际产品能达到什么样的效果尚数未知。
大公司方面,Oculus去年宣布了自己的一体机Santa Cruz,承诺会有inside-out定位功能,Google Tango一直是移动SLAM的先行者,苹果也收购了相当多AR相关的公司,据传也在研究眼镜产品,高通也已经发布了自己的VR一体机产品,号称有inside-out追踪功能,其他公司包括ODG,Lumus,Meta等等,目前还都是在提供基于不同光学方案的AR眼镜产品,由于不具有空间视觉功能,尚不能认定为MR产品。
第二点,就是要有好的AR光学方案,Hololens包括Magic Leap都是采用了全息波导衍射光栅的光学镜片,而其他公司如ODG及Meta等则采用自由曲面、棱镜或者几者混合的光学方案。
显示技术应当说在目前来看,技术迭代的路线整体是向光波导光学靠拢的,只有光波导才能做到真正像现在正常眼镜一样大小轻重的HMD产品。
但是目前光波导镜片面临量产难度大,成本高,FOV(field of view, 简单来说,就是玩家游戏时的视野)不足的问题,相对来说自由曲面或者棱镜的光学方案则门槛更低,相对供应链更成熟,显示效果跟目前成熟的光波导镜片来看也完全不差甚至犹有过之。
Meta用很笨拙的方案就做到了90度FOV,而今年CES Lumus展出的50度光波导镜片方案已经是目前最领先的光波导镜片了,更不要说他巨大的头部器件和发热。
本人实测Lumus
第三点,就是一些硬件包括其背后体现的思路,具体应当说包含三点:四摄像头SLAM,结构光以及HPU。
首先是四摄像头,感兴趣的同学大概已经发现了一个奇怪的巧合:Oculus的一体机Santa Cruz也是采用了四摄像头方案(不过Hololens的方案是左右各两个,Santa Cruz的方案是上下各两个)。
我猜Magic Leap也会采用四摄像头的方案,主要是为了在保证mapping的angular resolution的基础上,同时兼顾tracking的FOV,说白了,就是为了看得更准更宽,从而保证了定位和追踪的稳定性,这是双目甚至单目解决不了的。
结构光:Hololens的深度信息均来自结构光摄像头,包括手势识别,但这里一个有意思的事情是,很多人做SLAM的时候也会结合结构光信息来做,但这在HMD上是无法应用的,因为结构光在做空间识别的时候,识别范围较远,是不能够识别近距离的手的具体信息的,所以如果使用了结构光来做SLAM,实际上是无法同时应用手势识别的。
在Hololens具体操作时,也是预先扫描了周边环境的深度信息,然后才开始做手势识别交互。
HPU是另一个被传得神乎其神的东西,实际上是微软定制的Cadence Tensilica的DSP,内含24个核心,主要用来处理跟视觉,手势,环境感知相关的一切算法。
所以算力提升对于MR行业来说仍然是亟需解决的问题,想想Magic Leap开发板上巨大的散热器~
所以总结来看,目前除了微软,行业内的其他玩家都或多或少的缺乏MR产品的一部分核心能力,而Magic Leap,无论从其展示的思路还是靠谱的小道消息,是最靠近这个技术路线并且已经有相当技术积累的公司。
所以,那些神视频到底怎么回事?
首先,Magic Leap总共发布过4段视频(办公室机器人大战、太阳系、A new morning以及星战)+2个动图Demo(鲸鱼以及手心小象)。
其中办公室机器人大战、鲸鱼以及手心小象都是特效视频,其余的均为“Shot directly from Magic Leap”。所以之前很多媒体报道中所谓“均为特效”是不实的,不过实拍的内容中细琢磨的话也有很多小tricks,下面详细分析一下:
1. 两张截图分别来自两段视频,但都非常清晰的显示了一个问题:桌子可以非常完美的把R2D2的身体挡住,当机器人走到桌子旁边或者镜头位置变化到有物体在前面“遮挡”图像的时候,被遮挡的图像就完美的不显示了!这是怎么做到的呢?
我们知道眼镜类的产品,镜片是所有光线进入眼睛的最后一道门户,理论上镜片上的图像是叠加在所有外在信息之上的,这种“被遮挡”的错觉显然是因为眼镜根据深度信息发现图像产生了“被遮挡”的关系,从而停止渲染那部分区域的图像,让自然光线透过镜片,实现了类似“被遮挡”的效果。
道理都说得通,问题是这里的被遮挡关系展现的太完美了,不仅图像稳定清晰,被遮挡的边缘也没有丝毫误差,这就很有意思了。可以对比一下Hololens在使用环境下,虽然也能做到部分的“被遮挡”效果,但是会产生很频繁的画面抖动,因为并不确定被遮挡的边缘以及面积到底有多少。
窃以为Magic Leap在这些演示视频中,虽然确实是实时渲染而且是实拍的,但是肯定对场景做了预先的精细扫描和建模,才能够达到这么好的效果。
这也是平时在看SLAM项目的时候的一大问题:演示视频或者场景由于有事先特定的优化,能够实现比真实使用中好得多的效果,有的时候限于时间因素不能反复测试,经常会被这样的“小把戏”欺骗,等真的详细DD的时候,又发现了这样那样技术上难以克服的问题。
2. 关于太阳系的这一段视频也是非常有趣的,展现了Magic Leap的“光场显示”技术,即在不同的景深上可以成像。演示视频中一会儿太阳很清晰,一会儿地球很清晰,是很明显的光场显示技术的应用。
这里又有一个很有趣的问题了,不是说好了用光波导的吗?光场技术到底是什么情况?实际上Magic Leap确实是有很深的光场显示包括光纤显示技术的储备,但是由于种种问题,离真正产品化路还非常远,应该说这段视频只是秀肌肉,短时间之内是不可能看到类似的产品面世的。
光场显示其实国内有团队在做,我也在中科院某所看过类似的Demo,整个光学系统就比目前的头盔还大,还只能实现7个焦距上的光场显示,完全不具备产品化价值(Magic Leap据说要好很多)。
而光纤显示,大家从光纤的属性上其实也能推测到,这么脆弱的介质,稍微用一用就会有变形,错位等等的问题,产品化的路也很漫长。
3. 关于其他的演示视频
其实除了鲸鱼那段演示视频确实是太浮夸了之外(其实你想象所有人都戴着眼镜但是P掉了就好),其余无论小象的demo还是机器人大战的demo,都是在目前的技术环境下可以实现的,大家完全不必对技术这么悲观,这段算勉强洗个地。
最后,最重要的是MR(混合现实)的未来
之所以说了这么久Magic Leap的故事,是因为MR让我振奋。以下简单说说我的观点:
1. VR、AR殊途同归,未来只有MR。
设想一下,VR一体机和AR眼镜,最主要的区别是什么呢?其实就是一个是透明的,一个是不透明的。
目前来看VR拥有更大视角以及不透明的视野,而AR眼镜视角小,但是能看到现实世界。无论VR还是AR的创业者,都很明白空间视觉的重要性,因为它本质上就是用户体验,更大的视角,更透明的世界,他们都想要。
另一方面来说,眼球追踪,手势识别,全景音效以及更好的人体工学也都是所有从业者共同追求的,未来会成为所有HMD产品的标配。而大视角、高分辨率也会是所有产品的一个共同追求。
这样看来,透明或者不透明,其实就不是问题了,只要多做一个遮罩,甚至是镜片上附一层可调透光度的膜,就可以解决这个问题。目前所有VR/AR从业者所努力的方向可以说是统一的,那就是VR与 AR合二为一。
2. 从实际技术演进来看,MR设备更容易成熟。
2016-2017年,VR行业在国内可以说从天堂到地狱,从16年初的万人空巷到17年初的惨惨戚戚,客观上反映了VR设备在普及上遇到的问题,其中最最主要的问题就是眩晕感迟迟无法解决,用户的平均使用时间基本上在15分钟左右,根本无法支撑真正优质内容的产生,从而导致了恶性循环。
在我看来,眩晕感或许是5年内VR设备无法迈过的门槛,除非用类似万向跑步机的外设,否则简单的“房间级”追踪,还是无法完美解决用户的晕动症问题。药物可能是解决这个问题的最佳方案。而MR设备则不同,能看到外面的场景包括相对小很多的FOV,都会让用户在实际使用中更容易接受。
3. PC、手机之后,下一代计算平台将会是以语音交互为核心的HMD产品。
如果你留心看CES2017,一个很大的改变就是AR作为一个单独的品类开始参展,ODG,Lumus,Vuzix,Sony,Infinity AR,Occitipal等等,成为了CES 2017少有的亮点。今年VR参展的数量很少,不过用VR进行展示的企业很多,VR已经变成一个Feature。
无论是Oculus开始招募AR团队,还是苹果要发布自己的AR产品,华为招募了前Oculus大牛做AR/VR/MR技术负责人等等,都清晰的说明了一个信息:巨头正在跑步入场。
正如之前所提过的,技术的边界是趋同的,当巨头们看到Hololens这样的产品是可实现的之后,相关的创新包括探索也会层出不穷,相关的技术人才、技术储备也会导致整个市场的百花齐放,我们正处在快速迭代的时代,科技水平的发展真的要用“日新月异”来形容。
以语音交互为核心的HMD作为下一代计算平台出现在寻常百姓家的日子,已经越来越近了。
宋楠
洪泰基金投资经理,关注科技,娱乐,文化领域;2015年1月加入洪泰基金,已主导多个项目的成功投资,如三角兽,泥泞跑,Gevek等。
点击图片阅读
BP 通道: [email protected]
投稿通道: [email protected]
简历通道: [email protected]