转自:https://zhuanlan.zhihu.com/p/138203496
很多科技迷对AR眼镜都有着由衷的痴迷(我也不例外),科幻大片也最爱用AR的全息交互界面来营造未来感。如果问一个果粉,最期待苹果未来能推出什么重磅产品,可能大多数人的答案会是AR眼镜。
首先,在开始之前,我要简要介绍以下我的背景,说说我为什么谈这个话题(长文预警)。我目前在Google AR团队负责AR Search的交互设计,前段时间全世界非常火的Google AR动物就是我在做的产品(很遗憾国内小伙伴看不到)。从最初接触和设计AR项目已经超过4年了,我曾经参与Google AR设计指南,负责Google AR Measure等产品设计。我也发开设计过几乎所有主流的AR/VR眼镜平台,包括HoloLens,Magic Leap,Meta 2,Google Glass,HoloKit,Oculus,Vive,Bose AR,Leap Motion等。应该说对各类眼镜的性能和局限有较深入了解。
曾经红遍一时的Magic Leap AR眼镜公司近期也裁员50%,未来堪忧
在设计了这么多AR项目和产品后,我对AR眼镜的发展有一些和业界主流不同的观点,希望分享出来,既能让大众更全面的了解AR眼镜,也希望与同行交流,深入讨论现存的挑战,并尝试提出解决方案。欢迎持不同观点的小伙伴探讨。
直接说核心观点:
短期内(2-3年内)我非常不看好消费级AR眼镜,尤其是各种AR创业公司宣传的强技术性AR眼镜(带SLAM技术)。而真正能够推动市场接受的第一代AR眼镜,大概率将没有摄像头,以耳机、提醒和运动健康为核心模块,通过基本的抬头显示(head-up display)和镜腿的触控板及语音完成交互。
那么,接下来做深入分析,先聊聊为什么我不看好消费级AR眼镜。
就现有的技术能力而言,AR眼镜的高频应用场景非常有限,尤其是强技术的AR眼镜,更是用武之地非常小。这里稍微展开一下,我所定义的强技术的AR眼镜,就是有SLAM(空间定位和地图建构)技术,比如大部分AR宣传片中炫酷的技术效果,实际上,这种产品在设计上也非常不符合我推崇的Calm Technology的理念。回到真正高频的消费级使用场景,听歌(包括音乐、Podcast,视频等)和消息通知提醒(短信,通知,日程,导航)其实是最核心的高频场景,可以理解为是Apple Watch + AirPods覆盖的主要使用场景。
可能你看了这些场景后多少有些失望,没错,里面大部分的功能手表和手机也能完成的不错,所以AR眼镜的提升是非常有限的。使用场景的局限实际上是限制AR发展的最核心因素,因为如果一个产品找不到核心的场景,也就不可能有核心卖点。
下面我举几个例子,说说一些AR厂商大肆宣传的大部分场景为什么其实非常不适合AR眼镜。
这张图展示了Hololens(第一代),Magic Leap和 PlayStation VR眼镜视场角(FoV)区别,可以看到AR眼镜只有40度左右,相当于把屏幕切成一个小方块,完全无法提供沉浸体验
为什么不是观看流媒体和视频
观看各种流媒体视频应该是我们今天在手机上花费很多时间的场景,无论是YouTube,Neflix,或者是国内的腾讯视频,B站,也包括抖音、快手一类的短视频媒体,实际上都不适合AR眼镜。为什么呢?
这张图展示了目前HoloLens 2的上头体验,环境会被压得很暗,AR内容相对比较亮,而且成半透明状。图像分辨率、颜色保真度和对比度等都不是特别理想。所以并不适合长时间观看媒体内容
第一,目前的AR眼镜是不可能完全解决视场角(FoV)的问题的(由于目前主流光波导镜片的局限),也就是说你看到的不是完全沉浸式的大屏,而是一个被四周切掉的矩形。这样的一个矩形很难给人多少沉浸感,所以和大屏手机没太多体验上的提升。
第二,AR眼镜是光学叠加成像,只能渲染亮色,不能呈现黑色,这也是为什么所有的AR眼镜都和墨镜一样,不得不把环境自然光过滤掉来增加亮暗色对比度,谁会愿意每天戴着墨镜,连和周围人的基本眼神交流都没有了。即便如此,往往是AR内容依然呈现半透明状,尤其在环境光亮的场景,成像对比度很差,视觉体验并不好。手机厂商对屏幕做了无数的迭代来才达到如今的高画质。而一个AR眼镜,一夜回到革命前。就好像你适应了苹果iMac 的5K显示屏,突然换成21寸1080P的宏基显示器,明显的颗粒感和颜色失真是有巨大的体验落差的,尤其是在对于画质要求很高的流媒体播放上。
微软Hololens上的探案解密游戏Fragment,非常好的运用物理空间设计的一款游戏,游戏人物可以真的坐在你家的沙发上和你对话
为什么不是AR游戏
很多人会说,AR游戏是一个重要的AR场景,我们能体验到全新的游戏体验。但是很遗憾,要说游戏玩家会像玩PS4,玩手游一样去玩AR眼镜,那就是想多了。
游戏的本质是能带玩家进入一个全新的世界,扮演全新的角色,完成超验的体验,但这种驱动力是和AR的媒介相互矛盾的。一个传统游戏或者VR游戏可以带用户去大漠,去森林,去海底,穿越时间回过去、到未来,让游戏世界变成一个近乎无限可能的空间。然而,在AR游戏中,玩家依然能看到现实空间,AR游戏只能利用用户有限的物理空间互动,于是所有体验都被用户物理空间局限住了,很难尽情发挥想象。这种局限不得不一次次的把游戏拉回现实,让玩家时时刻刻意识到自己住在逼仄拥挤的5平米卧室中。相信这种体验,很难让玩家长时间投入。
Keiichi Matsuda短片《Hyper Reality》描绘了被AR信息标注后的世界,呈现出信息爆炸的一个极端体验,我相信很少有人真正愿意每天生活在这样的世界
为什么不是标注现实
在AR概念视频中总是有各种给现实世界做标注的,比如这个餐馆评分怎么样,这里又能提供哪些服务,甚至把世界改变成一个巨大AR游乐园,仿佛现实就是个游戏世界,更有Vivo最近的AR眼镜通过人脸识别把人做标注。我来谈谈为什么不看好这类使用场景:
第一,从用户角度,把世界标注或者变成一个AR游乐园作为概念或游戏体验一下是不错的,但拥挤的信息在眼前爆炸,没有多少人能长时间享受这种体验。信息在今天不是稀缺资源,相反,是过剩资源,产品应该想怎么剔除不必要的信息,而不是试图盲目增加。
第二,从技术角度,实现这个效果本身技术上没有太大门槛,完全可以几个人用1-2周时间做个demo。但是这个是需要眼镜的相机实时打开的,AR显示屏也要一直亮着,背后CPU,GPU实时做SLAM计算,且不说隐私问题,以目前技术,电池续航撑不了多久。
Vivo AR眼镜概念视频的一个镜头,通过人脸识别给人做标签。这个真的是我们想要的未来吗?每个人的头上都顶着年龄、身份、甚至社交媒体的打分标签?
第三,我稍微吐槽一下Vivo AR眼镜中一个demo,把你身边每个人用面部识别做AR标签,真的是我们想要的未来吗?你希望以后在别人眼里,你的头上顶着一个AR标签,写着你的年龄,学历,职业和社交评分吗?我觉得设计师有责任为我们的未来负责,避免科技走向《黑镜》中反乌托邦。并不是我们有科技技术去实现一件事,我们就应该去做,“能不能”和“要不要”应该有明确的道德底线。我在Google曾经参与一个项目,就是制定AR设计的道德准则,保证AR产品不会走向歧途。
在iPhone出现之前,智能手机已经可以拍照、上网、听音乐,上QQ了,那为什么智能手机直到在iPhone出现后才真正起飞?原因很多,但其中一个就是iPhone的触屏交互在真正意义上提供一种高效的交互模式。在这里一定要强调“高效”,我认为的高效交互有几个原则:
但直到今天,我们依然没有找到一个能满足以上标准的高效交互方式。
我在CMU研究生阶段做的手势交互设计,利用自然存在的Affordances,让设备和AR世界间能无缝的连接。(这个是实际demo,没有后期特效)
手势交互:
手势交互的问题我在“下一代革命性交互”的回答里讲过,具体可参考那篇文章,这里就简要概括一下:
最近被Facebook收购的CTRL-Labs的神经信号手势识别设备,戴在手腕可以读取神经信号,结合机器学习来做手势判断,对这个技术的未来比较看好
实际上,通过腕部神经信号做手势识别的技术我是非常看好的,目前唯一拥有这个技术公司叫CRL-Lab。这项技术由于不需要用户把手举到空中,可以在任何姿势和位置做手势识别,所以是可以解决以上提到的大多数问题的。这家公司也曾经联系到我,在全球选了几位AR/VR设计师和开发者和他们共同来探索这项技术的交互应用,但我当时准备毕业论文,也就拒绝了。不久前,Facebook收购了CRL-Lab,应该说进一步表明了FB要做AR/VR的战略决心。
Bose AR眼镜用内置的IMU感应镜腿的点击来进行交互,和AirPods类似,适合于轻量级的眼镜形态
眼镜腿触控交互
在Bose AR中,双击镜腿会出发交互指令,比如唤起语音助手等。Bose AR眼镜主要用的眼镜内的IMU(陀螺仪,加速度感应器)加上算法来做识别,并不是非常准确,也就不满足我们说的“准确性”的要求。
当然,我们可以把镜腿加上一个类似笔记本电脑的touch pad触控板,这似乎是一种可行的解决方案,我们就可以加入单击、双击、长按、滑动等更丰富的交互方式,但且不说划着眼镜腿会不会总把眼镜碰歪,这个交互依然需要用户把手举到和头一样的高度进行交互,也就违背了人体工学的要求,做为低频的交互模式没有问题(AirPod也是支持手指的点击交互),却很难成为高频和长时间的交互方式,不可能成为生产力工具的主要交互方式。但作为轻量级眼镜产品的交互模式应该是足够了,我也认为这中模式大概率会是第一代AR眼镜的主要交互模式之一。
语音交互
语音交互对于未来的AR眼镜肯定是一个必备能力,非常适合目标明确的交互任务。比如播放音乐,导航去XX,设置提醒闹钟。但我们今天在使用互联网,有太多时间不是花在这些目标明确的任务上。刷朋友圈,看短视频,订外卖,浏览网页,网上购物等,这些以“逛”为核心的体验,语音是非常局限的。
国内创业公司Nreal Light应该是市面上最接近普通眼镜的AR眼镜,但连接到手机的USBC线和墨镜感的滤光镜片依然让他很难成为日常佩戴的产品
如果没有高效的交互方式,那么AR眼镜就不可能成为一个生产力工具,也很难实现购物,浏览网页,社交媒体互动等需要复杂交互的场景应用,比如连打字输入这个看似简单的任务,以上交互方式都没有能够根本解决。有人说除了我上述提到的方式,还可以使用手柄或者手持控制器,这种方式可能适合游戏这种私密使用场景,但很难让用户在日常生活中再额外带一个外接设备。而之前也分析了,游戏本身不会是AR产品中的杀手级场景,所以这个AR手柄能解决的场景从根本上就是个伪命题。
硬件的外观应该说不仅仅是个设计的问题,更是产品定位的问题。我们这里主要探讨能日常使用的产品定位,那产品就要满足轻便、外观低调(和普通眼镜外观无异)。
实际上,现在市场上已经有相对轻便的AR眼镜了。一副普通眼镜的重量理想在30g内,墨镜在40g内,而国内Nreal已经能做到88g了,应该说重量和外观与普通眼镜已经比较接近了,但Nreal light的计算是依赖于用USBC线连接到手机的,所以可以算是采用的分体的设计,Magic Leap也采用了这种设计,可以给眼镜镜身大幅度减重。但很遗憾,这种设计和他的产品定位是相互矛盾的,因为一方面NReal Light想要轻便定位于日常佩戴,另一方面连接手机的那根USB线使用上非常别扭,也不适合长时间日常使用。
有没有解决方案?目前在这种产品定位下是没有的,因为一方面AR眼镜要求6DoF tracking和SLAM(空间定位和建构)的能力,这个能力本身是非常吃设备性能,进而非常耗电。于是为了保持合理的续航时间,只能增加电池容量,而每增加一分电池容量,就增加一分眼镜整体重量。所以在电池没有大幅度提升效率之前,这几乎是个悖论的死循环。
对于消费级AR眼镜来说,这个问题的重要性永远不能被忽视。刚才提到了续航和产品重量之间的矛盾问题,越长的续航,意味着越大的体积,也就是越差的用户体验。而我要问一个问题,AR眼镜需要用那么多的电量吗?需要实时做SLAM空间定位吗?需要无时无刻不显示AR画面吗?我觉得这个问题,大部分AR眼镜公司可能并没有想清楚,所以不得不退而求其次,选择分体式设计,亦或者加大体积和重量,变成一个头盔式的设计(比如Hololens,但注意Holelnes是2B的产品定位,所以这么设计没有问题)。
另外,消费级AR眼镜对于近视者来讲是需要配矫正镜片的,这当然本身并不难解决,大部分AR眼镜公司也都有对应的解决方案。但这里的悖论是,如果电池续航只有2-3个小时,意味着在电池耗尽后,这副AR眼镜的价值无异于一个普通的近视镜。那一天中剩下的8-10个小时白天工作时间,用户要不勉强接受戴一个又重,又不舒服的没有AR功能的AR眼镜,要不需要再每天准备一副额外的普通眼镜换上。无论哪一种,都是非常糟糕的用户体验。所以,我觉得要让AR眼镜成为日常佩戴的消费级产品,在电池技术没有长足进步前提下,必须大幅降低对电池的依赖,从低功耗的路线。
Magic Leap 早在2015年释放的这个鲸鱼的概念视频相信大家记忆犹新,几乎一下子点燃了人们对AR技术的热情。但后来实际产品也证实,这个效果完全是后期合成,与实际体验相差甚远。但鲸鱼的这一跃,将永远成为AR发展史上最有戏剧性的一个画面,仿佛象征了Magic Leap一瞬即逝的陨落过程
从技术到设计,多个条件在今天都不完备,所以我说短期内我是非常不看好消费级AR眼镜。在2B的某些专业应用场景,AR眼镜确实有自己的刚需。但对创业公司来说,2B的天花板太低,也很难讲出打动VC的好故事,所以很多公司一股脑的往2C的AR眼镜上冲。
最典型的例子就是Magic Leap,2个月前,有人向我咨询AR行业现状,提到Magic Leap,我说非常不看好,并判断离被收购的结局也不远了,对方还非常不解。果不其然,不久前,Magic Leap宣布裁员50%,也传出100亿美金求收购的消息。而Magic Leap的价值主要在专利和技术人员,裁员50%后的Magic Leap价值自然又大缩水,另外市场上有几个有能力和有意愿收购它的公司?它到底有多少其他公司没有但迫切需要的技术?答案也是非常存疑的,所以最后大概率一地鸡毛地贱卖。