对于AR/VR来讲,实时、准确的深度感知有助于实现稳定、良好的混合现实效果,将虚拟内容更好地与物理空间融合。在移动AR场景,我们可以通过手机的ToF、LiDAR传感器对周围环境进行3D测距,而AR/VR设备也开始在探索此类传感器的应用。本文中,Karl Guttag对基于新型3D传感技术Switching Pixels的VoxelSensor进行了解析,发现此方案快速、准确,甚至技术比现有3D传感方案还好。
据青亭网了解,Switching Pixels由晶圆半导体公司VoxelSensors开发,这是一种3D感知和扫描框架,原理基于LBS激光扫描,特点是省电(检测到光才会生成事件)、低延迟、3D传感效果稳定、适合各种照明条件、可追踪活动光源或图案。Switching Pixels的扫描频率可达100MHz,号称比其他3D扫描速度快100倍。
Karl认为,Switching Pixels保持对激光非常敏感的同时,又能排除其它光线。另外,虽然该方案也是在识别到事件后才触发扫描,但其运行方式不同于常见的“事件相机”。简单来讲,Switching Pixels的区别是专注于识别激光事件,性能比普通事件相机更好,但也可以使用事件相机的算法。
最开始,Switching Pixels以Lissajous模式快速扫描整个区域,并生成空间图像。如果空间在扫描过程静止不动,那么该方案便会不断提升分辨率。因此可以认为,Switching Pixels的高分辨率建立在一系列最新的稀疏扫描数据之上。
据了解,Switching Pixels在不到1毫秒时间内,就能生成扫描范围内的完整稀疏图像。相比之下,典型LiDAR方案通常需要16毫秒或更久的扫描时间,再加上数据处理时间,会有一定延迟。因此相比于典型的dToF/LiDAR传感器,VoxelSensors的方案速度快10倍以上,而且在任何时间捕捉到的图像分辨率都更高。为什么呢?因为Switching Pixels的测距准确性不像LiDAR那样受限于光速,也不依赖于大量的光速校准。
如果将两个Switching Pixels模组结合,便可通过三角测量法来识别精确的3D形状、位置、轮廓和运动(每纳秒生成一个新的立体像素),不需要复杂的图像处理过程。
只需要不到1毫秒,就可以捕捉到可定位的深度信息(耗电大约只有几十毫瓦),几毫秒后,便可生成密集的深度信息,用于空间测绘和人机交互。
不过,该方案还在早期演示阶段,硬件重量和体积大,还很难与AR/VR头显集成。VoxelSensors预计,随着Switching Pixels体积不断缩小,未来计划在AR/VR中集成两个这样的模组,来实现3D扫描。
去年12月,VoxelSensors曾宣布与LBS和3D传感方案商OQmented合作,开发可集成AR/VR系统的3D激光扫描传感器。该传感器将结合OQmented的Lissajous模式的MEMS扫描镜,与每帧逐行工作的光栅扫描相比,Lissajous轨迹扫描速度更快,并且能耗很低,它可以更快地捕获完整的场景和快速移动,并且需要更少的数据处理,可满足AR/VR对于低延迟、高效率的需求。
多年来,OQmented也一直在尝试利用Lissajous扫描工艺来制造LBS显示模组,不过Guttag认为,基于Lissajous显示模组意义不大,也没有竞争力。反而是3D传感器方案可能会带来更大价值。因此他建议,OQmented应该专注于研发感知技术,而不是显示技术。
Guttag指出,3D传感的基本目标是生成由XYZ三个维度立体像素组成的点云,并在其中定位现实世界中的物理对象。在AR/VR领域,有以下集中常见的3D感知技术:
1,光学定位(基于可见光或IR)
利用一个或多个摄像头捕捉图像,并输入到图像处理和结构预测算法中,来推算2D/3D定位。如果使用多个相机、捕捉多帧图像,便可以梳理出深度信息。
这是最常见的、且成本最低的3D传感方式,但只具有一定程度的3D感知能力,尤其是深度感知的分辨率和精度很低,需要大量处理过程。
此外,还受到摄像头刷新率、图像处理延迟的限制,因此监测深度速度慢,通常需要多帧图像才能捕捉深度。
2,结构光
该方案会投射一个或多个光图案(常常为红外光),然后再使用一个或多个相机(或红外相机)捕捉。通过处理结构光图案的变形程度,来提取3D信息。
微软Kinect就是基于结构光方案,其基于PrimeSense开发的3D感知技术(该公司在2013年已经被苹果收购),iPhone、iPad上的Face ID功能也是基于该技术。
通常,结构光可以很好的识别深度,而且信息处理时间短。不过在扫描过程中,单结构光模组(例如iPhone X)可能需要移动,才能获得准确的结构。
3,扫描型LiDAR
简单来讲,该方案的原理是发射一束IR光线,通常是激光(或高度聚光的lED),然后检测这束光返回传感器(一个或多个)所需的时间,并根据光速来计算距离。在具体应用中,它需要在X和Y方向发射一个或多个脉冲光束,以在X和Y轴上定位,而Z轴,也就是深度,则是通过计算光返回的时间来测量。
也就是说,该方案通常会搭配光束扫描模组,比如由电机驱动的旋转激光阵列、MEMS扫描镜、震动衍射光栅等等,缺点是扫描过程比较缓慢,多数超过1/60秒。深度测量上受到如发光、传感和测量光速(大约每纳秒30厘米)的整套系统准确性而存在影响。
由于激光的输出强度与人眼安全息息相关,因此该传感方案需要在扫描距离、速度、分辨率、灵敏度、降噪等方面需要作出权衡。比如Intel RealSense L515就是基于LiDAR方案,扫描频率约1/30秒,分辨率根据扫描距离而变化。值得注意的是,初代Quest Pro发布前,曾计划采用Intel RealSense传感器。
4,固态、ToF、LiDAR组合
对比基于狭窄激光束的扫描方案,这个组合方案结合了衍射光栅等技术,使用单个宽光束,或是细光束阵列来扫描整个场景。
此外,该方案配备了测量X、Y距离的微型ToF传感器,常用于手机、AR/VR等设备中。
在实际应用中,固态LiDAR的分辨率取决于ToF相机的分辨率(结合运动信息后,可逐渐提高分辨率)。值得注意的是,单个传感器通常需要捕捉更多光子,才能实现传感,因此需要更长时间。也就是说,该系统检测的物体距离越远,帧速率就越慢,尤其是在AR/VR场景中。比如,HoloLens 2可能需要1秒钟才能识别到较远的距离。
对比VoxelSensors和其他主动传感技术
对比上述典型的3D传感方案,VoxelSensors主要优势如下:
◎ 初始运动检测更快,约1毫秒(其他方案大约要16-33毫秒);
◎ 对比简单的三角测量、光速测量、大规模立体图像处理方式,VoxelSensors在深度计算的精度、速度、功率等方面具有优势;
◎ Switching Pixels灵敏度高,可实现更高的帧速率、更远的扫描距离、对人眼也更安全。
尽管如此,VoxelSensors当前劣势也很明显,就是体积非常大。接下来还需要进一步缩小硬件体积,降低成本,才能比现有的ToF传感方案更有竞争力。参考:VoxelSensor、KG