英文论文信息
D. B. Lindell, G. Wetzstein, and M. O’Toole ,“Wave-Based Non-Line-of-Sight Imaging using Fast f−k Migration,” ACM Transactions on Graphics, vol. 38, no. 4, pp. 1-13, 2019.
摘要:摄像机的直接视线之外的物体成像在机器人视觉、遥感和许多其他领域都有重要的应用。基于飞行时间的非视域(NLOS)成像系统最近取得了令人印象深刻的成果,但仍存在一些挑战。图像形成和反演模型一直是缓慢的,或受到可成像的隐藏表面类型的限制。此外,非平面采样表面和非共焦扫描方法还没有得到有效的NLOS算法的支持。在此基础上,我们提出了一种基于波的非视域成像模型。受地震学反演方法的启发,我们采用频域法f-k偏移来求解NLOS反演问题。与现有的NLOS算法不同,f-k偏移既快速又节省内存,它对镜面反射和其他复杂的反射特性具有鲁棒性,我们展示了如何将其用于非共焦扫描测量以及非平面采样表面。与其他方法相比,f-k偏移对测量噪声的鲁棒性更强,通常产生更好质量的重建,并且易于实现。我们通过一个新的非视域成像系统实验验证了我们的算法,该系统记录了在间接阳光下室外房间大小的场景,并以交互速率扫描穿着反光服的人。
基于飞行时间原理的传统三维成像系统测量光脉冲从光源到可见物体,再回到传感器的直接路径所需的时间。另一方面,非视线(NLOS)成像使用多反射光路径间接测量隐藏对象的三维形状和视觉外观将可见表面转化为漫反射镜。非视域问题对许多领域(如医学成像、机器人视觉、遥感等)都具有重要意义,因为“看到”隐藏在直接视线之外的物体的能力具有深远的影响。例如,非视域成像技术可以为自主车辆提供一种查看隐藏障碍物并安全绕过障碍物的方法。非视域成像的新兴领域已经取得了很大的进展,然而,要使这种能力切实可行,还面临着重大挑战。首先,NLOS光传输模型通常是非常严格的,假设可见表面是一个平面,或者隐藏的物体是Lambertian(漫反射)或后向反射的。其次,与NLOS成像相关的大量逆问题在传统意义上存在计算速度慢、内存密集的问题,严重限制了可以处理的隐藏卷的大小。第三,NLOS成像往往是一个高度缺光的过程。由于这个原因,实验捕捉到的隐藏场景的尺寸很小,并且利用了后向反射特性来保持捕捉时间的合理性。
非视域成像,也称为“拐角成像”,是自提出就以来备受关注的课题。这个想法涉及到用超快激光和探测器探测可见光墙,后来在实践中用飞秒激光和条纹相机证明了这一点[1]。所谓的瞬态测量[2]用于非视域成像,是捕捉光从墙上的一个点传播到隐藏场景中的点,再返回到墙上的另一个点的贡献和传播时间。尽管对隐藏在视线之外的物体进行成像的能力是一项令人印象深刻的壮举,但这项初步工作也提出了许多关于如何改进采集和重建过程的重要问题。由于飞秒激光和条纹相机的花费,一些研究人员后来选择使用其他传感技术,包括用于飞行时间相机的光子混频器(PMD)或者是普通的摄像机传感器。然而,许多人已经接受使用单光子雪崩二极管(SPAD)进行非视域成像[3,4],它是一种传感器,能够以数十皮秒量级的时间精度检测单个光子的到达时间。这些传感器具有相对通用性,能够在长距离、环境光照或高速率下进行非视域成像。非视域重建问题的计算求解是一个重大的挑战。FBP涉及对瞬态信号进行延迟和和运算,然后是拉普拉斯滤波器[1]。虽然FBP的结果是有希望的,但该方法有几个局限性:(1)由于依赖于启发式滤波器,算法仅给出形状和反射率的近似值,(2)对光传输做出了几个限制性假设(例如,假设物体漫射地反射光,忽略遮挡和隐藏体积内的多次反弹光传输)和(3)非常慢。因此,人们提出了多种解决方案,包括将非视域成像简化为更简单的跟踪问题的解决方案[5],使用参数化平面模型来表示隐藏场景[6],仅从第一个返回光子估计形状[7],以更高的计算复杂度为代价,为光传输提供更精确的模型[8],或通过分析镜面路径的几何体或通过解决反向渲染问题来重建隐藏对象的表面表示[9,10]。
地震成像涉及探测地表以下的地质界面,并应用于油气勘探。爆炸或地震振动器产生的地震波在地球上传播,地震检波器测量地球表面不同点的响应。地震偏移是由波动方程控制的计算复杂地下地质的过程,它产生了在地表探测到的波,在数学上类似于光学非视域成像中的光传输。Stolt引入了频率波数偏移(通常称为f-k偏移)来解决地震成像问题。该算法仍然是自其发明以来已知最快的偏移方法,并为相应的基于波的模型提供了精确的解析解。它假设地震波以恒定速度传播,不幸的是,在地震学中通常不是这样(尽管存在处理可变波速的f-k偏移扩展)。由于地震波与声波甚至无线电波具有相同的性质,f-k偏移在合成孔径声纳(SAS),超声成像,以及合成孔径雷达地震波的传播也与可见光或近可见光波长的光传输有许多相似之处,在可见光或近可见光波长中,光波通常在自由空间中以恒定速度传播,也受波动方程的控制。光锥变换(LCT)方法在声学非视域成像中的应用证明了这种联系[11]以及类似于LCT的声学处理技术的存在。虽然机械波和光波之间确实存在相似之处,但在需要仔细处理的测量中也存在明显的差异,我们通过采用f-k偏移来解决光学NLOS问题。注意,较长的电磁波也可以穿过墙壁,而不是从墙壁上散射出去。因此,大量的研究人员利用这一特性,利用wifi信号进行穿墙NLOS成像[12]或太赫兹辐射[13],利用f-k偏移的共焦非视域成像波动方程描述了电磁辐射(即光)的传播。
参考文献:
[1] A. Velten, T. Willwacher, O. Gupta, A. Veeraraghavan, M. G. Bawendi, and R. Raskar, “Recovering Three Dimensional Shape around a Corner Using Ultrafast Time-of-Flight Imaging,” Nature Communications, vol.3, no.1, pp.1-8, 2012.
[2] M. O’Toole, F. Heide, D. B. Lindell, K. Zang, S. Diamond, and G. Wetzstein,“ Reconstructing transient images from single-photon sensors,” in Proc. IEEE Conf. on Computer Vision and Pattern Recognition, 2017, pp. 2289-2297.
[3] M. Buttafava, J. Zeman, A. Tosi, K. Eliceiri, and A. Velten, “Non-line-of-sight imaging using a time-gated single photon avalanche diode,” Optics Express, vol. 23, no. 16, pp. 20997–21011, 2015.
[4] M. O’Toole, D. B. Lindell, and G. Wetzstein,“ Confocal non-line- of-sight imaging based on the light-cone transform,” Nature, vol. 555, no. 7696, pp. 338-341, 2018.
[5] G. Gariepy, F. Tonolini, R. Henderson, J. Leach, and D. Faccio,“ Detection and tracking of moving objects hidden from view,” Nature Photonics, vol. 10, no.1, pp. 23–26, 2016.
[6] A. K. Pediredla, M. Buttafava, A. Tosi, O. Cossairt, and A. Veeraraghavan,“ Reconstructing rooms using photon echoes: A plane based model and reconstruction algorithm for looking around the corner,” in Proc. IEEE Conf. on Intelligent Computer Communication and Processing, 2017, pp. 1-12.
[7] C. Tsai, K. N. Kutulakos, S. G. Narasimhan, and A. C. Sankaranarayanan, “The geometry of first-returning photons for non-line-of-sight imaging,” in Proc. IEEE Conf. on Computer Vision and Pattern Recognition, 2017, pp. 2336-2344.
[8] F. Heide, M. O’Toole, K. Zhang, D. B. Lindell, S. Diamond, and G. Wetzstein,“Non-line-of-sight imaging with partial occluders and surface normal,”ACM Transactions on Graphics, vol.38, no. 3, pp.1-9,2019.
[9] S. Xin, S. Nousias, K. N. Kutulakos, A. C. Sankaranarayanan, S. G. Narasimhan,and I. Gkioulekas,“A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction,”in Proc. IEEE Conf. Computer Vision and Pattern Recognition, 2019, pp. 6800-6809.
[10] C. Y. Tsai, A. C. Sankaranarayanan, and I. Gkioulekas,“Beyond Volumetric Albedo— A Surface Optimization Framework for Non-Line-of-Sight Imaging,” in Proc. IEEE Conf. Computer Vision and Pattern Recognition, 2019, pp. 1545–1555.
[11] D. B. Lindell, G. Wetzstein,and V. Koltun, “Acoustic Non-Line-of-Sight Imaging,” in Proc. IEEE Conf. Computer Vision and Pattern Recognition, 2019, pp.6780-6789.
[12] F. Adib, C. Hsu, H. Mao, D. Katabi, and F. Durand,“ Capturing the human figure through a wall,” ACM Transactions on Graphics, vol. 34, no. 6, pp.219:1-219:13 , 2015.
[13] A. Redo-Sanchez, B. Heshmat, A. Aghasi, S. Naqvi, M. Zhang, J. Romberg, and R. Raskar,“ Terahertz time-gated spectral imaging for content extraction through layered structures,” Nature communications, vol. 7, no. 1, pp. 1-7,2016.
1、NLOS光传输模型通常是非常严格的,假设可见表面是一个平面,或者隐藏的物体是Lambertian(漫反射)或后向反射的。
2、与NLOS成像相关的大量逆问题在传统意义上存在计算速度慢、内存密集的问题,严重限制了可以处理的隐藏卷的大小。
3、NLOS成像往往是一个高度缺光的过程。由于这个原因,实验捕捉到的隐藏场景的尺寸很小,并且利用了后向反射特性来保持捕捉时间的合理性。
1、与现有的NLOS算法不同,f-k偏移既快速又节省内存,它对镜面反射和其他复杂的反射特性具有鲁棒性,并且展示了如何将其用于非共焦扫描测量以及非平面采样表面。
2、与其他方法相比,f-k偏移对测量噪声的鲁棒性更强,通常可以产生更好质量的重建,并且易于实现。
时间相关波动方程的解精确地模拟了光的传播,包括反射、散射和其他复杂的光传输效应。将解表示为一个复值标量波场
其中拉普拉斯算子
定义在空间维度上,并且介质中的光速通常定义为
图1 共焦非视域系统图解
在非视域成像中,使用超快探测器和脉冲激光探测可见光表面上的时间分辨光传输,记录测量结果。为了简单起见,假设该曲面是平面的,并且此时位于z=0处(见图1)。因此可以用成像系统直接获得
注意,只有使用共焦成像系统记录时间分辨测量值时,这种解释才是正确的,其中一个共焦成像系统照亮可见表面上的2D点,同时在相同点获取时间分辨测量值(见图1)。通过此采集设置,光仅沿特定的路径传播到隐藏场景:从可见曲面上的照明点到某个隐藏点,再返回到曲面上的同一点。波动方程通过将v设置为光速的一半(即v=c 2)来模拟这些约束。巧合的是,这一传播模型在地震学中被称为“爆炸反射层模型”。
利用该图像形成模型,作者做了如下假设:(i)与大多数其他NLOS方法类似,忽略了隐藏场景部分中的部分遮挡;(ii)光传输仅从可见表面到隐藏场景和背面建模(即隐藏体积中没有多个反弹传输)。但是,对于隐藏对象的反射特性没有明确的假设。最后,当光线从目标传播到墙时,波动方程会模拟反向距离衰减
为了理解这种方法,将时间相关场
这里
存在色散关系
和
这里:
上述变量表达式表示一个加权1D插值,称为Stolt插值。当z=0时,上式变成三维傅里叶变换。f-k偏移以函数
图2 共焦非视域成像原型机系统
共焦非视域系统由激光、探测器、电子学以及用于聚焦和扫描的各种光学和光机部件组成。原型机的照片如图2所示。该系统使扫描速度更快、分辨率更高,平均激光功率约为先前共焦非视域系统的10000倍。高功率脉冲激光(NKT Photonics one five KATANA 05 HP)以10 MHz的速率发射由35 ps脉冲组成的准直线偏振光束。在532nm处,发射激光束的平均光功率超过1w。偏振光通过一个偏振光分束器立方体(Thorlabs PBS251),由一对由仪器数据采集设备(NI-DAQ USB-6343)控制的振镜(Thorlabs GVS012)引导进入现场。返回的光沿着相同的光路返回,由偏光分束器反射,并由透镜(佳能EF 50毫米f/1.8)聚焦到检测器上(光路的图示见图2)。由于墙壁在反射时随机偏光,偏振分束器阻挡50%的回光。探测器为单像素快速选通SPAD(微型光子器件PDM系列SPAD),具有50μm×50μm的活动图像区域。时间相关单光子计数器TCSPC(PicoQuant-PicoHarp 300)以SPAD和激光器的信号为输入,向计算机输出光子时间戳流。为了避免从墙壁返回的直射光带来的强烈影响,使用了SPAD的选通能力;这使得在直射光到达后打开SPAD,在从隐藏场景捕捉到间接光后关闭SPAD(即使用超高速电子快门)。栅极开启的时间可以通过将激光器的触发信号通过一个延迟器单元(PicoQuant MPD皮秒延迟器)并接通SPAD来可变地调整。
使用MATLAB函数捕获并处理原始数据流。该数据流由每个检测到的事件的32位数据包组成:12位表示以16 ps增量测量的检测到的光子的飞行时间值,16位对应以微秒为单位测量的粗略时间值,4位表示外部标记信号。NI-DAQ将一个VSYNC信号传递给TCSPC,将标记信号注入数据流,该数据流指示每个新帧的开始。MATLAB函数将数据流转换为测量体积,如下所示:对于数据流中的每个事件,该函数使用自帧开始以来经过的粗略时间确定(x,y)扫描位置,将值t设置为相对于在t=0处出现的直接分量的相应飞行时间值,并且在测量体积内增加体素(x,y,t)的值。这些数据在一台具有256 GB内存和两个运行在2.60 GHz的Intel Xeon E5-2690 v4 CPU的计算机上处理。使用此硬件,未优化的f-k迁移和LCT的MATLAB实现分别需要大约80秒和25秒的时间,用于5123个样本。将重建时间的差异归因于Stolt插值步骤的低效实现,该步骤依赖于MATLAB的interpn函数。相比之下,对于相同的体积,FBP需要超过10小时的计算时间。最近展示了一种基于GPU的LCT实时(每秒大于60次重建)实现,使用f-k偏移可以获得类似的重建速度。所有捕获的数据集和重建软件都是公开可用的。
3、工程化流程图(600字)
本文将场景去遮挡简化为三个子任务,即傅里叶变换、重采样和傅里叶逆变换,其流程图如图3所示。
图3 f-k偏移流程图
通过模拟弥勒佛(如图4)的共焦NLOS测量并使用f-k偏移执行重建来评估相位对重建质量的影响。使用几何射线追踪技术或者用波动方程。射线追踪技术在正确的空间尺度上近似于捕获的NLOS强度测量,但缺乏相位信息。虽然由于实际的计算限制,散射相互作用是在毫米尺度而不是亚微米尺度下模拟的,但使用波动方程可以提供振幅和相位信息。
图4 相位对f-k迁移重建的影响评估
从模拟瞬变重建斯坦福兔如图5所示。由于LCT的图像形成模型严格地假设了漫反射,因此在重建过程中,伪影以条纹的形式出现在物体周围。由于f-k偏移没有对隐藏对象的反射特性作出明确的假设, f-k偏移可以为镜面反射对象产生更高质量的重建。就平均绝对误差而言,f-k偏移比LCT好3.5倍,就中值绝对误差而言,f-k偏移比LCT好1.8倍。
图5 兔子f-k迁移和LCT重建方法的比较
如图5,(a-b)高光兔子场景的测量,使用总和投影可视化为二维图像。兔子复杂的几何和镜面反射特性导致在(a)中的墙上出现焦散。(c-d)兔子的重建视图,通过取体积沿z维的最大强度投影来渲染。(e-f)是沿深度轴的几何差异。由于该场景的镜面反射性质,兔子身上的某些区域不会对墙上1 m×1 m区域产生任何光线;这些区域显示为黑色,由于没有信号,因此无法可靠地重建。其余点的平均绝对误差f-k偏移为2.4 mm,LCT为8.4 mm。同样,f-k偏移的绝对误差中值为1.3 mm,LCT的绝对误差中值为2.4 mm。(g-h)点云覆盖到兔子的Groundtruth。
在图6中,通过漫反射测量重建兔子的形状和反照率。尽管重建体积存在视觉差异,但f-k偏移和LCT恢复的深度图在平均绝对误差和中间绝对误差方面同样准确。
图6 漫反射兔子f-k迁移和LCT的比较
如图6,(a-b)通过沿z维的最大强度投影重建兔子的视图。(c-d)沿深度轴恢复几何的差异。其余点的平均绝对误差f-k偏移为1.4cm,LCT为1.3cm。同样,f-k偏移的绝对误差中值为2.1 mm,LCT的绝对误差中值为2.2 mm。请注意,与图5不同的是,兔子身上的所有可见点都会为墙壁提供光线。
使用原型硬件系统评估了各种室内场景的f-k迁移,包括有光泽的龙、漫射的雕像、迪斯科舞会和隐藏的房间。
图7 十分钟曝光后重建结果的比较
图7中所示的测量值是通过扫描墙壁上2m×2m区域上512×512网格点而获得的,总曝光时间为10min。此图中显示的所有三个对象都具有不同的反射特性,从漫反射到镜面反射。对于漫反射和有光泽的对象,f-k迁移和LCT的重建都趋于相似,尽管f-k迁移通常对测量中存在的噪声不太敏感。相比之下,当测量包含大量噪声时,FBP的性能往往很差。关于disco球的例子,f-k偏移提供了disco球的多面球面的合理重建,而FBP和LCT都受到许多条纹状伪影的影响。注意,FBP中的反投影步骤非常慢,需要几个小时的计算时间;因此,依赖LCT快速执行反投影步骤,并将高斯滤波器的拉普拉斯(Laplacian)应用于结果。图7(a)中为三个隐藏场景的照片,包括一条光滑的龙、一个漫射的雕像和一个迪斯科舞会。(b)中前两行测量体积的x-t切片(沿水平方向的t轴)和迪斯科球测量的x-t最大投影(用于更好地突出镜面反射)。原型系统在2m×2m的平面墙上进行了测量。(c-e)重建方法包括(c)FBP,(d)LCT和(e)中的f-k偏移方法。
图8 非视域(NLOS)重建隐藏的、房间大小的场景
图8所示由包含各种对象的隐藏场景组成,包括图7所示的所有三个对象。使用180分钟曝光拍摄该特定场景,以显示所有三种重建方法的最佳重建性能。由于f-k偏移对场景中存在的各种复杂反射具有相对的鲁棒性,因此它生成的重建具有最少的视觉伪影。尽管与FBP和LCT相比,漫射塑像的f-k迁移总体上看起来更暗,但f-k迁移仍然以高保真度重建了塑像的特征。
图9 不同重建方法和曝光时间拍摄的自行车测量值的比较
为了评估与噪声有关的重建方法,在图9中对不同曝光时间捕获的自行车的测量值进行重建。这三种方法都能在180分钟后辨别出自行车的形状。然而,FBP重建结果比f-k偏移和LCT都要噪声大,LCT结果比f-k偏移和FBP都要模糊。f-k偏移产生高保真重建,同时对噪声也具有鲁棒性。在10次曝光的情况下,f-k偏移和LCT的相对重建质量保持不变,但FBP的重建质量因其对噪声的敏感性而明显下降。还要注意,过去的方法,如FBP和LCT需要一些参数调整,特别是在存在噪声的情况下。例如,LCT使用用户定义的参数来控制其对噪声的容忍度。另一方面,f-k偏移没有可调参数,其工作原理是简单地重新分配频率系数。
图10 室外非视域捕获装置和结果
图10演示了“在野外”实现NLOS成像。在间接环境阳光下对建筑物进行非视域成像的能力。场景包括漫反射雕像、一张被桌布覆盖的桌子,以及桌子顶部的盆栽植物。这些测量是在黄昏期间,在部分阳光条件下,50分钟内进行的。请注意,由于可见墙的反照率不均匀,在重建过程中不明确说明墙的反照率变化,这突出了f-k偏移在实际应用中的鲁棒性。
图11 4HZ频率下隐藏在视野中的人的重建
NLOS原型系统还可以通过快速扫描墙壁来捕捉动态场景。在图11中,通过在墙上采样一个32×32的网格,以4HZ的频率捕捉一个人的形状和位置。为了在如此短的曝光时间内处理有限的信号,该人穿着反光服,大大增加了在墙上检测到的间接信号。尽管分辨率比我们长时间曝光的例子要低,但重建清晰地显示了人的位置和姿势。f-k偏移的重建时间为每帧1.2s。
1、亟待解决的问题
1)虽然f-k偏移提供了波动方程的精确解,但波偏移模型和基于几何光学的标准NLOS成像并不等价。首先,原型系统和f-k偏移过程振幅测量中,忽略了相位的影响,从而导致重建误差,如图4所示。其次,波场是高度振荡的,可见光的频率可能太高,无法用f-k偏移精确建模。
2)虽然漫反射和镜面反射是由对象的表面几何体引起的,但这发生在微观尺度上。因此,f-k偏移尽管与最新的解决方案相比表现良好,但只是作为NLOS问题的近似解。
2、应用
对隐藏在视线之外的物体进行成像的能力在远程成像和监视中有着多种应用。通过从Stolt在地震学中的原始工作以来40多年的工作中汲取灵感和改变思想,文章的工作对NLOS问题的解决方案提供了比当前技术水平更好的重建结果。预测f-k偏移可能成为计算机图形学和视觉其他领域,特别是在微观尺度(如计算显微镜、计算机生成全息)中迁移光波场的有用数值方法。