让我们考虑一对图像的重建误差,从一组图片到在时间t处的距离估计值Dt,以及相对于源图像姿势的相对姿势.使用网络点云Pt的距离估计Dt ,Pt通过以下方式获得:
其中表示从图像到摄像机坐标的未投影,如第II-A节所述,pt表示图像It的像素集。姿势估计被用来获得估计从图片的点云中。在t'时刻,使用节中描述的投影模型 被投影到鱼眼相机上。将变换和投影与公式6相结合,建立了从时间T处的图像坐标到时间T‘处图像坐标的映射。时间t0。此映射允许重建目标帧的通过向后扭曲源帧。
由于坐标扭曲^u^v是连续的,我们应用[28]引入的differentiable spatial transformer network来计算通过对中接近的四个像素执行双线性插值。符号<. . >表示相应的采样运算符。
在[16]之后,[29]目标图像和重建目标图像之间的图像重建误差,使用L1像素损失项和结构相似性(SSIM)[30]计算t,作为下面公式8给出的光度损失Lp。
其中=0:85,是第II-D节中讨论的二进制掩码,符号表示元素相乘。以下[14]不是对所有源图像的光度误差进行平均,而是采用每像素最低限度,这会显著锐化遮挡边界并减少伪影,从而提高精度。
自我监督框架假设一个静态场景,没有遮挡和外观变化(例如亮度恒定性)。可能会产生较大的光度成本。如果存在动态对象和遮挡区域,则会降低性能。这些区域被视为类似于[27]的异常值,并将光度损失值剪裁为第95个百分位。当误差大于95%时,可获得零梯度。这改进了优化过程,并提供了增强光度误差的方法。
c.解决训练时的比例因子模糊性
对于针孔投影模型,深度/1=视差。此后,网络的sigmoided输出可以转换为深度,,其中选择a和b将D限制在0.1和100单位之间[14]。对于球面图像,我们只能通过校正获得角差[31]。要对原始鱼眼图像执行距离估计,我们需要度量距离值 从扭曲的源图像It0到目标帧It上。由于单目SfM目标的局限性,单目深度gd和ego-motion自我运动预测器gx都预测尺度模糊值,这使得无法在鱼眼图像上估计距离图。为了获得缩放感知距离值,我们将姿势网络的估计值并用x进行缩放,相对于目标帧it的位移大小使用车辆瞬时速度计算,在时间t0估计vt0,在时间t估计vt。我们还将此技术应用于KITTI[23],以获得公制深度图。
D、 屏蔽静态像素和自我屏蔽
继[14]之后,我们采用了一种掩蔽方法来过滤出在训练序列中不会改变其外观的静态像素。该方法将过滤出与自我汽车以相同速度移动的物体,并在自我汽车停止移动时忽略静态帧。类似于其他方法[14]、[15]、[32]、[33]的每像素掩码通过有选择地加权像素来应用于损失。不是从对象运动中学习[34],而是在向前传递网络,生成二进制掩码输出到。扭曲图像的光度误差 不低于原始非扭曲图像 在每种情况下,与目标帧相比。设置为忽略此类像素的丢失,即
其中[]是艾弗森括号。此外,我们还添加了一个二进制ego面具[35]中提出的t0忽略了计算没有有效映射的像素上的光度损失,即目标图像的一些像素坐标根据给定估计距离,它可能不会投影到源图像上。
在正向序列中,我们合成目标帧通过源帧(即根据上述讨论)。类似地,执行反向序列作为目标帧,作为源帧。我们包括扭曲和,从而引入更多约束,以避免过拟合,并解决测试时边界区域中的未知距离,如之前的工作[14]、[15]、[36]中所观察到的。我们以与正向相似的方式构造附加反向序列的损失。这是以高计算工作量和更长的训练时间为代价的,因为我们执行了两个向前和向后的扭曲,与之前的方法[14]相比,在Fisheye和KITTI数据集上产生了更好的结果,[15]只使用一个正向序列和一个反向序列。
F、 边缘感知平滑度损失
为了调整距离并避免在遮挡或纹理较少的低图像梯度区域中出现发散值,我们添加了一个几何平滑损失。我们采用了类似于[16]、[35]、[37]的边缘感知术语。正则化项施加在反距离映射上。与以前的作品不同,由于下采样,每个金字塔级别的衰减系数不为2,因为我们使用超分辨率网络(见第III-a节)
为了阻止估计距离的缩小[17],考虑It的平均归一化反距离,即 即表示
G、 跨序列距离一致性损失
SfM设置使用从视频输入的N帧训练片段S= 。FisheyeDistanceNet可以估计训练序列中每个图像的距离。另一个约束可以在S中的帧,因为从不同帧估计的3D点的距离应该是一致的。
假设^Dt0和^Dt分别是图像It0和It的估计值。对于每个像素,我们可以使用等式7来获得^pt0。由于它的坐标是实数,我们应用[28]the differentiable spatial transformer
network,并通过对^Dt0中靠近^pt0的四个像素值进行双线性插值来估计^pt0中的距离值。让我们将通过此获得的距离图表示为。接下来,我们可以通过首先使用等式6获得Pt,将It帧中的点云转换为It0帧。我们通过使用姿势网络的估计值转换点云Pt!t0点。现在,表示从点云^Pt0生成的距离。理想情况下,和应相等。因此,我们可以为训练序列S定义以下跨序列距离一致性损失(CSDCL):
公式12包含一个term,其中像素和点云在时间上向前弯曲(从t到t0),还有一个term在时间上向后弯曲(从t0到t)。
在之前的工作[32]、[37]中,一致性误差仅限于两帧,而我们将其应用于整个训练序列S。这会产生更多的约束并扩大基线,本质上改进了距离估计[27]。
运动目标的整体运动自监督结构(SfM)包括在重建目标图像^It0之间施加的光度损失Lp!t和目标图像It,包括一次转发和一次
对于后向序列,距离正则化项Ls确保距离估计中的边缘感知平滑。最后,还包括训练序列S中的帧链产生的交叉序列距离一致性损失Ldc。防止培训目标达成
由于双线性采样器的梯度局部性,我们陷入局部极小值[28],我们采用4个尺度来训练网络,如[15]、[16]所示。最终目标函数是每个像素、比例和图像批次的平均值。