本文是在深度估计的基础上,加入提前VO估计位姿用于深度估计,实例估计和深度估计结合,尺度模糊处理
我们提出了一个自监督学习框架来估计视频中单个物体的运动和单目深度。我们将物体运动建模为6自由度刚体变换。实例分割掩码用于引入对象信息。与预测像素级光流图以模拟运动的方法相比,我们的方法显著减少了要估计的值的数量。此外,我们的系统通过使用预先计算的摄像机自我运动和左右一致性来消除预测的尺度模糊性。在KITTI数据集上的实验表明,我们的系统能够在不需要外部标注的情况下捕捉物体的运动,有助于动态区域的深度预测。我们的系统在三维场景流预测方面优于早期的自监督方法,并且在光流估计方面产生了可比的结果。
本文提出了一种自监督学习框架,用于从视频中估计单个目标的运动和单目深度。
第一个贡献是以6自由度刚体变换的形式对物体运动进行建模和预测。以前的自监督pproaches使用密集的2D光流或3D场景流[2]来建模运动,这意味着可以预测像素级的流图。相比之下,我们的方法预测了单个物体运动的6自由度旋转平移。将要估计的值的数量从逐像素预测显著减少到每个实例6个标量。
第二个贡献是在基于视图合成的框架中,使用预先计算的绝对相机自我运动和左右光度损失来解决尺度模糊问题。基于视图综合的自监督学习框架存在尺度模糊问题,这意味着预测的运动和深度只能达到尺度。我们通过预先估计相机的绝对自我运动,并结合景深预测来解决这个问题。在此过程中引入了尺度信息。我们还施加左右光度学损失,从立体图像对编码比例信息。我们在KITTI数据集上对我们的框架进行评估。结果表明,我们的系统能够有效地预测单个物体的运动。
提前输入相机的ego-motion进行深度估计,和对图像内实力分割的对象位姿进行预测。
本文motion框架
1.视角合成误差