论文阅读笔记《DFVS: Deep Flow Guided Scene Agnostic Image Based Visual Servoing》

核心思想

  该文提出一种利用光流估计和深度估计的基于图像的视觉伺服算法,传统的基于图像的视觉伺服算法中有两个难点:一是需要人工选择特征点,而且特征点必须在相机的视野范围之内,一旦特征点丢失,视觉伺服过程可能失效;二是需要知道特征点的深度信息,传统方法通常采用近似或根据机器人里程计进行估计的方法来获得。针对这两个难点,该文提出了利用深度学习方法来进行光流估计和深度估计的方法,光流估计可以得到两幅图像中对应像素点之间偏移关系,即光流信息就能够反映出当前位置图象和期望位置图像之间每个像素的偏移情况,也就是IBVS中所需要的特征点之间的差异。深度估计比较好理解,就是一个单目深度估计网络,获取图像中每个点的深度信息用于图像雅可比矩阵的计算。整个流程如下图所示
论文阅读笔记《DFVS: Deep Flow Guided Scene Agnostic Image Based Visual Servoing》_第1张图片
  利用光流估计网络FlowNet2计算当前位置图像 I t I_t It和期望位置图像 I ∗ I^* I之间的光流图,并以此作为差异信息。利用深度估计网络计算当前位置图像的深度信息。此外,作者还利用上一时刻的图像 I t − 1 I_{t-1} It1和当前时刻的图像 I t I_t It之间的光流信息来进行深度估计,这里其实利用了一些立体匹配的思想,距离越远的位置在相邻两幅图像之间的变化就越小,反之距离越近的位置在相邻两幅图像之间的变化就越大,也就是说深度信息会与光流程度成反比例关系,利用这一关系就可以根据光流对深度进行估计。作者称这种方法为两视角深度估计(Two view depth estimation)和上面的单目深度估计方法是彼此独立的,作者称因为深度估计网络是在室内场景中训练得到的,而两视角深度估计方法不依赖于场景的训练,因此对于户外场景的泛化能力更好。
  值得注意的是,传统的IBVS中只选择3-4个特征点来计算位置差异,而光流图是稠密的,提供了所有像素点之间的位置差异。这就意味着在计算图像雅可比矩阵时要处理一个很高维度的特征向量,因此这里参考了另一篇文章中的方法,将该过程转化为一个优化问题,通过LM算法进行求解。过程如下式
在这里插入图片描述
式中 L L L表示图像雅可比矩阵, F ( I t , I ∗ ) \mathscr{F}(I_t,I^*) F(It,I)表示光流图。

创新点

  • 利用光流估计和深度估计网络来实现IBVS中的特征点之间的差异计算和深度估计
  • 提出一种双视角深度估计方法

算法评价

  该文应该是将深度学习方法与传统IBVS方法结合的比较好的一种方法,与其他基于深度学习的视觉伺服方法对相机姿态进行估计,然后利用PBVS方法进行控制的思路不同,本文保留了IBVS中图像雅可比矩阵的计算过程,利用深度学习方法来解决传统方法对于视觉处理的难点(特征点之间的差异计算和深度估计)。文中提到的利用优化方法来计算稠密特征点之间的图像雅可比矩阵的算法需要进一步学习。

如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。

你可能感兴趣的:(论文阅读笔记,#,视觉伺服,视觉伺服,深度学习,光流估计,深度估计)