论文阅读笔记《DeepMPCVS: Deep Model Predictive Control for Visual 》

核心思想

  本文提出一种基于深度模型预测控制的视觉伺服方法,与传统的视觉伺服方法不同,该方法既不需要设计视觉特征,也不需要计算交互矩阵的逆矩阵。而是利用光流信息来描述当前图像和期望图像之间的差异,并且通过交互矩阵(图像雅可比矩阵)将速度信息和光流信息关联起来,因为交互矩阵就是描述了图像中的位置变化与运动速度之间的关系。进而使用一个基于循环神经网络的模型来根据上一时刻的速度,输出未来时刻的速度指令。整个算法的流程如下图所示
论文阅读笔记《DeepMPCVS: Deep Model Predictive Control for Visual 》_第1张图片
  首先,作者先介绍了传统视觉伺服实现的方式,其核心为
在这里插入图片描述
其中 s ( I t ) s(I_t) s(It) s ( I ∗ ) s(I^*) s(I)分别表示当前时刻的图像特征和期望位置的图像特征, L + L^+ L+表示交互矩阵的广义逆矩阵,交互矩阵如下
在这里插入图片描述
交互矩阵与当前时刻的深度信息 Z t Z_t Zt有关。对于一个非常小的时间间隔 δ t \delta t δt,速度 v t v_t vt和光流信息之间的存在以下关系

在这里插入图片描述
这个公式表明,通过交互矩阵我们可以根据当前时刻的速度得到未来时刻的状态(对于本文而言状态就是指光流信息),而模型预测控制的思想就是给定有限时间跨度内的速度输入,要输出一系列的最优动作控制指令,使得预测的状态与期望状态之间的损失函数最小。对于本文而言,就是让光流信息的差异最小,目标函数如下
在这里插入图片描述
其中 F ( I t , I ∗ ) \mathscr{F}(I_t,I^*) F(It,I)表示当前时刻图像和期望位置图像之间的光流信息,是通过一个训练好的光流预测网络FlowNet2计算得到的,而 F ^ ( v t + 1 : t + T ) \widehat{\mathscr{F}}(v_{t+1:t+T}) F (vt+1:t+T)表示预测模型输出的光流信息,其计算方法如下
在这里插入图片描述
上式利用了光流信息的可加性,即
在这里插入图片描述
另一方面两个图像如果只存在平移位置变化的话,则通过其光流信息也可以估计深度信息(类似于双目视觉立体匹配的思路),因此同样是利用训练好的光流预测网络,可以得到相邻两个时刻之间的光流信息,进而估计深度信息 Z t Z_t Zt,则交互矩阵 L ( Z t ) L(Z_t) L(Zt)也就可以得到了。根据前面提到的目标函数,我们可以得到对应的损失函数,作者称之为光流损失
在这里插入图片描述
其中未来时刻的速度预测量 v ^ t + K \hat{v}_{t+K} v^t+K是通过一个预测模型输出的,本文使用基于LSTM的神经网络来输出该预测值,通过反向传播光流损失来对该模型进行有监督的训练,并且该训练过程是在线的,也就是每一次运动都会对网络进行训练,使其输出一个最优的速度控制指令 v ^ t + K \hat{v}_{t+K} v^t+K
  最后简单梳理一下整个过程,将上一时刻的速度信息 v t − 1 v_{t-1} vt1输入到预测模型(LSTM神经网络)中,输出未来一段时间内的速度预测值。根据当前时刻的图像和上一时刻的图像得到的光流信息估计出当前时刻的深度信息,并进一步得到交互矩阵 L ( Z t ) L(Z_t) L(Zt)。有了交互矩阵和速度预测值就可以得到光流预测值 F ^ ( v t + 1 : t + T ) \widehat{\mathscr{F}}(v_{t+1:t+T}) F (vt+1:t+T),将光流预测值与当前图像和期望图像之间的真实光流值进行比较,就可以得到损失。最后将损失反向传播,用于训练预测模型(LSTM)得到更优化的速度控制指令。算法流程如下
论文阅读笔记《DeepMPCVS: Deep Model Predictive Control for Visual 》_第2张图片

创新点

  • 利用光流信息取代了手工设计或者神经网络提取的特征信息,并通过交互矩阵建立起速度与光流之间的对应关系
  • 结合了模型预测控制的思想来实现视觉伺服,并利用基于LSTM的深度模型来预测速度

算法评价

  这篇文章的想法和实现方式还是非常有趣的,光流信息是视觉伺服中非常有价值的一类信息,其实他本质上就反映了对于像素之间的位置变化情况,作者更加直接的利用这一信息,取代了视觉伺服中手动设计视觉特征的环节。然后又结合了模型预测控制的思想,根据之前时刻的速度输入,预测未来时刻的状态,以逼近期望的状态。传统的预测模型可能无法处理高维的状态信息,因此本文又采用了基于LSTM的预测模型来实现。整体而言,文章的思路非常新颖,但其中也存在一些不可靠的点,光流估计本身就是不准确的,尤其在当前时刻和期望位置之间的差异比较大的时候,而且利用光流信息估计深度也存在一定的误差,所以我不确定最终优化输出的速度控制指令,精度是否能够达到论文里描述的程度。另一方面,预测模型是在线进行训练的,因此每完成一个动作都要对模型进行训练,才能得到下一步指令,这个过程是否会耗时过长,而达不到高效的目的呢?

如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。

你可能感兴趣的:(论文阅读笔记,#,视觉伺服,视觉伺服,模型预测控制,光流信息,LSTM)