From Seeing to Moving: A Survey on Learning for Visual Indoor Navigation (VIL)

From Seeing to Moving: A Survey on Learning for Visual Indoor Navigation (VIL)

摘要

视觉室内导航(VIN)任务在基于学习的方法取得一定成功后,吸引了越来越多的关注。由于这个工作本身的复杂性,研究者们从不同角度入手解决这个问题。在这篇综述中,我们讨论了视觉导航及其相关任务的基于学习方法的进展,还讨论了现有方法未解决的困难和未来值得探索的研究方向。

相关任务

  • 视觉室内导航(VIN)任务:智能体在室内环境中以第一人称视角按照使用者具体的目标进行导航。该任务要求智能体能够理解视觉输入,判断当前位置,推理目标方向,计划导航轨迹,执行决策动作。
  • 具体问题回答(EQA)任务:智能体需要导航到问题导向的目标位置,收集视觉信息完成问题答案。
  • 视觉语言导航(VLN)任务:智能体需要跟随给定自然语言指令在室内完成导航任务。

方法分类

  • 解决视觉导航问题的经典的基于图的方法已经被研究了很多年,这些方法将导航任务明确地分解为一系列子任务,如映射,定位,动作控制。虽然这些方法能够获得一定程度的成功,但分布式设计限制了该类方法的广泛应用性。一个最主要的限制就是这类方法容易受到噪声的影响,无论哪个部分被扰动,都会传播给控制器影响整体,因此这类算法鲁棒性差。同时,这类算法还要求足够的具体场景驱动下海量数据驱动,需要部分人工操作,极大限制了模型的泛化和拓展。
  • 受到深度学习快速发展的影响,基于学习的方法被应用到视觉语言导航任务并取得了较大进展。基于学习的方法自动将输入图片和文本映射为序列数据,不需要进行人工特征选取,在保证效果的前提下极大提升了效率和泛化能力。

目标驱动分类

  • 标签式目标:在一个已知环境中,使用三维点坐标表示在对应帧中的位置为目标。一些工作将目标位置编码到模型中,使智能体记住它。更常见的对具体目标的标签式处理是通过房间类型或物体种类以导航到指定房间。主要
  • 图片式目标:使用场景图的形式使智能体寻找最终目标,因此对目标的表示和对当前视角的视觉表示是同源的。
  • 语言式目标:具体问题问答(EQA)和交互问题回答(IQA)这两个任务都涉及到人类自然语言,这类任务要求智能体导航到一个室内环境然后收集视觉信息去推理答案。另一种任务视觉语言导航(VLN)要求智能体按照自然语言指令导航到固定位置,这类任务与目标驱动的导航任务不同,该任务及要求导航的目的地要对,也要求经过的路径要对。

使用特征表征解决VIN问题

  • 大多数目标导向的导航任务都是最短路径为最优路径,甚至对于最短路径不一定是最优路径的VLN任务也提供了最短路径作为参考,因此,因此当前观测 o o o和目标 g g g之间使用动作 a a a连接,在监督学习方法中 f ( o ; g ) = a f(o;g)=a f(o;g)=a的公式f是希望通过训练及能够学习到的。
  • 在导航任务中,这样的公式 f f f也是希望从观测o和目标g中获取到特征表示的,这种特征能够实现跨模态信息匹配。Wang19等人提出了一个全新的跨模态匹配架构实现视觉观测、全局视觉轨迹到语言指令的对齐。Ma19 Zhu19 Huang10等人分别提出自监督辅助任务丰富特征表示,如评估导航进程、与指定目标距离、轨迹是否与指令对齐、重构指令等,提高特征表达的鲁棒性,实现更好的泛化能力。如Speaker-Follower模型采取speaker模型完成数据增强,Tan19等人使用环境dropout模仿未知环境。
    除了导航任务,目标驱动的任务也需要学习特征表示。主要通过:发展一个生成模型预测接下来期望看到的视觉观测,使用无参数的图结构构建视觉观测等。

使用马尔可夫决策过程建模VIN问题

  • 将智能体的视觉输入的隐层状态定义为状态,在每个时间步,智能体采取一个动作将当前状态转移到下一个新的状态,也就是下一个视觉观测,同时接收到一个反馈奖励直至到达目标状态。通过最大化累积的期望奖励,学习最优状态策略。
  • 当不需要最优轨迹作为监督学习时,使用马尔可夫决策过程解决VIN任务主要依赖于:1)定义一个合适的奖励函数,2)对智能体的隐层状态进行表征,3)确定任务的最终状态。
  • 奖励的设置有:物体搜索任务中目标物体的bounding box尺寸,当前位置与目标位置的距离,问题回答模型中答案的准确度,下游任务的评测指标。
  • 状态的表征有:siamese层获取的当前视觉观测和目标观测的空间表征,语义mask的隐层表征,使用反向动态模型获取的两个相邻视觉观测中预测动作的状态表征,使用额外信息增强的视觉表征,topological图表示的的环境表征,从外部知识图谱中提取的特征嵌入。
  • 对模型最终状态:希望能够实现自动发现目标自动停止,有的方法利用终点检查器(分类器等)判断是否到达终点状态,有的工作选择在目标状态时智能体自动停止。

泛化能力

  • 当一个模型使用已知环境中最优轨迹以监督学习方法训练过,很自然地需要测试在一个无法训练的未知环境中执行相似的目标任务的执行效果,以测试模型的泛化能力。
  • 然而对于一个使用深度强化学习方法解决的基于马尔可夫决策过程问题的视觉导航任务而言,在未知环境或者目标中并不会有很好的泛化能力,因为强化学习方法用于解决一个固定的马尔可夫决策过程问题,在这里是指环境固定的情况。
  • 因此提高这类模型的泛化能力是很重要的。有的工作使用先验知识提高模型的泛化能力,如Wang18提出了一个动态环境模型实现预测功能,以更好地使用未知环境。Yang18提使用一个从VG数据集中学习到的物体关系图嵌入提高泛化能力,Wu19使用一个概率图获取房间种类的先验知识。Zhu17设计一个具体场景层保证训练模型能够使用一个更小数量的额外训练数据提升模型泛化能力。

合成环境VS真实环境

  • 模拟平台:AI2-THOR(2017) House3D(2018) R2R(2019)
  • 减少仿真平台和真实环境之间的差距是很难也很重要的一个点。
  • 仿真平台的和合成环境和真实环境的最大差别在于没有不确定性,没有复杂的环境信息
  • 除此之外,仿真环境中可以走的最短路径很有可能在真实环境中无法实现
  • 而且合成环境是静态的,没有真实环境中的光线变化、物体堆叠等。
  • 因此,Kadian19认为评估仿真器的效果不应该再使用物体的视觉和物体真实性,而应该使用虚拟环境中的在实际环境的可复现性

监督学习VS强化学习

  • 监督学习:最大化预测动作和真实导航轨迹的匹配度
  • 强化学习:最大化目标奖励
  • 监督学习缺点:要求大量的训练数据,忽视了可控的环境噪音,生成最短路径代价很高需要大量人工,最短路径也不一定最优,而强化学习根本不需要真值轨迹。
  • 两者对比不公平:监督学习使用已知环境作为额外信息但强化学习没有先验知识,监督学习的目标是学习到已知环境的通用表达,因此训练时有额外的真值信息,但评估时没有额外的真值信息;而强化学习在训练时就没有最优路径的信息,最终目标是找到最优路径,在训练和测试时固然要使用更多的训练轮次。

引入外部知识的作用

  • 引入外部知识在图像识别中效果显著,直觉地,在视觉导航任务中应该也很有用。即使对于人类,在一个已知结构的室内环境中也要比在迷宫中更好导航,因此对环境进行推理远比记忆环境信息更加有用,可以避免在不相关的位置过多徘徊,比如找一个沙发不应该在厨房中浪费过多时间。
  • Wu19引入在视觉导航任务中关于房间的先验信息,Yang18对所有物体关系进行编码解决物体搜索任务。

总结

  • 本文将NIL任务根据目标不同分为三类:标签式目标(目标位置,目标语义标签),图像式目标(目标物体的图像,目标位置的场景图)和语言式目标(问题内容,导航指令)。
  • 本文也描述了两种主要方法(监督学习和强化学习),同时由于强化学习不如监督学习更具有泛化能力,因此额外介绍了提高强化学习泛化能力的研究。
  • 未来值得研究的方向有:1)在仿真平台学习解决VIN任务的合理性,2)比较监督学习和强化学习的公平性,3)提高强化模型的泛化能力,4)融合知识引导学习进程。

你可能感兴趣的:(阅读笔记)