(论文总结)Beyond the Nav-Graph: Vision-and-Language Navigation in ContinuousEnv

文章目录

  • 1 Introduction
    • VLN研究的假设
    • Vision-and-Language Navigation in Continuous Environments.
  • 2 Related Work
    • Language-guided Visual Navigation Tasks
  • 3 VLN in Continuous Environments (VLN-CE)
    • Continuous Matterport3D Environments in Habitat.
    • Observations and Actions
    • 3.1 Transferring Nav-Graph Trajectories
      • Matterport3D Simulator and the Room-to-Room Dataset.
      • Converting Room-to-Room Trajectories to Habitat.
      • Non-Navigable Trajectories.
    • 3.2 VLN-CE Dataset
  • 4 Instruction-guided Navigation Models in VLN-CE
    • Instruction Representation.
    • Observation Encoding.
    • 4.1 Sequence-to-Sequence Baseline
    • 4.2 Cross-Modal Attention Model
    • 4.3 辅助损失和训练制度
      • **Imitation Learning.**
      • Coping with Exposure Bias.
      • SynthEtic Data Augementation
      • 进度管理
  • 5 Experiments
    • Setting and Metrics.
    • Implementation Details.
  • 6 Conclusion

1 Introduction

  • 遵循自然语言指令的通用机器人助手的可能性已经被人类所理解,最近的工作着手于人工智能在可感知丰富的仿真环境遵循自然语言导航指令;一个示例可能是:“下大厅,在木制桌子上左转。继续,直到你到达厨房,然后停在水壶里。”并且agent通过它们在(潜在新颖的)模拟环境中遵循所描述的路径的能力来评估

  • (论文总结)Beyond the Nav-Graph: Vision-and-Language Navigation in ContinuousEnv_第1张图片

Fig.1 VLN设置(a)在全景图像的固定拓扑上操作(以蓝色显示)-假设节点之间(通常相距数米)和精确定位之间的完美导航。我们的VLN-CE设置(b)通过在具有低级动作的连续环境中实例化任务来提升这些假设-为随后的机器人指令提供更现实的测试平台。

  • 3D空间的静态拓扑表示。如图1(a)所示,导航图中的节点对应于在固定位置拍摄的360°全景图像,并且节点之间的边缘指示可导航性。这种基于导航图的公式引入了许多关于agent导航在真实世界会遇到的问题的假设

VLN研究的假设

  • 已知拓扑:agent在可遍历节点的固定拓扑图上运行;通常的做法是通过选择当前全景中的方向并“捕捉”到该方向上最近的相邻导航图节点来定义agent操作
  • Oracle navigation:导航图中相邻节点之间的移动是确定性的,这意味着存在能够在存在障碍物的情况下准确穿过多米的oracle导航器-消除了视觉导航的问题
  • 理想的位置信息:agent始终获得精确的位置和航向

Vision-and-Language Navigation in Continuous Environments.

  • agent可以通过一组低级操作(例如moveforward0.25m,转向左15度)自由导航到任何畅通无阻的点,而不是在固定节点之间传送;在VLN-CE中,沿着一条路径的平均动作次数是55与VLN中的4-6节点跳相比(如图1所示)。此外,agent在此过程中收到的视野并不像全景图中那样由谨慎的人为操作者构成,而是agent行为的结果。agent还必须学会避免陷入障碍,这在VLN的导航定义导航图中在结构上是不可能的。此外,agent在导航时未提供其位置或朝向。

  • 为了进一步研究基于导航图的VLN任务和VLN-CE之间的关系,我们还将从连续环境中训练的agent的路径传输回导航图以提供直接比较。我们发现这些设置之间的性能存在显着差距,表明导航图提供了强大的先验。这表明VLN的先前结果可能过于乐观

2 Related Work

Language-guided Visual Navigation Tasks

  • 与我们的工作最相关的是Anderson等[4]的视觉和语言导航(VLN)任务。VLN在Matterport3D[5]环境中提供导航图轨迹和众包指令作为房间到房间(R2R)数据集。我们直接在这些注释上构建VLN-CE–将基于R2R全景图的轨迹转换为连续Matterport3D环境中的细粒度路径(图1(a)至图1(b))。

  • 我们提出的VLN-CE任务在不受约束的agent导航的现实环境中采用了来自人们注释的众包指令的设置

3 VLN in Continuous Environments (VLN-CE)

  • 给定自然语言导航指令,agent必须通过仅基于自我中心感知执行一系列低级操作,在连续3D环境中从起始位置导航到所描述的目标。总之,我们通过将基于导航图形的房间到房间(R2R)[4]轨迹转移到habitat模拟器中重建的连续Matterport3D环境来开发此设置[19]。我们将在本节中讨论任务规范和此传输过程的细节

Continuous Matterport3D Environments in Habitat.

  • 我们在Matterport3D(MP3D)[5]数据集中研究了我们的题目,该数据集是通过10800多个高清RGB-D全景捕获的90个环境的集合。此外,对于全景图像,MP3D还提供相应的基于网格的3D环境重建。为了实现agent与这些网格的交互,我们在Habitation Simulator[19]之上开发了VLN-CE任务,Habitation Simulator[19]是一种高通量模拟器,支持包括MP3D在内的3D环境的基本运动和碰撞检查

Observations and Actions

  • RGBD图像分辨率为256*256 水平视场为90°

  • moveforward 0.25m,turn-left or turn-right 15 degrees, stop 到达goal

  • 全景图之间移动的动作平均移动2.25米,可以包括避开障碍物。

3.1 Transferring Nav-Graph Trajectories

  • 我们从基于导航图的RoomtoRoom数据集转换到我们的连续环境这样子利于比较

Matterport3D Simulator and the Room-to-Room Dataset.

  • 最初的VLN任务基于Matterport3D(MP3D)[5]的全景图。为了使agent与这些全景图相互作用,Anderson等人[4]开发了Matterport3D模拟器。该模拟器中的环境定义为nav graphsE={V,E}。每个nodev∈ v对应于Matterport相机在位置x,y,z–i.v={i,x,y,z}处拍摄的全景图像。图中的边对应于节点之间的导航性。导航性通过在不同高度的节点位置之间的射线追踪来定义,以检查重建的MP3D场景中的障碍物,然后手动检查。根据判断agent是否可以在节点之间导航(包括避免轻微障碍4),手动添加或删除边缘。代理通过在该图中的相邻节点之间传送来起作用。基于这个模拟器,Anderson等人[4]收集了包含7189个轨迹的Roomto-Room(R2R)数据集,每个轨迹平均有三个人为生成的指令。这些轨迹由一系列节点τ=[v1,…,vT]组成,长度平均在4到6个节点之间。

Converting Room-to-Room Trajectories to Habitat.

  • 给定Matterport3D Simulator and MP3D in Habitat之间的坐标映射,看起来两者之间很容易转换;但是节点具有相应的xyz位置。但是,节点位置通常不对应于地面agent的可到达位置-节点位置是根据三脚架配置以可变高度存在或放置在平坦家具(如桌子)上。此外,如果物体或门在相机捕获之间移动,则重建和全景可能不同。图2显示了这个过程的概述和直接传输节点位置时的常见错误

  • (论文总结)Beyond the Nav-Graph: Vision-and-Language Navigation in ContinuousEnv_第2张图片

    Fig.2。我们将全景图(蓝点)上的导航图轨迹从Room toRoom(R2R)数据集传输到重建的Matterport3D(MP3D)环境中的位置。有些映射到重建失败的环境网格中的“洞”,或者映射到agent无法导航的家具(通常是桌子)。对于这些,我们发现最近的通航点在0.5米以内。

  • 对于每个节点,我们想确认距离该节点最近的一个1.5m高直径为0.2m的圆柱体agent可占据的可导航点;直接投影到最近的网格位置73%的节点由于投影到>0.5m或不可到达的点而失败;由于相机的高度,这些点中的许多点投射到天花板或附近物体的顶部而不是地板上。相反,我们从节点位置直接向下投射2m的光线。沿着这条射线以小的固定间隔,我们投影到最近的网格点。如果确定了多个可通航点,我们将采取从原始位置水平位移最小的点。如果未找到位移小于0.5m的可导航点,我们认为此MP3D节点无法映射到3D网格,因此无效。我们手动检查所有无效节点,并在可能的情况下进行更正,例如将节点移动到家具侧面。

  • 我们想验证代理是否可以在每个位置之间实际导航。我们采用基于A*的启发式搜索算法来计算到目标位置的近似最短路径。我们在轨迹中的每个路点之间运行这个最短路径算法到下一个(例如wi to wi+1)。如果对于每个成对导航,遵循计算的最短路径的代理可以导航到下一个路点(wi+1)的0.5m内,则认为轨迹是可导航的。总的来说,我们发现77%的R2R轨迹在连续环境中可以航行。

Non-Navigable Trajectories.

  • 在23%的不能航行的轨迹中,我们观察到两种主要的失效模式。1这些节点无法投影到MP3D 3D网格并且默认被拒绝;2它们跨越了重建的不相交区域

3.2 VLN-CE Dataset

  • 总共,VLN-CE数据集由从R2R序列转换并进行验证拆分的4475条轨迹组成。对于每个轨迹,我们提供来自R2R的多个自然语言指令以及通过低级动作在路径点之后的预先计算的最短路径。如图3(c)所示,VLN-CE的低级动作空间使我们的轨迹显着延长了视野任务-平均55.88步,而R2R中为4-6步。

4 Instruction-guided Navigation Models in VLN-CE

(论文总结)Beyond the Nav-Graph: Vision-and-Language Navigation in ContinuousEnv_第3张图片

**Fig. 4.**我们开发了一个简单的baseline agent和一个注意力的agent;两者都接收由预训练网络表示的RGB和深度帧,分别用于图像分类[8]和点目标导航[31]。

Instruction Representation.

  • 我们将标记化的指令转换为相应的GLoVE[23]嵌入,这些嵌入由每个模型的循环编码器处理。我们将这些编码的标记表示为w1,…,wT一个长度为T 的指令

Observation Encoding.

  • 我们分别对RGB和深度观测值进行编码。对于RGB,我们应用在ImageNet[8]上预训练的ResNet50[12]来收集语义视觉特征。我们将这个模型的最终空间特征表示为V={vi},其中i在空间位置上索引。同样,对于深度,我们使用经过训练的修改后的ResNet50来执行点目标导航(即导航到相对坐标中给出的位置)[31]并表示这些D={di}。

4.1 Sequence-to-Sequence Baseline

  • 我们考虑一个简单的序列到序列baseline模型,如图4(a)所示。该模型由循环策略组成,该循环策略在每个时间步骤中表示视觉观察(深度和RGB)和指令,然后预测动作a。具体来说,我们可以编写时间步长的agent

(论文总结)Beyond the Nav-Graph: Vision-and-Language Navigation in ContinuousEnv_第4张图片

其中[·]表示连接,并且s是LSTM指令编码器的最终隐藏状态

4.2 Cross-Modal Attention Model

  • 虽然上面的baseline是一个明智的开始,但它缺乏视觉和语言任务常见的强大建模技术,包括跨模态注意和空间视觉推理,这对于语言引导的视觉导航在直觉上非常重要。许多指令包括相对参考(例如,“桌子左侧”),这些参考很难从平均池化特征中找出。此外,已经完成的部分指令可能与下一个决定无关-----指向对指令的注意潜力
  • 我们考虑图4(b)所示的更具表达力的模型,该模型结合了这些机制。该模型由两个递归网络组成-一个跟踪的视觉观察,另一个基于注意力的的指令和视觉特征做出决定。我们可以把这个第一个循环网络写为:

在这里插入图片描述

​ at−1∈R1×32是指一个对于上一次action的可学习的线性编码

​ 我们使用双向LSTM对指令进行编码,并保留所有中间隐藏状态:

在这里插入图片描述

​ 然后,我们计算一个注意力的指令特征存储这些表示,然后用于关注视觉(vt)和深度(dt)特征。具体来说,

在这里插入图片描述

​ 其中Attn是scaled dot-product attention’然后,第二循环网络将这些特征连接作为输入(包括动作编码和第一循环网络的隐藏状态)并预测动作。

(论文总结)Beyond the Nav-Graph: Vision-and-Language Navigation in ContinuousEnv_第5张图片

4.3 辅助损失和训练制度

Imitation Learning.

  • 我们使用拐点加权进行教学强迫训练。如[30]中所述,拐点加权侧重于动作改变的时间步长(即at−1!=at),根据此类事件的罕见程度按比例调整loss weight。发现这对于诸如长时间重复动作的导航(例如沿着大厅前进)之类的问题是有帮助的。我们在早期实验中观察到类似的效果,并在我们所有的实验中应用拐点加权。

Coping with Exposure Bias.

  • Imitation learning在自动回归的设定中遭遇训练和测试的不连续—agent在训练中不知道这个action的结果;之前的工作通过计划抽样[4]或强化学习微调[26,29]解决VLN的这个问题已经显示出显着的收益。在这项工作中,我们将数据集聚合(DAgger)[24]应用于同一端。虽然DAgger和预定采样有许多相似之处,但DAgger来自所有迭代1-n的总轨迹集。因此,迭代后得到的策略是针对所有过去的经验进行优化的,而不仅仅是从迭代中收集的策略。

SynthEtic Data Augementation

  • 合成数据增强。另一种流行的策略是学习反向“说话者”模型,该模型产生给定轨迹的指令。这些模型可用于重新排序路径或从任何轨迹生成新的轨迹指令对。[26]和[9]都采用这种数据增强方法,许多后续工作都使用这些轨迹来提高性能。我们采取以这种方式从[26]生成的150k合成轨迹-将它们转换为我们的连续环境。

进度管理

  • 成功导航的一个重要方面是准确识别停止位置。之前的工作[17]已经发现明确监督agent朝着目标信号前进的改进。具体而言,训练agent通过他们在每个时间步的轨迹来预测分数。我们在训练期间应用这种进度估计,其均方误差损失项类似于[17]。

5 Experiments

Setting and Metrics.

  • 我们在VLN-CE中训练和评估我们的模型。按照惯例,我们根据val看不见的表现进行提前停止。我们报告了[2,4,18]中定义的视觉导航任务的标准指标-以米为单位的轨迹长度(TL),从终止目标(NE)到米的导航误差,oracle成功率(OS),成功率(SR),通过反向路径长度(SPL)加权的成功和归一化的动态时间扭曲(nDTW)。在我们的讨论中,我们将检查成功率和SPL作为性能的主要指标,并使用NDTW来描述路径的形状与地面真实轨迹的差异。有关这些指标的完整详细信息,请参阅[2,4,18]。

Implementation Details.

  • 我们使用Adam优化器[15],学习率为2.5×10−4和5个完整轨迹的batch大小。我们将拐点加权系数[30]设置为3.2(我们的地面真实路径中的拐点频率相反)。我们训练所有地面实况路径,直到在看不见的 val-unseen上收敛(最多30个epoch)。对于DAgger[24],我们通过以概率β=0.75n的oracle动作收集第n个集合,否则收集当前的策略动作。我们在每个阶段收集5000个轨迹,然后对所有收集的轨迹执行4个模仿学习时期(具有拐点加权)。再一次,我们训练在val unseen(6到10个数据集集合,取决于模型)上收敛。我们在PyTorch[22]和habitat[19]实施我们的agent

6 Conclusion

  • 在这项工作中,我们探讨了在具有低级操作的连续环境中遵循导航指令的问题-在先前基于导航图的设置中消除了许多不切实际的假设。在这里介绍的模型中,我们采取了一种方法,即将观测结果以端到端的方式直接映射到低级控制;然而,探索模块化方法是令人兴奋的未来工作。例如,让学习者将指令传递给运动控制器。至关重要的是,在连续环境(而不是导航图)中设置我们的VLN-CE任务为社区提供了一个测试平台,这些集成实验可以研究高级和低级控制的界面

你可能感兴趣的:(Habitat,Visual,Navigation,深度学习,人工智能)