ACL 2022 VLN视觉和语言导航:任务、方法和未来方向综述

原文链接:https://arxiv.org/pdf/2203.12667.pdf

摘要

人工智能研究的一个长期目标是构建能够用自然语言与人类交流、感知环境并执行现实世界任务的智能。视觉和语言导航(VLN)是实现这一目标的一个基础性和跨学科的研究课题,越来越受到自然语言处理、计算机视觉、机器人和机器学习社区的关注。在本文中,我们回顾了VLN新兴领域的当代研究,包括任务、评估指标、方法等。通过对当前进展和挑战的结构化分析,我们强调了当前VLN的局限性和未来工作的机会。本文为VLN研究界提供了全面的参考。

ACL 2022 VLN视觉和语言导航:任务、方法和未来方向综述_第1张图片

图1:机器人和oracle用自然语言讨论VLN任务。两者都观察可导航环境并与之交互以完成任务。

1 引言

人类使用自然语言进行交流,以发布任务并请求帮助。一个能够理解人类语言并智能导航的智能体将极大地造福于人类社会,无论是个人还是职业。这样的智能体可以用自然语言与人交谈,并能自主执行室内家务、户外重复送货等任务,或根据人类指令在危险条件下工作(桥梁检查;消防)。从科学角度来看,开发这样一个智能体探索了人工智能体如何从人类那里解释自然语言,感知其视觉环境,并利用这些信息来导航以成功完成任务。

视觉和语言导航(VLN)是一个新兴的研究领域,旨在构建一种能够用自然语言与人类通信并在真实3D环境中导航的嵌入式智能体。VLN通过自然语言通信扩展了模拟和真实环境中的视觉导航。如图1所示,VLN是一项涉及到智能体(通常是人)、机器人和环境的任务。机器人智能体用自然语言进行通信。智能体可能会要求指导,而人类可能会做出回应。智能体根据接收到的指令和观察到的环境导航并与环境交互以完成任务。同时,人类观察环境和机器人状态,并可能与环境交互以帮助机器人

自从房间到房间(R2R)等作品的开发和发布以来,已经引入了许多VLN数据集。关于沟通程度,研究人员创建了基准测试,要求机器人在导航前被动地理解一条指令,并创建了机器人以自由形式对话与oracle对话的基准测试。关于任务目标,对机器人的要求从严格遵循初始指令中描述的路线到积极探索环境和与对象交互。在稍微滥用术语的情况下,我们将涉及对象交互以及导航和定位的大量子问题(如ALFRED)的基准称为VLN基准。

VLN任务中存在许多挑战。首先,VLN面临着复杂的环境,需要有效地理解和协调来自不同模式的信息。其次,VLN机器人需要用于导航过程的推理策略。数据匮乏也是一个障碍。最后,将在可见环境中训练的模型推广到看不见的环境也是至关重要的。我们根据各自的挑战对解决方案进行分类。(1)表征学习方法有助于理解来自不同模式的信息。(2)行动策略学习旨在根据收集的信息做出合理的决策。(3)以数据为中心的学习方法有效地利用了数据,并解决了数据短缺等数据挑战。(4)预先探索有助于模型熟悉测试环境,提高其泛化能力。

我们做出了三个主要贡献。(1)我们从通信复杂性和任务目标的角度对当前的VLN基准进行了系统的分类,每个类别都专注于不同类型的VLN任务。(2) 我们对当前的解决方案和范围内的论文进行了分层分类。(3)我们讨论潜在的机会并确定未来的方向。

2任务和数据集

机器人解释自然语言指令的能力(在某些情况下,在导航过程中请求反馈)是VLN在视觉导航中的独特之处。在表2中,我们主要将当前数据集分为两个轴,通信复杂性和任务目标。

通信复杂性定义了机器人可以与oracle进行对话的级别,我们区分了三个级别:在第一个级别中,机器人只需要在导航开始前理解初始指令。在第二级中,当机器人不确定时,它会利用预言机的指导发送帮助信号。在第三个层次中,具有对话能力的机器人在导航过程中以自然语言的形式提问,并理解进一步的预言指导。

任务目标定义了机器人如何根据oracle的初始指令实现其目标。在第一种目标类型细粒度导航中,机器人可以根据详细的分步路线描述找到目标。在第二种类型“粗粒度导航”中,需要机器人通过粗略的导航描述来找到一个遥远的目标,这需要机器人在可导航的环境中推理路径,并可能获得额外的oracle帮助。前两种类型的任务只需要机器人导航即可完成任务。在第三种类型“导航和对象交互”中,除了推理路径外,机器人还需要与环境中的对象交互以实现目标,因为对象可能被隐藏或需要更改物理状态2导航和对象交互包括细粒度和粗粒度的指令,理想情况下应该进一步拆分。但考虑到这一类别中只有很少的数据集,我们将当前的分类保留在表2中。与粗粒度导航一样,一些对象交互任务可能需要通过与oracle的对话进行额外的监督。

ACL 2022 VLN视觉和语言导航:任务、方法和未来方向综述_第2张图片

表1:根据沟通复杂性与任务目标组织的视觉和语言导航基准。有关数据集和常用底层模拟器的更多详细信息,请参阅附录。

2.1初始说明

在许多VLN基准测试中,机器人都会得到整个导航过程的自然语言指导,例如“上楼,经过客厅的桌子。向左拐,穿过在中间的门。”

细粒度导航机器人需要严格遵循自然语言指令才能达到目标。基于Matterport3D模拟器创建R2R数据集。R2R中的具体机器人穿过模拟器中的房子,遍历导航图上的边缘,跳到包含全景的相邻节点。R2R倾向于创建其他VLN基准。Room for Room将R2R中的路径连接到较长的轨迹收集XL-R2R,以使用中文指令扩展R2R。RxR包含来自英语、印地语和Telegu的指令。数据集有更多的样本,其中的指令与指令的虚拟姿势在时间上对齐。RxR的英文拆分进一步扩展,通过合并地标信息来构建LandmarkRxR。

在大多数当前数据集中,机器人在预定义的视点遍历导航图。为了促进向真实机器人的迁移学习,VLN任务应该提供一个连续的动作空间和一个自由导航的环境。为此,在连续环境中重建基于导航图的R2R轨迹,并创建VLNCE。提出了RoboVLN任务,其中机器人在长地平线轨迹上的连续动作空间中操作。

室外环境通常比室内环境更复杂,包含的物体也更多。在TOUCHDOWN中,机器人按照指示在街景渲染的纽约市模拟中导航,以找到隐藏的对象。大多数照片逼真的户外VLN数据集,包括TOUCHDOWN、StreetLearn、StreetNav和Talk2Nav,都是基于谷歌街景提出的。

一些作品使用自然语言来指导无人机。LANI是一个3D合成导航环境,其中机器人按照自然语言指令在地标之间导航。无人机导航的当前数据集通常位于合成环境中,如Unity3D

粗粒度导航在现实生活中,关于路线的详细信息可能不可用,因为人类教练(oracle)可能不知道。通常,指令更简洁,只包含目标目标的信息。

RoomNav要求机器人根据指示“转到X”进行导航,其中X是预定义的房间或对象。

在嵌入式QA中,机器人在环境中导航以找到给定问题的答案。REVERIE中的指令是由人类注释的,因此更加复杂和多样化。机器人在房间中导航,并将对象与多个竞争的候选对象区分开来。在SOON中,机器人接收一个长的、复杂的从粗到细的指令,该指令会逐渐缩小搜索范围。

导航+对象交互对于某些任务,目标对象可能被隐藏(例如,抽屉里的勺子),或者需要更改状态(例如,请求一个切片的苹果,但只有一个完整的苹果可用)。在这些场景中,有必要与对象交互以完成任务(例如,打开抽屉或切苹果)。交互式问答(IQA)要求机器人导航,有时还需要与对象交互来回答给定的问题。基于AI2-THOR中的室内场景,提出了ALFRED数据集,其中为机器人提供了粗粒度和细粒度指令,以在交互式视觉环境中完成家庭任务。CHAI要求机器人导航并简单地与环境交互。

2.2 Oracle指南

指导VLN任务中的机器人可以在导航期间从预言机接收进一步的自然语言指导。例如,如果机器人不确定下一步行动(例如,进入厨房),它可以发送一个[帮助]信号,神谕会通过响应“向左走”来提供帮助。

细粒度导航在复杂的环境中,最初的细粒度导航指令可能仍然模糊不清。oracle的指导可以澄清可能出现的混乱。引入Just Ask —— 一个机器人可以在导航过程中向oracle寻求帮助的任务。

粗粒度导航如果一开始只给出粗粒度的指令,那么机器人往往会更加困惑,并花费更多的时间进行探索。进一步的指导解决了这种歧义。VNLA和HANNA都训练机器人在室内导航以查找对象。机器人可以向oracle请求帮助,oracle通过提供一个子任务来帮助机器人取得进展。VNLA中的oracle使用预定义的脚本来响应,而HANNA中的oracle则使用神经网络来生成自然语言响应。CEREALBAR是领导者和追随者之间的协作任务。两个机器人都在虚拟游戏环境中移动,以收集有效的卡组。

导航+物体交互虽然VLN还处于年轻阶段,但还没有支持制导和物体交互的VLN数据集。

2.3人文对话

使用自然语言寻求帮助是对人类友好的。例如,当机器人不确定人类想要什么水果时,它可以问“你想要什么水果,冰箱里的香蕉还是桌子上的苹果?”,人类的反应会提供清晰的导航方向。细粒度导航没有数据集在此类别的范围内。目前,路由详细说明和可能的指导可以帮助机器人在大多数模拟环境中获得相对良好的性能。我们预计将为这一类别开发数据集,用于复杂环境中的超长视距导航任务,特别是在需要对话以消除混淆的情况下,具有丰富的动态特性。

粗粒度导航CVDN是一个人类对话的数据集。除了解释自然语言指令并决定以下动作外,VLN机器人还需要用自然语言提问以获得指导。先知知道接下来最好的步骤,需要理解并正确回答上述问题。

在复杂的户外环境中,对话很重要。介绍了Talk the Walk数据集,在该数据集中,导游掌握了地图上的知识,并引导游客前往目的地,但不知道游客的位置;而游客通过离散动作在2D网格中导航。

Navigation+Object Interaction Minecraft Collaborative Building研究机器人如何通过与oracle通信将块放置到建筑中。TEACh是一个研究对象交互和自由形式对话框导航的数据集。跟随者与指挥官交谈,并与环境互动,完成各种家庭任务,如煮咖啡。DialFRED通过允许机器人主动提问来扩展ALFRED数据集。

3评估

面向目标的度量主要考虑机器人与目标的接近程度。最直观的是成功率(SR),它衡量机器人在距离目标一定距离内完成任务的频率。目标进度衡量到目标目标的剩余距离的减少。路径长度(PL)测量导航路径的总长度。最短路径距离(SPD)测量机器人的最终位置与目标之间的平均距离。由于较长的路径长度是不可取的(增加了实际机器人的持续时间和磨损),因此按路径长度加权的成功率(SPL)平衡了成功率和路径长度。类似地,编辑距离加权成功(SED)将专家的行动/轨迹与机器人的行动/轨道进行比较,同时平衡SR和PL。Oracle导航错误(ONE)距离路径中的任何节点的距离最短,而不仅仅是最后一个节点,Oracle成功率(OSR)测量路径中的任意节点是否在距离目标位置的阈值范围内。

路径保真度度量评估机器人遵循所需路径的程度。有些任务要求机器人不仅要找到目标位置,还要遵循特定的路径。保真度测量专家演示中的动作序列和机器人轨迹中的动作顺序之间的匹配。LS加权的覆盖率(CLS)是相对于参考路径的路径覆盖率(PC)和长度分数(LS)的乘积。它测量机器人的轨迹与参考路径的距离。标准化动态时间扭曲(nDTW)柔和地惩罚与参考路径的偏差,以计算两个路径之间的匹配。通过标准化动态时间扭曲(SDTW)加权的成功进一步将nDTW限制为仅成功的剧集,以捕捉成功和保真度

4 VLN方法

如图2所示,我们将现有方法分类为表示学习、行动策略学习、以数据为中心的学习和先验探索。表示学习方法有助于主体理解这些模态之间的关系,因为VLN涉及多种模态,包括视觉、语言和动作。此外,VLN是一项复杂的推理任务,任务结果取决于累积的步骤,而更好的行动策略有助于决策过程。此外,VLN任务在其训练数据中面临挑战。一个严重的问题是稀缺。为VLN收集训练数据既昂贵又耗时,而且就VLN任务的复杂性而言,现有的VLN数据集相对较小。因此,以数据为中心的方法有助于利用现有数据并创建更多的训练数据。预先探索有助于使机器人适应以前看不见的环境,提高它们的泛化能力,缩小可见环境与不可见环境之间的性能差距。

4.1表征学习

表示学习有助于主体理解指令中的单词与环境中感知到的特征之间的关系。

ACL 2022 VLN视觉和语言导航:任务、方法和未来方向综述_第3张图片

图2:VLN方法的类别。方法对于单个类别可能不是互斥的

4.1.1预训练

视觉或语言使用预先训练的模型来初始化视觉或文本编码器,为机器人提供单一模态知识。预先训练的视觉模型可以使用ResNet或视觉转换器。其他导航任务也可以提供视觉初始化。大型预训练语言模型,如BERT和GPT,可以对语言进行编码,提高对指令的理解,在对VLN任务进行微调之前,可以用VLN指令对其进行进一步的预训练。

视觉和语言视觉以及语言预训练模型为文本和视觉提供了良好的联合表示。一种常见的做法是使用预训练的模型(例如ViLBERT)初始化VLN机器人。可以利用诸如对象和房间之类的VLN特定特征来进一步训练机器人

VLN下游任务受益于与预训练任务密切相关。研究人员还直接探索了VLN域的预训练。VLN-BERT预训练导航模型,以测量路径和指令之间的兼容性,这将VLN格式化为路径选择问题。PREVALENT在图像-文本动作三元组上从头开始训练,以学习VLN任务中的文本表示。在基于BERT的预训练模型中,[CLS]令牌的输出嵌入可以以递归的方式来表示历史状态。在大规模的域内数据集上进行预训练后,Airbert在少镜头设置上取得了良好的性能。

4.1.2语义理解

对VLN任务的语义理解包含了关于VLN中重要特征的知识。除了原始特征之外,高级语义表示还可以提高在看不见的环境中的性能。

模态内视觉或文本模态可以分解为许多特征,这些特征在VLN中的重要性不同。在某些情况下,神经模型提取的整体视觉特征实际上可能会影响性能。因此,找到最能提高性能的功能是很重要的。视觉外观、路线结构和检测到的物体等高级特征优于CNN提取的低级别视觉特征。指令中不同类型的令牌也有不同的功能。提取这些标记并对对象标记和方向标记进行编码至关重要

模态间不同模态之间的语义连接:动作、场景、观察到的物体、方向线索和指令中提到的物体可以被提取出来,然后与注意力机制轻轻对齐。软对齐还突出显示了指令中与当前步骤相关的部分
4.1.3图形表示

构建图以结合来自指令和环境观察的结构化信息,提供了明确的语义关系来指导导航。图形神经网络可以对文本和视觉之间的关系进行编码,以更好地解释上下文信息。该图可以记录导航过程中的位置信息,用于预测动作空间上最可能的轨迹或概率分布。当与先前的勘探相结合时,可以构建关于导航环境的概览图,以改进导航解释。

4.1.4记忆增强模型

信息随着机器人的导航而积累,这对于直接利用来说是不有效的。内存结构有助于机器人有效地利用导航历史。一些解决方案利用LSTM等内存模块,或反复利用信息状态,这可以相对容易地实现,但随着路径长度的增加,可能很难记住路径开始时的特征。另一种解决方案是建立一个单独的内存模型来存储相关信息。值得注意的是,通过对单个视图、全景图以及历史上的所有全景图进行分层编码,HAMT成功地利用了完整的导航历史进行决策。

4.1.5辅助任务

辅助任务帮助机器人更好地了解环境及其自身状态,而无需额外的标签。从机器学习的角度来看,辅助任务通常以附加损失函数的形式实现。例如,辅助任务可以解释其先前的动作,或者预测有关未来决策的信息。辅助任务也可能涉及当前任务,如当前任务完成情况以及愿景和指令调整。值得注意的是,当为VLN调整预训练的表示时,辅助任务是有效的

4.2行动策略学习

由于有许多可能的行动选择和复杂的环境,行动策略学习提供了多种方法来帮助智能体决定最佳行动。

4.2.1强化学习

VLN是一个序列决策问题,可以自然地建模为马尔可夫决策过程。因此,为了更好地学习VLN任务的策略,提出了强化学习(RL)方法。RL方法的一个关键挑战是,VLN机器人只在事件结束时接收到成功信号,因此很难知道将成功归因于哪些动作,以及惩罚哪些动作。为了解决不适定反馈问题,提出了RCM模型,在局部和全局范围内加强跨模态基础,具有面向目标的外部奖励和指令保真度的内部奖励。建议利用指令和关键地标之间的局部对齐作为奖励。诸如CLS或nDTW之类的评估度量也可以提供信息性的奖励信号,自然语言也可以提供奖励建议

为了对环境中的动力学建模,利用基于模型的强化学习来预测下一个状态,并提高在看不见的环境中的泛化能力。发现模仿和强化学习的学习方案递归交替可以提高学习性能。

4.2.2导航中的勘探

在导航时探索和收集环境信息可以更好地了解状态空间。学生强制是一种常用的策略,机器人根据采样的动作保持导航,并由最短路径动作进行监督。探索与利用之间存在权衡:随着更多的探索,机器人以更长的路径和更长的持续时间为代价,看到了更好的性能,因此模型需要确定探索的时间和深度。在收集了本地信息之后,机器人需要决定选择哪一步,或者是否回溯。值得注意的是,设计了Pathdreamer,这是一个视觉世界模型,可以在不实际展望未来的情况下综合视觉观察未来的观点。

4.2.3航行规划

规划未来的导航步骤可以带来更好的行动策略。从视觉方面来看,预测航路点、下一个状态和奖励、生成未来观测或合并邻居视图已被证明是有效的。自然语言指令还包含地标和方向线索,用于计划详细的步骤。根据指令预测即将发生的事件,该指令用于用语义空间图预测动作。

4.2.4寻求帮助

当不确定下一步行动时,智能机器人会寻求帮助。可以利用行动概率或单独训练的模型来决定是否寻求帮助。使用自然语言与oracle进行对话比发送信号涵盖了更广泛的问题范围。已经开发了基于规则的方法和基于神经的方法来构建具有对话能力的导航机器人。同时,对于不能提供预言机机器人以自然语言回答问题的任务,研究人员还需要构建一个基于规则或神经的数据库。DialFRED使用一个语言模型作为预言器来回答问题。

4.3以数据为中心的学习

与之前讨论的专注于构建更好的VLN机器人结构的工作相比,以数据为中心的方法最有效地利用了现有数据,或创建了合成数据。

4.3.1数据扩充

轨迹指令扩充扩充路径指令对可以直接用于VLN。目前的常见做法是训练扬声器模块在给定导航路径的情况下生成指令。这些生成的数据具有不同的质量。因此,对齐记分器或对抗性鉴别器可以选择高质量的对进行扩充。

环境增强生成更多的环境数据不仅有助于生成更多的轨迹,还可以缓解可见环境中的过拟合问题。在不同的视点上随机屏蔽相同的视觉特征,或者简单地分割房屋场景并重新混合它们,可以创建新的环境,这些环境可以进一步用于生成更多的轨迹指令对。训练数据也可以通过用反事实特征替换一些视觉特征来增强

4.3.2课程学习

在训练过程中,课程学习逐渐增加了任务的难度。指令长度可以是衡量任务难度的指标。BabyWalk在训练过程中不断增加训练样本的指导长度。来自轨迹的属性也可以用于对任务难度进行排序。使用每条路径经过的房间数量来重新排列R2R数据集。他们发现,课程学习有助于消除损失,找到更好的局部最优方案。

4.3.3多任务学习

不同的VLN任务可以通过跨任务知识转移相互受益。针对VLN和来自对话历史的导航任务,提出了一个与环境无关的多任务导航模型。提出了一个注意力模块来训练多任务导航机器人遵循指令并回答问题

4.3.4说明书解释

以不同方式多次解释的轨迹指令可以帮助机器人更好地理解其目标。利用共享的一组参数对所有指令进行利用和编码,以增强对文本的理解。LWIT解释这些指令,以明确与什么类的对象进行交互。与更长、语义纠缠的指令相比,更短、更简洁的指令为机器人提供了更清晰的指导,从而将长指令分解为更短的指令,使机器人能够跟踪进度并单独关注每个原子指令

4.4前期勘探

在可见环境中的良好性能通常不能推广到看不见的环境。先前的探索方法使智能体能够观察和适应看不见的环境,3弥合看不见和看不见环境之间的性能差距。引入自我监督的模仿学习,从智能体自己过去的良好行为中学习。由匹配的评论家确定的最佳导航路径将用于更新机器人,以使指令最佳对齐。利用测试环境对适应路径进行采样和扩充。提出基于环境的先验探索,其中机器人只能探索部署它的特定环境。当使用图形时,先前的探索可以构建关于看不见的环境的地图或概览,为导航提供明确的指导

5相关的视觉和语言任务

本文的重点是视觉和语言导航任务,重点是照片逼真的环境。2D地图也可以是用于导航任务的理想虚拟环境。合成环境也可以替代现实环境。提出在机器人导航和移动操作过程中实例化自然语言命令的概率图形模型。

在VLN中,机器人需要遵循给定的指令,甚至要求使用人类语言的助手。视觉导航任务中的机器人通常不需要理解来自文本模态的信息。视觉导航是一个从当前位置导航机器人以找到目标的问题。研究人员在模拟环境和真实环境中都取得了成功

6结论和未来方向

在本文中,我们讨论了VLN机器人作为社会一部分的重要性,他们的任务如何随着通信水平和任务目标的变化而变化,以及如何评估不同的机器人。我们广泛回顾了VLN方法并对其进行了分类。本文只是在介绍性的层面上对这些问题进行了广泛的讨论。在回顾这些论文时,我们可以看到已经取得的巨大进展,以及这一研究主题可以扩展的方向。

目前的方法通常不会明确利用维基百科中的对象和一般房屋描述等外部知识。整合知识也提高了嵌入式人工智能的可解释性和信任度。此外,目前有几个导航机器人学习移动哪个方向以及与什么交互,但VLN如何与对象交互还有最后一公里的问题。问机器人是否能学会“给我拿勺子”;新的研究可能会问机器人如何学会“拿起勺子”。环境也缺乏多样性:大多数内部陆地VLN数据由美国房屋组成,但从未包括仓库或医院:这些机器人可能最有用的地方。下面我们详细介绍了未来的其他方向:

协作VLN当前的VLN基准和方法主要集中在只有一个机器人导航的任务上,但复杂的现实世界场景可能需要几个机器人协作。多智能体VLN任务需要在群体智能、信息通信和性能评估方面进行发展。会议结束!是一种双人协调游戏,玩家在视觉环境中移动以找到对方。VLN在图1中研究了人类和环境之间的关系,但在这里,人类只是观察(但不是对)环境采取行动的神谕。人类和机器人之间的合作对于他们作为团队合作至关重要(例如,作为个人助理或帮助施工)。未来的工作可能针对多个机器人之间或人与机器人之间的协作VLN。

模拟到现实当转移到现实生活中的机器人导航时,会出现性能损失。真实的机器人在连续空间中工作,但大多数模拟器只允许机器人“跳跃”通过预定义的导航图,这是不现实的,原因有三。导航图假设:(1)在现实世界中的完美定位是一个有噪声的估计;(2) oracle导航真正的机器人无法“传送”到一个新的节点;(3) 在现实中已知的拓扑结构中,机器人可能无法访问可导航节点的预设列表。逼真环境的连续实现可能包含图像块、模糊或具有视差误差,从而使其不现实。基于3D模型和真实图像的模拟可以改善虚拟传感器(在模拟中)和真实传感器之间的匹配。最后,大多数模拟器假设静态环境只由机器人更改。这并没有考虑到其他动态,如人的行走或物体的移动,也没有考虑到一天中的照明条件。具有概率转换函数的VLN环境也可以缩小模拟与现实之间的差距。

道德与隐私预训练和推理过程中,VLN机器人可能会观察和存储可能被泄露或滥用的敏感信息。隐私保护的有效导航至关重要。相关领域,如联合学习或差分隐私,也可以在VLN领域进行研究,以保护训练和推理环境的隐私。

多元文化VLNVLN在3D环境中缺乏多样性:大多数户外VLN数据集使用美国主要城市记录的谷歌街景,但在发展中国家缺乏数据。根据美国数据训练的机器人在其他城市或住房布局中面临潜在的泛化问题。未来的工作应该探索跨多种文化和地区的更多样的环境。多语言VLN数据集可能是从语言角度研究多元文化差异的良好资源。

附录

数据集详细信息

在表2中,我们介绍了有关数据集的更多信息。与数据集的数量相比,模拟器是有限的。更具体地说,大多数室内数据集基于Matterport3D,大多数室外数据集基于谷歌街景。此外,更多的数据集是关于室内环境而不是室外环境的。与室内环境相比,室外环境通常更复杂,包含更多的物体。

模拟器

数据集的虚拟特征与构建数据集的模拟器有着深刻的联系。在这里,我们总结了VLN数据集创建过程中经常使用的模拟器。House3D是一个基于SUNCG数据集构建的逼真的虚拟3D环境。环境中的机器人可以访问第一人称视图RGB图像,以及语义/实例掩码和深度信息。

Matterport3D模拟器是一个基于Matterport3D-数据集的大规模视觉强化学习模拟环境,用于研究嵌入式人工智能。Matterport3D包含各种室内场景,包括房屋、公寓、酒店、办公室和教堂。机器人可以沿着预定义的图在视点之间导航。大多数室内VLN数据集,如R2R及其变体,都是基于Matterport3D模拟器。

Habitat是一个3D模拟平台,用于在3D物理场景中训练嵌入式人工智能。与其他模拟环境相比,Habitat 2.0在系统响应速度方面表现出了优势。Habitat内置了以下数据集:Matterport3D Gibson和Replica。AI2-THOR是一个接近照片逼真的3D室内模拟环境,机器人可以在其中导航并与对象交互。基于对象交互功能,它有助于构建需要对象交互的数据集,例如ALFRED。

Gibson是一个具有复杂语义的真实世界感知交互环境。每个视点都有一组RGB全景图,其中包含全局相机姿势和重建的3D网格。Matterport3D数据集也集成到Gibson模拟器中。

House3D将SUNCG的静态环境转换为虚拟环境,在虚拟环境中,机器人可以使用物理约束进行导航(例如,它不能穿过墙壁或物体)。

LANI是一款在Unity3D平台上构建的3D模拟器。LANI的环境是一个围栏、正方形的草地,包含随机放置的地标。机器人需要按照自然语言指令在地标之间导航。无人机导航任务也是基于LANI构建的。

目前,大多数数据集和模拟器都专注于室内可导航场景,部分原因是由于复杂性的增加,难以构建室外照片逼真的3D模拟器。谷歌街景4是一个与谷歌地图集成的在线API,由数十亿真实的街道级全景组成。自TOUCHDOWN开发以来,它经常被用于创建户外VLN任务

R2R排行榜

房间对房间(R2R)是评估不同方法最常用的基准。在这里,我们收集了相应论文和R2R官方排行榜5中报告的所有性能指标。由于波束搜索探索了更多的路线,并且由于先前的探索在测试环境中有额外的观测结果,因此它们的性能无法与其他方法直接比较

你可能感兴趣的:(VLN,人工智能,自然语言处理,计算机视觉)