【论文翻译】LEARNING TO NAVIGATE IN COMPLEX ENVIRONMENTS

  • 1 .Introduction

    • 高效导航是一种很重要的智能行为。传统方法基于SLAM。本文中我们follow了最近的DRL方法,提出了这样的思想:“导航能力可以作为agent在学习最大化reward的策略时候的一个副产品”。端到端方法的固有优势就是:action和representation不分开,同时进行学习,这保证了“和任务相关的特征”可以被表示在representation当中。然后,在partially observable environments的环境中,学习基于DRL的导航策略,存在一些挑战。
    • 首先,reward是稀疏的。其次,环境通常是动态的,agent需要在不同时段使用memory:目标位置使用rapid one-shot memory,速度信号的时域积分和视觉observation使用短期记忆,环境的一些静态特征使用长期记忆。
    • 为了提高学习效率,我们用“辅助任务”来提供额外梯度。这些辅助任务提供了更密集的训练信号,可以加速representation的学习。辅助任务有如下两种:
      • 第一种是:每个时间步重建一个low-dimensional depth map,具体方式是:预测这么一个映射,输入是depth channel,输出是colour channels。这个辅助任务与环境3D信息相关,帮助representation可以更好的实现避障和短期路径规划。
      • 第二种类似SLAM的回环检测:agent学会检测,在目前运行的轨迹内,当前位置是否已经访问过。
    • 为了解决agent对memory的需要,我们使用stacked LSTM架构。我们在一个3D迷宫环境中评估我们的方法。环境:视觉特征是复杂的几何图形,随机的起点位置,定向动态的目标位置,并且episode很长需要上千步。
    •            【论文翻译】LEARNING TO NAVIGATE IN COMPLEX ENVIRONMENTS_第1张图片
    • 我们也提供了训练agent的细节,来证明:agent确实学到了重要的导航策略。这些细节很重要,因为辅助任务里的“位置推断”和“映射”都不是loss的直接部分。原始性能表现不一定能很好地说明这些技能是后天习得的。
    • 我们证明了agent解RGB input决了ambiguous observations,并在一个复杂的迷宫中快速定位,这种定位能力与较高的reward相关。
  • 2 .Approach

    • 本文中,我们的baseline是A3C agent,使用RGB视觉输入,有循环输入版的,也有单纯前向版本(see Figure 2a,b)。RGB输入的编码器是三层的卷积神经网络。为了实现导航能力,我们创造了Nav A3C:在卷积编码器后使用了两层的stacked LSTM。我们扩大了agent的观测范围:agent相对速度,根据随机策略采样得到的动作 ,上一时刻的即时奖励。我们把速度vt和上一时刻的动作at输入第二个循环网络,而第一个循环网络只接受reward。我们假设第一个循环网络能够在奖励和视觉观测之间建立关联,而视觉观测作为上下文提供给计算策略的第二层。因此,agent observation st 包括 image ,agent的线速度和角速度 ,上一时刻的动作,上一时刻的奖励
    •                            【论文翻译】LEARNING TO NAVIGATE IN COMPLEX ENVIRONMENTS_第2张图片
    • Figure 2d 展示的是 具有辅助loss的Nav A3C的增强版。我们从卷积编码器(记为D1)或从top LSTM layer(记为D2)中预测depth,或者预测loop closure (L)。辅助loss根据当前帧进行计算,使用一层MLP。agent用来更新的梯度来自于:A3C,depth prediction (multiplied with βd1 , βd2 ),loop closure (scaled by βl)的和。

    • 2.1. Depth Prediction

      • agent的主要输入是RGB图像。但是,深度信息可以给3D环境构建提供有价值的信息。尽管深度信息可以直接输入,但是我们是这么认为的:”如果梯度信息作为额外的loss,其实对学习的过程会更有价值“。因为,这个额外loss和策略共享representation,就可以帮助agent构建“对导航而言更加有用的representation”。所以,我们不使用单帧来预测深度,我们把“预测深度”作为一个可以学习的任务。
      • 辅助loss的角色只是为了构建更好的representation,我们不关心辅助任务实际的表现。我们关心数据效率和计算复杂度。如果辅助loss对主要任务很重要,我们应该加快辅助loss收敛的速度。具体实现上,我们使用一个低分辨率的深度地图。
      • 这个loss有两种实现方法:回归问题 or 分类问题。如果当做回归问题来处理,那么MSE带来了单峰分布的问题。为了解决这个问题,我们将其当做8分类问题。我们不是8等分,而是更关注远处的物体。分类的动机是:虽然它大大降低了深度的分辨率,但从学习的角度来看,它更灵活,可以更快地收敛。
    • 2.2 Loop Closure Prediction

      • 闭环检测可以助力有效的探索和空间推理。我们利用二维速度随时间积分得到的局部位置信息,并根据局部位置信息的相似性来检测闭环。一个轨迹记为{p0 , p1 , . . . , pT },pt是agent在t时刻的位置。如果t时刻,位置pt和之前的某个位置pt′很相似,那么把闭环检测标签 lt 记为 0。为了避免在轨迹中连续的点上形成闭环包,我们在判断闭环的时候,添加了一个额外条件:pt 和 pt′ 中间位置的点 pt′′ 远离 pt 。阈值 η1 η2  实现了这两个限制。预测闭环标签的具体方式是:“最小化Bernoulli loss L1: lt 和 模型最后一个隐藏层的hidden representation ht 产生的一个输出”
  • 3 .Related work

    • 循环网络广泛的被用来解决部分可观测问题下的状态消歧。
    • 本文解决了:“如何学习空间、几何和运动的内在表现”这一问题,同时通过强化学习最大化了回报。我们的方法在具有随机起点/目标位置的,具有挑战性的迷宫环境中得到了验证。
  • 4 .Experiments

    • 第一人称视角的3D迷宫环境,来自DeepMind Lab environment。视觉信息丰富,并且可以获得额外的observation比如惯性信息,深度信息。动作空间离散,允许细粒度的控制,包含8个动作:agent可以小幅度的旋转,向前或向后或侧向加速,或在运动时产生旋转加速度。在这些环境中,agent从一个随机开位置&方向开始,达到一个目标位置,获得reward。如果达到了目标,agent将被重新分配到一个新的开始位置,并且必须返回到目标。当一定固定时间后,该episode结束,这给agent提供了足够的时间来找到目标。有稀疏的“果实”奖励,以鼓励探索。苹果值1分,草莓值2分,目标值10分。
    • 一共五种环境:
      • 在静态迷宫中,目标和水果的位置都是固定的,只改变agent的起点位置。
      • 动态迷宫中,水果&目标位置都是随机的,在一个episode内固定。对于两种迷宫,我们都考虑一大一小地图。小地图:5 × 10 and episodes last for 3600 timesteps。大地图:9 × 15 with 10800 steps。Image observation:84 × 84。
      • 另外还有一种I-Maze环境:agent在中央诞生,目标放在四个角之一。由于目标放置在凹处,agent只能靠记忆目标的位置,从而形成一条更加直接的路径。目标位置随机,但是在一个episode内固定。
    • 在5个迷宫中评估不同的agent架构:FF A3C/LSTM A3C/Nav A3C/Nav A3C+D1/Nav A3C+D2/Nav A3C+L/Nav A3C+D1D2L。每个迷宫,每个架构,做64个实验。
    •                            【论文翻译】LEARNING TO NAVIGATE IN COMPLEX ENVIRONMENTS_第3张图片
    •  
  • 5 ANALYSIS

    • 5.1 POSITION DECODING

      • 为了评估agent关于位置的内部表征representation,我们训练了一个位置解码器:由线性分类器组成,representation作为输入,输出在不同迷宫位置的分布。这个位置解码器产生的梯度不会经过网络其他地方。
      • 如图6,随着agent获得越来越多的observation,初始的位置不确定性逐渐变为清晰的位置预测。我们注意到:position entropy在环境respawn后会激增,当agent确定自己的位置后下降。在复杂环境中,定位对能不能找到目标很重要。从table1可以看出,定位准确度和最终得分是有关的。FF架构在静态迷宫创造了64.3%的准确率,说明编码器的权重成功记忆了agent的位置。在随机目标的设置下,Nav A3C+D2

你可能感兴趣的:(神经网络)