基于视觉的具身导航

基于视觉的具身导航

基于视觉的具身导航_第1张图片

背景

什么是(视觉的?)具身导航

输入机器人观测的当前图像 o t o_t ot和目标图像 o G o_G oG,输出当前时间步的控制动作 u t u_t ut,最终到达指定地点的算法流程。

通用的评价指标

  • 性能指标,目标的到达率,越高越好
  • 安全指标,人工干预(碰撞等)的出现率,越低越好

一些其它指标:

  • 距离加权的成功率(SPL),将成功率除以“实际距离与最短距离之比”

(有篇综述论文专门提到)

具身导航模型的能力

(层次从低到高)

  • 控制,给定当前图像和局部的下一个路径节点的图像,输出控制动作
  • 局部规划,给定当前图像,估计通往(较近的)下一个路径节点的可行性
  • 全局规划,给定当前图像和目标图像,规划出全局的路径

主要的技术路线

  • 基于局部规划的导航,学习一个局部可通过性(traversability)度量,从而根据已有的图像建立一个拓扑图(在可相互到达的图像之间连边),在导航图上执行路径规划(Dijkstra,如果有启发式也可以用A*)算法,在路径点之间执行局部的控制策略
  • 端到端的全局导航,将导航直接建模为一个决策过程,用RL的框架直接学习一个全局的控制策略

公开的机器人平台

【我不太了解这些机器人的控制方式的区别,这部分需要补充】

  • 无人地面车辆(unmanned ground vehicle, UGV),包括Jackal、Warthog等
  • 全地形车(all terrain vehicle, ATV)
  • 机器狗,如Spot等
  • 其它机器人平台,如TurtleBot、LoCoBot等
  • 汽车

公开的数据集

数据集 机器人平台 规模 环境
1 GoStanford TurtleBot2 14h 室内
2 RECON Jackal 25h 野外
3 SCAND Spot / Jackal 9h 人行道
4 Seattle Warthog 1h 野外
5 TartanDrive ATV 5h 野外
6 NeBula ATV 10h 野外
7 HuRoN TurtleBot2 75h 室内
8 BDD Car 10h 公路

另外还有仿真环境:Habitat-Matterport 3D Semantics Dataset,包含了216个室内场景下的3,100个房间及对应物体的标注

研究点1:具有通用性和泛化性的具身导航模型

迁移学习 / 多任务学习 / 泛化性。训练能适用于多种机器人平台和多种环境的导航策略;

ViNG

ViNG: Learning Open-World Navigation with Visual Goals [ICRA 2021]

主要创新点:(不知道是不是开创这个框架的方法),另外使用了从不同的轨迹间构造负样本对的方法,提高了可通过性学习的效率。

局限:1)在新环境下需要微调(few-shot);2)不能用于其它机器人平台。

ExAug

ExAug: Robot-Conditioned Navigation Policies via Geometric Experience Augmentation. [ICRA 2023]

主要创新点:通过构建点云对环境进行3D建模,然后根据新机器人的尺寸和速度作为condition生成图像,在多视角的图像上训练策略。

局限:1)文中只改变了机器人的尺寸和速度,并没有改变底层的控制方式(比如差速驱动和油门刹车驱动的区别);2)没有体现对新环境的泛化能力。

GNM

GNM: A General Navigation Model to Drive Any Robot [ICRA 2023]

主要创新点:建立了统一的state空间、action空间和traversability;用前k帧的图像隐式建模机器人的context,泛化性更强,支持多种环境多种平台(zero-shot),也可以处理机器人部分失能的情形。

局限:1)模型不够大;2)需要事先建立拓扑图

ViNT

ViNT: A Foundation Model for Visual Navigation [Preprint]

主要创新点:1)大;2)将observation和goal提前进行融合,以建模二者的相关性;3)可以根据下游任务进行多模态的微调;4)具有全局规划能力(下面会讲)

研究点2:全局的规划能力

现有的局部规划方法即使是大模型也只能建模局部的,短距离的可通过性。在全新的环境中不一定有机会事先建立拓扑图,这时候局部规划无法发挥作用,需要更高层次的规划能力

ViKiNG

ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints [RSS 2022]

主要创新点:训练一个生成式模型生成一些虚拟的sub-goal(路径节点),用启发式评估sub-goal的质量,然后引入了A*算法,利用示意图、卫星地图、GPS等信息学习一个启发函数,提高寻路效率

ViNT中的全局规划

基本沿用了ViKiNG的规划框架,使用了diffusion model作为sub-goal的生成模型

PIRLNav

PIRLNav: Pretraining with Imitation and RL Finetuning for ObjectNav [CVPR 2023]

其实就是一个基于模仿学习(逆向强化学习)的端到端方法,针对导航任务本身用了一些比较tricky的方法所以分比较高。

局限:基本在全局的视角下开展研究,缺乏多模态的对齐(约25%的失败案例)和局部可通过性建模(约12%的失败案例),这些可以由上述的导航大模型所解决的

注:这个数据集有自然语言目标的版本,也有图像目标的版本

研究点3:与自然语言的对齐

LM-Nav

LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action [CVPR 2023]

  • 首先用ViNG建立导航图
  • 用一个LLM将自然语言转换成landmark,实现了高层次的路径规划
  • 用CLIP实现landmark文本与图像路径点的对齐
  • 用ViNG执行低层次的导航

你可能感兴趣的:(具身智能,机器人,大模型,机器人,人工智能,具身智能,大模型)