Dexterous Grasping: GraspGF

GraspGF: Learning Score-based Grasping Primitive for Human-assisting Dexterous Grasping解析

  • 简介
  • 1. 简介
  • 2. Human-assisting Dexterous Grasping

论文链接:https://arxiv.org/pdf/2309.06038.pdf
论文代码:https://github.com/tianhaowuhz/human-assisting-dex-grasp/
项目链接:https://sites.google.com/view/graspgf
论文出处:2023 NeurIPS
论文单位:北京大学-计算机学院-计算前沿研究中心

简介

  • 在人的手可能不可用或不合适的情况下,使用拟人化的机器人手来帮助个人已经变得非常重要。
  • 在本文中,我们提出了一种新的任务,称为人类辅助灵巧抓取(human-assisting dexterous grasping),旨在训练控制机器人手手指的策略,以帮助用户抓取物体。
  • 与传统的灵巧抓取不同,这项任务提出了一个更复杂的挑战,因为除了物体的几何形状外,策略还需要适应不同的用户意图。
  • 我们提出了一种由两个子模块组成的方法来解决这一挑战:
    (1)一个称为抓取梯度场(Grasping Gradient Field,GraspGF) 的手-对象条件抓取原语;
    (2)一个历史条件残差策略。
  • GraspGF通过估计成功抓取示例集的梯度来学习“如何”抓取,而残差策略则根据轨迹历史决定抓取动作的“何时”和以什么速度执行
  • 实验结果表明,与基线相比,我们提出的方法具有优越性,突出了用户意识和实际应用中的实用性。

1. 简介

  • 人手在日常生活中的重要性怎么强调都不为过。然而,在某些情况下,它们可能并不总是可用的,特别是在个人可能失去上肢或需要与危险物体互动的情况下。
  • 在这种情况下,利用拟人化的灵巧机器人手提供帮助可能是一个可行的选择。
  • 这种灵巧的手具有高度的自由度,使其能够处理各种日常任务,因为许多日常物品的设计都与人手的结构相匹配。
  • 这启发我们提出了一项名为“人类辅助灵巧抓取”的新任务,其中训练策略通过控制机械手的手指来帮助上肢丧失的用户抓取物体,如图1a所示。
    Dexterous Grasping: GraspGF_第1张图片
  • 传统的遥操作方法不适合帮助上肢截肢者抓取,因为无法获取人体手指的信息。
  • 相比于传统的灵巧抓取,人类辅助灵巧抓取提出了一个更复杂的挑战,因为该策略必须适应指数增长的先决条件。
  • 如图1b所示,由于人类行为的复杂性和多样性,人类用户可能会有不同的意图来抓取一个物体,例如出于不同的目的抓取不同的部分,或者以不同的速度移动手和手腕。
  • 因此,条件策略不仅必须根据物体的几何形状(如传统灵巧抓取所要求的那样)进行调整,而且必须根据用户的意图进行调整,这就要求策略能够感知用户。
  • 在这种情况下,诸如抓取姿势生成和基于分类的方法等开环方法可能会有所不足,因为它们没有考虑用户的意图。
  • **强化学习(RL)**通过实现闭环人-对象条件策略的训练,提出了一种自然的解决方案。
  • 然而,在人类辅助灵巧抓取中,强化学习可能会遇到更严重的泛化问题,因为需要泛化到不同的抓取前提条件。
  • Prior RL-based的方法已经探索了利用人工收集和大量工程演示来解决这个问题。
  • 然而,收集包含不同对象、抓取时间和位置的大量不同演示可能是不可行的。
  • 为了解决与实现灵巧抓取辅助人类相关的挑战,一个有效的政策需要解决以下两个关键问题:
    (1)考虑到当前用户与物体之间的相对姿态,机器人应该如何抓取物体?(How)
    (2)根据用户的运动轨迹历史,机器人应该在什么时候以什么速度执行抓取动作?(When)
  • 在本文中,我们提出了一种新颖的方法,该方法由两个子模块组成,旨在分别解决上述问题。
    (1)手-对象条件抓取原语
    (2)历史条件残差策略
  • 抓取原语,我们称之为抓取梯度场(GraspGF),通过估计分数函数,即成功抓取示例集的对数密度梯度,来训练学习“如何抓取”。
  • GraspGF输出一个梯度,指示最快的方向,以增加物体和用户手腕的“抓取可能性”。
  • 梯度可以转化为每个手指关节上的原始控制,使手指能够迭代地达到适当的抓取姿势。
  • 然而,GraspGF无法确定手指沿着梯度移动的速度,因为它是历史不可知论的。
  • 为了确定“何时抓住”,我们训练了一个残差策略,该策略输出一个“缩放动作”,该动作根据手腕轨迹的历史来确定手指关节应该以多快的速度随着原始动作移动。
  • 此外,由于原语策略由于离线训练而无法感知环境动态,我们进一步要求残差策略输出一个“残差动作”来纠正原语动作。
  • 我们提出的方法在概念上有几个优势
    (1)GrasGF利用基于分数的方法的强条件生成建模,使其能够根据新用户的意图输出有希望的原始动作。
    (2)此外,GraspGF的残差学习设计便于冷启动探索,提高残差策略训练的效率。
    (3)与基于演示的方法相比,我们的方法只需要一个综合的抓取示例集,不依赖于详尽的人类标记或广泛的工程努力,使其在现实世界的应用中更实用。
  • 在我们的实验中,我们在一个灵巧的抓取环境中评估了几种方法,该环境可以帮助人类在多达200种逼真的人类手腕运动模式下抓取超过4900个桌面上的物体。
  • 我们的比较结果表明,我们提出的方法显着优于各种指标的基线。
  • 消融研究进一步证实了我们提出的抓取梯度场和残差学习设计的有效性。
  • 我们的分析表明,我们的方法的优势在于它的用户意识,也就是说,我们训练的策略更适合用户的意图。
  • 此外,我们进行现实世界的实验来验证我们的方法的实用性。
  • 我们的结果表明,我们的训练模型可以在不微调的情况下在一定程度上推广到现实世界。
  • 我们的贡献总结如下:
    (1)我们介绍了一种新的具有挑战性的人类辅助灵巧抓取任务,它可能有助于社会福利。
    (2)我们提出了一个新的两阶段框架,该框架将任务分解为通过分数匹配学习原始策略和通过RL训练残差策略来补充原始策略。
    (3)我们进行了实验,以证明我们的方法显着优于基线和我们的方法在现实世界中部署的有效性。

2. Human-assisting Dexterous Grasping

我们研究了人类辅助灵巧抓取,其中一个策略是通过控制机器人手的手指来训练帮助用户抓取物体。
我们把这个问题表述如下:

  • 状态和动作空间:
    在这个任务中,我们考虑一个人类辅助抓取场景,涉及一个28自由度的5指机械手。
    与传统的灵巧抓取任务不同,动作空间不包括手腕的6-D相对变化,因为手腕姿势是由人类用户控制的。
  • 任务模拟
    为了模拟人类用户手腕的运动,我们在每集开始时采样手腕轨迹 τ_b = {b1, b2,…, bT} (T表示horizon)。
  • 观察
    该任务要求智能体同时适应手腕运动轨迹 τ_b 和不同物体的运动轨迹O。
  • 目标
    目标是找到一个策略π(a|J, o, H),使初始分布上的预期抓取成功率最大化。

你可能感兴趣的:(论文笔记,灵巧手)