题目/摘要重点
使用合成数据为机器人训练深度神经网络 操纵有望获得几乎无限数量的预标记 训练数据。合成数据一直在弥合所谓的现实差距,因此 在合成数据上训练的网络在暴露于现实世界时可以正常运行 数据。我们在 6-DoF 位姿估计的背景下探讨了现实差距 单个 RGB 图像中的已知对象。我们证明,对于这个问题, 现实差距可以通过简单的领域组合成功跨越 随机和逼真的数据。使用其中生成的合成数据 方式,该网络经过以下组合训练 真实和合成数据。这是第一个深度网络 仅使用能够实现最先进技术的合成数据进行训练 6-DoF 物体姿态估计的性能。我们的网络还泛化 更适合新环境,包括极端照明条件,使用这个网络,我们演示了一个实时 系统以足够高的精度估计物体姿势,以实现真实世界的语义 由真正的机器人抓取杂乱无章的已知家居用品。
Vision-based Robotic Grasping From Object Localization, Object Pose Estimation to Grasp Estimation for Parallel Grippers: A Review
本文提出了第一个用于复杂机器人操作和自主感知任务的主动对象映射框架。该框架建立在对象SLAM系统之上,该系统集成了同步多目标姿态估计过程,该过程针对机器人抓取进行了优化。为了降低目标物体的观测不确定性,提高目标物体的姿态估计精度,我们还设计了一种物体驱动的探索策略来指导物体映射过程,实现自主映射和高层次感知。结合测绘模块和探索策略,可以生成与机器人抓取兼容的精确目标地图。此外,定量评估也表明所提出的框架具有非常高的映射精度。操作(包括对象抓取和放置)和增强现实的实验显着证明了我们提出的框架的有效性和优势。
该文提出一种实时的、与对象无关的抓取合成方法 可用于闭环抓取。我们提出的生成式抓取 卷积神经网络 (GG-CNN) 预测抓取的质量和姿势 在每个像素上。这种来自深度图像的一对一映射克服了 当前深度学习抓取技术的局限性,避免离散 对候选抓取进行采样,计算时间长。此外,我们的 GG-CNN在检测稳定抓取时要小几个数量级 与当前最先进的技术相当的性能。重量轻 我们的GG-CNN的单通道生成特性允许闭环控制 在高达 50Hz 的频率下,可在非静态环境中实现准确抓取 物体移动并存在机器人控制不准确的情况。
本文提出了一种机器人拾取和放置系统,该系统能够在杂乱的环境中抓取和识别已知和新颖的物体。该系统的主要新功能是它可以处理广泛的对象类别,而无需对新对象进行任何特定于任务的训练数据。为了实现这一点,它首先使用与类别无关的可得性预测算法在四种不同的抓取基元行为中进行选择和执行。然后,它使用跨域图像分类框架识别选取的对象,该框架将观察到的图像与产品图像相匹配。由于产品图像可用于各种对象(例如,来自网络),因此该系统可以开箱即用地处理新对象,而无需任何额外的训练数据。所有代码、数据集和预训练模型均可在 http://arc.cs.princeton.edu 在线获取
在本文中,我们提出了一种模块化机器人系统,以解决从场景的n通道图像中生成和执行对立机器人抓取未知物体的问题。我们提出了一种新的生成残差卷积神经网络(GR-ConvNet)模型,该模型可以以实时速度(~20ms)从n通道输入中生成鲁棒的对跖抓取。我们在标准数据集和各种家居用品上评估了所提出的模型架构。我们在康奈尔和提花抓取数据集上分别实现了 97.7% 和 94.6% 的最新准确率。我们还证明了使用7 DoF机械臂对家用物体和对抗物体的抓取成功率分别为95.4%和93%。
在杂乱的环境中进行机器人抓取通常是不可行的,因为障碍物阻止了可能的抓取。然后,需要预先抓握操作,例如移动或推动物体。我们开发了一种算法,除了抓取之外,还可以学习以增加抓取概率的方式移动物体。我们的研究贡献有三个方面:首先,我们提出了一种算法,用于学习操纵原语(如夹紧或移位)的最佳姿势。其次,我们学习了不可理解的动作,这些动作明显增加了抓取概率。使一项技能(转移)直接依赖于另一项技能(掌握)消除了对稀疏奖励的需求,从而实现了更高效的数据学习。第三,我们将实际解决方案应用于垃圾箱拣选的工业任务,从而能够完全清空垃圾箱。该系统以自我监督的方式进行训练,大约有 25000 个抓握和 2500 个移位动作。我们的机器人每小时能够抓取和锉取 274 次拾取物体。此外,我们证明了该系统推广到新对象的能力。
我们如何分割不同数量的对象,其中每个特定对象代表自己单独的类?为了使问题更加现实,我们如何在不重新训练或微调的情况下即时添加和删除类?对于不存在对象数据集的机器人应用程序或包含数千个对象的应用程序(例如,在物流中),无法训练单个模型来学习所有对象,这种情况就是这种情况。目前关于机器人抓取对象分割的大多数研究都集中在类级对象分割(例如,盒子、杯子、瓶子)、封闭集(数据集的特定对象;例如,YCB 数据集)或基于深度学习的模板匹配。在这项工作中,我们对类数量未知、变化且没有对象类型的预先知识的开放集感兴趣。我们将每个特定对象视为自己独立的类。我们的目标是开发一种不需要微调的物体检测器,只需捕获物体的几张图像,就可以将任何物体添加为一个类。我们的主要思想是通过组合由类自适应分类器级联的看不见的对象分割网络,将分割管道分为两步。我们在看不见的数据集上评估我们的类自适应对象检测器,并将其与这些数据集上经过训练的 Mask R-CNN 进行比较。结果表明,性能从实用到不合适不等,具体取决于环境设置和所处理的对象。该代码可在我们的 DoUnseen 库存储库中找到。
为了实现成功的抓取,夹持器的几何形状和运动学等属性起着与物体几何形状同样重要的作用。以前的大多数工作都集中在开发抓取方法上,这些方法可以推广到新的物体几何形状,但又特定于特定的机器人手。我们提出了UniGrasp,这是一种高效的数据驱动的抓取综合方法,它将物体的几何形状和抓手属性都视为输入。UniGrasp基于一种新颖的深度神经网络架构,该架构从物体的输入点云中选择一组接触点。所提出的模型在大型数据集上进行训练,以生成处于强制闭合状态且可由机器人手到达的接触点。通过使用接触点作为输出,我们可以在一组不同的多指机械手之间进行转移。我们的模型在仿真的Top10预测中产生了超过90%的有效接触点,在各种已知的两指和三指夹持器的实际实验中产生了超过90%的成功抓取。我们的模型在现实世界的实验中还实现了 93%、83% 和 90% 的成功抓取,用于看不见的双指抓手和两只看不见的多指拟人化机械手。
从视觉观察中学习机器人抓握是一项有前途但具有挑战性的任务。最近的研究表明,通过准备和学习大规模合成数据集,它具有巨大的潜力。对于常用的平行颚抓手的6自由度(6-DOF)抓取设置,现有方法大多采用启发式抽样抓取候选抓取的策略,然后使用学习的评分函数对其进行评估。这种策略在采样效率和最佳抓取覆盖率之间的冲突方面存在局限性。为此,我们在这项工作中提出了一种新颖的端到端{Grasp Proposal Network (GPNet)},用于预测从单个未知相机视图观察到的看不见的物体的一组不同的6自由度抓取。GPNet 建立在抓取建议模块的关键设计之上,该模块在离散但规则的 3D 网格拐角处定义 \emph{抓取中心的锚点},该模块可以灵活地支持更精确或更多样化的抓取预测。为了测试 GPNet,我们贡献了一个 6 自由度对象抓取的合成数据集;使用基于规则的标准、模拟测试和真实测试进行评估。比较结果表明,我们的方法优于现有方法。值得注意的是,GPNet通过指定的覆盖率获得了更好的仿真结果,这有助于在实际测试中实现现成的转换。我们将公开我们的数据集。
我们提出了进化抓取分析数据集 (EGAD),该数据集由 2000 多个生成对象组成,旨在训练和评估机器人视觉抓取检测算法。EGAD中的对象在几何上是多样化的,与其他机器人抓取数据集相比,填充了从简单到复杂形状,从易到难抓取的空间,这些数据集的大小可能有限或仅包含少量的对象类。此外,我们还指定了一组 49 个不同的 3D 打印评估对象,以鼓励在各种复杂性和难度下对机器人抓取系统进行可重复的测试。数据集、代码和视频可以在 https://dougsm.github.io/egad/
在本文中,我们提出了一种基于变压器的架构,即TF-Grasp,用于机器人抓取检测。开发的TF-Grasp框架有两个精心设计,使其非常适合视觉抓取任务。第一个关键设计是采用局部窗口注意力来捕捉局部上下文信息和可抓取对象的细节特征。然后,我们应用跨窗口注意力对远距离像素之间的长期依赖关系进行建模。对象知识、环境配置以及不同视觉实体之间的关系被聚合起来,以便后续抓取检测。第二个关键设计是,我们构建了一个具有跳跃连接的分层编码器-解码器架构,提供从编码器到解码器的浅层特征,以实现多尺度特征融合。由于强大的注意力机制,TF-Grasp可以同时获取局部信息(即物体的轮廓),并模拟长期联系,例如杂乱中不同视觉概念之间的关系。大量的计算实验表明,TF-Grasp 与最先进的抓取卷积模型相比取得了更好的结果,并且在 Cornell 和 Jacquard 抓取数据集上分别获得了 97.99% 和 94.6% 的更高准确率。使用 7DoF Franka Emika Panda 机器人进行的实际实验也证明了它在各种场景中抓取看不见物体的能力。代码和预训练模型将在 https://github.com/WangShaoSUN/grasp-transformer
物体固有的形态特征可能提供了广泛的合理抓取方向,混淆了机器人抓取的视觉学习。现有的抓取生成方法被诅咒通过聚合每个抓取点截然不同的方向的注释来构建不连续的抓取图。此外,目前的方法在机器人的视角下生成跨单一方向的抓取候选者,而忽略了其可行性限制。在本文中,我们提出了一种适用于像素合成的新型增强抓取地图表示,通过将角度空间划分为多个箱来局部解开抓取方向。此外,我们引入了 ORientation AtteNtive Grasp 合成器 (ORANGE) 框架,该框架共同解决了方向箱分类和角度值回归的问题。箱方向图进一步用作具有较高可抓取性的区域的注意力机制,即成为实际抓取点的概率。我们报告了Jacquard的94.71%的全新性能,仅使用深度图像的简单U-Net,甚至优于多模态方法。随后使用真正的双手机器人进行的定性结果验证了ORANGE在生成多个方向的抓取方面的有效性,从而允许可行的规划抓取。
带有通用机械臂的外星漫游车在月球和行星探索中有许多潜在的应用。在这种系统中引入自主性对于增加漫游者收集科学数据和收集样本的时间是可取的。这项工作研究了深度强化学习在基于视觉的机器人抓取月球物体中的适用性。创建了一个具有程序生成数据集的新颖模拟环境,以在地形不平坦和光线恶劣的非结构化场景中在具有挑战性的条件下训练智能体。然后,采用无模型的非策略参与者-批评者算法对策略进行端到端学习,该策略直接将紧凑的八叉树观测映射到笛卡尔空间中的连续动作。实验评估表明,与传统使用的基于图像的观察相比,3D 数据表示可以更有效地学习操作技能。域随机化改进了学习策略对具有以前看不见的物体和不同照明条件的新场景的泛化。为此,我们通过在月球模拟设施中的真实机器人上评估训练有素的智能体来演示零样本模拟到真实的转移。
我们将抓握学习表述为神经场,并提出了神经抓握距离场(NGDF)。在这里,输入是机器人末端执行器的 6D 姿势,输出是到物体有效抓取的连续流形的距离。与目前预测一组离散候选抓取的方法相比,基于距离的NGDF表示很容易被解释为一种代价,并且最小化这种代价会产生一个成功的抓取姿态。这种抓取距离成本可以直接纳入轨迹优化器中,以便与其他成本(如轨迹平滑度和避免碰撞)进行联合优化。在优化过程中,由于各种成本得到平衡和最小化,因此由于学习的抓取场是连续的,因此可以平滑地变化抓取目标。我们在模拟和现实世界中评估了 NGDF 的联合抓握和运动规划,在泛化到看不见的查询姿势和看不见的物体形状的同时,执行成功率比基线高出 63%。项目页面:https://sites.google.com/view/neural-grasp-distance-fields。
我们引入了一种新颖的、端到端的、可训练的基于 CNN 的架构,为适用于平行板夹持器的抓取检测和语义分割提供高质量的结果。利用这一点,我们提出了一种新的细化模块,该模块利用先前计算的抓取检测和语义分割,进一步提高了抓取检测的准确性。我们提出的网络在两个流行的抓取数据集上提供了最先进的准确性,即康奈尔和提花。作为额外的贡献,我们为 OCID 数据集提供了一个新颖的数据集扩展,使在极具挑战性的场景中评估抓取检测成为可能。使用这个数据集,我们展示了语义分割还可以用于将抓取候选者分配给对象类,这些对象类可用于选择场景中的特定对象。
掌握技能是现实生活中大量掌握的一项主要能力 应用需要机器人化。最先进的机器人抓取 基于深度神经的物体抓取位置预测方法 网络。然而,这样的网络需要大量的标记数据 训练使这种方法在机器人技术中通常不切实际。在本文中, 我们提出了一种使用地面生成大规模合成数据集的方法 truth,我们称之为 Jacquard 抓取数据集。提花是建立在 ShapeNet 的子集,一个大型 CAD 模型数据集,包含 RGB-D 基于抓取尝试的成功抓取位置的图像和注释 在模拟环境中执行。我们使用 现成的 CNN,具有三种不同的评估指标,包括真实 抓取机器人试验。结果表明,提花机能够更好地实现 泛化技能比人类标记的数据集要高,这要归功于其多样性 物体和抓取位置。为了在以下领域进行可重复的研究 机器人技术,我们将与Jacquard数据集一起发布一个Web界面,用于 研究人员评估其抓握位置的成功与否 使用我们的数据集进行检测。
尽管机器人抓取取得了令人瞩目的进展,但机器人并不擅长复杂的任务(例如,在杂乱中搜索和抓取指定目标)。这些任务不仅涉及把握,还涉及对世界的综合感知(例如客体关系)。最近,令人鼓舞的结果表明,通过学习可以理解高级概念。然而,这种算法通常是数据密集型的,缺乏数据严重限制了它们的性能。在本文中,我们提出了一个名为REGRAD的新数据集,用于学习对象和抓握之间的关系。我们收集对象姿势、分割、抓取和关系的注释,用于目标驱动的关系抓取任务。我们的数据集以 2D 图像和 3D 点云两种形式收集。此外,由于所有数据都是自动生成的,因此可以自由导入新对象进行数据生成。我们还发布了一个真实世界的验证数据集,以评估在 REGRAD 上训练的模型的模拟到真实性能。最后,我们进行了一系列实验,表明在REGRAD上训练的模型在关系和抓握检测方面都能很好地泛化到现实场景中。我们的数据集和代码可以在以下位置找到: https://github.com/poisonwine/REGRAD
在构建机器人学习系统进行抓取时,从机器人收集真实世界的数据会很快成为瓶颈。在这项工作中,我们设计了一个半监督抓取系统,该系统在机器人经验的一小部分样本之上,利用了要拣选的产品的图像,这些图像是在不与机器人进行任何交互的情况下收集的。我们在模拟和现实世界中验证了我们的发现。在少量机器人训练样本的情况下,利用未标记的数据使我们能够实现基线使用的数据集大小增加 10 倍的水平。论文中使用的代码和数据集将于 https://github.com/nomagiclab/grasping-student 发布。
质量多样性 (QD) 方法是旨在为给定问题生成一组多样化且高性能的解决方案的算法。QD最初是为进化机器人技术开发的,大多数QD研究都是在有限的领域上进行的 - 主要应用于运动,其中适应度和行为信号是密集的。抓取是机器人操纵的关键任务。尽管许多研究界做出了努力,但这项任务尚未解决。抓握在量子点文献中积累了前所未有的挑战:它受到奖励稀疏性、行为稀疏性和行为空间错位的影响。本工作研究了量子点如何解决抓取问题。在10个抓取域上对15种不同的方法进行了实验,对应于2个不同的机器人抓手设置和5个标准对象。还提出了一个评估框架,将算法的评估与其内部组件区分开来,以便进行公平比较。获得的结果表明,在优先选择成功解决方案的 MAP-Elites 变体在所研究的指标上大大优于所有比较方法。我们还发现了实验证据表明,稀疏的相互作用会导致欺骗性的新颖性。据我们所知,在这项工作中证明的有效制作抓取轨迹的例子的能力在文献中没有先例。
6D姿态识别一直是机器人抓取成功的关键因素,最近基于深度学习的方法在基准测试中取得了显著的成果。然而,它们在实际应用中的泛化能力仍不清楚。为了克服这一差距,我们引入了 6IMPOSE,这是一种用于模拟到真实数据生成和 6D 姿态估计的新框架。6IMPOSE 由四个模块组成:首先,数据生成管道,它使用 3D 软件套件 Blender 创建带有 6D 姿态注释的合成 RGBD 图像数据集。其次,使用拟议的管道生成的五个家用物品的带注释的 RGBD 数据集。第三,一种实时两阶段 6D 姿态估计方法,该方法集成了目标探测器 YOLO-V4 和针对时间敏感型机器人应用优化的 6D 姿态估计算法 PVN3D 的简化实时版本。第四,一个代码库,旨在促进视觉系统集成到机器人抓取实验中。我们的方法展示了大量逼真的RGBD图像的高效生成,并成功地将经过训练的推理模型转移到机器人抓取实验中,在不同照明条件下从杂乱的背景中抓取五个不同的家居物品,总体成功率为87%。这是通过对数据生成和域随机化技术的微调,以及推理流水线的优化,克服了原始PVN3D算法的泛化和性能缺陷。最后,我们在 Github 上提供代码、合成数据集和所有预训练模型。
检测和收集带注释的视觉抓取数据集以进行训练 现代机器学习算法可能非常耗时,而且 贵。一个有吸引力的替代方案是使用现成的模拟器来 渲染生成真值注释的合成数据 自然而然。不幸的是,纯粹在模拟数据上训练的模型通常 无法推广到现实世界。我们研究如何随机模拟 可以扩展环境和领域适应方法以训练抓握 从原始单目RGB图像中抓取新物体的系统。我们广泛 通过总共超过 25,000 次物理测试来评估我们的方法, 研究一系列模拟条件和领域适应方法, 包括像素级域适应的新扩展,我们称之为 掌握GAN。我们表明,通过使用合成数据和领域自适应,我们是 能够减少达到给定水平所需的真实世界样本数量 性能提升高达 50 倍,仅使用随机生成的模拟 对象。我们还表明,通过仅使用未标记的真实世界数据和我们的 GraspGAN方法论,我们在没有任何的情况下获得真实世界的抓取性能 真实世界的标签,类似于 939,777 个标签实现的标签 真实世界的样本。
长期以来,抓取一直被认为是机器人操作中一项重要而实用的任务。然而,实现对不同物体的稳健和高效抓取是具有挑战性的,因为它涉及抓手设计、感知、控制和学习等。最近基于学习的方法在掌握各种新物体方面表现出优异的性能。然而,这些方法通常仅限于一种抓取模式,或者需要更多的末端执行器来抓取各种物体。此外,夹持器设计和学习方法通常是单独开发的,可能无法充分探索多模态夹持器的能力。在本文中,我们提出了一种深度强化学习(DRL)框架,该框架使用一种新的软多模态抓手实现多级混合机器人抓取。具有三种抓取模式(即包络、吸吮和enveloping_then_sucking)的软抓手既可以处理不同形状的物体,也可以同时抓取多个物体。我们提出了一种与多模态抓手集成的新型混合抓取方法,以优化抓取动作的数量。我们评估了不同场景下的DRL框架(即,两种抓取类型的对象比例不同)。与单一抓取模式相比,所提算法可以减少抓取动作的数量(即扩大抓取效率,在模拟中最大值为161%,在实际实验中最大值为154%)。
在本文中,我们提出了一个基于云的机器人抓取和操作基准,称为 OCRTOC 基准。基准测试侧重于对象重新排列问题,特别是表组织任务。我们提供一套相同的真实机器人设置,并促进不同难度的标准化餐桌组织场景的远程实验。在此工作流程中,用户将他们的解决方案上传到我们的远程服务器,他们的代码在真实的机器人设置上执行并自动评分。每次执行后,OCRTOC 团队都会手动重置实验设置。我们还提供了一个模拟环境,研究人员可以使用它来开发和测试他们的解决方案。通过OCRTOC基准,我们的目标是降低对机器人抓取和操纵进行可重复研究的门槛,并加速该领域的进展。在相同的真实机器人设置上执行标准化场景使我们能够量化算法性能并实现公平的比较。利用这一基准,我们在 2020 年智能机器人与系统国际会议 (IROS 2020) 上举办了一场竞赛。全球共有59支队伍参加了本次比赛。我们介绍了 2020 年比赛的结果和观察,并讨论了我们对即将到来的 OCRTOC 2021 比赛的调整和改进。OCRTOC 竞赛的主页是 www.ocrtoc.org,OCRTOC 软件包可在 https://github.com/OCRTOC/OCRTOC_software_package 上获得。
提出了一种深度学习架构来预测可抓取的位置 机器人操作。它考虑了没有、一个或多个的情况 对象被看到。通过定义要分类的学习问题 零假设竞争而不是回归,深度神经网络 RGB-D 图像输入可预测单个物体的多个抓取候选对象,或者 多个对象,一次拍摄。该方法优于最先进的方法 在康奈尔数据集上的方法,图像方面准确率为 96.0% 和 96.1% 和对象拆分。对多对象数据集的评估 说明了体系结构的泛化功能。把握 实验实现96.0%的抓取定位率和88.0%的抓取成功率 在家用物品的测试集上。实时过程耗时不到 .25 秒 从图像到计划。
提出了一种深度学习架构来预测机器人操作的可抓取位置。它考虑了看不到、一个或多个对象的情况。通过定义使用零假设竞争而不是回归进行分类的学习问题,具有红色、绿色、蓝色和深度 (RGB-D) 图像输入的深度神经网络可以在单次拍摄中预测单个对象或多个对象的多个抓取候选者。该方法在康奈尔数据集上的表现优于最先进的方法,在图像和对象分割上的准确率分别为 96.0% 和 96.1%。对多对象数据集的评估说明了该架构的泛化能力。抓取实验在一组家用物品测试上实现了96.0%的抓取定位率和89.0%的抓取成功率。从图像到计划,实时过程不到 0.25 秒。
机器人抓取通常遵循五个阶段:物体检测、物体定位、物体姿态估计、抓取姿态估计和抓取规划。我们专注于物体姿态估计。我们的方法依赖于三条信息:物体的多个视图、相机在这些视点上的外部参数以及物体的 3D CAD 模型。第一步涉及标准深度学习骨干网 (FCN ResNet),用于估计对象标签、语义分割以及对象相对于相机的姿态的粗略估计。我们的新颖之处在于使用了一个优化模块,该模块从粗略的姿态估计开始,并通过可微分渲染进行优化来优化它。这是一种纯粹基于视觉的方法,避免了对点云或深度图像等其他信息的需求。我们在 ShapeNet 数据集上评估了我们的物体姿态估计方法,并展示了对现有技术的改进。我们还表明,根据标准实践计算,在物体杂波室内数据集 (OCID) Grasp 数据集上,估计的物体姿态与地面实况抓取候选者的抓取准确率为 99.65%
即使对人类来说,智能抓取物体也是一项具有挑战性的任务,我们在童年时期花费了大量时间来学习如何正确抓握物体。就机器人而言,我们不能花那么多时间来学习如何有效地抓取物体。因此,在本研究中,我们提出了一种基于VQVAE的高效学习架构,以便为机器人提供足够的数据来正确掌握。然而,在机器人抓取领域,获得足够的标记数据是极其困难的。为了帮助解决这个问题,已经研究了一种基于半监督学习的模型,该模型即使在有限的标记数据集下也具有更多的泛化能力。与现有的最先进模型(包括我们早期的模型)相比,它的性能提高了 6\%。在实验过程中,观察到我们提出的模型 RGGCNN2 在抓取孤立物体和杂乱环境中的物体方面,与不使用未标记数据生成抓取矩形的现有方法相比,表现明显更好。据我们所知,开发一种基于半监督学习的智能机器人抓取模型(基于半监督学习),利用GGCNN2架构的高质量学习能力,利用有限数量的标记数据集和学习到的潜在嵌入,可以作为一种事实上的训练方法,该方法已经建立,并在本文中使用Baxter(Anukul)研究机器人进行了严格的硬件实验验证。
Grasp Pose
抓握对人类来说是很自然的。然而,它涉及复杂的手部配置和软组织变形,可能导致手与物体之间复杂的接触区域。理解和建模这种接触可以潜在地改善手部模型、AR/VR 体验和机器人抓取。然而,我们目前缺乏与其他数据模式配对的手-物体接触数据集,这对于开发和评估接触建模技术至关重要。我们介绍了 ContactPose,这是第一个与手部姿势、物体姿势和 RGB-D 图像配对的手与物体接触的数据集。ContactPose 有 2306 次独特的抓取,由 50 名参与者抓取 25 个家庭物品,具有 2 个功能意图,以及超过 2.9 M 的 RGB-D 抓取图像。对 ContactPose 数据的分析揭示了手部姿势和接触之间的有趣关系。我们使用这些数据来严格评估各种数据表示、文献中的启发式方法以及接触建模的学习方法。数据、代码和经过训练的模型可在 https://contactpose.cc.gatech.edu 上获得。
该文考虑了点云中的抓取姿态检测问题。我们 遵循一个通用的算法结构,首先生成一大群 6-DOF 抓取候选者,然后将它们中的每一个分类为好或坏 把握。本文的重点是通过使用深度来改进第二步 从大型在线数据集进行传感器扫描以训练卷积神经 网络。我们提出了两种新的抓取候选表示形式,我们 量化使用两种形式的先验知识的效果:实例或类别 了解要掌握的对象,并在模拟上对网络进行预训练 从理想化的 CAD 模型中获得的深度数据。我们的分析表明,更多的 信息性地掌握候选人代表以及预训练和先前的陈述 知识显著提高了抓握检测能力。我们评估我们的方法 Baxter研究机器人,并证明平均抓握成功率为93% 密集的杂物。与我们之前的工作相比,这提高了 20%。
最近,已经提出了一些抓取检测方法,这些方法可以 用于直接从传感器数据中定位机器人抓取配置,而无需 估计对象姿态。其基本思想是治疗抓握知觉 类似于计算机视觉中的物体检测。这些方法将作为输入 嘈杂且部分遮挡的 RGBD 图像或点云并生成作为输出 对可行抓取进行姿态估计,而不假设已知的 CAD 模型 对象。尽管这些方法可以很好地将掌握知识推广到新对象, 它们尚未被证明足够可靠,可以广泛使用。多 抓取检测方法实现抓取成功率(抓取成功率 占抓握尝试总数的分数)在 75% 到 95% 之间 孤立或光线杂乱的物体。这些成功不仅是 对于实际抓取应用来说,速率太低,但光线杂乱 评估的场景通常不能反映现实世界的现实 把握。本文提出了许多创新,这些创新共同导致了 抓取检测性能显著提高。具体的 由于我们的每一项贡献,绩效的提高都是定量的 在仿真或机器人硬件上测量。最终,我们报告一个 一系列机器人实验,平均端到端抓取成功率为 93% 对于以密集杂乱呈现的新颖对象。
在本文中,我们研究了如何在实际工业环境中有效地部署深度学习,例如机器人抓取应用。当提出基于深度学习的解决方案时,通常缺乏任何简单的方法来生成训练数据。在以自动化为主要目标的工业领域,不弥合这一差距是深度学习不如在学术界普及的主要原因之一。出于这个原因,在这项工作中,我们开发了一个系统,该系统由基于卷积神经网络 (CNN) 的 3-DoF 姿态估计器和一个有效的程序组成,可以在现场以最少的人工干预收集大量训练图像。通过自动化贴标阶段,我们还获得了适合生产级使用的非常强大的系统。提供了我们解决方案的开源实现,以及用于实验评估的数据集。
抓取姿态估计是机器人与现实世界交互的重要问题。然而,大多数现有方法需要事先提供精确的 3D 对象模型或大量抓取注释进行训练。为了避免这些问题,我们提出了TransGrasp,这是一种类别级的抓取姿态估计方法,它通过仅标记一个对象实例来预测一类对象的抓取姿态。具体而言,我们根据物体的形状对应关系对一类物体进行抓取姿态转移,并提出了一个抓取姿态细化模块,以进一步微调抓手的抓握姿态,以确保抓取成功。实验证明了该方法在转移抓握姿势下实现高质量抓握的有效性。我们的代码可在 https://github.com/yanjh97/TransGrasp 上找到。
一般物体抓取是机器人领域一个重要但尚未解决的问题。目前大多数方法要么生成自由度很少的抓取姿势,无法覆盖大部分成功抓取,要么仅将不稳定的深度图像或点云作为输入,在某些情况下可能导致结果不佳。在本文中,我们提出了RGBD-Grasp,这是一种通过将7-DoF抓取检测解耦为两个子任务来解决这个问题的管道,其中RGB和深度信息分别处理。在第一阶段,提出了一种类似卷积神经网络的编码器-解码器Angle-View Net(AVN)来预测图像每个位置的抓手的SO(3)方向。因此,快速解析搜索 (FAS) 模块计算开口宽度和夹持器到抓取点的距离。通过解耦抓取检测问题并引入稳定的RGB模态,我们的流水线减轻了对高质量深度图像的要求,并且对深度传感器噪声具有鲁棒性。与几个基线相比,我们在 GraspNet-1Billion 数据集上取得了最先进的结果。在配备英特尔实感摄像头和 Robotiq 双指夹持器的 UR5 机器人上进行的真实机器人实验表明,无论是单个物体场景还是杂乱场景,成功率都很高。我们的代码和经过训练的模型将公开发布。
许多操作任务,例如放置或手内操作,都需要物体相对于机器人手的姿势。当手明显遮挡物体时,这项任务很困难。对于自适应手来说尤其困难,因为要检测手指的配置并不容易。此外,仅使用RGB的方法在无纹理对象或手和对象看起来相似时会遇到问题。本文提出了一个基于深度的框架,旨在实现稳健的姿态估计和较短的响应时间。该方法通过高效的并行搜索来检测自适应手的状态,给定手的模型和点云之间的最高重叠。对手的点云进行修剪,并执行鲁棒的全局配准,以生成对象姿态假设,这些假设被聚类。错误的假设通过物理推理被修剪掉。根据与观察到的数据一致,评估其余姿势的质量。对合成数据和真实数据的广泛评估表明,当应用于不同对象类型的具有挑战性、高度遮挡的场景时,该框架的准确性和计算效率。消融研究确定了框架的组件如何帮助提高性能。这项工作还为手头的 6D 物体姿态估计提供了一个数据集。代码和数据集可在以下位置获得: https://github.com/wenbowen123/icra20-hand-object-pose
在复杂环境中运行的机器人操作系统依赖于感知系统,这些系统提供有关场景中物体的几何形状(姿势和 3D 形状)的信息以及其他语义信息,例如对象标签。然后,该信息用于选择对相关对象的可行抓取。在本文中,我们提出了一种新的方法,可以同时提供场景中所有物体的几何和语义信息,以及对这些物体的可行把握。我们方法的主要优点是速度快,因为它避免了顺序感知和掌握计划步骤。通过详细的定量分析,我们表明,与最先进的物体形状、姿态和抓握预测专用方法相比,我们的方法提供了具有竞争力的性能,同时以每秒 30 帧的速度提供快速推理。
多目标优化问题在机器人技术中无处不在,例如,机器人操作任务的优化需要同时考虑抓取姿态配置、碰撞和关节限制。虽然有些需求可以很容易地手工设计,例如轨迹的平滑度,但需要从数据中学习几个特定于任务的目标。本文介绍了一种将数据驱动的SE(3)成本函数学习为扩散模型的方法。扩散模型可以表示高表达性的多模态分布,并由于其分数匹配的训练目标而在整个空间中表现出适当的梯度。将成本学习为扩散模型,可以将其与其他成本无缝集成到单个可微分目标函数中,从而实现基于联合梯度的运动优化。在这项工作中,我们专注于学习用于 6DoF 抓取的 SE(3) 扩散模型,从而产生了一种新的联合抓取和运动优化框架,而无需将抓取选择与轨迹生成分离。我们评估了我们的SE(3)扩散模型和经典生成模型的表示能力,并展示了我们提出的优化框架在一系列模拟和真实世界的机器人操作任务中的卓越性能。
多指机械手有可能使机器人能够执行复杂的操作任务。然而,由于状态和动作空间的高维性,教机器人用拟人化的手抓取物体是一个艰巨的问题。深度强化学习 (DRL) 提供了针对此类问题设计控制策略的技术,而无需明确的环境或手动建模。然而,最先进的无模型算法已被证明在学习此类策略方面效率低下。主要问题是,对于这种高维问题,对环境的探索是不可行的,从而阻碍了政策优化的初始阶段。解决这个问题的一种可能性是依靠离线任务演示,但通常,这在时间和计算资源方面要求太高。为了解决这些问题,我们提出了 A Grasp Pose is All You Need (G-PAYN) 方法,用于 iCub 人形机器人的拟人手。我们开发了一种自动收集任务演示的方法,以初始化策略的训练。所提出的抓取管道从外部算法生成的抓取姿势开始,用于启动运动。然后使用控制策略(先前使用提议的 G-PAYN 进行训练)来到达并抓取对象。我们将 iCub 部署到 MuJoCo 模拟器中,并使用它来测试我们使用 YCB-Video 数据集中的对象的方法。结果表明,G-PAYN在成功率和相对于基线的执行时间方面优于当前所考虑的DRL技术。重现实验的代码与论文一起发布,并具有开源许可证。
我们提出了一种新的基于关键点的2D/2.5D输入的6-DoF抓取姿态合成方法。在之前的研究中,基于图像输入的关键点抓取检测器已经显示出有希望的结果,其中彩色图像提供的额外视觉信息补偿了嘈杂的深度感知。然而,它在很大程度上依赖于准确预测图像空间中关键点的位置。在本文中,我们设计了一种新的抓取生成网络,以减少对精确关键点估计的依赖。给定RGB-D输入,我们的网络可以估计关键点检测的抓取姿态以及向相机的缩放比例。我们进一步重新设计了关键点输出空间,以减轻关键点预测噪声对透视点(PnP)算法的负面影响。实验表明,所提方法的性能大大优于基线,验证了该方法的有效性。最后,尽管在简单的合成物体上进行了训练,但我们的方法通过在真实世界的机器人实验中显示出有竞争力的结果来展示模拟到现实的能力。
我们介绍了ACRONYM,一个基于物理模拟的机器人抓取规划数据集。该数据集包含 17.7M 平行颚抓取,涵盖 262 个不同类别的 8872 个对象,每个对象都标有从物理模拟器获得的抓取结果。我们通过使用它来训练两种最先进的基于学习的抓取规划算法,从而展示了这个庞大而多样化的数据集的价值。与原始较小的数据集相比,抓取性能显著提高。数据和工具可在 https://sites.google.com/nvidia.com/graspdataset 访问。
生成栩栩如生的全身人体抓握在计算机图形学领域引起了极大的关注。现有研究已经证明了关键帧引导运动生成框架的有效性,该框架专注于对目标物体置于其面前时,人类在时间顺序上的抓取运动进行建模。然而,在关键帧中生成的人体抓握姿势是有限的,无法捕捉到人类能够完成的全部抓握姿势。为了解决这个问题,我们提出了一种名为COOP(DeCOupling and COupling of Whole-Body GrasPing Pose Generation)的新框架,用于合成栩栩如生的全身姿势,涵盖最广泛的人类抓握能力。在这个框架中,我们首先将全身姿势解耦为身体姿势和手姿势,并将它们分开建模,这使我们能够轻松地使用域外数据预训练身体模型。然后,我们通过统一的优化算法将这两个生成的身体部位耦合起来。此外,我们设计了一种简单的评估方法来评估模型在为放置在不同位置的物体生成抓取姿势方面的泛化能力。实验结果验证了该方法的有效性和优越性。COOP作为全身姿势生成中其他领域的即插即用组件具有巨大的潜力。我们的模型和代码可在 https://github.com/zhengyanzhao1997/COOP 上获得。
多抓取、多物体的6-DoF抓取姿态检测是智能机器人领域的一项挑战任务。为了模仿人类抓取物体的推理能力,数据驱动的方法被广泛研究。随着大规模数据集的引入,我们发现单个物理指标通常会生成多个离散的抓握置信度分数,无法精细区分数百万个抓握姿势,导致预测结果不准确。在本文中,我们提出了一种混合物理指标来解决这种评估不足。首先,我们定义了一种新的度量,该度量基于力闭合度量,并辅以物体平面度、重力和碰撞的测量。其次,我们利用这个混合物理指标来生成详细的置信度分数。第三,为了有效地学习新的置信度分数,我们设计了一个称为平面度重力碰撞抓取网(FGC-GraspNet)的多分辨率网络。FGC-GraspNet提出了一种针对多个任务的多分辨率特征学习架构,并引入了一种新的关节丢失函数,提高了抓取检测的平均精度。网络评估和充分的机器人实战证明了我们的混合物理度量和FGC-GraspNet的有效性。我们的方法在真实世界的杂乱场景中取得了90.5%的成功率。我们的代码可在 https://github.com/luyh20/FGC-GraspNet 上找到。
手与物体之间的物理接触在人类抓握中起着至关重要的作用。我们表明,优化手的姿势以实现与物体的预期接触可以改善通过基于图像的方法推断的手部姿势。给定一个手网格和一个对象网格,在地面实况接触数据上训练的深度模型可以推断出网格表面上的理想接触。然后,ContactOpt 使用可微分接触模型有效地优化手的姿势,以实现理想的接触。值得注意的是,我们的接触模型鼓励网格相互渗透,以近似手部可变形的软组织。在我们的评估中,我们的方法导致抓取更好地匹配地面实况接触,具有更低的运动学误差,并且受到人类参与者的青睐。代码和模型可在线获取。
常识推理是深度学习面临的一个长期挑战。例如,很难使用神经网络来处理Winograd Schema数据集(Levesque等人,2011)。在本文中,我们提出了一种使用无监督学习的神经网络进行常识推理的简单方法。我们方法的关键是使用语言模型,在大量未标记的数据上进行训练,对常识推理测试提出的多项选择题进行评分。在代词消歧和 Winograd 模式挑战中,我们的模型大大优于以前最先进的方法,而无需使用昂贵的注释知识库或手工设计的特征。我们在 LM-1-Billion、CommonCrawl、SQuAD、Gutenberg Books 和为此任务定制的语料库上训练了一系列大型 RNN 语言模型,这些模型在单词或字符级别运行,并表明训练数据的多样性在测试性能中起着重要作用。进一步的分析还表明,我们的系统成功地发现了决定正确答案的上下文的重要特征,表明对常识知识的良好掌握。
近年来,基于深度学习的推荐系统得到了广泛的探索。然而,每年提出的大量模型对研究人员和从业者来说都是一个巨大的挑战,无法复制结果以进行进一步的比较。虽然部分论文提供了源代码,但它们采用了不同的编程语言或不同的深度学习包,这也提高了掌握思想的标准。为了缓解这个问题,我们发布了开源项目:\textbf{DeepRec}。在这个工具包中,我们使用 Python 和广泛使用的深度学习包 Tensorflow 实现了许多基于深度学习的推荐算法。考虑了评分预测、top-N推荐(项目排名)和顺序推荐三种主要推荐场景。同时,DeepRec 保持了良好的模块化和可扩展性,可以轻松地将新模型整合到框架中。它是根据 GNU 通用公共许可证的条款分发的。源代码位于 github:\url{https://github.com/cheungdaven/DeepRec}
从 RGB-D 执行 6D 物体姿态估计的关键技术挑战 图像是充分利用两个互补的数据源。过往作品 可以单独从 RGB 图像和深度中提取信息,也可以使用 昂贵的后处理步骤,限制了它们在高度混乱中的性能 场景和实时应用。在这项工作中,我们介绍了 DenseFusion,一个 用于从 RGB-D 估计一组已知对象的 6D 姿态的通用框架 图像。DenseFusion 是一种处理这两个数据的异构架构 单独获取源,并使用新颖的密集融合网络进行提取 像素密集特征嵌入,从中估计姿势。 此外,我们还集成了端到端的迭代姿态优化程序 这进一步改善了姿态估计,同时实现了近乎实时的 推理。我们的实验表明,我们的方法优于最先进的方法 YCB-Video 和 LineMOD 两个数据集中的方法。我们还部署了我们提议的 方法到真正的机器人,根据估计的对象来抓取和操纵物体 姿势。
对象抓取对于许多应用至关重要,这也是一个具有挑战性的计算机视觉问题。然而,对于杂乱无章的场景,目前的研究存在训练数据不足和缺乏评估基准的问题。在这项工作中,我们贡献了一个具有统一评估系统的大规模抓取姿态检测数据集。我们的数据集包含 97,280 张 RGB-D 图像,具有超过 10 亿个抓握姿势。同时,我们的评估系统通过分析计算直接报告抓取是否成功,分析计算能够评估任何类型的抓握姿势,而无需详尽地标记地面事实。此外,我们提出了一个基于点云输入的端到端抓取姿态预测网络,其中我们以解耦的方式学习接近方向和操作参数。还设计了一种新型的抓握亲和场来提高抓握鲁棒性。我们进行了广泛的实验,以表明我们的数据集和评估系统可以很好地与现实世界的实验保持一致,并且我们提出的网络实现了最先进的性能。我们的数据集、源代码和模型在 www.graspnet.net 上公开提供。
相机视点选择是视觉抓取检测的一个重要方面, 尤其是在存在许多遮挡的杂波中。其他方法在哪里 使用静态摄像机位置或固定数据收集例程,我们的多视图 拣选 (MVP) 控制器使用主动感知方法来选择 直接基于抓握姿态估计分布的信息性观点 实时减少由杂乱和 闭塞。在从杂物中抓取 20 个物体的试验中,我们的 MVP 控制器 实现 80% 的抓取成功率,比单视点抓取检测器高出 12%.我们还表明,我们的方法更准确、更有效 而不是考虑多个固定视点的方法。
训练计算机理解、建模和合成人类抓握需要一个丰富的数据集,其中包含复杂的 3D 物体形状、详细的联系信息、手部姿势和形状,以及随时间推移的 3D 身体运动。虽然“抓握”通常被认为是一只手稳定地举起一个物体,但我们捕捉整个身体的运动,并采用“全身抓握”的广义概念。因此,我们收集了一个名为 GRAB(GRasping Actions with Bodies)的新数据集,其中包含 10 个受试者与 51 个不同形状和大小的日常物体互动的完整 3D 形状和姿势序列。给定动作捕捉标记,我们拟合完整的 3D 身体形状和姿势,包括关节脸和手,以及 3D 物体姿势。这提供了随时间推移的详细 3D 网格,我们从中计算出身体和物体之间的接触。这是一个独特的数据集,远远超出了现有的数据集,用于建模和理解人类如何抓取和操纵物体,他们的整个身体如何参与,以及交互如何随任务而变化。我们通过一个示例应用程序来说明 GRAB 的实用价值;我们训练 GrabNet,一个条件生成网络,以预测看不见的 3D 物体形状的 3D 手抓。数据集和代码可在 https://grab.is.tue.mpg.de 上用于研究目的。
我们介绍了一种可执行任务的反应式移动操作系统的设计和实现。与相关工作相反,我们将臂和底座的自由度视为一个整体结构,这大大提高了由此产生的运动的速度和流动性。这种方法的核心是一个强大的反应式运动控制器,它可以实现所需的末端执行器姿势,同时避免关节位置和速度限制,并确保移动机械手在整个轨迹中可操纵。这可以支持基于传感器的行为,例如闭环视觉抓取。由于我们的方法不涉及任何计划,因此机器人永远不会静止地思考下一步该做什么。我们通过使用行为树实现拾取和放置系统来展示我们整体运动控制器的多功能性,并在 9 自由度移动机械手上演示了这项任务。此外,我们还为非完整和全向移动机械手提供了运动控制器的开源实现,可在 jhavl.github.io/holistic 上购买。
估计手部物体操作对于解释和 模仿人类的行为。以往的工作在以下方面取得了重大进展 孤立地重建手部姿势和物体形状。还 在操作过程中重建手和物体是一项更具挑战性的任务 由于手和物体的严重遮挡。演示时 挑战,操纵也可能简化问题,因为物理学 接触限制有效手部对象配置的空间。例如 在操作过程中,手和物体应该接触,但不能 相互渗透。在这项工作中,我们将手的关节重建规范化 以及具有操作约束的对象。我们提出了一个端到端的可学习 利用有利于物理合理性的新型接触损耗的模型 手物星座。我们的方法提高了对质量指标的把握 基线,使用 RGB 图像作为输入。为了训练和评估模型,我们还 提出一个新的大规模合成数据集,ObMan,带有手部对象 操作。我们证明了 ObMan 训练模型的可转移性 真实数据。
生成抓握姿势是任何机器人对象操作任务的关键组成部分。在这项工作中,我们将抓取生成问题表述为使用变分自动编码器对一组抓取进行采样,并使用抓取评估器模型评估和完善采样抓取。Grasp Sampler 和 Grasp Refinement 网络都将深度相机观测到的 3D 点云作为输入。我们在模拟和真实世界的机器人实验中评估了我们的方法。我们的方法在具有不同外观、比例和重量的各种常用物体上实现了 88% 的成功率。我们的模型纯粹在模拟中训练,无需任何额外步骤即可在现实世界中工作。我们的实验视频可以在以下位置找到: https://research.nvidia.com/publication/2019-10_6-DOF-GraspNet\%3A-变分
为了教授机器人技能,在监督下获取数据至关重要。由于注释真实世界的数据既费时又昂贵,因此使机器人能够以自我监督的方式学习非常重要。在这项工作中,我们介绍了一种用于自监督 6D 目标位姿估计的机器人系统。从模拟训练的模块开始,我们的系统能够用准确的 6D 物体姿态标记真实世界的图像,以进行自监督学习。此外,机器人与环境中的物体进行交互,通过抓取或推动物体来改变物体配置。通过这种方式,我们的系统能够不断收集数据并改进其姿态估计模块。结果表明,自监督学习提高了对象分割和6D姿态估计性能,从而使系统能够更可靠地抓取对象。可以在 https://youtu.be/W1Y0Mmh1Gd8 找到显示实验的视频。
透明物体在许多感兴趣的环境中都很普遍,可以进行灵巧的机器人操作。这种透明材料给机器人的感知和操作带来了相当大的不确定性,并且仍然是机器人技术面临的一个公开挑战。当多个透明对象聚集成一堆杂物时,此问题会更加严重。例如,在家庭环境中,在厨房、餐厅和接待区经常会遇到成堆的玻璃器皿,而现代机器人基本上是看不见的。我们提出了GlassLoc算法,该算法使用全感知技术对透明杂波中的透明物体进行抓取姿态检测。GlassLoc 根据深度似然体积 (DLV) 描述符对空间中可抓取的位置进行分类。我们扩展了DLV,以从多个全视点推断给定空间中透明物体的占用情况。我们在安装有第一代 Lytro 的 Michigan Progress Fetch 上演示和评估了 GlassLoc 算法。通过实验评估了我们算法的有效性,以在轻微的杂波中对各种透明玻璃器皿进行抓取检测和执行。
出于非结构化现实世界的严格要求,其中大量未知物体驻留在表面的任意位置,我们提出了一种基于体素的深度 3D 卷积神经网络 (3D CNN),该网络可在不受限制的工作空间中生成可行的 6-DoF 抓取姿势,并具有可达性感知。与大多数仅根据抓握姿势稳定性来预测受限工作空间内提议的抓握姿势是否会成功的工作不同,我们的方法进一步学习了一个可达性预测器,该预测器根据机器人自己的经验评估抓握姿势是否可到达。为了避免费力的真实训练数据收集,我们利用仿真的力量在大规模合成数据集上训练我们的网络。这项工作是一项早期尝试,它同时评估了从学习知识中抓取可达性,同时提出了可行的抓握姿势。仿真和实际实验结果表明,该方法优于其他几种方法,对未知物体的抓取成功率为82.5%。
工具使用是人类智能的一个标志性特征,由于复杂的接触和高维的动作空间,在机器人技术中仍然是一个具有挑战性的问题。在这项工作中,我们提出了一种新的方法来实现工具使用行为的强化学习。我们的方法提供了一种可扩展的方法,只需一个演示即可学习新类别中工具的操作。为此,我们提出了一种将多指机械手的抓取配置推广到新物体的新方法。这用于通过有利的初始化和整形奖励信号来指导策略搜索。学习到的策略解决了复杂的工具使用任务,并在测试时推广到看不见的工具。https://maltemosbach.github.io/generalizable_tool_use 上提供了经过训练的策略的可视化和视频。
在杂乱的场景中抓取一直是机器人的一大挑战,因为需要能够很好地理解场景和物体信息。以往的工作通常假设物体的几何信息是可用的,或者利用逐步、多阶段的策略来预测可行的 6-DoF 抓取姿态。在这项工作中,我们建议将 6-DoF 抓取姿态估计形式化为同时多任务学习问题。在统一的框架下,我们共同预测了可行的6-DoF抓取姿态、实例语义分割和碰撞信息。整个框架联合优化,端到端可微分。我们的模型是在大规模基准测试以及真实的机器人系统上进行评估的。在公共数据集上,我们的方法大大优于先前最先进的方法(+4.08 AP)。我们还演示了我们的模型在真实机器人平台上的实现,并表明机器人可以在杂乱的场景中准确抓取目标物体,成功率很高。项目链接:https://openbyterobotics.github.io/sscl
我们抓取物体的方式对协作机器人的高效、智能和最佳抓取具有挑战性。为了简化这一过程,我们在这里使用深度学习技术来帮助机器人学习快速生成和执行适当的抓取。我们开发了一个生成初始神经网络(GI-NNet)模型,能够对看得见和看不见的物体产生对足机器人的抓取。该算法基于康奈尔抓取数据集(CGD)进行训练,在RGB深度(RGB-D)图像中检测规则和不规则形状物体时,抓取姿态准确率达到98.87%,与现有方法相比,只需要三分之一的网络可训练参数。然而,为了达到这种性能水平,该模型需要 CGD 的全部 90% 的可用标记数据,仅保留 10% 的标记数据进行测试,这使得它容易受到泛化不良的影响。此外,要跟上庞大网络的需求,获得足够且高质量的标记数据集变得越来越困难。为了解决这些问题,我们将我们的模型作为解码器附加到一个基于半监督学习的架构,称为矢量量化变分自动编码器 (VQVAE),当使用可用的标记和未标记数据进行训练时,该架构可以有效地工作。所提出的模型,我们称之为基于表征的GI-NNet(RGI-NNet),已经在CGD上使用各种标签数据拆分进行训练,其中至少10%的标记数据集以及从VQVAE生成的潜在嵌入,高达50%的标记数据,以及从VQVAE获得的潜在嵌入。就RGI-NNet的抓握姿态准确率而言,其性能水平在92.13%至95.6%之间变化,远远优于仅使用标记数据集训练的几个现有模型。对于GI-NNet和RGI-NNet模型的性能验证,我们使用Anukul(Baxter)硬件协作机器人。