机械臂抓取学习笔记三

论文:Real-Time Deep Learning Approach to Visual Servo Control and Grasp Detection
for Autonomous Robotic Manipulation

摘要:

  • 为了探索有 监督的深度学习 在非结构化和动态环境中 用于机器人抓取的预测,这项工作涉及任务中的视觉感知阶段。该阶段涉及视觉数据的处理,以获取要 ①抓取的对象的位置、②其姿势、③机器人的夹持器必须接触的点, 以确保稳定抓取。换句话说,拥有机器人工作空间的图像(包含特定对象),网络预测一个抓取矩形,该矩形象征着机器人平行抓取器在闭合前的瞬间位置、方向和夹持器打开的大小。
  • 除了这个实时运行的网络外,还设计了另一个网络,以便能够处理对象在环境中移动的情况。因此,第二个卷积网络被训练来执行视觉伺服控制,确保对象保持在机器人的视野中。该网络预测相机必须具有的线速度和角速度的比例值,以便对象始终位于抓取网络处理的图像中。

介绍:

  • 有无限多个候选抓取可应用于对象。 因此,正如Bohg等人所指出的,用于找到理想抓取配置的抓取假设的一个很好的子集包括机器人将执行的任务类型、目标物体的特征、关于物体的先验知识类型、使用的机械爪类型,以及最后的Grasp synthesis(抓取综合)。
  • 抓取综合是机器人抓取问题的核心,这是一个好的选择,因为它涉及到在物体中寻找点的任务。这些是夹持器必须与物体接触的点,确保外力的作用不会导致物体不稳定,并满足抓取任务的一组相关标准。
  • 抓取综合方法通常可分为 分析法数据驱动法
  • 分析法 是指使用具有特定动力学行为的灵巧且稳定的多指手构造力闭合。抓取综合是一个受限优化问题,使用运动学、几何或动力学公式等标准来测量所述特性。这些方法通常假设要抓取的对象存在精确的几何模型,这并不总是可能的。此外,物体的表面特性或摩擦系数,以及其重量、质心等可能不可用。
  • 基于数据的方法(数据驱动法) 建立在对抓取候选对象的搜索和这些一些标准的条件的分类的基础上,这一过程通常假定存在通过启发式或学习提供的先验抓取经验。也就是说,这些方法需要对那些被认为是正确的候选者进行注释,作为所用算法的模型。因此,必须以某种方式生成这些注释,或者通过真实的机器人、模拟或者在图像中直接注释。
  • 在使用 经验方法(经验法) 的工作中,许多在其算法中处理某种视觉信息。使用图像进行抓取合成的主要好处是它独立于目标对象的三维模型。在真实场景中,通常很难获得第一次看到的对象的准确和完整的三维模型。
  • Du、Wang和Lian假设基于视觉的机器人抓取系统由四个主要步骤组成,即 ①目标物体定位、②物体姿态估计、③抓取检测(合成)、④抓取规划。 考虑到一个基于卷积神经网络的系统,可以同时执行前三个步骤,该系统接收对象的图像作为输入,并预测抓取矩形作为输出。
  • 关于抓取规划阶段,即机械手找到目标的最佳路径,机器人抓取系统必须克服一些挑战才能应用于现实世界。它应该能够适应工作空间的变化,并考虑动态对象,使用视觉反馈。因此,机器人必须跟踪对象,使其不会离开摄像机的视野,以便以reactive way(反应式)方式执行定位、姿势估计和抓取合成。
  • 大多数机器人抓取任务的方法执行一次性抓取检测,无法响应环境的变化。因此,在抓取系统中插入视觉反馈是可取的,因为它使抓取系统对感知噪声、物体运动和运动学误差具有鲁棒性。然而,即使使用现代硬件,经典方法也需要大量的时间用于闭环应用,并且进行focus(注意力)的调整,没有视觉反馈。
  • 因此,一些工作开始包括视觉伺服阶段,以处理抓取执行期间可能出现的干扰。然而,这种技术严重依赖于特征的提取和跟踪,通常基于3D模型、相机参数和其他必须事先知道的信息。尽管最近的一些方法旨在最小化特征设计、控制建模和对先验信息的需求,但它们无法同时实现所有这些优点。
  • 机器人学的目标之一是开发一种能够结合自动抓取检测的优点并接收视觉反馈以实时处理未知动态对象的抓取系统。这项工作旨在通过设计一个实时的、真实的、反应式的自主机器人操作系统来实现这一目标。
  • 本文的主要贡献:①全面审查使用Cornell Grasping Dataset(康奈尔抓取数据)集进行静态抓取的工作;介绍视觉伺服学习算法的作品;以及解决动态和反应性抓取的工作。②设计卷积网络,在Cornell Grasping Dataset(康奈尔抓取数据)康奈尔大学数据集中实现最先进的预测速度,并在真实机器人中实现该网络,作为已发表会议论文的扩展。
  • 设计了四种卷积神经网络模型,通过仅基于参考图像和当前图像生成比例速度信号,可以在不同的目标对象上执行视觉伺服。最简单的模型实现了最先进的定位误差,考虑到从零开始学习的控制器处理第一个看到的对象。
  • 在最终抓取系统中实现所有算法能够考虑不同照明变化的不同的和动态的目标物体。

Vision-based robotic grasping from object localization, object pose estimation to grasp estimation for parallel grippers: a review:

  • start---------------------------------------------------------------------------------------------------------------------------
  • 在这项工作中,目标物体定位和物体姿态估计是抓取检测阶段的子任务,通过深度学习进行处理,方法称为端到端抓取检测。目标定位和目标姿态估计是它们自己的文献中的问题,这里将不讨论,因此更强调抓取检测策略。
  • 抓取计划阶段分两步执行。首先作为一个视觉伺服控制器,以 reactively(反应性) 地适应对象姿势的变化。然后,作为机器人逆运动学的一个内部问题,除了与 singularities(奇点) 相关的限制外,机器人对物体的运动没有任何限制。因此,简要回顾了视觉伺服控制方面的工作,重点介绍了利用学习来综合控制器的工作。最后,介绍了在抓取任务中使用视觉伺服的工作,这里称为动态抓取。
  • end---------------------------------------------------------------------------------------------------------------------------

抓取检测:

  • 早期的抓取检测方法称为分析方法,依赖于被抓取物体的几何结构,在执行时间和力估计方面存在许多问题。此外,它们在许多方面都不同于来自数据驱动方法的方法。要全面回顾这些方法,可以阅读Bicchi和Kumar的工作:Robotic grasping and contact: A review
  • 在数据驱动方法的背景下,Jiang、Moseson和Saxena的Efficient grasping from rgbd images: Learning using a new rectangle representation中仅使用图像,从五个维度提出了机器人抓取器闭合前的位置和方向表示。此图中(x,y)是定向矩形的中心,w表示夹持器的开口和h表示其尺寸大小,也就是说,以蓝色显示的边表示机器人的夹持器。最后,还有表示夹钳方向的角度θ。
  • 该五维表示足以对抓取姿势的七维表示进行编码[16],因为假定图像平面的法线近似,因此三维方向仅由θ给出。算法设计所需的图像通过Cornell Grasping Dataset(康奈尔抓取数据集(CGD))[16]获得。该数据集由多幅家用物体图像及其各自的地面真实感捕捉矩形组成。Lenz、Lee和Saxena[9]是第一批在该数据集中测试算法并使用深度学习进行抓取检测的人之一。虽然他们没有获得相关的准确度,但这鼓励其他研究人员使用矩形表示法来研究抓取问题
  • Kumra和Kanan开发了两个基于ResNet[19]的并行工作模型。其中一个使用RGB输入进行训练,另一个从CGD接收深度数据。他们的结果的准确性超过了Redmon和Angelova[17]获得的结果,尽管联合网络的参数数量更多,但作者报告的预测时间为103 ms。基于更快的R-CNN[20],Chu、Xu和Vela提出了一个两阶段框架来解决抓取任务。在第一阶段,检测抓取点,在第二阶段,通过分类方法获得矩形的方向。从目标检测的角度来看,该网络是两级检测器,而单级检测器执行矩形的直接回归。因此,尽管作者在CGD中取得了良好的检测结果,但抓取检测运行速度仅为8fps
  • 受同一对象检测器网络的启发,Zhou等人[22]提出了一种新方法,即考虑矩形角度的变化,而不是其规模和大小。根据作者的说法,抓取矩形的定义在很大程度上依赖于其角度,这证明了他们的选择是正确的。他们在抓取检测精度方面取得了最先进的成果。另外,构建的网络是单级的,但预测速度与Chu、Xu和Vela相比,仅提高了0.2 fps[21]。Morrison、Corke和Leitner[23]介绍了一种生成型神经网络(GG-CNN),该网络检测输入图像所有像素的抓取和相关质量指数,因此可以使用完全卷积结构。作者使用CGD将矩形表示转换为抓取质量、角度和宽度的参数化图像,并将其用于训练。为了进行测试,在实际场景中对网络进行评估,预测速度为52,6 fps。然而,作者没有在CGD中介绍网络效率。
  • 按照同样的方法,Gu、Su和Bi[24]将CGD中的实例重新参数化为三幅代表地面真相把握的图像,并使用完全卷积结构(AGN)。他们在网络中引入了一种注意机制,使模型关注显著特征,从而在数据集中达到最先进的结果。然而,作者没有明确说明使用哪一组数据集来获得这一结果。此外,开发的网络比GG-CNN稍慢,并且没有进行实际测试。我们的工作重点是开发一种简单高效的CNN,用于预测抓取矩形。在训练和测试步骤中,所提出的网络足够轻,可以联合应用第二个CNN,解决视觉伺服控制任务。因此,整个系统可以在机器人应用中实时执行,而不会降低两项任务的精度。

视觉伺服控制:

  • 经典的视觉伺服 Classic Visual
    Servoing(VS)策略要求提取视觉特征作为control law(控制律)的输入。必须正确选择这些特征,因为控制的鲁棒性与此选择直接相关。然而,投影特征的使用需要对每个新系统进行手动工程,它避免了利用统计规律,使开发的VS系统更加灵活[25]。假设在远离预计工作点的区域执行VS时会出现明显的收敛和稳定性问题[26],经典VS技术主要处理控制器收敛和稳定性分析。

  • 根据投影特征,一些研究试图调查机器学习算法在VS中的适用性[27]。其他作者还试图使用多层感知器[28,29]或支持向量机自动进行交互矩阵估计[30].

  • 随着Deguchi开发的直接视觉伺服Direct Visual Servoing(DVS)[31],朝着独立于特征提取和跟踪的方向迈出了第一步。该技术已得到改进,因此可以更好地处理最小代价函数和收敛域中存在的非线性[32,33,34]。然而,尽管control law(控制律)是直接从像素强度获得的,但有关对象的信息仍然是必需的,并且图像处理算法的复杂性往往会影响它们的使用。

  • 为了创建一个既不使用投影特征也不使用物体的度量信息且对成像条件仍具有鲁棒性的控制系统,Silveira和Malis[33]开发了一种新的DVS模型。作者使用像素强度探索了与当前图像和所需图像相关的投影和几何参数,但是,由于获取这些参数的计算成本很高,因此系统存在初始化问题。在后来的工作[34]中,作者提出了三种优化方法,试图克服计算复杂性。然而,较简单的方法并没有很好的收敛性,通常需要系统的先验知识。此外,当在现实世界中进行评估时,这些算法只会以较小的增益收敛,而较简单的方法不会收敛。

  • 从这个意义上说,最新的VS技术探索了深度学习算法,以同时克服特征提取和跟踪、泛化、系统的先验知识以及在某些情况下处理时间等问题。Zhang等人开发了第一项工作,证明了在没有任何配置先验知识的情况下,从原始像素图像生成控制器的可能性[35]。作者使用深度Q网络,通过深度视觉运动策略控制机器人的3个关节,执行到达目标的任务。训练是在模拟中进行的,没有遇到真实的图像。然而,当摄像机图像被合成图像取代时,机器人被控制

  • 其他遵循强化学习方法的工作使用确定性策略梯度设计新的基于图像的VS[36]或模糊Q-学习,依靠特征提取[37],控制多转子空中机器人。在另一种方法中,一些研究视觉伺服深度学习的工作是通过卷积神经网络进行的。尽管强化学习(RL)似乎是解决该问题的最佳方法,但通过将关节角度和相机图像直接映射到关节力矩,CNN也可以进行训练以执行端到端视觉伺服。此外,CNNs实现的泛化能力优于RL,因为RL学习的参数特定于环境和任务[38]。

  • Saxena等人[38]开发了一种经过培训的CNN,可以在不同的环境中执行视觉伺服,而不需要了解场景的几何结构。为此,作者基于FlowNet体系结构[39],使用7场景数据集[40]训练了一个网络,该数据集具有通过相机变换顺序拍摄的多幅图像。因此,具有当前图像i和期望的图像Id,网络可以预测与相机姿势in和相机姿势in相关的齐次变换。作者在一架四旋翼直升机上进行了测试,在室内和室外环境中都取得了良好的效果。

  • Bateux等人[41]与前几位作者一样,开发了一种CNN,能够通过两幅图像预测摄像机中发生的变化。在所使用的体系结构、机器人操作以及主要使用的数据集方面存在一些本质的差异。该网络基于AlexNet和VGG[42]网络的精细调整,操作机器人为6自由度机械手。作者仅使用一幅图像开发了自己的数据集。从虚拟摄像机开始,就有可能生成数千张基于单应性的图像及其相关变换。

  • 在我们的工作中,设计了四种卷积神经网络模型作为端到端视觉伺服控制器的潜在候选。网络不使用参考图像和当前图像以外的任何类型的附加信息来回归控制信号。因此,所提出的网络作为事实上的控制器工作,预测速度信号,而不是相对姿态。
    动态抓取:

  • 学习感知行为的视觉表征[43],遵循反应范式,直接从感觉输入生成控制信号,无需高级推理[13],有助于动态抓取。因此,一些作者通过使用未校准的摄像机[44],在不了解系统的情况下计算视觉运动雅可比矩阵[45],或使用策略迭代和模仿学习技术[46,47],开发了专门用于到达和抓取任务的VS变体

  • 其中一项由Lampe和Riedmiller[13]开发的工作,使用强化学习来确定轨迹的4个结果,并知道机器人是否会到达最终位置,在该位置上闭合夹持器会导致成功抓取。此外,作者提出了一种基于当前视觉信息预测抓取成功的抓取成功预测方法,以避免多次尝试抓取。

  • 然而,由于它们适用于特定类型的对象,并且仍然依赖于某种先验知识,因此这些系统不具备完全的泛化能力。因此,最近,大量研究探索了将深度学习作为解决闭环抓取问题的方法。

  • 在这种情况下,Levine等人[48]提出了一种基于两个组件的抓取系统。第一部分是预测CNN,其接收图像和运动命令作为输入,并输出通过执行这样的命令,所产生的抓取将是令人满意的概率。第二个部分是视觉伺服功能。这将使用预测CNN来选择将持续控制机器人成功抓取的命令。分离组件之间的手眼协调系统,可以使用标准监督学习来训练抓取CNN,并设计使用网络预测的控制机制,从而优化抓取性能。由此产生的方法可以解释为深度强化学习的一种形式[48]。

  • 为了改进[48],Viereck等人[12]开发了一个基于CNN的系统,在模拟中使用深度图像学习视觉运动技能。学习控制器是一个计算到最近抓取距离的函数,以便它能够对对象位置和方向的变化作出反应。从模拟开始,在机器人末端执行器附近安装深度传感器,作者设法使算法适应现实世界,避免了Levine等人进行的两个月的训练经验[48]。然而,开发的CNN计算了与给定的抓取姿势相关的距离。该抓取姿势是使用Pas和Platt[49]开发的算法获得的,因此抓取检测中的错误会导致控制中的错误。

  • 受Viereck et al.[12]和Levine et al.[6]工作的启发,Wang et al.[50]开发了一种抓取质量CNN,该CNN利用单应性将这些动作与机器人执行时看到的图像联系起来。因此,从一个仅30K抓握试验的数据集(以自我监督的方式收集)中,作者不再需要概括不同的动作,并预测大量姿势中的抓握成功指标。

  • 莫里森、科克和莱特纳[51]开发了一种闭环抓取系统,在这种系统中,抓取检测和视觉伺服不是同时学习的。作者使用完全CNN获取抓取点,并应用基于位置的视觉伺服,使抓取器的姿势与预测的抓取姿势相匹配。

方法论:

  • 为了解决泛化问题,设计并训练了一种卷积神经网络用于大量目标的抓取检测。为了避免单次抓取和考虑工作空间的变化,设计了视觉控制器。此外,为了满足控制器中的泛化条件,使用能够端到端视觉伺服的CNN从头开始学习。算法的实时执行是有保证的,因为根据设计,开发的网络既轻又快。
  • VS的目的是通过将摄像机连续获得的图像与参考图像进行比较,引导操纵器到达机器人能够完全看到物体的位置,从而满足抓取检测条件。因此,该方法的应用涵盖了所有情况,其中机器人操作器(相机安装在手眼模式下)必须跟踪和抓取对象。
  • 该系统包括三个阶段:设计阶段、测试阶段和运行阶段。第一个是基于CNN架构的设计和培训,以及数据集的收集和处理。在第二阶段,使用验证集获得离线结果,并根据其准确性、速度和应用领域进行评估。第三阶段涉及在机器人上实施经过训练的网络,以评估其在实时和现实应用中的充分性。
  • 在运行阶段,系统运行的要求是事先获得目标对象的图像,该图像将被VS用作设定点。只要控制信号的L1范数大于某个阈值,则执行控制回路。操作阶段如图。
  • 单一参考图像作为视觉伺服CNN的输入之一呈现给系统。摄像机目前获取的图像作为该网络的第二个输入,并作为抓取CNN的输入。这两个网络都连续运行,因为抓取CNN实时预测矩形以进行监控,VS网络执行机器人姿势的实时控制。
  • VS CNN预测一个速度信号,该信号必须乘以比例增益λ,以应用于相机中。机器人的内部控制器执行所有必要的计算,以找到保证摄像机中预测速度的关节速度。在每次循环执行时,根据机器人的当前位置更新当前图像,只要控制信号不足以保证收敛,该循环就会重复。
  • 当满足停止条件时,抓取网络的预测映射到世界坐标。然后,机器人执行逆运动学以达到预测点并关闭夹持器。由于没有考虑深度信息,并且映射到世界坐标不允许找到深度信息,因此默认情况下,机器人接近物体的高度为Z=23cm。以下各节介绍了拟议系统所有阶段使用的方法。所有网络插图均使用开放式软件PlotNeuralNet[52]设计

抓取网络体系结构:

  • 图所示的卷积网络架构被提出用于抓取检测。网络接收224×224×3的图像作为输入,其中第三维是指通道数,即。输入为RGB图像,没有任何深度信息。第一层由32个尺寸为3×3的卷积滤波器组成,第二层包含164个卷积滤波器。在这两种情况下,卷积运算都是通过步长2和零填充执行的,然后是批标准化和2×2最大池化。第三层包含96个卷积滤波器,其中卷积使用步长1和零填充执行,然后仅执行批标准化。第四个也是最后一个卷积层由128个滤波器组成,这些滤波器以步长1执行,然后是2×2最大池化。最后一层卷积之后,生成的特征映射在包含4608个元素的一维向量中被展平。该载体进一步传递到两个完全连接(FC)层,每个层有256个神经元。在这些层次之间,训练期间考虑50%的dropout rate 。

  • 最后,输出层由5个神经元组成,对应于编码抓取矩形的(x,y,w,h,θ)值。在所有层中,使用的激活函数都是ReLU,但在输出层中使用线性函数的情况除外。实现的网络明显小于文献中描述的用于解决抓取问题的其他网络,具有1548569个可训练参数。

Cornell Grasping Dataset:

  • 为了继续抓取网络训练,使用Cornell抓取数据集[16]。它由一组885幅图像和240个常见家用物体的相关点云组成,这些物体可能会被个人机器人发现。这些物体具有适当的尺寸和形状,可由配备有平行夹具的机械臂抓取,能够张开4英寸。这些数据集特征不仅可以应用于家庭,也可以应用于真实工作中,如相关工作所示。
  • 为了获得数据,使用了安装在机器人末端执行器中的Kinect传感器。在数据采集过程中,选择了机器人的位置,以便机械手能够从垂直于图像平面的路径抓取对象。为了对数据集GroundTruth进行编码,使用四个顶点的x和y坐标编译抓取矩形。
  • 根据Jiang、Moseson和Saxena[16]中的方法,基于顶点,获得了五个表示参数。图,等式1,等式2,等式3显示了如何将数据集重新参数化为(x、y、w、h、θ)。
  • 其中:xc和yc参数分别表示矩形中心点的X和Y坐标由公式1得;夹持器开口w和高度h根据顶点计算如公式2所示;最后,表示夹持器相对于水平轴的方向的θ由公式3给出.

数据增强:

  • 数据增强 Data
    Augmentation(DA)[53]是一种人为增加训练数据以提高网络学习能力的策略。如果网络中可用数据量和可训练参数量之间的关系太小,则此技术尤为重要。应用的方法不同于DA中通常使用的传统平移和旋转。假设大量的变换图像(每个图像都有大量的视觉线索)可以帮助网络的学习过程,我们使用320×320的裁剪窗口在图像中滑动,确保感兴趣的对象始终在裁剪区域中。图表现了该策略。

  • 为了裁剪图像而不使对象的一部分超出表示,需要考虑标记的抓取矩形的值。因此,窗口的x和y位移分别受到相关抓取矩形的最小x和y坐标的限制。根据裁剪窗口的位置,还对原始正确(ground truth)矩形进行了适当的调整,以作为新数据集实例的标签。应用DA生成的新数据集比原始数据集大335倍以上:仅从885张图像获得297338个训练实例。

训练和评价:

  • 预测矩形(rp)和正确矩形(rc)之间的角度θ差必须在30度以内;预测矩形相对于正确矩形的索引必须大于0.25根据以下公式,该索引表示矩形之间的重叠百分比
  • 如果网络预测满足与对象相关联的一个或多个标记矩形的这两个条件,则认为该预测是正确的。请注意,标签和预测(0.25)之间的重叠不如其他计算机视觉问题(0.5)中的严格,因为标签矩形仅代表与对象相关的所有可能抓取矩形的一小部分。此外,Redmon和Angelova[17]声称0.25通常足以成功抓取。

视觉伺服网络体系结构:

  • 与抓取不同,设计用于执行机械手视觉伺服控制的网络接收两个图像作为输入,并且必须回归六个值,考虑到线性和角度相机速度,这些值也可以分为两个输出。为此,设计了3种网络体系结构。由于两个模型是从其中一个体系结构创建的,因此总共提供了4个模型来处理VS任务
  • 然而,所有的网络都是由抓取网络非常简单的结构生成的。因此,每个卷积层中考虑的滤波器和操作的数量、FC层的数量和相应的神经元数量以及退出率与抓取网络相似,并且与所有开发的模型相同。所有网络接收两个640×360×3格式的图像输入,输出6维速度矢量,无需任何中间步骤。
  • VS任务的第一个模型称为模型1-直接回归,如图所示。它基本上与抓取网络相同,除了在第三卷积层中包含maxpooling和不同的输入维度,这导致特征图上的比例差异相同。输入简单地连接在一起,网络中的数据流总是在前面,没有任何特征地图的关联或划分。模型1只有1549690个可训练参数。
  • 第二个模型称为模型2-任务特定回归,如 图所示。网络输入被串联,第三组特征图由两个独立的层序列处理。因此,网络以两个3D矢量的形式预测6D速度矢量。具体来说,该结构由一个共享编码器和两个特定解码器组成-一个用于线速度,另一个用于角速度。模型2有2906106个可训练参数。
  • 因此,网络可以了解每个领域的特殊性,同时其相似性有助于泛化。这种结构被称为多任务网络,如Kendall等人[55]所述,通过使用归纳知识转移,一项任务的线索可用于规范化和改进另一项任务的泛化。其目的是评估速度控制问题在线性和角速度控制两个特定任务中的分离如何影响网络精度。
  • 第三个和第四个模型,称为模型3-串联特征的直接回归和模型4-相关特征的直接回归,是使用图所示的体系结构创建的。这种结构有两个编码器和一个解码器,这使得在关联每个图像之前可以获得它们的高级表示。考虑了两种不同的关联运算符(∑):定义模型3的简单连接和定义模型4的Dosovitskiy等人[39]工作中使用的相关层。
  • 模型3简单地考虑了由第三个卷积层产生的特征映射的连接,因此第四个层的输入深度是原来的两倍。另一方面,模型4有一个相关层,帮助网络找到每个图像的特征表示之间的对应关系。原始相关层是光流网络FlowNet的结构单元[39]。模型3和4分别具有1850286和1533358个可训练参数。

视觉伺服数据集:

  • 为了训练能够在不同目标对象上执行视觉伺服的模型,而不需要设计特征,需要有一个数据集,该数据集能够有效地捕获机器人操作环境的属性,能够代表VS任务,并且具有足够的多样性,以确保泛化。为此,数据由Kinova Gen3机器人以一种近似于自监督方法的方式收集。人工干预与工作空间的装配和机器人的设置相关,包括确定参考姿势,机器人从中捕获图像并标记它们
  • 该机器人被编程为以参考姿态为中心的高斯分布的不同姿态,具有不同的标准偏差。这种方法的灵感来源于Bateux等人[41]的工作,他们也做了同样的工作,但使用虚拟摄像机和单应矩阵代替真实环境。机器人假设的参考姿势(分布平均值)和标准偏差集Standard Deviations(SD)如表所示
  • SD选择考虑了机器人在VS期间必须执行的预期位移值。从高SD获得的图像有助于网络了解机器人产生大位移时图像空间中产生的变化。当参考图像和当前图像非常接近时,从低SD获得的实例能够减少参考图像和当前图像之间的误差,从而在稳态下获得良好的精度。平均SD值有助于网络在大部分VS执行期间进行推理。图9中示出了两个数据集实例示例及其各自的标签。
  • 关于对象的选择及其在构建数据集的工作空间中的分布,考虑了两个因素。一方面,网络必须学习使参考图像与当前图像关联成为可能的特征,因此,数据集图像中的视觉线索数量越多,网络的学习能力越好。因此,一些场景包含大量具有不同结构的对象,这些对象分散在桌子上(如图9所示)。另一方面,构建一些场景,以便网络学习将应用它的任务,即抓取。然而,桌上只放置一个对象,因此可用的视觉信息很少,但可以获得任务的良好表示。
  • 除了单个和多个对象外,还考虑了其他两种类型的场景。具有反射表面的框架地图,使网络对捕获图像中的扭曲具有鲁棒性;以及一套书籍,使网络学习平面对象中的相关特征。在数据集生成过程中考虑了亮度变化,因为它是在一天中的不同时间捕获的,而不考虑保持亮度恒定。此外,还考虑了图像随机区域中的阴影,因为环境不受控制,并且容易受到人的间歇性移动的影响。对获得的图像执行的唯一后处理是排除不包含对象任何部分的图像。表3详细显示了数据集的组成。

结果和讨论:

本节介绍使用开发的算法获得的所有结果,并以两种不同的方式对其进行分析;(a) 考虑到抓取检测和视觉伺服的任务,以及(b)在动态抓取系统中的联合应用

抓取检测(离线):

  • 开发的抓取检测算法的视觉结果如图10所示。可以注意到网络预测与对象形状一致的抓取矩形的能力,即使它需要一个小的抓取口或从几个抓取点选项中进行选择。
  • 考虑到投影网络的轻量级架构(4个卷积层和2个FC层),可以说它相当高效。与采用更复杂结构的最新方法相比,我们提出的网络具有更低的计算成本(以较高的预测速度表示),可以获得类似或更好的结果。此外,许多列出的作品还使用RGB图像之外的深度信息或替换其中一个颜色通道,使得它们的应用在无法获得此类信息的情况下变得不灵活。
  • 我们的网络预测时间比Park和Chun[63]的工作报告的预测时间快了约10毫秒,将康奈尔大学数据集的最新预测时间从23毫秒更新到13毫秒。5毫秒。考虑到表4中的许多工作使用比我们更强大的GPU,预测速度主要来自所开发架构的简单性。此外,采用了稳健的数据扩充策略,对精度的影响较小。这种高预测速度使我们能够在实时机器人系统中使用网络,使它们能够对环境和目标物体位置的变化作出反应。
  • 模型2是导致视觉伺服任务中最佳离线结果的模型,表明线性速度和角速度之间的分离以及多任务学习可以提高性能。另一方面,模型4的性能最差,这表明为光流任务设计的相关层不会为视觉伺服任务产生显著的特征。离线结果仅指预测速度和标记速度之间的差异。
  • 在整个过程中读取机器人的姿势,并在图中以图形方式显示。11和12。最佳场景由模型2预测的应用表示(图11b和12b)。必须指出的是,根据选择的λ,这些结果可能不同,这会干扰收敛时间和机器人的最终定位。然而,由于所有模型的实验条件相同,因此可以对效率进行比较分析。型号1的最大定位误差为in z,与预期误差相差21毫米。模型2中最大的误差也是inz,只有9mm。模型3的误差为16毫米英寸。模型4虽然在所有型号中均方误差最大,但其定位误差最小,为8mm,in z。这可能表明,尽管通常模型4预测的值与预期值的距离更大,但它们是成比例的,这在视觉伺服中起着基础性作用。关于方向,控制的收敛发生在直线改变坡度时。从那一点开始的运动就是噪音,如果有反馈,噪音就会被抑制。在这个验证实例中,机器人必须产生的角位移并不显著,但它仍然表明,网络,尤其是模型2,可以在所有方向上达到小于1度的精度。无花果。11和12清楚地显示了网络对于视觉伺服任务的适应性,因为它们显示了机器人实现的最终姿势与所需姿势之间的差异。然而,当网络被用作实际控制器时,这些图形不能准确地表达机器人的行为,以闭环方式,通过视觉反馈。此外,尽管它们演示了对训练中未看到的图像元组的泛化,但它们并没有演示对未看到的对象的泛化

抓取检测(在线):

  • 抓取检测结果以视觉方式呈现,显示机器人为不同对象获取的图像中预测的抓取矩形。一旦矩形被正确预测,抓取就可以在考虑2D的情况下执行→3D贴图,使用相机的内在和外在参数以及夹具的固定深度。网络应用场景与康奈尔数据集中的场景大不相同,这主要是由于对象不同,但也由于亮度的显著差异。
  • 模型2在离线阶段获得最小均方误差,以相对较高的定位误差结束控制,然而,它是一个在inz中收敛更好的模型。关于方向,可以注意到,这是导致期望角度更快稳定的模型,这可归因于线性和角度控制信号之间的网络输出分离。
  • 模型3很好地收敛于x和y,但最终误差在z,而模型4,被认为是模型3的更好版本,只在y收敛得很好。但是,由模型4生成的控制信号的行为(如图18所示)最接近默认控制器,其中速度很快趋于零,此后不再振荡。另一方面,模型3会产生一个非常嘈杂的控制信号,这会影响机器人的轨迹。

总结:

  • 在这项工作中,我们利用深度学习解决了抓取检测和视觉伺服的问题,并将它们结合起来作为抓取动态对象的方法。
  • 采用卷积神经网络,仅利用RGB信息获取并联抓取机器人抓取物体的位置。为了使用具有少量参数的简单网络,创新性地采用了数据增强技术,允许从数据集图像中提取尽可能多的视觉信息。因此,经过训练的网络可以预测抓取矩形,其速度超过康奈尔抓取数据集中最先进的速度,而不会严重影响准确性。训练后的网络也会在机器人上进行评估,并配有自己的摄像头,以测试其对训练中看不到的不同对象的泛化能力。视觉结果表明,该网络对真实世界的噪声具有鲁棒性,并且能够检测不同形状、颜色、不同方向的物体上的抓取,并经受相当大的照明变化。
  • 设计了四种卷积神经网络模型作为端到端视觉伺服控制器的候选模型。网络不使用参考图像和当前图像以外的任何类型的附加信息来回归控制信号。这些网络在离线和机器人上进行了测试,以评估其在现实世界和实时场景中的适用性。考虑到第一次看到的目标物体,最简单的模型能够在最终位置达到毫米精度。就我们所知,我们在文献中还没有发现其他能够通过从头学习的控制器达到如此精度的作品
  • 最后,在每个任务中获得最佳结果的训练网络被嵌入到最终的系统中,用于抓取动态对象。在不同的场景中,所有Priori网络未知,机器人能够使用实时视觉伺服CNN将目标物体保持在摄像机的视野中。当机器人意识到它离所需位置足够近时,抓取网络的预测(也是实时获得的)被映射到世界坐标,并且机器人接近目标执行抓取。
  • 现阶段的系统在抓取过程中没有考虑深度信息。在未来的工作中,目的是在作战阶段使用红外传感器的信息,仅使用RGB维持训练,因为这被视为一种优势。其他考虑的调整涉及控制增益的确定、抓取网络的自适应以预测多个矩形、使用机器人以自我监督的方式获取抓取数据集以及使视觉伺服数据集公开可用。
  • 经过训练的算法并不是为了超越那些根据先验知识建模的算法,而是为了使它们能够应用于系统知识有限或无法获得的情况。为此,可以得出结论,所开发的方法具有较高的适用性,因为它具有较高的泛化能力、简单性、速度和准确性。

你可能感兴趣的:(基于视觉的机械臂抓取学习,深度学习,人工智能)