机械臂识别抓取笔记(深抓取:用深神经网络检测和定位抓取)

Antipodal Robotic Grasping using Generative Residual Convolutional Neural Network

(基于生成残差卷积神经网络的机器人逆抓取)

文章概况:

  • 提出了一个模块化的机器人系统,用于预测、规划和执行场景中物体的反足抓取。
  • 提出了一种生成剩余卷积神经网络(GR - ConvNet),该网络为n通道输入图像中的每个像素生成反模式抓取。
  • 其他机器人抓取,抓取框被预测为通过从多个抓取概率中选择最佳抓取来计算的抓取矩形,本文的网络生成三幅图像,从中可以推断多个对象的抓取矩形。此外,可以从GR - ConvNet的输出一次推断多个对象的多个抓取矩形,从而减少总体计算时间
  • 建议系统由两个主要模块组成:推理模块和控制模块。
  • 推理模块: 从RGB-D相机获取场景的RGB和对齐深度图像。图像经过预处理以匹配GR - ConvNet的输入格式。该网络生成质量、角度和宽度图像,然后用于推断反抓取位姿。
  • 控制模块: 由任务控制器组成,该任务控制器使用推理模块生成的抓取姿势准备并执行抓取和放置任务的规划。它使用轨迹规划器和控制器,通过ROS接口将所需动作传达给机器人。

机械臂识别抓取笔记(深抓取:用深神经网络检测和定位抓取)_第1张图片

变量描述

  • 将机器人框架中的抓取姿势表示为:
    Gr= (p,Θr,Wr,Q) (1)
  • p= (x,y,z) 是翻转物品的中心点;Θr 是物品绕z轴旋转角度;Wr 是物品所需的宽度;Q 是抓取置信度
  • 从n通道图像中检测抓取 I=Rn×h×w,高h,宽w被定义为:
    Gi= (x,y,Θi,Wi,Q) (2)
  • (x,y) 对应于图像坐标中的抓取中心;Θi 为相机参考系中的旋转角度;Wi 是图像坐标中所需的宽度;Q 是抓取置信度
  • Q 的值为0,1之间的小数,置信度越大,抓取成功几率越高
  • Θi 表示抓取感兴趣对象所需的每个点的角旋转量的反测量值,并表示为[−π/2,π/2]范围内的值
  • Wi 是所需的宽度,表示为均匀深度的度量,并表示为 [0,Wmax] 范围的像素值。Wmax 是反抓取器的最大宽度。
  • 为了在机器人的图像空间中执行抓取,我们可以应用以下变换将图像坐标转换为机器人的参考框架:
    Gr=Trc(Tci(Gi)) (3)
  • Tci 是一种转换,使用摄影机的固有参数将图像空间转换为摄影机的三维空间
  • Trc 使用摄影机姿势校准值将摄影机空间转换为机器人空间。
  • 对于图像中的多个抓取,可以缩放此符号。将所有抓取的集合组表示为:
    G= (Θ,W,Q)∈R3×h×w (4)
    Θ,W,Q抓取角度、抓取宽度、抓取置信度 的形式表示三幅图像,分别在图像的每个像素处使用公式(2)计算

推理模块

推理模块由三部分组成。

  • 首先: 对输入数据进行预处理,对其进行裁剪、调整大小和规范化。如果输入具有深度图像,则对其进行修复以获得深度表示。
  • 注: 224×224 处理后的n通道输入图像被送入GR - ConvNet 。n通道输入,不限于特定类型的输入模态,例如仅深度或仅RGB图像作为输入图像。因此,将其推广到任何类型的输入模态。
  • 第二步: 使用GR - ConvNet从预处理图像中提取的特征生成抓取角度、抓取宽度和抓取质量分数三种图像作为输出。
  • 第三步: 从三个输出图像推断抓取姿势。

控制模块

控制模块主要包含一个任务控制器,执行抓取、放置、校准等任务。

  • 控制器
  • 首先: 从推理模块请求抓取姿势,推理模块返回具有最高置信度的抓取姿势。
  • 然后: 通过手眼标定,校准计算的变换,将抓取姿势从摄像机坐标转换为机器人坐标。
  • 此外: 机器人框架中的抓取姿势用于规划轨迹,以通过ROS接口使用逆运动学执行拾取和放置动作。
  • 最后: 机器人执行计划的轨迹。由于该模块化方法和ROS集成,该系统可适用于任何机械臂。

模型架构

  • 建议的GR - ConvNet模型,它是一种生成架构,接收n通道输入图像并以三幅图像的形式生成像素级抓取。
    机械臂识别抓取笔记(深抓取:用深神经网络检测和定位抓取)_第2张图片

  • 首先,n通道图像通过三个卷积层(提取特征)
    机械臂识别抓取笔记(深抓取:用深神经网络检测和定位抓取)_第3张图片

  • 然后是两个残差层(resnet)(为防止网络深度过深导致的梯度爆炸等问题,采用该层有条件的跳过一些层)
    机械臂识别抓取笔记(深抓取:用深神经网络检测和定位抓取)_第4张图片

  • 三个卷积转置层
    机械臂识别抓取笔记(深抓取:用深神经网络检测和定位抓取)_第5张图片

  • 最终生成四个图像。这些输出图像
    由抓取置信度、通过cos 2Θ 和 sin 2Θ获得的抓取角度 以及抓取所需宽度组成末端执行器。
    机械臂识别抓取笔记(深抓取:用深神经网络检测和定位抓取)_第6张图片

  • 注: 由于逆抓取在±π/2附近是一样的,因此我们以两个元素cos 2Θ和sin 2Θ的形式提取角度,这两个元素输出不同的值,组合起来形成抓取所需的角度。
    :-------------------------------------------------------------------------------------:

    • 注: 在将图像通过这些卷积和残差层后,图像的大小减小到56×56,为了在卷积运算后更容易解释和保留图像的空间特征,使用卷积转置运算对图像进行上采样。因此,在输出端获得与输入端相同的图像大小。

训练方法

  • 对于物品D={D1…Dn} 的数据集,输入背景图I={I1…In},成功抓取图像框Gi={g11…g1m1…g21…gnmn};通过最小化以输入背景图为条件的 Gi 的负对数似然,可以端到端的训练图像特征γ(I,D) =Gi;表示为:
    在这里插入图片描述
  • 使用Adam优化器和标准反向传播和小批量SGD技术对模型进行训练。学习率设置为10−3使用的 mini-batch大小为8。我们使用三个随机种子训练模型,并报告三个种子的平均值。

损失函数

  • 分析了网络的各种损耗函数的性能,在运行了一些试验后发现,为了处理梯度爆炸问题,smooth L1 loss(也称为Huber loss)效果最好。损失定义为:
    在这里插入图片描述zi表示为:

在这里插入图片描述

  • Gi是网络生产的抓取;Gi帽是抓取的真值

你可能感兴趣的:(深度学习,神经网络,机器学习)