机械臂识别抓取笔记(真实世界多目标、多抓取检测)

Real-world Multi-object, Multi-grasp Detection

(真实世界多目标、多抓取检测)

感悟:

抓取预测分为: 检测位置和方向分类(方向和)两个方面;
方法核心: 通过利用神经网络进行边界框(bounding box)回归的能力,避免了耗时的滑动窗口方法,从而直接预测完整图像上的候选区域。

网络结构:

在这里插入图片描述

  • 上图是多目标多抓取预测器的完整结构。该网络接受RGB-D输入,并为视图中的每个对象预测具有方向和矩形边框的多个抓取候选对象。蓝色块表示网络层,灰色块表示图像特征图。绿色方框显示两个损失函数。
  • 抓取方案网络在ResNet-50的中间特征图锚上滑动,每个锚预测k=3×3个锚。输出边界框的黑线表示两指夹持器的打开长度,而红线表示夹持器的平行板。

1. 抓取预测:

机械臂识别抓取笔记(真实世界多目标、多抓取检测)_第1张图片

  • L gp_cls是抓取方向分类的交叉熵损失(gp_cls);Lgp_reg和权重λ是抓取建议的l1回归损失(gp_reg);pi= 0定义为无抓取;可以抓取时pi= 1;ti参数是抓取真值(ground truth)协调相应的pi

TIP:

  • 与RCNN中广泛应用的选择性搜索相比,RPN从输入端到端学习目标建议,而无需事先生成感兴趣的区域。后一种简化的方法更适用于实时机器人应用。

2. 以抓取方向为分类:

机械臂识别抓取笔记(真实世界多目标、多抓取检测)_第2张图片

其他研究:

  • 对于RGB-D输入图像,许多之前的方法回归到表示为{x, y, w, h,θ}的单一5维抓取,对于RGB-D输入图像。预测SE(2)(平面姿势)或S1(方向)的涉及预测非欧几里德(非凸)空间中的坐标,其中回归及其标准L2损失可能无法很好地执行。

本文研究:

  • 我们的多抓取定位管道将抓取表示方向坐标θ量化为规定的长度间隔(每个间隔由其质心表示),而不是执行回归,并将输入/输出映射作为抓取方向的分类任务。
  • 我们添加了一个非抓取方向类,与方向分类器比较,如果没有一个方向分类器输出的分数高于非抓取方向类,则抓取建议被视为不正确(该方向无法抓取)。
  • 非抓取类的价值在于,它是最终算法的下游多对象、多抓取组件所必需的。
  • 类的总数是|C|=R+ 1,由{(li, θi)}Ii=1表示,其中第i个抓取配置的分类标签li∈1, …, R 与角度θi有关
  • 对于没有可能抓取方向的情况(即,区域不可抓取),输出标签为l=0,并且没有相关的方向,本文采用R=19。

3. 多抓取检测:

  • 在深度网络的区域建议阶段之后,最后一阶段确定候选抓取配置。最后一个阶段将前一阶段的预测区域建议分类为抓取配置参数θ的区域。
  • 为了有效地处理区域预测,我们将ROI池化层集成到ResNet-50中,以便它可以共享ResNet的卷积层。与以前的图层共享特征图可避免在感兴趣区域内重新计算特征。ROI池化层处理已识别抓取方向的所有特征,然后将这些特征反馈给两个兄弟完全连接的层,用于方向参数分类和边界框回归(x、y、w、h)。ROI池层从ResNet-50的中间卷积层(层40)接收其输入。
  • 让ρl记录softmax层(归一化指数函数层)之后分类的概率,βl记录相应的预测抓取边界框。将抓取配置预测(gcr)的损失函数定义为:
    机械臂识别抓取笔记(真实世界多目标、多抓取检测)_第3张图片
  • 式中,lgcr_cls是抓取角度分类(gcr_cls)的交叉熵损失,lgcr_reg是权重为λ2和β的抓取边界框(gcr_reg)的回归损失βc真值( ground truth)抓取边界框。
  • 在改进的ResNet-50模型下,抓取检测和抓取参数估计的端到端训练采用了总损失: Ltotal=Lgpn+Lgcr
  • 改进系统在ROI层生成抓取建议,使用共享功能堆叠所有ROI,两个兄弟层的附加神经元输出抓取边界框和方向,或拒绝建议。

你可能感兴趣的:(基于视觉的机械臂抓取学习,计算机视觉,机器学习,深度学习)