Lightweight Convolutional Neural Network with Gaussian-based Grasping Representation for Robotic Grasping Detection

(基于高斯抓取表示的轻量级卷积神经网络用于机器人抓取检测)

1 文章概况：

文章利用2-D Guassian核对训练样本进行编码，以强调中心点位置具有最高的抓取置信度得分。
在基于Guassian的抓取表示的基础上，开发了一种轻量级的机器人抓取姿态估计生成体系结构。
参考人类视觉系统中的感受野结构，在bottleneck层结合了残差块和感受野块模块，以增强特征识别性和鲁棒性。
为了减少采样过程中的信息丢失，在解码过程中融合了低层特征和深度特征，并在融合过程中使用由像素注意网络和通道注意网络组成的多维注意网络来抑制冗余特征和突出有意义的特征。

2 其他抓取方法

对于二维平面机器人抓取，抓取约束在一个方向上，方法可分为基于方向矩形的抓取表示方法和基于接触点的抓取表示方法。

2.1基于有向矩形的抓取表示方法

基于面向矩形抓取配置，深度学习方法可以成功应用于抓取检测任务，主要包括基于分类的方法、基于回归的方法和基于检测的方法。

2.1.1 基于分类的方法：

将夹持器框与抓取角度分为不同类别进行分类预测
可以使用两个深度网络的两步级联结构，通过采样抓取位置和相邻图像块来估计抓取建议；通过将角度分为18个抓取角度来预测抓取方向。

2.1.2 基于回归的方法：

通过训练模型直接预测位置和方向的抓取参数。

2.1.3 基于检测的方法：

许多基于检测的方法都参考了目标检测的一些关键思想，例如锚定框。基于这些锚框的先验知识，简化了抓取参数的回归问题。

2.2基于接触点的抓取表示方法

基于有向矩形的抓取表示在机器人抓取检测任务中有着广泛的应用。但，就实际的板材抓取任务而言，抓取器不需要太多的信息来执行抓取动作。
因此提出一种新的简化的基于接触点的抓取表示法，它由抓取质量、中心点、方向角和抓取宽度组成。

3 基于高斯的抓取系统原理

机器人抓取系统通常由机器人手臂、感知传感器、抓取物体和工作空间组成。为了成功地完成抓取任务，不仅需要获取物体的抓取姿态，还需要规划和控制子系统。
- 在抓取检测部分，考虑将机械手限制到工作空间的法线方向，从而使其成为2D空间中的感知目标。
- 矩形框是目标检测中常用的方法，但它不适合抓取检测任务。由于夹持器的尺寸通常是一个已知变量，因此有一种简化表示法，用于高精度实时机器人抓取。三维姿势的新抓取表示定义为：
  g={p, ?, w, q}
- 笛卡尔坐标系（直角坐标系和斜坐标系的统称）中的中心点位置为p=（x，y，z）。
- ? 和 w 分别测量夹具围绕轴的旋转角度以及夹具的打开和关闭距离。
- q作为衡量抓取成功概率的尺度。（置信度）
- 二维空间中新抓取表示的定义可以描述为：
- p帽 = (u, v) 表示图像坐标中的中心点；? 帽 代表相机坐标系中的方向；w帽和q帽仍然分别表示抓取器的打开和关闭距离以及抓取置信度。
- 当我们知道抓取系统的校准结果时，抓取姿态g帽可以通过矩阵运算转换到世界坐标系g：
- T_RC和T_CI分别将相机坐标系的变换矩阵表示到世界坐标系，将二维图像空间表示在相机坐标系下。
- 图像空间中的抓取映射表示为：
  G={Φ, W, Q} ∈R^3×W×H
- 其中，抓取特征图中的每个像素 Φ，W，Q 用相应的 ν帽，W帽，Q帽 值填充。（这样，可以确保通过搜索最大抓取置信度的像素值，可以找到后续推理过程中的中心点坐标）
作者在中心点周围的矩形区域填充1表示最高抓取置信度，其他像素为0
利用该方法训练模型，学习中心点的最大抓取置信度
由于矩形区域中的所有像素都具有最佳抓取质量，因此会导致中心点的重要性未突出显示的缺陷，从而导致模型的模糊性。在这项工作中，我们使用二维高斯核来正则化抓取表示，以指示对象中心可能存在的位置。
（a）二维高斯函数展开后抓取质量权重分布示意图，以及（b）抓取表示示意图。
一种新的基于高斯分布的小波变换抓取表示为G_K，相应的基于高斯的抓取映射定义为：
G_K={Φ, W, Q_K} ∈R^3×W×H

σ_x=T_x, σ_y=T_y
生成的抓取质量图由中心点位置**（x0，y0）、参数σx和σy**以及相应的比例因子T_x和T_y决定。该方法以高斯分布的峰值为抓取矩形的中心坐标。

4 抓取检测模型的结构

在这里插入图片描述

通过下采样块将输入数据转换成尺寸更小、通道更多、语义信息更丰富的特征图。
在bottleneck部分(瓶颈层)，将resnet块和多尺度感受野阻滞模块相结合，提取出更具可分辨性和鲁棒性的特征。
感受野阻滞模块
同时，利用像素注意子网络和通道注意子网络组成的多维注意融合网络，在上采样前融合浅层和深层语义特征，同时在融合过程中抑制冗余特征，增强有意义特征。

在这里插入图片描述

在上采样块中，pixshuffle层用于在比例因子设置为2的情况下提高特征分辨率。在这项工作中，多维注意融合网络和上采样块的数量都是2，并且输出可以表示为等式9。
多维注意力融合网络：顶部分支是像素级注意子网络，底部分支是通道级注意子网络。
最后，基于提取的特征，添加四个特定于任务的子网络，分别预测抓取置信度、角度（sin（2θ）和cos（2θ）的形式）和宽度（抓取器的打开和关闭距离）。