基于多层级网络的像素级抓取姿态估计

发布日期:2023年1月18日
基于多层级网络的像素级抓取姿态估计 基于多层级网络的像素级抓取姿态估计

本内容试读结束

下载后可阅读完整内容,立即下载

为了解决在杂乱场景下从单视角图像中准确估计抓取位姿的问题,本文提出基于多层级特征的像素级端到端抓取检测网络。我们在全卷积神经网络中集成了多层级金字塔池化模块和多分支输出结构形成高精度抓取位姿检测网络,从而有效处理尺寸和位姿各异的未知物体在杂乱场景下的抓取问题。实验表明,我们的方法在Cornell抓取数据集上的理论抓取精度相比现有方法有明显提升;同时,在机械臂实物抓取实验上,我们的方法在多物体杂乱场景中以88.0%的平均抓取成功率实现了100%的抓取完成率。

抓取一个物体对于人来说很直观和简单,但是要驱动机器人自主完成一次抓取作业的首要任务是通过视觉信息推断出其抓取位姿。通过机器视觉技术估计抓取位姿的意义在于其能够引导机器人对物体进行精准的操作,主要的应用场景有居家服务机器人和工业自动化机器人。一般来说,机械臂的抓取位姿包含六个维度的信息——末端的三维平移量和三维旋转量。其中三维平移量代表抓取点位置在三维空间中的三维坐标,三维旋转量则表示了机械臂在执行抓取动作时末端的姿态。

因为SE(3)巨大的搜索空间导致的困难,所以一般会在抓取位姿中添加约束条件,从而简化问题,比如在二维平面上表示抓取位姿[1] [2]。

最常用的抓取位姿表达形式是有向抓取矩形框, 这种表示方法包含用来代表抓取点的矩形框中心点、矩形框的宽度、矩形框的高度以及矩形框旋转角度。Kumra 等人[3]沿用了2D 物体检测的思路对抓取位姿进行检测。但是实际的抓取场景中可能存在多个物体,并且物体之间可能存在相互遮挡,此时针对某个单一物体的抓取矩形框就可能会包含其它干扰物体,使得检测结果不准确,这就导致了此方法不能很好地处理多物体的抓取场景。并且基于抓取矩形框的检测算法通常是二阶段算法,这就意味着此类算法需要先在图像上生成大量的抓取候选框,然后再通过神经网络等方法对抓取候选框进行筛选得到目标的抓取位姿。尽管二阶段方法能够进行更细化的处理,但是其计算开销大依然限制了此类算法在实际场景的应用。

除了有向抓取矩形框表示法以外,研究人员们参考了语义分割的解决思路,在输入图像的每个像素点上都预测一个抓取位姿。

Morrison 等人[4] [5]提出了生成式的抓取位姿估计策略, 对每个像素位置都生成抓取位姿。受到残差卷积网络结构的启发,Kumra 等人[6]使用RGB-D 图像信息作为输入,提出了生成式残差卷积网络解耦抓取角度,以此来完成实时抓取检测。然而对于弱纹理物体或者是杂乱场景中的物体,这些方法计算的抓取位姿鲁棒性不足,对新物体的表征学习能力不强,无法适应未知物体的抓取检测。

针对上述问题, 本文提出一种基于多层级特征的像素级端到端抓取检测网络, 该方法使用RGB 或者深度图作为输入,预测像素级抓取位置图、抓取角度图和抓取宽度图。本文方法遵循编码–解码结构, 通过插入多层级金字塔池化模块,可以从有限的训练数据集中学习到更有效的特征,从而可以解决未知物体在杂乱场景下的抓取检测问题。本文的主要工作如下有:1) 提出一个端到端的神经网络结构,通过在神经网络中集成多层级金字塔池化模块,形成高精度的抓取位姿检测网络;2) 在公开的Cornell 抓取数据集上对本文提出的网络进行训练和验证,效果和正确率超过了现有的抓取检测方法;3) 将本文提出



相关标签