基于深度学习的旋翼无人机机械臂抓取
摘要:随着空中机器人技术的快速发展与日益成熟,无人机在越来越多的领域得到了广泛的应用。而多旋翼无人机作为最常用的无人机之一,以其体积小、运动灵活、定点悬停等优势广泛应用于侦查、巡航、航拍等领域,但这些应用主要是对环境的感知,无法主动对环境施加操作,大大限制了四旋翼无人机的应用范围。为解决该问题,在四旋翼无人机上加装主动作业装置,形成旋翼飞行机械臂,以提升四旋翼无人机的主动作业能力,具有重要的工程价值和科学意义。而基于深度学习来实现旋翼无人机自主目标检测是机械臂自主抓取的前提和关键。近年来,目标检测技术已经在自然场景图像上取得了一系列突破性进展,在无人机领域的研究也逐渐成为热点。本文基于旋翼飞行机械臂空中抓取的应用场景,综述基于深度学习的旋翼无人机通过机械臂自主抓取的方法。阐述了多旋翼飞行器搭载机械臂实现空中抓取作业相关研究进展以及目前所用到的技术,并总结了目前现有方法和技术的优缺点,进一步阐述通过应用深度学习算法来优化现有的方法和技术可以达到更好的效果,最后讨论了未来可能发展的方向。
近年来,随着电子制造、导航与控制等技术的不断成熟,旋翼无人机已经发展为具备一定自主飞行能力和环境适应能力的飞行平台。旋翼无人机除 3 维飞行运动能力外,还具备垂直起降、定点悬停、机动灵活等特性。结合不同的载荷设备,旋翼无人机已经成功地应用于航空拍摄、侦察监视、灾难现场搜救( 水灾、地震) 、地形测绘、大气污染检测、农林植保等领域[1]。现阶段旋翼无人机的应用主要为旋翼无人机搭载不同的仪器或传感器,利用其机动灵活的飞行运动特性对环境或目标物进行全方位、高效率的监测。随着计算机技术的发展,计算机视觉作为人工智能的一个重要研究领域,已经广泛应用于各行各业,其中基于视觉的机械臂抓取也逐渐成为当前的一个研究热点。基于视觉的机械臂抓取技术与旋翼飞行器技术相结合实现旋翼飞行器的空中自主作业突破了无人机现有的应用局限,搭载机械臂的无人机主动与环境接触,帮助人类完成操作具有危险性和有一定难度的任务。在机械臂抓取任务中,传统的方法一般采用人工示教的方式,如手掰机械臂[2],使机械臂到某个固定位置进行抓取。由于抓取位姿凭靠的是记忆且机械臂自身没有感知能力。因而在执行任务时容易受到外界环境中许多不确定因素的影响,如当物体位置发生变化时,机械臂则会抓不到物体。计算机视觉解决搭载机械臂无人机抓取问题的通常做法是,首先利用相机等采集设备对目标物体进行采样,然后结合模式识别、图像处理等方法分析和处理采得的图像数据,获得目标物体的空间位置和姿态等有效信息,最后利用所得信息使搭载机械臂的无人机完成抓取动作。计算机视觉使无人机拥有了“看”的能力,能够使其有效感知外部环境。
基于视觉的无人机搭载机械臂完成抓取任务,像自然界中的鸟儿一样拥有后肢。这样飞行机器人就能帮助人们完成更多的任务,如危险环境中样品的采集、 基础设施维护、灾难环境中设备的操作等任务。因此,一种新的机器人系统逐渐成为飞行机器人领域的研究热点,即搭载机械臂的旋翼飞行器。这种基于视觉搭载机械臂的旋翼无人机由旋翼无人机( 多旋翼无人机) 、计算机视觉系统和多连杆机械臂组成。这种新型飞行机器人结合了旋翼无人机的机动飞行、定点悬停和基于计算机视觉的运动控制技术和机械臂灵活作业的特性,具有广泛的应用前景。
搭载机械臂的无人机,自主识别抓取物,确定物体的位置,自主规划飞行路径,靠近抓取物,并完成抓取任务;旋翼无人机具有对外部干扰敏感的特性,旋翼飞行机械臂在飞行作业过程中会受到来自环境复杂的干扰,再加上系统间严 重的耦合作用,而且抓取物的形状和类型是不确定,对抓取物的自主识别并抓取,需要无人机机械臂根据物体的信息来控制机械臂,这种飞行的研究实现有的研究存在诸多难点,这也是学术界和工业界均希望迫切解决的关键技术,搭载机械臂多旋翼无人机能够安全精准地完成自主抓取成为空中机器人人机技术应用发展的重难点之一。深度学习技术近几年在图像、机器视觉、自然语言处理等领域取得了重大突破,基于TensorFlow 的深度学习技术应用日益广泛[3] ,将其应用于搭载机械臂的多旋翼无人机自主抓取物识别和自主抓取是有益的尝试。
1 视觉四旋翼无人机系统设计
系统架构在总体方案设计时主要考虑目标识别所需搭载的设备,同时对机载重量有一定的限制 [4]。使用四旋翼无人机开展视觉目标识别,需要飞控和视觉传感器,还需要对算法进行实时解算,需要 GPU 设备。视觉传感器固定在机体上,容易产生振动,需要相对稳定的云台支撑,同时保障目标检测的数据源质量,也对视觉传感器的镜头清晰度视角和重量提出了要求。搭载机械臂的旋翼无人机基于Pixhawk开源飞控,选择的无人机图1,图2所示,视觉传感器装在无人机上方,机械臂装在无人机的下方。
图2
完整的硬件系统包括 Pixhawk 基于惯导的开源自驾仪飞控、机架、电调、动力电机、遥控、地面站及视觉传感器,有舵机控制的连杆多自由度机械臂等。在目标检测系统中,需要保证目标能够满足实验所需的视野范围动态调整,以免在目标丢失后采用合适的搜索方法定位目标[5]。
2 基于深度学习的目标检测算法
深度学习的概念[6]由 Hinton 等人于 2006 年首先提出。相较传统的手工提取特征的方法,深度学习的优势在于特征提取环节不需要使用者预先选定提取何种特征,而是采用一种通用的学习过程使模型从大规模数据中学习进而学得目标具备的特征。卷积神经网络( Convolutional Neural Networks,CNN)是最具代表的深度学习算法之 一,它的网络为权值共享结构,与输入图像的契合度高,可以更好的完成图像特征的提取和分类工作。
早期的目标检测利用人工几何特征来实现特 征表达,如SIFT、HOG等。1998年,Lecun等提出相对简单的卷积神经网络模型LeNet-5,利用神经网络抽取的到的特征替代人工提取的特征。AlexNet在网络规模上变得更宽更深,使用了ImageNet提供的大规模数据集和多GPU来训练。Network In Network和ZFNet在AlexNet的架构基础上分别增加和改进了网络结构[7],提高了网络性能,证明了对卷积神经网络结构的改动是可以大胆尝试的。
近些年机器视觉在机器人领域的应用越来越广泛,其中基于深度学习的目标检测是近年来发展最为迅速的科研热点之一,它有效地解决了机器人执行操作中所需要的物体识别以及分类的问题。2014Ross Girshick 等人提出了 R-CNN(Regionbased Convolutional Neural Network, 区 域 卷 积 神 经 网 络),使用基于区域的卷积神经网络来进行目标检测,将 PASCAL VOC 数据集上的检测率从 35.1% 提升到 53.7%, 但训练时间以及测试时间过长。为了解决该问题,Ross Girshick 团队在 2015年基于 R-CNN 提出了新的算法 FastR-CNN,它避免了对每一个候选区域都进行特征提取的做法,取而代之的是先对一张图像进行特征提取,再根据候选区域在相应的特征上进行划分,得到对应区域的特征, 从而大幅提升了目标检测的速度。此外,为了节省找出候选框所需要的时间,Ren 等人进一步改进了 Fast R-CNN,提出了利用神经网络提取物体边缘特征作为候选框,大大节省了寻找候选框所需要的时间,该算法也被命名为 Faster R-CNN 。为了有效地识别出物体的轮廓信息[8]。虽然 FasterR-CNN 算法是目前主流的目标检测算法,但是速度上并不能满足实时的要求[9]。
近年来, Redmon 等提出了一种新的无区域 建议的目标检测方法, 称为 YOLO (You only look once)。 作为一种统一的、实时的检测框架, YOLO 的检测速度非常快, 可以达到 45 fps (Frame per second). YOLO 用一个单一的卷积网络直接基于整幅 图像来预测包围边框的位置及所属类型, 首先将一 幅图像分成 S × S 个网格, 每个网格要预测 B 个 边框, 每个边框除了要回归自身的位置之外, 还要附 带预测一个置信度. 置信度不仅反映了包含目标的可信程度, 也反映了预测位置的准确度。 另外对每 个网格还要预测 C 个类型的条件概率, 将这些预 测结果编码为一个 S × S × (B × 5 + C) 维的张量 (Tensor)。整个网络的结构类似于 GoogLeNet, 包 含 24 个卷积层和 2 个全连接层, 卷积层用来从图像 中提取特征, 全连接层预测边框的位置坐标和类型概率[10]。YOLO 模型通过采用空间限制, 减少了对同 一目标的重复检测, 大大提高了效率, 能够达到实时的效果。所以搭载机械臂无人机在抓取物检测中使用YOLO算法是一个较不错的选择。本文用于搭载机械臂无人机抓取目标识别的深度学习多目标识别算法使用 YOLO 算法[11],其流程如图 3 所示。
图3 YOLO算法流程
YOLO 算法利用卷积神经网络实现目标识别模型,并在 PASCAL VOC 数据集上进行评估。网络的初始卷积层从图像中提取特征,而全连接层预测输出类别概率和相应图像坐标。网络结构参 考同样应用于图像分类的GoogLeNet模型[12],有24个卷积层,然后是2个全连接层,如图 4所示。 在网络训练误差中,大 bbox 和小bbox权值相同。另外,网络训练误差的度量方式应该反映出大 bbox 的小偏差与小bbox 的小偏差相比更不显著。为了解决这个问题,回归的是 bbox宽度和高度的平方根,而不是直接的宽度和高度。YOLO在每个网格中预测出多个 bbox。在训练网络时,对每个类别,只需要用一个bbox 来负责该类别的回归。
如果目标在网格,损失函数会惩罚分类错误[13]。如果预测器起作用,该损失函数也惩罚 bbox 的坐 标误差。训练结束后通过该回归方程便可以实时预测目标类别及目标在图像坐标系中的坐标,通过计算其中心深度得到目标在相机坐标系中的三 维位置。
图4 YOLO 算法使用的卷积网络
3 机械臂控制系统设计
对于旋翼无人机搭载机械臂这一新的机器人系统,国内外在其系统设计上的研究可以大致分为 2 种类 型,一种是面向不同的应用场景中的作业任务设计 相应的旋翼飞行机械臂系统,另一种是面向旋翼无人机的负载能力和欠驱动等缺陷设计改良机械臂或旋翼无人机以提升旋翼飞行机械臂的性能。
3.1无人机机械臂设计
具有双臂轻质机械臂的旋翼飞行机械臂系统,每个机械臂带有 4个自由度,2 个机械臂可以协作完成抓取等作业任 务,如图 5 所示。
图5 双机械臂无人机
面向不同的工业应用场景,欧盟支持了几个大型的旋翼飞行机械臂项目,如面向飞行机械臂多机合作完成组装或搬运任务的项目 ARCAS ( aerial robotics cooperative assembly system) ; 面向工业监测和维护,多臂飞行机械臂项 目 AEROARMS ; 面向高危作业任务,如风电力设 施维护等,为人类在此类作业任务中提供助手的飞 行机械臂项目 AROWORKS 。现阶段大多数欧洲 机构关于搭载机械臂旋翼无人机的研究都受到了这些项目的支持,成为了该领域内研究的主要贡献者。搭载机械臂旋翼无人机是面向飞行作业而设计的机器人系统,作业时系统往往处于飞行状态,其作业能力 受到旋翼飞行机器人负载的限制,因此减轻整体系统的质量显得尤为重要。在作业过程中机械臂的运动会影响系统质心的 变化,而机械臂对旋翼无人机的飞行稳定性的影响 与系统质心偏向系统中轴的位置正相关。
4 抓取系统简介
本系统设计方案考虑到双目摄像机能够从不同角度实时获取目标物体的图像信息,以便可以 较为容易地得到目标的三维坐标,故而采用双目视觉系统。从系统工作的实时性考虑,采用固定 摄像机的结构,减少系统的计算压力,提高相应速 度,并且将双目相机固定在机械臂工作台的一侧, 并且从安全稳定性考虑,将其放在机械臂操作空 间之外。搭建的基于视觉的机械臂控制系统如图 6所示,主要由两大核心部分组成: 视觉目标识别 系统和机械臂控制系统。
图6 抓取系统方案
在操作机械臂前提前利用深度学习算法训练 好多目标识别模型,采集需要辨识的目标图像,构建数据集,利用数据集对深度卷积神经网络训练,并通过正则化及非凸优化调整网络权值,提高网络泛化能力。系统上电后,双目摄像头采集视频信号将图像信息传送至上位机,上位机对采集的图像信号分析,利用已经训练好的深度卷积神经网络实现目标的识别,通过双目视觉系统得到所需的目标物体的位置信息,上位机在得到目标位置信息后通过机械臂运动学逆解或者轨迹优化算 法计算得到机械手欲达到这个位置每个关节需要 转动的角度,根据控制算法实时计算控制器输出, 通过上位机软件发出相应的控制指令驱动机械臂 控制系统的控制器使各关节转动相应的角度,以使机械手准确抓取指定物体。
5 结论
本课程论文综述了,深度学习在旋翼无人机目标检测和搭载机械臂的旋翼飞行器机械臂抓取自主识别和抓取,虽然基于深度学习的目标检测技术较成熟,在地面通过应用深度学习算法实现机械臂自主识别抓取,也可以得到较好的效果,但是将机械臂与旋翼无人机完美结合来实现空中机器人,使得这种机器人的机械臂可以像地面机器人完成自主抓取任务,存在一定的技术难度,因为系统越复杂,系统受干扰的程度会加大,稳定性会下降,但是这种搭载机械臂的旋翼无人机在深度学习,人工智能的推动下,将来这方面的研究会取得突破,将来会应用在军事领域,工程领域,在一些具有危险性任务、灾害救援、空中作业和空中运输的场景有很大的需求,具有很好的研究意义。
参考文献