Deep learning-based human motion recognition for predictive context-aware human-robot collaboration

0 摘要

    智能制造领域中,提高人机协作(HRC)的运营效率和安全性的关键是人类操作员和机器人之间实时的情境感知(context awareness)。通过对人类操作员的行为分析,可以提高情境感知的准确性和可靠性。为实现这一目标,本文利用深度学习技术,进行连续人体行为分析和HRC需求预测,从而改进机器人计划和控制,共同完成任务。 我们提出的方法运动到发动机装配的案例中,验证了可行性。

1 引言

    近年来,人机协作(HRC)已成为智能制造的关键技术。 HRC不是严格地将人类操作员和机器人分开,而是允许人类操作员和机器人在同一工作空间中一起工作,协作完成相同的任务。在HRC系统中,机器人除了独立完成它们自己的任务之外,还主动帮助操作员完成复杂的任务。尽管保证安全是一个主要目标,HRC系统旨在提高运营效率和生产率。为此目的,机器人需要跟踪人类操作员的动作,感知与操作员协作的情境,并预测操作员随后将如何完成任务。情境感知涉及识别操作员正在使用的物体(部件或工具);操作员在工作期间的动作序列以及所处的工作空间环境。通过情境感知,机器人能够有效地帮助人类操作者。例如机器人会在恰当的时间将哪些工具或零件递给操作人员,以提高HRC系统的生产率,同时也能保持安全。 由于即使是执行相同的任务,不同的操作员之间可能存在显着的差异性,因此机器人和操作员基于情境感知的协作也要能相应地变化。因此,建立一个可靠的HRC系统,情境感知与人体行为识别同等重要。
    行为识别是建立HRC系统的关键。如果能精确地跟踪操作员的运动,就可以实现HRC环境中的实时人体行为分析。现已经有一些关于识别和理解人体运动的研究。在这些研究中,传统的机器学习方法,如随机森林,高斯混合模型(GMM)和神经网络被应用于识别和理解人体运动。许多传统的机器学习方法在行为识别方面达到了70-80%的准确度。
    基于对人类操作员行为的识别,可以理解到他们的意图。有一些研究尝试在HRC系统中,预测人类操作员接下来要发生的动作,用到机器人规划中。隐马尔可夫模型(HMM),贝叶斯网络和词袋等已被用于建立人体运动预测的统计模型。这些方法行为识别精度相对较低,运动预测的准确率很少超过80%。此外,这些研究并未考虑协作环境,并且对操作员的意图估计不足,不能完美应用到机器人规划中。
    深度学习已经成为一种新的机器学习架构,具有学习大量数据的复杂模式的重要能力。 它提供了一种提高人体行为识别准确度的新方法。 与传统的机器学习技术相比,深度学习网络的结构涉及多个隐藏层,能够提取嵌入到数据中的特征。到目前为止,深度学习已经在多个应用领域成功地展示了其性能,包括图像识别,语音识别和数据分析。
    本文引入了一种深度卷积神经网络(DCNN),用来识别人体动作,以准确和鲁棒地推测人类操作员的意图。 我们对AlexNet进行迁移学习,微调参数,可以提高人类操作员行为的识别准确率。 将建立的基于深度学习情境感知的人体行为识别模型用于汽车发动机装配过程,进行实验评估。

2 HRC中的人体行为识别

    在HRC制造系统中,操作员和机器人在多种不同的环境下,共同协作完成复杂的任务。除了独立执行任务外,机器人还能够帮助操作员。人机协作的目标是:(1)确保协作空间的安全性;(2)提高生产效率。为此,机器人应该能够准确地识别操作人员的行为并理解他们的意图,同时考虑到不同的人类操作员在执行相同任务时的差异性。例如,人机协作完成装配任务时,视频摄像机需要捕获人类动作(例如,将部件放置在某个位置或拧螺钉)和该动作发生的情境。并分析相关的视频/图像以提取所需的信息,用于机器人任务规划。例如,如图1所示,机器人将决策何时把哪些工具递给操作员。
Deep learning-based human motion recognition for predictive context-aware human-robot collaboration_第1张图片
    无论任务的背景如何,与某些任务相关联的人体动作可能是相似的。 例如,当抓取一个部件或工具(例如,螺丝刀)时,动作之间可能没有明显的差异。在HRC系统中,人类的行为首先根据通用的行为(例如站立,抓握和保持)来识别。 在行为识别之后,识别该行为的情境,以帮助识别操作者的意图(参见图2)。这旨在帮助机器人了解操作员打算执行什么样的具体操作,以便机器人可以相应地进行辅助。例如,当机器人捕获到操作员拿着螺丝刀这个场景时,机器人将认识到操作员打算拧螺钉。 机器人会抓取一个螺丝并将其递给操作人员。
Deep learning-based human motion recognition for predictive context-aware human-robot collaboration_第2张图片
    在本文中,深度学习被用来处理视频图像以进行人体行为识别。人类操作员完成特定的任务后,每一个视频被处理成视频帧图像,这些视频帧图像是一个行为的一系列连续的动作。分析每个视频帧图像的过程包括两个步骤:人体行为识别和部件/工具识别。这些是由两个独立的深度神经网络实现的。为了训练网络,首先捕捉与任务相关联的人体行为和部件/工具的图像。由于拍摄的视频图像的背景会带来噪音,即,可能会包含多个物体,因此可靠地识别操作人员正在使用的部件/工具具有挑战性。这个问题的解决方案采取以下两个步骤:(1)识别与任务相关的人体行为,并将它们分类到代表性类别(例如抓取,保持,组装);(2)在上述各自类别的图像中,识别操作者持有的特定部件/工具。

3 具体实现方法

    本文中接下来是通过微调AlexNet的全连接层参数,然后对单帧图像进行动作识别。没有考虑到动作间的连续性。
Deep learning-based human motion recognition for predictive context-aware human-robot collaboration_第3张图片

你可能感兴趣的:(智能制造)