论文阅读之Robot Learning System Based on Adaptive Neural Control and Dynamic Movement Primitives

论文阅读其实就是用自己的话讲一遍,然后理解其中的方法

0、论文基本信息

为什么阅读这篇论文:因为它获得了2022年度IEEE TNNLS最佳论文奖,年度唯一最佳论文奖(Outstanding Paper Award),TNNLS目前的影响因子为10.4(截至到2023年9月),是中科院分区1区的Top期刊。
论文题目:Robot Learning System Based on Adaptive Neural Control and Dynamic Movement Primitives
期刊名称:2019 IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS
论文作者:Chenguang Yang, Chuize Chen, Wei He, Rongxin Cui and Zhijun Li

作者简介:杨辰光教授是英国布里斯托机器人实验室主任,也是华南理工大学的教授,非常厉害的一位老师,机器人方向的大牛,Google学术被引超多,发表了多篇机器人方向的顶刊论文,包括TRO等,主要研究兴趣为神经网络和机器人控制(我还买了杨辰光老师联合编写的智能控制书籍,主要负责神经网络章节)。感觉杨辰光老师和贺威老师还有李智军老师都互相认识,他们联合发表了很多机器人方向的高质量论文,非常值得阅读。

题目:基于自适应神经控制和动态运动基元的机器人学习系统

摘要:本文提出了一种同时考虑 运动生成和轨迹跟踪的增强型机器人技能学习系统。在机器人学习演示过程中,使用动态运动基元(DMP)对机器人运动进行建模。每个DMP由一组动态系统组成,这些系统增强了生成目标运动的稳定性。此外,结合高斯混合模型和高斯混合回归,以提高DMP的学习性能,从而可以从多次演示中提取更多的技能特征。从学习到的模型生成的运动可以在空间和时间上缩放。此外,还为机器人设计了一个基于神经网络的控制器来跟踪运动模型产生的轨迹。在该控制器中,使用径向基函数神经网络来补偿动态环境造成的影响。使用Baxter机器人进行了实验,结果证实了所提出方法的有效性。

一、引言

运动生成
近年来,机器人在各个领域得到了广泛的应用,尤其是在制造业。由于制造产品的更新速度越来越快,因此需要适应性强的机器人。因此,有必要开发增强性机器人学习的方法。机器人示教学习(Learning from demonstration, LfD)是简化机器人学习策略的一种有价值的技术。人类导师展示了完成任务的方法,然后机器人通过运动建模来学习和再现技能。因此,必须考虑如何对运动进行有效建模。

动态系统(DS)是运动建模的强大工具。与传统方法(例如插值技术)相比,DS提供了一种灵活的解决方案来建模稳定和可扩展的轨迹。此外,用DS编码的运动对扰动是鲁棒的。一种基于DS的方法被用于学习人类运动,其中DS的未知映射使用称为极限学习机的神经网络(NN)进行近似[5]。所学习的模型显示出足够的稳定性和泛化能力。然而,这种基于DS的方法需要大量的演示数据来进行训练。相比之下,基于非线性DS的动态运动基元(DMP)只需要一次演示即可对运动进行建模;DMP将运动轨迹建模为与待学习的未知函数组合的弹簧-阻尼器系统。弹簧-阻尼器系统的固有特性增强了所产生运动的稳定性和鲁棒性(对扰动)。

本文主要考虑的的是将多个演示集成到一个DMP模型中

概率方法在运动编码中显示出良好的性能,可以提取演示的固有可变性,从而可以保留演示的更多特征。诸多文献都利用了DS的鲁棒性和泛化能力,以及概率方法优异的学习性能。

为了利用DS和概率方法的性能,作者将DMP和GMM集成到提出的系统中,其中DMP的非线性函数用GMM建模,并通过GMR检索其估计。这种修改使机器人能够从多次演示中提取更多的运动特征,并生成合成这些特征的运动。使用局部加权回归(LWR)学习原始DMP,并使用局部加权投影回归优化LWR的每个内核的带宽。尽管学习过程增加了复杂性,但这些方法使DMP只能从一个演示中学习。储层计算(Reservoir computing)是另一种用于近似非线性函数的方法,但其计算效率低于GMR。

轨迹跟踪

机器人的模仿性能还取决于涉及机器人动力学的轨迹跟踪控制器的准确性。通常,如果模型足够准确,则基于模型的控制性能更好。然而,由于一些不确定性,例如未知的有效载荷,无法提前获得机械手的精确动力学模型。基于近似的控制器已经被设计来克服这种不确定性。诸多研究人员利用函数逼近工具来学习机器人动力学的非线性特性。神经网络由于其逼近能力而被广泛用于控制器设计。在[23]中,反向传播神经网络(BPNN)用于近似振动抑制装置模型中的未知非线性函数,而在[24]中,径向基函数神经网络(RBFNN)用于近似遥控机器人系统的未知非线性。与BPNN相比,RBFNN的学习过程是基于局部逼近的;因此,RBFNN可以避免陷入局部最优,并且具有更快的收敛速度。此外,RBFNN的隐层单元数量可以在训练阶段自适应调整,使神经网络更加灵活和自适应。因此,RBFNN更适合于实时控制的设计。

本文设计了一种基于神经网络的控制器来保证机械臂在关节空间中的跟踪性能,其中RBFNN用于近似机器人动力学的非线性函数。控制器的稳定性由李雅普诺夫稳定性理论保证。如图1所示,机器人学习系统由运动生成部分和轨迹跟踪部分组成。前者利用基于DMP的运动模型来学习和泛化运动技能;这些反过来又被表示为关节空间中的一组轨迹。后者采用自适应控制器来跟踪前者产生的轨迹,并引入RBFNN来补偿不确定的动力学。
论文阅读之Robot Learning System Based on Adaptive Neural Control and Dynamic Movement Primitives_第1张图片
图1、所提系统的框图

本文提出了一个新颖而完整的机器人学习框架,该框架考虑了运动生成和轨迹跟踪的性能。2011年TRO的一篇论文提出的SEDS与本文基于DMP的模型相似。然而,保证SEDS稳定性的约束是由李雅普诺夫理论推导的,这增加了学习的复杂性。与仅考虑运动建模的[3]和[25]相比, 本文的系统通过基于神经网络的控制器进行了增强,并且动态环境造成的影响可以通过神经学习来补偿。这种设计使机器人能够在现实世界中稳定、鲁棒地执行所学习的运动。

二、离散运动的基本模型

根据大脑的激活,运动技能可以分为点对点和周期性运动。当使用DS对运动进行建模时,这两种类型分别对应于点吸引子和极限环吸引子。本文关注的是点对点运动,并使用离散DMP作为基本运动模型,该模型由弹簧-阻尼器系统和非线性函数组成。

DMP可以用于对关节空间或笛卡尔空间中的运动进行建模。两个空间中的运动被视为一组一维轨迹,每个轨迹被表示为一个DMP模型。为了简洁起见,本文只讨论关节空间中运动的建模问题。DMP模型定义如下[26]:

τ s ξ ˙ 1 = ξ 2 \begin{aligned} \tau_{s} \dot{\xi}_{1} &=\xi_{2} \\ \end{aligned} τsξ˙1=ξ2

τ s ξ ˙ 2 = l 1 ( θ g − ξ 1 ) − l 2 ξ 2 + ( θ g − θ 0 ) ξ 3 f ( ξ 3 ) (1) \begin{aligned} \tau_{s} \dot{\xi}_{2} &=l_{1}(\theta_{g}-\xi_{1})-l_{2}\xi_{2}+(\theta_{g}-\theta_{0}){\xi}_{3}f({\xi}_{3}) \end{aligned}\tag{1} τsξ˙2=l1(θgξ1)l2ξ2+(θgθ0)ξ3f(ξ3)(1)

τ s ξ ˙ 3 = − α 1 ξ 3 (2) \begin{aligned} \tau_{s} \dot{\xi}_{3} &=-\alpha_{1}\xi_{3} \\ \end{aligned}\tag{2} τsξ˙3=α1ξ3(2)
这里的符号和我们看到的许多经典DMP论文不一样,但不影响,他们代表的含义是一摸一样的,只是换了个样子 ξ 1 ∈ R \xi_{1}\in R ξ1R表示关节位置, ξ 2 / τ s ∈ R \xi_{2}/\tau_{s} \in R ξ2/τsR表示关节速度, ξ ˙ 2 / τ s ∈ R \dot{\xi}_{2}/\tau_{s}\in R ξ˙2/τsR表示关节加速度。 ξ 3 > 0 \xi_{3} > 0 ξ3>0为指数收敛的相变量。 l 1 l_{1} l1, l 2 l_{2} l2 α 1 \alpha_{1} α1是正常数, θ 0 \theta_{0} θ0为起点, θ g \theta_{g} θg为终点, θ g − θ 0 \theta_{g}-\theta_{0} θgθ0为空间缩放项, τ s > 0 \tau_{s}>0 τs>0为时间常数,非线性项 f : R → R f:R\rightarrow R fRR是相变量 ξ 3 \xi_{3} ξ3的连续有界函数。

公式1是受非线性项扰动的弹簧-阻尼器系统。通常,我们选择 l 1 = l 2 2 / 4 l_{1}=l_{2}^2/4 l1=l22/4以使前者具有临界阻尼特性。系统(2)的初始状态可以选择为 ξ 0 = 1 \xi_{0}=1 ξ0=1。整个模型的稳定性是显而易见的;由于状态 ξ 3 \xi_{3} ξ3将收敛到零并且非线性函数 f ( ξ 3 ) f(\xi_{3}) f(ξ3)是有界的,因此非线性项将收敛到0。然后,系统(1)成为稳定的弹簧-阻尼器系统,其状态收敛于目标 θ g \theta_{g} θg

原始弹簧阻尼器部件的大初始加速度(图2a)在实践中不适合机器人。此外,加速度的大变化将导致复杂的外力项,这不利于模型的学习。因此,我们将弹簧阻尼器部分中的目标θg替换为另一个指数衰减系统的状态[27]

你可能感兴趣的:(论文阅读)