【论文笔记】Brain-inspired self-organizing modular structure to control human-like movements based on prim

【论文笔记】Brain-inspired self-organizing modular structure to control human-like movements based on primitive motion identification

Abstract

Hence, our proposed modular controller is based on human brain behavior in using neural mechanisms named internal models and primitive motion identification which leads to extract and learn the latent simple motions in order to imitate observed complex movements.

因此,我们提出的模块化控制器是基于人类大脑行为,使用被称为内部模型的神经机制和原始运动识别,从而提取和学习潜在的简单运动,以模拟观察到的复杂运动。

The study is accomplished based on formerly proposed structure, MOSAIC, which provides remarkable efficiency in motor control modeling.

该研究是基于先前提出的结构,MOSAIC,这为电机控制建模提供了显著的效率

1. Introduction

研究已经证实,人类的运动是由原始运动(primitive motions)的结合而产生的。

在人工智能和机器人技术的情况下,学习原始运动来执行复杂的运动,降低了运动规划和控制的计算成本。这是因为将关节数据的大空间转换为相对较小的原始运动空间。另一方面,为每个原始运动提供一个简单的控制器,可以处理易于实现的控制方法。

对人类运动系统的研究表明,一组名为镜像神经元(mirror neuron)的特殊神经元在运动学习系统的原始运动编码中起着重要作用。这些神经元是代表人类模仿能力的主要元素。换句话说,它们被称为模仿学习的机制

根据关联序列学习(Associative Sequence Learning, ASL)理论,运动学习是基于运动单位来完成的。然而,学习是通过与感觉系统和运动系统相关的两个不同过程进行的,它们以联想的方式执行。

研究人员认为,除了镜像神经元之外,还有另一种神经机制提供了执行观察到的运动的能力。这些机制被称为内部模型(internal model)。内部模型是基于神经的结构,用来模拟感觉-运动(sensory-motion)系统的输入/输出关系。

Forward internal models which can predict the sensory measurable output of the motor system regarding to motor commands while Inverse internal models receive desired state information to generate motor commands in a feedforward manner. 前向内部模型:预测运动系统的传感器可测量的输出;反向内部模型:收到理想的状态来生成运动指令。

In other words, human brain utilizes several forward internal models as state estimators to predict the next state of the system and the inverse internal models as feedforward controllers to produce motor commands. 换句话说,人脑利用几个前向内部模型作为状态估计器来预测系统的下一个状态,而反向内部模型作为前馈控制器来产生运动指令。

大多数模仿行为是由更高层次的机制。这意味着,人类的模仿不是在执行层面,而是在计划步骤上。因此,模仿被用来学习观察运动的最佳形式(the optimal form)。基于通过内部模型得到的感觉运动系统的自认识(self knowledge),定义了最优性。

关于GOADI( Goal-Directed Imitation)理论,人类并不复制和粘贴观察到的运动,而是试图提取出观察到的运动中潜在的子目标。这些子目标然后被人类的运动系统学习和完成。

在机器人上实施设计良好的机制,通过运动观察来学习和控制原始运动,促进了运动学习,同时提供了类人的运动规划和感知能力。


Their proposed structure is a modular architecture which later they named it MOSAIC (MOdular Selection And Identification for Control). MOSAIC is a computational model to solve two major problems simultaneously: the learning of modules and the selection of them. 他们提出的结构是一个模块化的架构,后来他们将其命名为MOSAIC(模块化选择和控制识别)。MOSAIC模型是一个可以同时解决两个主要问题的计算模型:模块的学习和模块的选择。

关键是受益于责任信号,这些信号明确了各模块在整个面对条件下采取行动的责任。

在耦合正向模型和反向模型时,责任信号在模型的学习和确定每个模块中执行控制动作的部分中起着主要作用。MOSAIC 的主要好处是以一种模块化的方式来控制一个动态模型,从而提供同步的学习和执行。

  1. 利用隐马尔可夫模型,HMM - MOSAIC 可以改善模块间的切换。虽然 HMM - MOSAIC 的概率结构与生物学事实不相容,但作者认为,它在识别和区分不同的动态条件方面优于原始马赛克。
  2. a hierarchical structure, HMOSAIC. 一个分层模型,HMOSAIC。在这种级联结构中,较高层次的MOSAIC提供了所需的轨迹和来自较低级模块的实际责任信号,以预测其下属模块的责任,以加速模块的切换。
  3. eMOSAIC. MOSAIC 使用卡尔曼滤波器而不是正向模型作为状态估计器。此外,将一个线性二次控制器与每个状态估计器耦合,使每个模块作为一个线性二次高斯控制器执行。
  4. AMA-MOSAIC 是另一个版本的马赛克,它被用于控制一个简化的人体骨骼模型的运动。但是,集群步骤和模块专用步骤都是以离线的方式执行的。

问题是如何在执行某一任务中自动定义 MOSAIC 的最优模块数量。虽然,最近的两个扩展,eMOSAIC 和 AMA-MOSAIC,已经考虑了模块数量的问题,但所采用的方法与关于人脑功能的生物学事实并不一致。

  1. eMOSAIC:在eMOSAIC中,通过试错的方法确定了模块的最优数量。因此,在多个实验中,使用结构中不同数量的模块来控制某一任务。然后根据最小化一个预定义的代价函数得到最优的模块数。
  2. AMA-MOSAIC:通过在任务执行前以脱机方式对给定的任务进行预处理来定义所需的模块数量。预处理包括将运动分解成几个部件,并定义等于运动部件数量的模块数量。
  3. 由于 eMOSAIC 和 AMA - MOSAIC 被认为是 MOSAIC 及其扩展来模拟运动控制的人类大脑,eMOSAIC和AMA-MOSAIC 采用的两种方法在生物学上是不可信的。

根据任务的复杂性,在执行观察运动时的在线方式。因此,该结构可以自动定义模块的最优数量,而无需任何预先定义。为此,我们采用在线方法来识别观察运动中潜在的原始运动,并根据识别的原始运动之间的相似性来决定是否创建一个新的模块。

2. On-line identification of primitive motions

这种方法假设与相似的原始运动相关的数据具有相似的概率分布。因此,将运动过程中测量的关节角度数据建模为一系列概率密度函数(pdf),并以隐马尔可夫模型(HMM)的状态意义来表示。

假设关节数据被表示为一个向量序列, { x k ⃗ } \{ \vec{x_{k}} \} {xk },则可以使用一个概率密度函数估计器来估计滑动窗口内每个数据流块的概率密度函数(pdf)

p t ( x ) p_{t}(x) pt(x)表示变量向量x的概率,属于向量的窗口 { x ⃗ t − W } W = 0 W − 1 \{ \vec{x}_{t-W} \}_{W=0}^{W-1} {x tW}W=0W1,窗口宽固定W, σ \sigma σ定义为 x − t x - t xt d d d 个相邻邻居的平均距离。 D D D 等于自由度。

L2范数用于定义两个不同的pdf之间的相似性


初始状态分布 { π s } s ∈ S \{ \pi_{s} \}_{s\in S} {πs}sS 在各状态间均匀分布。定义了HMM转移矩阵, A = { p i j } i , j ∈ S A=\{p_{ij}\}_{i,j\in S} A={pij}i,jS,使转移到相同状态的概率比转移到任何其他状态的概率大 k k k 倍。

该算法使用代价函数 c = − l o g ( p t ) c=-log(p_{t}) c=log(pt) 代替出现概率 p t p_{t} pt 来降低计算复杂度。


实际上,从第一段开始,任何向前都表示当前段的结束和新段的开始,任何向后都意味着返回到先前确定的段之一。

很明显,使用过窄的窗口增加了算法在数据分割中的灵敏度,并导致额外的分段。另一方面,使用过宽的窗口会降低灵敏度,并阻止算法正确识别不同的节段。

3. MOSAIC based structure with primitive motion identification

我们提出的结构包括一个原始运动标识符(PMI)作为分割块。在 MOSAIC 中,它使用了在第2节中介绍的在线算法。PMI块接收在复杂运动过程中所需的关节轨迹,以识别和标记组成的原始运动,并允许模块化结构,MOSAIC,以在必要时创建一个新的模块。

事实上,除了识别原始运动外,PMI还管理着模块的学习。事实上,模块间的竞争作为马赛克的主要特征之一,从未被取消。

换句话说,如果窗口宽度 W W W 的选择不适当,分割算法识别过多的段(原始运动),所提出的结构忽略额外的分割,防止不必要的模块生成。在运动观察过程中,在线执行分割和学习管理的整个过程以及运动执行的控制。

PMI的运动总结:

  1. 识别一个新的原运动,允许模块化结构创建一个新的模块来学习和承担识别的原运动运动,同时停用其他模块的学习能力。
  2. 识别一个重复的原始运动,调用先前学习过的相应模块,激活其学习能力,同时停用其他模块的学习能力。

4. Simulation

很明显,在HMM状态数方面有四个不同高度的步骤,这意味着PMI块在复杂运动过程中识别出了四种不同的原始运动,即STS。原始运动分别与坐姿、坐席、腿部稳定和站立姿势有关。

另一方面,从图5中可以看出,座椅段完全从 t = 0.6 s t=0.6s t=0.6s开始,与记录的数据相同。这意味着每个原始运动的时间间隔都是合理的。

与段2和段3相关的状态数之间有轻微的差异,这意味着两个连续的原始运动显著相似。因此,预计相应的模块之间会发生相当大的竞争。

可以看出,任务模块化是可接受稳定的,在模块切换时刻有一些峰值。被允许竞争,但不会干扰模块的责任。实际上,在每个新模块的生成时刻,之前学习过的模块都试图帮助新模块通过瞬态响应实例,并进行相应的原始运动。

5. Discussion and conclusion

通过运动轨迹分析确定了子任务。因此,由于每个模块都承担一个不同的子任务,所以模块的数量等于子任务的数量。此外,在所有之前的 MOSAIC 扩展版本中,这个量是启发式的或根据一些离线轨迹分析。因此,这些方法在生物学上的合理性很牵强。

此外,由于人脑倾向于利用内部模型的模块,避免了不必要的模块生成。Therefore, the module generation mechanism in proposed structure, creates a new module only when it is needed.(只有需要的才能生成模块) Moreover, using a secondary structure-reforming capability(第二种变化方法) to remove the extra mis-generated modules(额外的错误生成的模块) guarantees the optimal number of the modules.

6. Future works

  1. using contextual information of the movement.

    运动背景信号是一种不可测量的信号,它包含有价值的信息,有助于大脑识别各种动态条件。

    利用原始 MOSAIC 中的这些信息,可以在运动开始之前预测每个模块的责任,从而导致模块切换过程的加速和促进。

    用提出的方法复合这种模块化,由于它的预测特性,可以改革模块生成程序,减少模块变化时刻的轨迹波动。

  2. 模块生成数量问题。

    虽然我们设计了一种机制来抑制这一缺陷,但在分割过程中,有必要为算法配备一种自主的方法来定义适当的窗宽。一种可能的解决方案是启发小波理论及其在解决STFT的时频分辨率问题上的效率。

你可能感兴趣的:(论文笔记,论文阅读,人工智能,机器人,算法)