深度学习技术在脑电(EEG)运动想象(MI)信号分类中的应用(上)

 脑-计算机接口(BCI)是一种新兴技术,具有改变世界的潜力,其应用范围广泛,从医疗保健到人类增强等多个领域。脑电图(EEG)运动想象(MI)是最常见的BCI范式之一,已广泛应用于智能医疗,如中风后康复和移动辅助机器人。近年来,深度学习(DL)对基于MI-EEG的BCI产生了巨大影响。在这项工作中,我们系统地回顾了过去十年基于DL的MI-EEG分类研究。本文首先解释了研究选择的程序,然后概述了BCI、EEG和MI系统。接着从四个主要角度分析和讨论了在MI分类中应用的基于DL的技术:预处理、输入构建、深度学习架构和性能评估。在讨论部分,针对基于DL的MI分类提出了三个主要问题:(1)基于DL的技术是否需要预处理?(2)哪些输入构建最适合基于DL的技术?(3)基于DL的技术的当前趋势是什么?此外,这项工作总结了基于MI-EEG的应用,广泛探索了公共MI-EEG数据集,并根据审查的文章,对每个数据集取得的性能进行了整体可视化。最后,讨论了当前的挑战和未来的发展方向。本文发表在Neural Computing and Applications杂志。可添加微信号1996207406318983979082获取原文及补充材料,另思影提供免费文献下载服务,如需要也可添加此微信号入群)

1 引言 

      智能医疗传感器和通信技术的最新进展已经在新服务、准确性、可用性和响应时间方面改变了医疗领域,并且还产生了大量的医疗数据[1, 2]。脑电图(EEG)传感器测量来自人脑的生物测量数据,这些数据可以被解码以理解潜在的身体和心理状态,然后用于进一步提高生活质量。与一般的智能医疗传感器不同,EEG脑信号被智能医疗系统以两种方式利用:一是导入与医疗相关的信息,即感知;二是与物理世界互动,即控制,使用智能设备如轮椅或外骨骼等[3]。这种使用脑信号的感知和控制互动,被称为脑-计算机接口(BCI),与诸如中风后康复等关键医疗应用相关。基于EEG的运动想象(MI)信号已在多个医疗应用中使用,如神经康复[4, 5],通过控制假肢或外骨骼恢复丧失或受损的肢体功能[6, 7],为无法行走的人用机器人轮椅替代行走功能[8,9,10],以及拼写器和光标控制[11, 12]。然而,MI-EEG信号复杂且具有高维结构。因此,需要先进的机器学习和深度学习(DL)算法来处理和解码这种复杂的大脑数据。

      传统的机器学习方法已被广泛用于分类MI-EEG数据。传统方法通常包括三个主要步骤来处理MI-EEG信号:预处理、特征提取和分类。预处理步骤包括多个操作,如通道选择(选择对MI任务最有价值的EEG通道)、信号过滤(选择对MI任务最有价值的频率范围)、信号归一化(在时间轴上归一化每个EEG通道)和伪迹去除(从MI-EEG信号中去除噪声)。伪迹去除最常用的方法是独立成分分析(ICA)[13, 14]。在特征提取阶段,已提出了各种技术,从高维EEG信号中提取与任务相关的MI特征。MI特征分为三类,取决于数据处理的领域:时间特征、频谱特征和空间特征。时间特征在不同时间点或不同时间段的时间域中提取,如均值、方差、Hjorth参数和偏度[15]。频谱特征包括频率域特征,如功率谱密度(PSD)和快速傅里叶变换(FFT)[16],或时频特征,如短时傅里叶变换(STFT)和小波变换(WT)[17, 18]。空间特征旨在识别头皮上特定电极位置的特征,如共同空间模式(CSPs)[19]。CSP及其衍生方法是MI-EEG数据最常见的特征提取方法[20,21,22,23,24]。一些研究人员试图扩展和改进CSP方法。稀疏CSP[25]使用正则化特征为CSP值增加稀疏性。静态CSP[26]、发散CSP[27]和概率CSP[28]是一些尝试增强CSP功能的其他技术。滤波器组CSP(FBCSP)[23]是CSP方法的另一个扩展版本,它使用EEG通道中的空间信息以及MI-EEG信号中的频率数据。FBCSP(滤波器组公共空间模式)在MI分类中表现出了所有依赖手动特征提取的其他方法中最好的性能。在分类阶段,使用了多种分类器来将提取的MI特征分类为不同的MI任务,如朴素贝叶斯分类器[23]、线性判别分析(LDA)[24]、支持向量机(SVM)[17]和极限学习机(ELM)[20, 21]。

       尽管传统的MI-EEG信号分类方法已有显著改进,但这些方法仍面临重大困难。首先,EEG信号容易受到许多噪声源的影响,包括生物伪迹(例如,心跳、眨眼、舌头和肌肉运动、注意力水平、呼吸和疲劳)、电子设备(例如,无线设备、手机和电脑)以及环境噪声(例如,声音和照明)。这些伪迹,加上通道相关性、受试者依赖性以及EEG信号的高维性,使得大脑信号的解释和分类成为一项困难的任务[29]。因此,开发一个更稳定、更通用的MI-EEG BCI框架至关重要,它可以在各种场景中运行,并能从具有挑战性的MI-EEG数据中自动提取独特特征。其次,EEG信号的信噪比(SNR)非常低,具有时间依赖的协变量,并且是非平稳的。由于传统预处理和特征提取方法的时间复杂性,以及信息丢失的可能性,低SNR问题不容易通过传统的MI-EEG分类方法解决[30]。第三,特征提取强烈依赖于特定领域的人类经验。例如,基本的生物学专业知识对于通过EEG信号分析MI任务的状态至关重要。尽管人类经验在某些方面可以提供帮助,但在更一般的情况下,它是不够的。因此,需要一种自动化的特征提取方法。

      在过去的五年中,深度学习(DL)方法已被用于解决分类MI-EEG信号的困难。与传统的机器学习方法不同,DL可以使用深层架构从原始MI-EEG数据中自动学习高级和潜在的复杂特征,同时消除了预处理和耗时特征提取的需求。深度学习还取得了优异的结果,并且随着训练数据规模的增加而表现良好。几种DL模型已在不同领域成功应用,如计算机视觉[31]、语音分析[32]和医学诊断[33,34,35],并取得了杰出的表现。受到DL技术在其他领域巨大成功的激励,许多研究人员已经使用DL方法来分类MI-EEG数据。

      已有多篇不同范围的综述文章探讨了脑信号分类领域。[30]中的文章回顾了使用深度学习技术对非侵入性脑信号进行分类的更广泛领域。其他综述则专注于EEG脑信号。Lotte等人[36]和Rashid等人[29]探讨了使用机器学习技术对基于EEG的脑信号分类,而Craik等人[37]特别研究了基于DL的技术。在更狭窄范围的研究中,Padfield等人[38]和Aggarwal等人[39]回顾了用于MI-EEG分类的机器学习技术。除了基于分类的技术之外,其他文章还回顾了针对EEG脑信号的特定机器学习策略和技术,如特征提取[15]、迁移学习[40]和数据增强[41]。

      在这项综述中,我们系统地回顾了过去十年中基于DL的MI-EEG分类研究。我们分析了收集的同行评审出版物的预处理策略、输入构建、深度学习策略、网络结构和性能评估。本综述讨论了关于基于DL的MI分类的三个主要问题:(1)基于DL的技术是否需要预处理?(2)哪些输入构建最适合基于DL的技术?(3)基于DL的技术的当前趋势是什么?此外,还广泛回顾了基于MI-EEG的应用和公共MI-EEG数据集。最后,文末讨论当前挑战和一些未来方向。

2 方法 

      本文的综述采用了PRISMA(系统综述和荟萃分析的首选报告项目)程序[42]来选择研究并缩小搜索范围,如图1所示。使用这一程序,依次执行了三个步骤。首先,使用以下关键词在两个数据库(Web of Science和PubMed)上搜索过去10年的研究:(“深度学习”或“深度机器学习”或“深度神经网络*”或“深度信念网络*”或“卷积”或“CNN”或“循环”或“LSTM”或“玻尔兹曼机”)和(“EEG”或“脑电图”)和(“MI”或“运动想象”)。搜索于2020年10月3日进行(并在修订过程中更新了一些近期论文)。然后筛选出数据库间的重复和不相关的研究。在筛选了与主题相关的论文后,根据以下限制条件对全文进行了适用性评估,这些条件定义了本综述的范围:

     1.仅限脑电图——仅研究EEG信号的研究(不将其与其他信号结合,例如功能性近红外光谱(fNIRS)、眼电图(EOG)或肌电图(EMG))。

     2.仅限运动想象——仅对运动想象任务的分类。

     3.深度学习——仅使用基于深度学习的方法的研究,即至少具有两个隐藏层的神经网络。

      4.时间——本综述聚焦于过去10年的研究。

深度学习技术在脑电(EEG)运动想象(MI)信号分类中的应用(上)_第1张图片

图1 基于 PRISMA 程序的文章选择图

    在应用PRISMA程序后,共选定了89项研究进行本次综述。这些研究的时间分布如图2所示。尽管本综述的搜索范围包括过去十年发表的论文,但如图2所示,仅在过去五年开始探索使用深度学习进行MI-EEG分类的研究(遵循PRISMA程序)。该图还显示,从2017年开始,研究数量迅速增加。

深度学习技术在脑电(EEG)运动想象(MI)信号分类中的应用(上)_第2张图片

图2 基于PRISMA程序的文章选择图近十年来使用深度学习对MI-EEG信号进行分类的文章数量

2.1 提取的数据 

我们从文章和数据集来源中收集了以下数据:

1.预处理策略a. 去除伪影方法 • 自动去除 • 手动去除 • 不去除 b. 分析的频带 c. 脑电图通道选择

2.输入公式化a. 提取的特征 b. 频谱图像 c. 原始信号值 d. 拓扑图

3.深度学习方法a. 通用策略• 判别模型• 卷积神经网络(CNN) • 循环神经网络(RNN) • 多层感知机(MLP)• 代表性模型• 自编码器(AE) • 受限玻尔兹曼机(RBMs) • 深度信念网络(DBN)• 生成模型• 生成对抗网络(GAN) • 变分自编码器(VAE)• 混合模型b. 架构:隐藏层的数量,隐藏层的类型,激活函数。

4.性能评估a. 训练方法: • 受试者内,跨受试者 b. 评估方法: • 受试者/会话—依赖/独立, c. 评估策略: • 保留法,交叉验证。 d. 性能指标: • 准确率,卡帕值,其他。

5.MI数据集,下列变量被定义:a. 通用名称,年份,关键特征,文档链接,下载URL,引用参考。 b. 任务数量和类型的EEG(MI/运动/非运动)和非EEG类别,非任务相关EEG数据(休息/噪声/其他)的数量和类型。 c. 数据#受试者(男性和女性),#试验(总数/每个受试者/每个类别),#会话,会话持续时间,会话间休息时间,每个会话的#运行次数,运行持续时间,运行间休息时间,每次运行的#试验次数,每次试验中的#MI(每次试验一个MI或每次试验多个/长时间MI),以及试验持续时间[开始 | MI | 结束]。 d. 软件/设备记录软件,设备名称,#电极(类型),采样率,频率带,电压分辨率。 e. 验证策略信号质量验证(记录期间),以及数据验证(EEG信号分析)。

3 MI-EEG基于的脑-计算机接口(BCI) 3.1 脑-计算机接口(BCI)       BCI,也被称为神经控制接口(NCI)或脑-机器接口(BMI),是一种系统,它解释大脑活动并将其转换为命令,以控制智能设备,如轮椅、无人机、机器人手臂和虚拟现实设备。BCI系统包括三个基本组成部分,如图3所示:记录设备,用于测量大脑的磁性、电性或代谢活动;处理单元,用于解释大脑信号、提取关键特征、将它们分类为特定的大脑任务,并输出相关命令;智能设备、外部设备或运行产生的命令的计算机。在本节中,将讨论BCI系统的第一个组成部分,包括记录设备以及EEG和MI信号的特性。MI BCI处理单元从深度学习的角度在第4节中讨论。在本文的第6节中,将调查文献中使用的与MI-EEG信号相关的智能设备。

深度学习技术在脑电(EEG)运动想象(MI)信号分类中的应用(上)_第3张图片

图 3 BCI 系统的基本组件

3.2 大脑信号记录技术 

      中枢神经系统(CNS)中的心理活动产生随时间变化的连续模式,被称为神经振荡或脑波。在进行心理活动时,大脑中的神经元相互交流,导致大脑中电流和血流的变化,这些变化可以通过各种技术进行测量。大脑电流可以通过电场和磁场来测量,而脑血流可以通过光学和磁性特性来测量,如图4所示。

深度学习技术在脑电(EEG)运动想象(MI)信号分类中的应用(上)_第4张图片

图4 显示了基于大脑活动类型的不同大脑信号记录技术的分类。

       选择用于获取大脑信号的记录设备取决于许多因素,如应用领域、成本和将使用它的社区。基于记录设备,脑-计算机接口(BCI)系统可以大致分为侵入式和非侵入式BCI。侵入式记录通过植入颅骨下(例如,脑皮层电图(ECoG))或直接植入皮层(例如,皮层内信号)的电极(传感器)来测量大脑信号的电活动。侵入式BCI具有非常高的空间和时间分辨率,提供更精确的大脑活动信息。然而,它需要复杂的设置(包括手术)和昂贵的设备。另一方面,非侵入式记录方法通常通过在人类头皮上放置多个电极来进行。通过这种方法,可以使用磁活动(例如,脑磁图(MEG))、基于磁的代谢活动(例如,功能性磁共振成像(fMRI))、基于光的代谢活动(例如,功能性近红外光谱(fNIRS))或电活动(例如,EEG)来测量大脑信号,如图4所示。一般来说,对于非侵入式BCI,广泛使用EEG,并且由于其易用性、便携性、低成本和高时间分辨率而优于其他记录技术[43]。

3.3 EEG信号 

       EEG是一种记录电大脑活动的技术,使用非侵入式电生理方法测量由大脑神经元内的离子电流引起的电压波动[44]。因为在大脑内产生的离子电流是在头皮上记录的,障碍物(如颅骨)显著降低了信号的质量。记录的EEG信号只有实际大脑信号的大约5%[45]。因此,为了提高信号质量,通常在特征提取和分类之前对原始EEG信号进行预处理。

       EEG信号通常由表示与任务相关的大脑电位的实值2D矩阵(通道和时间)组成[46]。这两个维度代表了EEG信号的空间和时间信息。空间分辨率指的是头皮上电极的空间位置(电极数量),而时间分辨率代表每秒的时间点数(即采样率)。空间分辨率的范围从1到256个电极;然而,出于研究或临床目的,通常使用21到64个电极的范围。EEG信号的采样率通常在128到1000赫兹之间。图5展示了一个以256赫兹采样的23通道EEG信号的样本。电极放置在头皮上的固定位置,如图6所示。

图5:以256 Hz采样率和16位分辨率记录的10毫秒内的23通道脑电图(EEG)信号样本[47]。

深度学习技术在脑电(EEG)运动想象(MI)信号分类中的应用(上)_第5张图片

图6:使用标准的10-20系统在头皮上放置的74个电极的位置。

电极的命名基于它们的位置:C(中央)、T(颞部)、F(额部)、Fp(前额部)、P(顶部)和O(枕部)。AF、FC、FT、CP、TP和PO是(C、T、F、Fp、P和O)之间的中间电极。虚线标记了感觉运动皮层中的电极。

3.4 运动想象(MI)范式

      运动想象是指在不实际移动的情况下想象人体某部分(例如,肢体)的运动过程[48]。脑-机接口(BCI)系统主要用于三种范式:运动想象以及两种与事件相关的电位(ERP)(P300和稳态诱发电位(SSEP),特别是视觉诱发的稳态电位(SSVEP))[49, 50]。其中,MI范式对时间的敏感性较低,并且依赖于自主调节而非外部刺激,这对于开发独立的BCI框架是必要的[48]。

     根据对感觉运动皮层的神经生理学研究,mu(8-12 Hz)(mu波段是从感觉运动皮层记录的α波段[51])和β(18-26 Hz)节律会因实际运动、运动准备,甚至想象运动(称为运动想象(MI))而改变[52]。由于事件导致特定频率范围内大脑节律的能量调制,被称为事件相关去同步化(ERD)/事件相关同步化(ERS)。ERD反映了在MI事件期间感觉运动皮层中mu/β节律的功率降低,而ERS则表示通常在MI事件后发生的功率上升。与不同人体部位相关的MI任务(例如,右手、左手、腿和舌头)在mu/β节律的ERD/ERS中表现出不同的空间模式。许多实验表明,人们可以学会使用运动想象来控制(减少或增加)感觉运动节律的功率[53]。因此,MI为基于感觉运动节律的独立BCI系统的开发提供了一个良好的范式。

4 深度学习

在MI分类中的应用 

      在本节中,我们从四个主要方面探讨了在MI分类中使用的深度学习方法:预处理方法、输入表达、深度学习架构和性能评估。

4.1 预处理 

      为了从EEG信号中提取有价值的MI成分,通常会进行三个主要步骤的预处理:通道选择、信号频率过滤和伪迹去除。在通道选择中,从一组EEG电极中选择一部分MI-EEG数据,这些数据包含最明显的MI特征,有助于降低系统复杂性、计算时间、设备成本,可能还有系统性能。回顾的研究中有超过79%使用了数据集中的所有EEG通道,而有8项研究调查了通道选择对MI分类准确性的影响,使用了不同数量的电极[51, 54,55,56,57,58,59,60]。这些研究的分析详见讨论部分。

     信号频率过滤是MI分类中的一个预处理步骤,在大多数研究中都有使用(91%),原因有两个:选择对MI任务最有价值的频率带和消除伪迹。对于MI-EEG信号,感觉运动节律的ERD/ERS主要发生在μ(8-12 Hz)和β(18-26 Hz)频率带。因此,本次调查中回顾的几乎所有研究(96%)都包括了这两个频率带在他们的分析中,因为它们包含了与MI活动最相关的特征。通过频率过滤,也可以消除大部分噪声,例如低频伪迹(例如,由眨眼引起的EOG)和高频噪声(例如,超过35 Hz的EMG)[61]。因此,47%的研究建议使用6-35 Hz的频率带。然而,使用带通滤波器并不能轻易排除伪迹,因为它们可能会干扰有效的ERD/ERS带。其他一些研究(35%)建议使用比6-35 Hz更宽的频率带,范围在0-40 Hz,如图7所示。在本次回顾中,频率过滤不被视为伪迹去除的方法,因为它在回顾的研究中被使用了91%。最佳频率带选择在讨论部分进行了探讨。

深度学习技术在脑电(EEG)运动想象(MI)信号分类中的应用(上)_第6张图片

图7 回顾研究中分析的频率带范围

     先前的文献[13, 14, 61]调查了识别和消除MI-EEG伪迹的方法,这些内容将不会在本文中重复。在未指定任何伪迹去除程序的研究之外,我们确定了在审查的论文中去除伪迹的三种主要策略:自动去除(20%),手动去除(4%),不去除伪迹(40%),如图8所示。大多数审查的研究基于深度学习能够从原始和未过滤的数据中提取有用特征的事实,而没有去除任何伪迹地对MI-EEG信号进行分类。其他研究在将MI数据输入深度学习模型之前采用了伪迹去除方法。审查论文中最常用的方法是独立成分分析(ICA)[7, 62,63,64]和共同平均参考(CAR)[60, 65,66,67]。一些研究[66, 68]使用了更先进的工具来去除MI信号伪迹,例如自动伪迹去除(AAR)工具箱[69]。

深度学习技术在脑电(EEG)运动想象(MI)信号分类中的应用(上)_第7张图片

图 8:MI-EEG信号的伪迹去除策略及其在审查研究中的百分比

4.2 输入形式 

      深度学习模型中EEG信号的输入形式可以分为四种类型:提取的特征、频谱图像、原始信号值和拓扑图。输入形式的选择在很大程度上取决于深度学习模型的架构。图 9 显示了审查文章中使用的输入形式。图 10 展示了深度学习方法用于MI-EEG信号分类的不同输入形式的分类法。

深度学习技术在脑电(EEG)运动想象(MI)信号分类中的应用(上)_第8张图片

图 9 审查文章中每种输入形式的比例表示。(*空间频率图像)

深度学习技术在脑电(EEG)运动想象(MI)信号分类中的应用(上)_第9张图片

图10 不同深度学习方法用于MI-EEG信号分类的输入形式分类。

图像 a 到 j 展示了深度学习方法使用的不同MI-EEG信号图像表示。

a 原始MI-EEG信号;b–d 顶部图像;e 空间频率图像;f–j 时间频率图像。T:时间窗口(时间段);TP:时间点(采样点)或时间步;F:频率;F-band:频率带;C:通道(电极);x,y:头皮上的 x 和 y 坐标。

4.2.1 提取特征 

      在基于特征的输入形式中,MI分类的过程分为两步。首先,传统的特征提取方法将EEG信号转换为向量。然后,这些特征向量被输入到一个深度学习模型中,该模型训练用于对应这些特征的数据进行分类。在以前的研究中,从MI-EEG数据中提取的最流行的特征是CSPs(共同空间模式) [70,71,72,73,74]。Luo等人[70]使用FBCSP(滤波器组公共空间模式)提取MI-EEG信号的空间频率顺序时间片,并使用长短期记忆(LSTM)和门控循环单元(GRU)模型进行分类。所提出的方法对两种循环模型都取得了良好的结果。在[71]中,作者还使用FBCSP方法从MI数据中提取空间特征,并将它们作为2D矩阵输入到CNN模型中。其他类型的特征也已用于基于DL方法的MI-EEG分类,包括频率特征(例如,FFT [51],离散余弦变换(DCT)[75],和功率谱密度(PSD)[61, 76]),时频特征(例如,小波包分解(WPD)[77, 78],离散小波变换(DWT)[76],经验模态分解(EMD)[9, 75],和希尔伯特-黄变换(HHT)[79]),以及时域特征(例如,统计量[80])。已经提出了几种DL模型用于使用手工制作的特征进行MI分类,例如CNN [66, 81,82,83],LSTM [80, 84, 85],GRU [70],ELM [74],堆叠自编码器[51],DBN [61, 77, 86],以及混合CNN/LSTM模型[87, 88]。

4.2.2 频谱图像 

      从EEG信号生成的频谱图像,如频谱图,已被用作多种神经模型的输入形式,尤其是CNNs [7, 65, 89,90,91,92,93]。对于频谱图像,MI-EEG信号被表示为时频 [7, 65, 94](即,频谱图,T(时间窗口)× F(频率)),或空间频率图像 [89, 95](即,C(通道)× F(频率)),如图10中的图像(f)和(e)所示。时频图像可以使用WT [65, 96, 97],STFT [7, 90, 98, 99],Stockwell变换(ST)[67],和二次时频分布(QTFD)[68]生成。空间频率图像通常使用FFT [89, 95]生成。

      对于时频表示,MI数据可以从多个通道输入到DL模型中,作为单独的图像,或者组合成一个表示MI轨迹的单一2D或3D图像。组合的2D图像以三种方式生成:将EEG通道与频率值连接在同一维度(频率-通道轴)[T × (F + C)] [68, 90,91,92,93, 98,99,100];在时间维度(时间-通道轴)[(T + C) × F] [97];或者在时间和频率维度(时间-通道轴和频率-通道轴)[(T + C) × (F + C)],例如基于电极的拓扑结构[67],如图10中的图像(h),(i),和(j)所示。MI-EEG数据也可以在第三维度表示,形成一个3D张量(即,[T:时间,F:频率,C:通道])[65, 96],如图10g所示。

      Tayeb等人[7]使用STFT将MI-EEG数据转换为时频图像,即频谱图。作者使用了本地和公共[101] MI数据集,包括两个类别和三个EEG通道。频谱图像从三个EEG通道中提取,频率范围为2-60 Hz,并输入到CNN和混合CNN/RNN模型中。另一项研究[98]也使用STFT将EEG数据转换为时频图像。作者利用mu(8-13 Hz)和beta(13-30 Hz)频带中的EEG特征来分类MI信号,使用混合CNN/SAE模型。该研究使用了两个公共MI数据集(BCI-C II-3 [102]和BCI-C IV-2b [101]),包括两个MI类别和三个EEG通道。三个EEG通道与两个频率带组合在频谱图像的单一维度中。这种输入形式将MI数据的时间、频谱和空间信息组合在一个大小为[T × (F + C)]的2D图像中。在另一项研究[52]中,作者将两个通道的连续小波变换(CWT)频谱沿时间轴连接起来,形成大小为[(T + C) × F]的2D图像。然而,如果处理的MI信号由大量通道组成,这种结构可能不适合,即产生的频谱图像的大小将非常大。在这种情况下,通道可以在单独的维度中表示,而不是与频率或时间值组合在同一维度中。在[65]中的研究使用WT将MI-EEG信号表示为时频图像。作者选择了三个EEG通道进行MI分类,并将它们表示为3D张量(时间×频率×通道),用作CNN模型的输入。

4.2.3 原始信号值 

      时间域中的原始EEG信号,即[TP(时间点)× C(通道)]矩阵,如图10a所示,也直接用作深度神经网络的输入。这是由于深度学习模型能够从大量数据中学习复杂特征而不使用手工制作的特征,从而鼓励了端到端学习的概念。在这个概念中,深度学习模型应该以监督的方式学习原始EEG数据的优化特征表示和分类,无需(或仅限于)预处理。来自多个电极的EEG信号要么分别作为1-D向量处理,要么组合成一个2D矩阵,如图10所示。2-D矩阵要么直接通过将EEG信号基于时间点划分为段来表示,每个段由一个[TP × C]矩阵组成,要么间接地通过将每个时间点转换为基于电极空间拓扑的2D图像来表示,这将在下一节中解释。已经提出了几种深度学习模型来使用原始EEG数据对MI任务进行分类,并取得了有竞争力的成果 [60, 62, 103,104,105,106,107,108,109,110,111,112,113,114]。原始EEG信号被用作具有轻量级架构[107, 109, 110]以及先进和紧凑架构[108, 115]的DL模型的输入,几乎没有或没有预处理。在[108, 115]中的作者使用MI信号的时间序列作为原始数据,以2D矩阵的形式,没有进行预处理或去除伪迹。原始MI数据被输入到多层CNN和混合CNN-MLP/AE模型中,取得了显著的性能。另一项研究[107]报告了使用轻量级CNN架构对原始MI信号进行分类的良好性能,并且预处理最小。

4.2.4 拓扑图 

      在拓扑图输入公式中,EEG信号根据电极的空间拓扑(即头皮上电极的位置)表示为2-D或3-D图像。拓扑图可以从时间域[54, 100, 116,117,118]或频率域[67, 119]的EEG信号中构建,如图10所示。在时间域中,图像要么从每个时间点(即采样点)生成[54, 58, 116, 117],要么从几个时间点的段(窗口)生成[59, 118]。在[116, 117]的研究中,从每个时间点提取的每个2-D图像被视为单独的样本,类似于图10中的图像(b),而在[54, 58]中,每个时间点的2-D图像被组合以表示一个3-D图像[2-D图像 × 时间点],如图10中的图像(c)所示。在[118]的研究中,提出了一种3-D拓扑图[2-D图像 × F:频率],类似于图10中的图像(d),使用Clough–Tocher插值算法。所提出的方法平均了来自三个频率带的MI-EEG信号段的时域功率。每个频率带的数据在3-D图的频率维度(F)中表示。在另一项研究[100]中,提出了一种基于图的结构来表示MI-EEG信号的电极位置。在基于频率域的拓扑图中,首先将MI-EEG信号转换为频率域,然后通过平均光谱值来创建拓扑图。在[119]的研究中,使用CWT和PSD将MI-EEG信号转换为频率域,然后使用球形样条插值构建拓扑图。与所有先前的研究不同,[67]中的研究建议通过结合从每个通道提取的2-D图像(光谱图像),而不是标量值(单个值),根据头皮中电极的位置创建一个大型拓扑图像。

4.3 深度学习架构 

      在本节中,我们将探讨在MI-EEG分类研究中使用的不同DL架构。DL模型根据其功能被分类为四个子类别[30]:判别式、表征式、生成式和混合式DL模型,如图11所示。

深度学习技术在脑电(EEG)运动想象(MI)信号分类中的应用(上)_第10张图片

图11 应用于 MI-EEG 分类的深度学习模型的分类

4.3.1 判别式深度学习模型 

     判别式深度学习模型指的是能够通过非线性变换从输入信号中学习独特特征,并使用概率预测将它们分类到预定义类别的深度学习架构。因此,这些技术可用于特征提取和分类。判别模型:包括卷积神经网络(CNN)、递归神经网络(RNN)及其变体(GRU和LSTM)、多层感知器(MLP)和极限学习机(ELM)。

      CNN是最常见的深度学习模型之一,专门用于提取局部和空间模式。CNN架构由以特定顺序排列的一组神经网络组成,其中每层具有不同大小,每层执行特定任务。较早的层学习低级特征,而较深的层学习高级特征。CNN通常由三个结构块组成:卷积层(用于特征提取)、池化层(用于特征维度降低)和全连接(FC)层(用于分类)。卷积层是CNN架构的一个重要组成部分,执行特征提取。池化层提供典型的降采样操作,减少网络计算。池化层的输出特征图通常被展平,并连接到一个或多个全连接层。

      在所回顾的研究中,78%使用了基于CNN(卷积神经网络)的深度学习策略,包括独立和混合CNN,如图12所示。许多研究使用标准CNN模型对基于MI-EEG(运动想象脑电图)的信号进行分类,这些模型具有轻量级[96, 107]和深度架构[118, 120]。此外,还有许多其他类型的CNN,包括但不限于表1中列出的:基于注意力的CNN [104, 106, 121, 122]、基于残差的CNN [58, 104, 123, 124]、基于Inception的CNN [9, 114, 125]、Dense Net [67]、3D-CNNs [54, 58]、多分支CNN(即基于集成学习)[54, 58, 66, 73, 75, 105, 112]、多层CNN [62, 82, 108, 111, 126]、多尺度CNN [9, 106]、具有多级池化的CNN [127],以及具有迁移学习能力的CNN架构 [83, 97, 121, 128,129,130]。

深度学习技术在脑电(EEG)运动想象(MI)信号分类中的应用(上)_第11张图片

图12 研究所涉及的深度学习方法

表1 用于 MI 分类的不同 CNN 技术列表

深度学习技术在脑电(EEG)运动想象(MI)信号分类中的应用(上)_第12张图片

      在[107]的研究中,提出了一种轻量级CNN架构,用于使用原始信号对不同的EEG任务进行分类,取得了显著的性能。相反,在[71]中,作者提出了一种用于多重MI分类的CNN模型,该模型使用FBCSP(滤波器组公共空间模式)方法从MI数据中提取特征。在[65]中,提出了一种使用小波变换(WT)的时频图像表示法,并将其与CNN模型结合,用于MI信号分类,在一个包含四个MI类别的数据集中达到了85.59%的准确率[131]。在[7]中,作者提出了一个用于MI-EEG分类的CNN模型,该模型使用从EEG信号中提取的频谱图像。提出的模型达到了84.24%的准确率,并成功应用于实时机器人手臂控制。Amin等人提出了一种多层CNN架构,用于从原始EEG信号中进行MI-EEG分类,并采用多级特征融合[108]。在这种架构中,特征在不同层次的卷积层中提取,并通过全连接层进行合并。这种方法在BCI Competition IV-2a数据集上达到了74.5%的准确率[131]。Li等人[118]提出了一种基于CNN的非常深的模型,该模型使用傅里叶变换处理EEG信号,并将其解释为头皮的拓扑图。这些图作为图像输入到CNN模型中。在另一项研究[67]中,作者使用了深度度量学习(DML)方法和基于DenseNet的CNN网络,结合三元网络架构对MI-EEG信号进行分类。提出的DML方法在有限数量的训练实例(~120个样本)中显示出了有希望的结果。在[54, 58]中,作者提出了一个用于MI分类的多分支3D CNN网络,使用3D拓扑表示法表示MI数据。多分支网络由三个具有不同感受野大小的CNN块组成,这些块并行操作。然后将这些块的输出输入到softmax层以产生最终的分类结果。[58]中的研究人员发现,具有三个分支的CNN网络的性能优于具有一个或两个分支的CNN网络。其他一些研究人员也使用CNN模型对MI-EEG信号进行分类,包括Wang等人[90]、Dose等人[109]和Tang等人[110],分别报告了92.7%、80.4%和86.4%的准确率。

     RNN是一种主要适用于时间序列数据的深度学习架构。RNN网络可以从序列数据中提取时间特征和模式,使其成为视频、语音和医学信号分析(例如EEG)中的强大方法。文献中广泛使用了两种RNN网络:LSTM和GRU。

     LSTM模型是一种RNN网络,能够学习长期关系并克服传统RNN的梯度消失问题。LSTM模型由LSTM单元组成(相当于多层感知器中的节点),这些单元由三个门控制:输入门、遗忘门和输出门。堆叠的LSTM单元创建了一个LSTM层,可以向前或向后工作,形成双向或单向LSTM。

      在一些研究中使用了LSTM模型来分类MI任务[7, 80, 84]。在[80]中,研究了基于一维聚合近似(1d-AX)方法的深度LSTM模型,用于分类MI-EEG任务。在另一项研究[84]中,作者提出了一个LSTM模型,该模型使用CSP进行特征提取,LDA进行特征降维,以及SVM作为分类器。提出的模型在公共数据集GigaDB [132]和BCI-C IV-1 [133]中分别达到了68.19%和82.52%的准确率。Kumar等人[85]也使用了结合CSP和SVM的LSTM模型进行MI分类。该研究提出了一种使用遗传算法的自适应频带选择方法,在一个双类数据集(Cho等人[132])中达到了平均准确率69.59%。

      GRU是RNN的新一代,与LSTM略有不同,它有两个门(更新和重置),而不是LSTM的三个,它们的连接方式也略有不同。GRU可以被认为是LSTM的简化版本,具有轻量级架构。只发现了一项使用GRU进行MI分类的研究[70]。在这篇论文中,作者提出了GRU和LSTM网络,采用滑动窗口裁剪策略(SWCS)来分类使用FBCSP方法提取的空间频率特征的MI信号。研究人员使用两个公共数据集(具有四个和两个类别的BCI-C IV-2a [131]和BCI-C IV-2b [101])验证了他们的模型。结果显示,与LSTM的72.6%和81.5%相比,GRU在第一个和第二个数据集中分别达到了73.6%和82.8%的最佳结果。

      ELM是一种用于特征提取和分类的判别性前馈神经网络。在ELM中,学习过程几乎是瞬间的,因为隐藏节点是随机分配的,不需要调整或更新。ELM使用随机初始化的神经元参数的最佳选择来估计所需决策的边界。这一特性是其相对于深度学习的主要优势。然而,通过组合随机权重获得的准确率并不像经过精细调整的反向传播神经网络那样高。ELM的另一个优势是,激活函数可以根据需要复杂化,因为它不需要通过反向传播进行可微分和训练。ELM通常用作具有手工设计特征的快速分类器。在[74]中的研究提出了一种使用ELM深度架构的半监督多类MI分类方法。作者提出了两个ELM模型,一个用于特征提取,另一个用于使用基于CSP方法手工设计的特征对MI任务进行分类。首先使用分层ELM(H-ELM)学习MI特征,然后采用半监督ELM(SS-ELM)算法以半监督方式对MI任务进行分类。研究结果表明,提出的方法在准确性和速度方面表现良好。

4.3.2 代表性深度学习模型

     代表性深度学习模型指的是专门用于以非监督方式提取特征的深度学习架构,可用于各种任务,如聚类和分类。代表性深度学习模型包括深度自编码器(D-AEs)、深度限制玻尔兹曼机(D-RBMs)和深度置信网络(DBN)。

     自编码器(AE)是一种代表性的人工神经网络,用于以非监督方式学习特征,实现高效的数据编码。AE由三个主要部分组成:编码器、编码和解码器。编码器将输入压缩成为称为编码的潜在空间表示,然后解码器使用这个编码来重构输入。AE有许多不同的变体,本文综述中识别出三种在功能上有显著差异的一般类型:D-AE、SAE和VAE。D-AE像普通AE一样学习,无论网络中有多少层,所有层都同时训练。在SAE中,不同的堆叠AE块分别训练,其中每个块的表示(编码)用作下一个块的输入。SAE被定义为基于AE的DBN(DBN-AE),将在接下来的DBN部分中探讨。2013年提出的VAE与其他AE不同,它们在核心处有一个数据均值和标准差的层,允许轻松的插值和随机采样。VAE是最强大的生成方法之一。VAE将与生成性深度学习模型一起探讨。

     通常,除了VAE之外的AE用于特征提取;因此,AE模型通常与其他判别性深度学习模型结合,以创建混合模型。例如,在文献[98]中,提出了一个用于运动想象(MI)任务分类的混合CNN/AE模型。混合深度学习模型将在本节后面讨论。

      深度置信网络(DBN)是一个由一系列限制玻尔兹曼机(RBM)或自编码器(AE)网络组成的代表性模型[30]。因此,我们将DBN分为两部分:DBN-RBM(也称为堆叠RBM),由RBM组成;以及DBN-AE(也称为堆叠AE),由AE组成。DBN-RBMs已在一些研究中用于分类MI-EEG信号[61, 77, 78, 86]。Lu等人[77]提出了一个基于堆叠RBM层的深度DBN架构,用于MI信号分类。他们使用小波包分解(WPD)和快速傅里叶变换(FFT)来训练三个RBM,然后加上一个额外的输出层,形成一个四层DBN。在文献[61]中,提出了一种使用Lomb-Scargle周期图(LSP)进行特征提取和基于RBM的DBN作为分类器的MI-EEG信号解码方法。LSP方法用于从含有大量伪影的不完整(部分数据丢失)MI-EEG数据中提取有用的功率谱密度(PSD)特征,报告平均准确率为83%。在另一项研究[78]中,作者提出了一个通过t分布随机邻域嵌入(t-SNE)增强的深度DBN-RBM模型,用于特征提取和支持向量机(SVM)进行分类。该研究利用WPD和共空间模式(CSP)分别从MI-EEG数据中提取时频和空间特征,使用一个包含四个MI类别的数据集,实现了78.51%的准确率。Hassanpour等人[51]提出了一个定义为DBN-AE的堆叠稀疏AE模型,用于使用FFT频率特征进行MI-EEG分类。该研究使用滑动窗口增强方法增加训练数据量,并使用公共BCI-C IV-2a数据集[131]实现了71%的准确率。

4.3.3 生成性深度学习模型 

      生成性深度学习模型通常用于增强和改善训练数据。最受欢迎的生成性深度学习模型包括生成对抗网络(GAN)和变分自编码器(VAE)。本综述中的几项研究使用了传统的数据增强方法,即非深度学习方法,来增加训练数据的规模,例如噪声添加[114]、滑动窗口[88, 105]和振幅扰动[135]。审查的两项研究引入了基于深度学习的数据增强方法,使用GAN和VAE网络[64, 91]。这些研究的结果表明,使用GAN模型进行MI数据增强显著提高了分类性能。张等人[91]提出了一个用于MI数据增强的四层GAN模型,并将其性能与VAE和其他传统增强方法(如几何变换和噪声添加)进行了比较。结果显示,GAN和VAE均优于传统方法,而GAN的性能最佳。研究发现,使用GAN增强的MI数据训练的CNN模型在BCI-C IV-2a[131]和IV-2b[101]数据集上的性能分别提高了17%和21%,与未进行数据增强的训练相比。文献[64]中的作者引入了一个基于GAN的轻量级架构生成模型,用于MI数据增强,表明增加训练样本数量可以提高CNN模型的性能,使用BCI-C III-4a数据集[136]提高了3.57%。该研究还证明了GAN模型相对于VAE的优越性。在另一项研究[99]中,作者提出了一个基于VAE和CNN的混合深度学习模型。在这项研究中,VAE被用作分类器而不是生成模型。混合模型将在下一节中讨论。

4.3.4 混合深度学习模型 

       混合深度学习模型将两个或多个深度学习模型集成到一个网络中。除了上述的独立深度学习模型外,研究人员还尝试融合不同的深度学习网络,并且在MI分类任务中获得了令人鼓舞的结果[7, 63, 98,99,100, 115, 137, 138]。本综述确定了五种组合类型:两种判别模型(例如,CNN/LSTM[56, 63, 88, 100, 137, 138]、CNN/GRU[59]和CNN/MLP[115])、代表性模型与判别模型的结合(例如,CNN/SAE[60, 98])、生成模型与判别模型的结合(例如,CNN/GAN[64, 91]和CNN/VAE[99])、判别模型后接非深度学习分类器(例如,LSTM + SVM[85]和CNN + SVM[68, 75]),以及代表性模型后接非深度学习分类器(例如,DBN + SVM[78])。

     在[7]的研究中提出了一种混合CNN/RNN模型,称为循环卷积神经网络(RCNN)。该模型由一个卷积层和四个循环层组成,后接一个全连接层。MI信号在输入RCNN模型之前被转换为频谱图像。该模型的性能使用作者的本地数据集进行了研究,该数据集包含两个MI类别和三个通道,报告的准确率为77.72%。文献[98]中的研究提出了一种混合CNN/SAE架构,由一个一维卷积层和一个六层SAE组成,接收作为2D频谱图像的MI信号。作者使用了两个公共数据集(BCI-C II-3 [102]和BCI-C IV-2b [101]),包含两个MI类别,分别有一个和九个受试者,分别达到了90.0%和77.6%的准确率。文献[115]中的研究人员建议将多层CNN与AE和MLP网络融合。多层CNN由在不同频带上训练的不同CNN模型组成。从这些频带提取的CNN特征被合并成单一的特征表示,并与AE和MLP模型结合。所提出的CNN/MLP和CNN/AE模型在公共BCI-C IV-2a数据集[131]上分别达到了75.7%和73.8%的准确率。在[99]中,提出了一种基于CNN和VAE的混合深度学习模型,用于MI分类,使用MI信号的时频空间表示,报告了BCI-C IV-2b数据集[101]中的平均卡帕值为0.56。该研究还考察了CNN和LSTM模型的融合。

       图12显示了审查研究中深度学习方法的比例表示。从审查的论文中提取的关键信息总结在表2中。(表2篇幅过长,可在原文中获取)

表2中涉及的缩略词:

Pre-processing, Selected channels, ALL: All dataset channels, variable: varying numbers of channels. Analyzed frequency band,

FB:数据集中的全带宽(0–频率终点)。去除伪迹的方法,W:无,M:手动,A:自动 [ICA:独立成分分析,DWT:离散小波变换,CAR:共同平均参考滤波器,AAR:自动伪迹去除工具箱,ASR:伪迹子空间重建,BSS:盲源分离,MRIC:运动相关独立成分,SWT:同步挤压小波变换]。输入公式,(*参见图10),RV:原始值,EF:提取特征 [频率特征 [FFT:快速傅里叶变换,DCT:离散余弦变换,PSD:功率谱密度 [LSP:Lomb-Scargle周期图]],时频特征 [EMD:经验模态分解,HHT:希尔伯特-黄变换,WT:小波变换,DWT:离散小波变换,WPD:小波包分解],空间特征 [CSP:共同空间模式,FBCSP:滤波器组CSP],NSCM:标准化样本协方差矩阵,SM:统计度量,CorrM:相关矩阵,PCA:主成分分析],SI:频谱图像 [TFI:时频图像 [ST:Stockwell变换,QTFD:二次时频分布,WT [CWT:连续小波变换,MW:莫莱小波],STFT:短时傅里叶变换],SFI:空间频率图像],TM:拓扑图 [TP:时域点 [D:直接映射,G:基于图的],SP:频谱域功率]。T:时间窗口(时间段),TP:时间点(采样点),F:频率,F-band:频率带,C:通道(电极)。深度学习方法,一般策略,CNN,RNN [GRU,LSTM],MLP,RBM,AE,DBN [DBN-RBM,DBN-AE],ELM,DSN:深度堆叠网络 [DSN-RBM],GAN,VAE,混合 [CNN/LSTM,CNN/GRU,CNN/MLP,CNN/AE,CNN/VAE,CNN/GAN],SVM,多层:多层技术(用于CNN),多分支:CNN的多个分支(集成学习),增强:数据增强,SW:滑动窗口,NS:噪声添加,AP:振幅扰动。架构:CONV:卷积层,FC:全连接层,DB:密集块,LSTM-L:LSTM层,GRU-L:GRU层,hid:隐藏层,OUT:(输出)类别数量。激活函数,ReLU:修正线性单元,LReLU:泄露修正线性单元,ELU:指数线性单元,SELU:缩放指数线性单元,tanh:双曲正切,sigm:Sigmoid,Smax:Softmax函数,Linear:线性函数,L-FC:最后全连接层,G-conv,d-conv:(生成器/判别生成器)模型中的卷积层。数据集,Local:私有数据集(不可用),sub:受试者,elec:电极,L/R:左/右,sess:会话,‘‘x s trial’’:试验持续时间为x秒。评估策略,HO:保留(训练:测试),CV:交叉验证,LOSO:留一受试者外,c-sub:交叉受试者,sub-d:受试者依赖,sub-i:受试者独立,CM:混淆矩阵,PR:精确度(阳性预测值),RC:召回率(真阴性率(TPR)/敏感性),TNR:真阴性率(特异性),ITR:信息传输率,ROC:接收者操作特征曲线,AUC:曲线下面积,T-comp:时间复杂度,w-test:Wilcoxon测试,‘‘(x: y subs)’’:x受试者用于训练,y受试者用于测试。

4.4 性能评估 

      对于运动想象(MI)脑电图(EEG)分类,准确率是最常用的性能衡量指标(占95.4%)。卡帕指标也是一个常见的性能衡量方法(占35.4%),它有助于消除不平衡数据和随机分类的影响[99]。许多研究(24%)使用混淆矩阵来提供有关分类器效率的额外信息[62, 97, 112]。从混淆矩阵中可以得出几个性能指标,如精确度(阳性预测值(PPV))[67, 109]、灵敏度(召回率或真阳性率(TPR))[108, 110]、特异性(真阴性率(TNR))[84, 148]和F分数[65, 68],后者通过调和平均数将TPR和PPV整合成一个指标。当用于分类的是一个连续参数时,常用的是曲线下面积(AUC)[100, 107]和接收者操作特征(ROC)[63, 118][29]。一些研究者还使用了与性能指标相关的统计测试,如p值、t检验[91, 112, 137]和Wilcoxon检验[127, 140]。

      通常,分类性能是在预先录制的数据集上离线测量的,使用两种技术之一:保留法或交叉验证。在保留法中,数据集被分成两个独立的组,一个用于训练MI模型,另一个用于评估其性能。在交叉验证方法中,通过重复将数据集分成训练和测试集的过程,在几个折叠中训练和评估MI模型。然后,MI模型的性能在所有折叠中取平均值。在大型数据集上倾向于使用保留法,而在小型数据集上,则倾向于使用交叉验证。在回顾的论文中,这两种方法大致相等,53%的研究使用保留法,59%使用交叉验证。

      由于脑电图数据是依赖于受试者和会话的,具有较大的受试者间和会话间变异性,因此使用相同受试者/会话训练和测试的MI模型的性能结果与使用在训练期间未见过的新受试者/会话测试的模型的结果不同。在性能评估中,很容易混淆几个术语,这些术语指的是训练和评估方法中的受试者或会话依赖性。这里,我们使用受试者依赖性来解释两组术语,这些术语对于会话依赖性也有相同的含义。第一组术语包括受试者内、受试者特定和受试者依赖,第二组术语包括跨受试者和受试者独立。第一组术语在文献中经常混用,并常作为同义词使用,指的是一种训练方法,即使用受试者的一部分MI数据来训练为该受试者量身定制的模型,并为所有其他受试者重复这一过程。相比之下,跨受试者术语指的是一种训练方法,即使用来自几个受试者的一组MI数据来训练一个适用于所有受试者的共同模型,而受试者独立术语则指的是一种评估方法,即使用在训练数据中未见过的独立受试者来评估模型,如图13所示。

深度学习技术在脑电(EEG)运动想象(MI)信号分类中的应用(上)_第13张图片

图 13 本文中定义的性能评估术语分类

     脑电图(EEG)数据集通常是从几个会话中获取的,其中一些会话用于训练,其余用于测试(保留法)[127, 129]。在这种情况下,由于运动想象(MI)模型是使用来自不同会话的MI数据进行评估的,因此被称为会话独立模型。在一些其他研究中,使用了交叉验证方法,其中所有会话的MI数据被合并,然后随机分成k个相等的集合,这可能会高估准确性[121]。

      受试者间的变异性是MI分类的一个主要挑战[128]。大多数研究使用来自同一受试者的MI数据来训练和测试针对特定受试者的MI模型。研究人员更倾向于这种训练策略,因为它能实现更高的分类准确性;然而,它对不同受试者的泛化能力较差。一些其他研究者试图开发更通用的、受试者独立的MI模型,这些模型使用不同受试者进行训练和测试[94, 100, 108, 115, 123, 128]。受试者独立模型的性能使用保留法或交叉验证技术进行评估,类似于前面描述的那些。在保留技术中,一些受试者用于训练,其余用于测试[57, 100]。在交叉验证技术中,称为留一受试者法,折叠的数量等于受试者的数量,对于每个折叠,一个受试者用于评估,其他用于训练[115, 123, 128]。

你可能感兴趣的:(深度学习,分类,人工智能)