目前大多数基于EEG的脑机接口的算法都是基于机器学习算法。正如我们在2007年的论文中写的,这个领域中使用了多种多样的分类器。现在,在那篇综述发表后的十年内,许多新的算法已经被开发和测试,用来对脑机接口中的脑电信号进行分类。因此,对脑机接口脑电分类算法进行综述更新的时机已经成熟。
方法
我们汇总了2007年至2017年的BCI和机器学习的文献,以确定设计用在脑机接口方向的新分类方法。我们综合了现有方法的研究,解释它们如何应用于脑机接口,得到了怎样的结果,并确认它们的优点和缺点。
主要结果
我们发现,最近设计的基于脑电信号的脑机接口分类算法可以分为四大类:自适应分类器、矩阵和张量分类器、迁移学习和深度学习,以及其他各种分类器。其中,自适应分类器被证明通常优于静态分类器,即使是无监督的自适应。尽管迁移学习的好处仍然不可预测,但迁移学习也很有用。基于黎曼几何的方法在多种BCI问题上已经达到了最先进的性能,值得与基于张量的方法一起进行更彻底的探索。线性判别分析和随机森林对于小训练样本也特别有用。另一方面,深度学习方法还没有显示出比最先进的BCI方法有令人信服的改进。
意义
本文全面概述了基于脑电信号的脑机接口中使用的现代分类算法,介绍了这些方法的原理以及何时和如何使用它们的指南。它还确定了一些挑战,以进一步推进BCI-EEG分类的研究。本文发表在Journal of Neural Engineering杂志。
引言
脑机接口(BCI)可以定义为将使用者的大脑活动模式转换为交互式应用程序的消息或命令的系统。BCI使用者的大脑活动通常使用EEG来测量。例如,BCI可以让使用者分别想象左手或右手的移动来将光标移动到计算机屏幕的左边或右边。基于EEG的脑机接口使计算机控制成为可能,而无需任何体力活动,因此有望在许多应用领域实现革命性变革,特别是使严重运动障碍的使用者能够控制辅助技术,例如文本输入系统或轮椅,作为中风患者的康复设备,作为新的游戏输入设备,或者设计能够对使用者的精神状态做出反应的自适应人机界面。
为了使用BCI,通常需要两个阶段:(1)离线训练阶段,在此期间系统被校准,以及(2)在线操作阶段,在此阶段系统可以识别大脑活动模式,并将它们转换为计算机命令。在线BCI系统是一个闭环系统,从用户产生特定的EEG模式(例如,使用运动想象)开始,并测量这些EEG信号。然后,通常使用各种空间和频谱滤波器对EEG信号进行预处理,并从这些信号中提取特征,以便用简洁的形式表示它们。最后,这些EEG特征在被翻译成应用程序的命令之前被分类,并且使用者收到反馈,以通知他们特定的大脑命令是否被识别。
尽管目前正在努力实现无校准运行模式,但大多数生物化学工程中仍需要使用离线校准来获得可靠的系统。在此阶段,对分类算法进行校准,并从多个脑电信号通道中选择最佳特征。对于这种校准,需要使用者预先记录训练数据集。EEG信号是高度用户特定的(user-specific),因此,目前大多数BCI系统是专门为每个用户校准的。该训练数据集包含当用户根据给定的指令多次执行每个感兴趣的精神任务时记录的EEG信号。
BCI闭环中有各种关键元素,其中一个是分类算法,也称为分类器,用于根据EEG特征识别使用者的EEG信号模式。正如我们在2007年对基于EEG的脑机接口分类器的综述中所介绍的那样,在设计脑机接口时使用了并且已经探索了大量的分类器类型。现在,在这篇初步评论发表大约十年后,许多新的算法已经被设计和探索,以便在BCI对脑电信号进行分类,脑机接口比以往任何时候都更受欢迎。因此,我们认为更新EEG分类器的时机已经成熟。因此,在本文中,我们汇总了2007年-2017年关于BCI和机器学习的文献,以确定哪些新的EEG分类算法已经被研究用于设计BCI,确定哪些是最有效的。请注意,在本综述中我们还包括了EEG特征提取的机器学习方法,特别是优化空间滤波器(optimize spatial filters),这已成为BCI分类方法的一个关键组成部分。我们综合这些文献,以便于展示这些算法,阐述它们是如何用于脑机接口的,以及结果是什么。我们还确定了它们的优缺点,以便为如何以及何时使用特定的分类方法提供指导,并提出了一些必须解决的挑战,以使脑电信号分类取得进一步进展。
本文按照如下组织。第2节简要介绍了典型EEG特征提取和选择技术,因为这些特征通常是分类器的输入。还总结了分类器性能评估指标。然后,第3.1节总结了2007年以前用于基于EEG脑机接口的分类器,其中许多至今仍在使用,以及当前EEG分类方法面临的挑战。第4节描述了论文的核心,因为它回顾了自2007年以来为解决这些各种挑战而探索的BCI分类算法。这些算法将在第5节中讨论,我们还将提出如何以及何时使用它们的指导方针,并确定一些剩余的挑战。最后,第6节对论文进行了总结。
2.特征提取和选择,以及简单的性能度量
本文是关于BCI的分类方法。然而,大多数模式识别/机器学习和脑机接口也不例外,它们不仅使用分类器,为了将脑电信号表示为简洁和相关的方式,还应用特征提取/选择技术。特别是对于BCI,在从结果信号中提取特征之前,通常在时域(带通滤波器)和空间域(空间滤波器)中对脑电信号进行滤波。然后使用特征选择算法来识别特征的最佳子集,这些特征用于训练分类器。这个过程如图1所示。在本章中,我们将简要讨论BCI通常使用的特征,如何在这些特征中选择最相关的特征,以及如何评估最终的模式识别。
图1 基于EEG的BCI系统中的典型分类过程。斜箭头表示可以或必须根据数据进行优化的算法。训练阶段通常是识别最佳过滤器和特征以及训练分类器所必需的。产生的过滤器、特征和分类器随后被在线用于操作BCI。
2.1 特征提取
虽然有许多方法可以表示EEG信号,但用于表示EEG信号的两种最常见的特征是:频带功率特征和时间点特征。
频带功率特征表示特定通道中特定频带的脑电信号的功率(能量),在特定时间窗内取平均值(对于许多BCI范例通常为1秒)。频带功率特征可以用各种方法计算,并广泛用于利用振荡活动的脑机接口,即EEG节律振幅的变化。因此,功率特征是BCI的黄金标准特征,其基于许多被动BCI的运动和心理意象,旨在解码心理状态,如心理负荷或情绪,或基于稳态视觉诱发电位(SSVEP)的脑机接口。
时间点特征是来自所有通道的EEG样本的组合。通常,这些特征在一些预处理之后被提取,特别是带通或低通滤波和下采样。它们是用于对事件相关电位(ERP)进行分类的典型特征,事件相关电位是对特定事件/刺激进行时间锁定的EEG信号幅度的时间变化。这些是大多数基于P300的BCI使用的功能。
这两种类型的特征都受益于在空间滤波后提取的特征。空间滤波包括组合原始传感器信号,通常是线性组合,这可能导致信号的信噪比高于单个传感器的信噪比。空间滤波可以是数据无关的,例如基于就EEG信号如何通过皮肤和颅骨的物理考虑所采用的空间滤波器,如众所周知的拉普拉斯滤波器或基于逆解的空间滤波。空间滤波器也可以通过主成分分析(PCA)或独立成分分析(ICA)等方法以数据驱动和无监督的方式获得。最后,可以通过数据驱动的方式获得空间滤波器,其中监督学习是目前最流行的方法之一。监督空间滤波器包括众所周知的共空间模式(CSP) ,专用于频带功率特征和振荡活动BCI,以及用于基于时间点特征的事件相关电位分类的空间滤波器,如xDAWN 或Fisher空间滤波器。由于在实践中通过这种受监督的空间滤波器获得了良好的分类性能,已经开发了这种算法的许多变体,其使用正则化方法、鲁棒的数据平均或者新的差异测量,它们对噪声或非平稳信号更加鲁棒。类似地,已经提出了这些方法的扩展来同时优化频谱和空间滤波器(例如流行的滤波器组CSP (FBCSP,filter bank CSP)方法和其他方法)。最后,一些方法将基于物理驱动的空间滤波器与基于逆模型的数据驱动的空间滤波器相结合。
虽然空间滤波之后的频带功率或时间点特征提取是目前基于脑电信号的脑机接口中使用的最常见的特征,但是应该提到的是,已经探索和使用了其他特征类型。首先,一种越来越常用的类型是功能连接。这些特征测量来自不同传感器和/或频带的信号之间的相关性或同步性。这可以使用频谱相干性、锁相值或定向传递函数等特征(spectral coherence, phase locking values or directed transfer functions)来测量。研究人员还探索了各种脑电信号复杂性的测量或高阶统计量作为脑电信号的特征。最后,最近的研究没有使用特征向量,而是探索了如何用协方差矩阵或张量(即二维或二维以上的阵列和多路阵列[multi-way arrays])表示脑电信号,以及如何直接对这些矩阵或张量进行分类。这些方法将在第4.2节中讨论。应该提到的是,当使用矩阵或张量分解时,得到的特征是各种传感器数据、时间点或频率(等等)的线性组合。因此,他们可能没有一个明显的物理/生理解释,但经证明其对BCI设计有用。
最后,值得注意的是,几项BCI研究报告称,与使用单一特征类型相比,将各种类型的特征,例如某些时间点的频段功率或某些频段的功能连接)进行组合通常有更高的分类精度。组合多个特征类型通常会增加维数;因此,它需要选择最相关的特征,以避免维数灾难。下一节将介绍降维方法。
可以在特征提取步骤之后应用特征选择步骤,以选择具有各种潜在益处的特征子集。首先,在从EEG信号中提取的各种特征中,有些可能是多余的,或者可能与BCI所针对的精神状态无关。
其次,分类器必须要优化的参数数量与输入特征数量呈正相关。因此,减少特征的数量可以让分类器需要优化的参数更少。它还可以减少可能的过度训练的影响,从而提高性能,尤其是在训练样本数量较少的情况下。
第三,从特征提取的角度来看,如果只选择或者排列几个特征,则更容易观察到哪些特征实际上与目标精神状态相关。
第四,具有较少特征和较少参数的模型可以为新样本产生更快的预测,因为它应该在计算上更有效。
第五,将减少数据的收集和储存。目前已经确定了三种特征选择方法:过滤、包装和嵌入方法(filter, wrapper and embedded)。对于每种方法都有了很多替代方法。
过滤方法依赖于每个特征和目标类别之间关系的测量,但与要使用的分类器无关。系数的确定,也就是皮尔逊相关系数估计的平方,可用作特征排序的标准。系数的确定也可用于二分类问题,将类别标记为1或+1。相关系数只能检测特征和类别之间的线性相关性。为了利用非线性关系,一个简单的解决方案是做非线性预处理,例如获取特征的平方或对数。也可以使用基于信息论的排序标准,例如每个特征和目标变量之间的互信息。许多过滤器的特征选择方法需要从数据中估计概率密度以及特征和类别标签的联合密度。一种解决方案是离散化特征和类别标签。另一种解决方案是用非参数方法,如Parzen窗来近似它们的密度(非参数估计是指,已知样本所属的类别,但未知总体概率密度函数的形式,要求我们直接推断概率密度函数本身。非参数估计的方法主要有:直方图法、核方法。Parzen窗估计属于核方法的一种)。如果密度是用正态分布估计的,由互信息得到的结果将与由相关系数得到的结果相似。过滤方法相对于特征的数量具有线性复杂度。然而,这可能导致选择冗余特征。
包装器和嵌入式方法以更长的计算时间为代价解决了这个问题。这些方法使用分类器来获得特征的子集。包装器方法选择特征子集,将其作为训练分类器的输入,观察结果性能,并根据停止标准停止搜索,或者如果不满足该标准,则提出新的子集。嵌入式方法将特征选择和评估集成在一个独特的过程中,例如在决策树或具有最佳单元损伤(optimal cell damage)的多层感知器中。
在BCI领域,特征选择已经有了重要的改进,例如P300-BCI的逐步线性鉴别分析(嵌入式方法)和使用最大互信息的运动图像频带选择(滤波方法)。还要提及,用于通道选择的支持向量机,用于知识提取的线性回归机,用于频谱特征选择的遗传算法和基于P300的特征选择,或者用于基于多分辨率分析的特征选择的进化算法(都是包装器的方法)。事实上,元启发式技术(也包括蚁群、群体搜索、禁忌搜索和模拟退火ant colony, swarm search, tabu search and simulated annealing)在BCI越来越频繁地用于特征选择,以避免维数灾难。
基于EEG的脑机接口中使用的其他流行方法主要包括过滤方法,如最大相关最小冗余特征选择(mRMR)或R2特征选择。值得一提的是,五种特征选择方法,即信息增益排序、基于相关性的特征选择、Relief(一种用于多分类问题的基于实例的特征排序方法)、基于一致性的特征选择和1R排序(单规则分类)已经在BCI竞赛III数据集上进行了评估[107]。在十个分类器中,前三个特征选择方法分别是基于相关性的特征选择、信息增益和1R排序。
要评估BCI的表现,必须记住BCI闭环中的不同组成部分都是成败难料的关键。单就分类器而言,最基本的性能测量是分类精度accuracy。只有当类别是平衡的,即每个类具有相同数量的样本,并且分类器是无偏的,即它对每一类的效果相同,这才有效。如果不满足这些条件,Kappa或混淆矩阵是更有用的性能测量。灵敏度-特异性的组合,或精度可以从混淆矩阵中计算出来。当分类依赖于连续参数(例如阈值)时,通常使用ROC曲线和AUC。
分类器性能通常是在预先记录的数据上离线计算的,使用的是留出(hold-out)策略:一些数据集被留出用于评估,而不是训练数据集的一部分。然而,一些作者还尝试了根据训练数据估计的交叉验证结果,这可能会高估性能。
分类器性能对总体BCI性能的贡献在很大程度上取决于BCI各个部分的组合。鉴于BCI系统的多样性(自适应、混合、被动、自定义或系统的控制),这种组合变化很大。读者可以参考[212]对BCI的评估策略进行全面的回顾。
3.过去的方法和当前的挑战
在我们十年前发表的基于EEG的脑机接口分类算法的最初综述中,我们给出了已经探索过的五个主要分类器家族:线性分类器、神经网络、非线性贝叶斯分类器、最近邻分类器和分类器组合。
线性分类器收集了可判别的分类器,它们使用每个类别的特征向量之间的线性决策边界。它们包括线性判别分析LDA、正则化线性判别分析和支持向量机SVM。LDA和SVM过去和现在都是脑电信号的BCI中的最流行的分类器,尤其是在线和实时脑机接口。之前的综述强调,就表现而言,SVM的表现往往优于其他分类器。
神经网络是分层排列的人工神经元的集合,可用于逼近任何非线性决策边界。当时BCI最常用的神经网络是多层感知器(MLP),通常只使用一两个隐藏层。其他类型的神经网络被探索得更少,如高斯分类器神经网络或学习矢量量化(LVQ)神经网络。
非线性贝叶斯分类器是对每个类别的概率分布进行建模的分类器,并使用贝叶斯规则来选择当前特征向量的类别。这类分类器主要包括贝叶斯二次分类器和隐马尔可夫模型(HMMs)。
最近邻分类器根据其最近的邻居为当前特征向量分配一个类别。这样的邻居可以是训练特征向量或类别原型。这种分类器包括k-近邻(kNN)算法或马氏距离分类器。
最后,分类器组合是组合多个分类器的算法,或者通过组合它们的输出,通过以最大化它们的互补性的方式训练它们。当时用于BCI的分类器组合包括增强、投票或堆叠(boosting, voting or stacking)组合算法。至少在离线评估中,分类器组合似乎是基于脑电的脑机接口的最佳分类器之一。
十年前,大多数为BCI探索的分类器是用于多机器学习问题的相当标准的分类器。从那以后,研究工作致力于基于EEG的脑机接口的特殊性,识别和设计分类方法。特别是,BCI分类方法面临的主要挑战是EEG信号的低信噪比,随时间而变的非平稳性,可用于校准分类器的训练数据量有限,以及当前脑机接口的整体的低可靠性和性能。
因此,过去十年来研究的大多数算法都旨在解决其中一个或多个挑战。更准确地说,自适应分类器的参数是在线增量更新的,被开发来处理EEG的非平稳性,以便跟踪EEG特性随时间的变化。自适应分类器也可以通过在线学习来处理有限的训练数据,从而需要更少的离线训练数据。迁移学习技术旨在将特征或分类器从一个领域(例如BCI对象或一个时间段)迁移到另一个领域(例如其他对象或者同一对象的其他时间段)。因此,它们还旨在通过用从其他领域转移的数据补充少数可用的训练数据,解决受试者内部或之间的非平稳性和有限的训练数据。最后,为了弥补目前脑电信号信噪比低和脑机接口可靠性差的缺点,探索了一种新的方法,通过融合特征提取、特征选择和分类,一步完成对信号的处理和分类。这是通过使用矩阵(特别是黎曼方法)和张量分类器以及深度学习来实现的。探索的其他方法专门针对从有限的数据中学习和处理多分类问题。我们在下面描述这些新的方法。
4. 2007年以来新的脑电分类方法
自适应分类器,其参数(例如线性判别超平面中每个特征的权重)随着新的EEG数据的获得会被重新估计和更新。这使得分类器能够跟踪可能变化的特征分布,从而即使对于诸如EEG这样的非平稳信号也能保持有效。自适应BCI分类器最早是在2000年中期提出的,并且它在离线分析中显示出了应用前景。从那时起,更先进的适应技术被提出和测试,包括在线实验。
自适应分类器可以同时采用监督和非监督自适应,即分别知道或不知道输入数据的真实类别标签。利用监督自适应,输入脑电信号的真实类别标签是已知的,并且分类器在用这些新的、标记的输入数据增强的可用训练数据上被重新训练,或者仅基于该新数据被更新。受监督的BCI适应需要受指导的使用者训练,为此使用者的命令被强加,因此相应的EEG类别标签是已知的。由于输入的EEG数据的真实标签未知,使用自由的BCI是不可能进行监督适应的。在无监督适应的情况下,输入的EEG数据的标签是未知的。这样,无监督自适应基于对用于再训练/更新的数据类别标签的估计,或者基于类别非特定自适应,在分类器模型中更新一般所有类别的数据平均值或协方差矩阵。第三种类型的适应(介于监督和非监督方法之间)也被探索过:半监督适应。半监督适应包括使用初始标记数据和输入的未标记数据来适应分类器。对于BCI,半监督自适应通常通过以下方式执行:(1)首先在可用的标记训练数据上训练监督分类器,然后(2)用该分类器估计输入的未标记数据的标签,以及(3)使用这些分配给它们的估计标签的初始未标记数据结合已知的可用标记训练数据来自适应/再训练分类器。随着新批次的未标记的输入EEG数据变得可用,重复该过程。
到目前为止,大多数关于BCI自适应分类器的工作都是基于监督自适应的。多个自适应分类器被离线探索过,例如针对基于运动想像的BCI的线性判别分析(LDA)或二次判别分析(QDA) 。还提出了一种基于卡尔曼滤波的自适应线性判别分析来跟踪每个类别的分布。为了在监督适应中处理可能不完美的标签,提出并离线评估了一种基于顺序的Monte Carlo采样的自适应贝叶斯分类器,该分类器明确地对观察到的标签中的不确定性建模。对于基于ERP的BCI,探索了离线自适应支持向量机(SVM),自适应线性判别分析,基于随机梯度的自适应线性分类器,和在线被动攻击算法(passive-aggressive, PA)。有趣的是,McFarland和他的同事在多次离线分析EEG数据的过程中证明,以监督的方式连续重新训练线性分类器的权重可以提高BCI(SMR)的感觉运动节律的性能,但不能提高P300 BCI拼写器的性能。然而,在[197]中提出的结果表明,连续适应对异步P300-BCI拼写器是有益的,而[227]对基于P300的BCI也提出了同样的观点。
在线BCI仍然使用监督适应,自适应线性判别分析(LDA)和QDA都已在[222]中成功探索。在[86]中,自适应概率神经网络还被用于在线自适应运动想象BCI。这种分类器以非参数的方式对每个类别的特征分布进行建模,并在新的EEG上次数据可用时更新它们,分类器集成也被用来创建自适应分类器。在[119]中,五个SVM分类器的动态集成是通过为每一批新进入的标记EEG试次训练一个新的SVM,将其添加到集成中并移除最老的SVM来创建的。使用每个SVM输出的加权和进行分类。这种方法的在线显示优于静态分类器。
关于监督适应,应该提到的是,也提出了自适应空间滤波器,特别是自适应CSP的几个变体,还有自适应xDAWN。
分类器的无监督自适应显然要困难得多,因为类别标签以及特定类别的可变性是未知的。因此,已经提出了无监督的方法来在基于该估计调整分类器之前估计新输入样本的类别标签。这种技术在[24]和[129]中进行了离线探索,在[83]中进行了在线探索,使用运动想象数据对传入类别标签进行LDA分类器和高斯混合模型(GMM)估计。离线时,模糊C均值(FCM)也被用来代替GMM跟踪LDA分类器的类均值和协方差。类似地,非线性贝叶斯分类器使用无监督或半监督学习(即,仅一些引入的试次被标记)来适应,使用扩展卡尔曼滤波来跟踪具有自回归特征的类的分布参数的变化。还有人提出了另一种简单的无监督的线性判别分析分类器对运动想象数据的适应性,并对离线和在线数据进行了评估[219]。我们的想法是不逐步调整所有的线性判别分析参数,而只调整其偏差,如果我们知道数据是平衡的,即平均每个类别的试次数相同,就可以在不知道类别标签的情况下估计偏差。这种方法被扩展到多类别LDA案例,并在[132]的离线场景中进行了评估。
可以根据强化信号(RS)进行适应,表明试次是否被BCI错误分类。这种强化信号可以从错误相关电位(ErrP)中推导出来,该电位出现在使用者或机器可能犯下的感知错误之后。在[133]中,提出了一种增量逻辑回归分类器,当根据ErrP的检测判断试次被错误分类时,该分类器沿着误差梯度更新。分类器更新的强度也与这个ErrP的概率成正比。后来在[131]中提出了一种结合了粗糙集合的高斯概率分类器,其中每个类的均值和协方差的更新规则取决于粗糙集的概率。因此,根据RS的概率总是正确的0还是1(有监督的情况),该分类器可以结合有监督的、无监督的或半监督的自适应模式。即无信息(无监督案例)或具有某种不确定性的连续概率(部分监督案例)。使用模拟监督的RS,在[131]上分析讨论了,证明了这种方法优于静态线性判别分析和其他监督和非监督自适应线性判别。在适应性运动相关电位(MRP)的脑机接口离线模拟中也使用了ErrP,使用了增量SVM。基于ErrP的分类器自适应在[206]中被在线探索用于编码调制视觉诱发电位(c-VEP)分类。在这项工作中,如果没有检测到ErrP,那么输入试次的标签被估计为由分类器决定的标签,否则为相反的标签(对于二进制分类)。然后,这个新标记的试次被添加到训练集中,并且分类器和空间滤波器、一类SVM和典型相关分析分别在新数据上被重新训练。最后,基于RS的分类器自适应也可以使用分类器置信度来执行,并且这种自适应对P300-BCI有利。
对于基于ERP的BCI,与固定的非自适应分类器相比,SVM探索了半监督自适应,并使P300拼写器的校准具有更少的数据。这种方法后来在[81]中进行了在线测试和验证。对于P300-BCI,在[178]中进行了联合训练半监督适应。在这项工作中,使用了两个分类器:贝叶斯线性判别分析和标准线性判别分析。每一个都首先在训练标记数据上训练,然后用来估计未标记的输入数据的标签。后者用它们的估计类别标签进行标记,并用作额外的训练数据来重新训练另一个分类器,因此称为协同训练。这种半监督方法离线显示比完全监督方法导致更高的比特率,完全监督方法需要更多的监督训练数据。另一方面,使用线性判别分析作为分类器的离线半监督自适应在心理想象数据上失败,可能是由于线性判别分析对错误标记的鲁棒性差。最后,对于离线和在线数据,[104,105]提出了一种概率方法来自适应地估计基于P300的拼写器中的线性分类器的参数,这导致校准时间的急剧减少,基本上消除了初始校准的需要。这种方法利用P300拼写器的特定结构,特别是每次从每个类别中抽取样本的频率,来估计最可能的类别标签的概率。在一个相关的工作中,[78]提出了一种通用方法,通过利用应用程序可能具有的任何结构,在不知道真正的类标签的情况下,自适应地估计分类器的参数。在[171]中,使用核判别分析(KDA)分类器,半监督自适应也被离线用于多类运动想象。该方法已显示出其优于非自适应方法,以及优于自适应无监督线性判别分析方法。
表1 离线探索的适应监督分类方法的总结
表2 适应无监督分类方法总结
Vidaurre等人还探索了自适应训练,其中机器和使用者都在通过使用自适应特征和自适应LDA分类器不断学习。这使得一些最初无法控制BCI的使用者获得了比偶然分类更好的性能。这项工作后来在[64]中通过使用更简单但完全自适应的自动校准设置进行了改进,这被证明对健康的使用者和残疾适应者都有效。使用自适应CSP方法的自适应训练被证明更有效[196]。
表1和表2分别总结了BCI使用的监督和非监督方法的自适应分类方法。
对于多种类型的BCI,自适应分类器被反复证明优于非自适应分类器,特别是运动想象BCI,但也有一些基于事件相关电位的BCI。据我们所知,自适应分类器显然还没有被探索用于BCI视觉诱发电位。自然,监督适应是最有效的适应类型,因为它可以访问真正的标签。尽管如此,在多项研究中,无监督适应已被证明优于静态分类器。它还可以用来缩短甚至消除校准的需要。需要更鲁棒的无监督适应方法,因为大多数实际BCI应用不提供标签,因此只能依赖无监督方法。
对于无监督的适应,奖励信号,特别是ErrP(错误相关电位),已经在多篇论文中被利用(例如[9,206,239])。然而,请注意,从EEG信号中解码ErrP可能是一项困难的任务。事实上,[157]证明ErrP的解码精度与P300解码精度正相关。这意味着那些在最初的BCI任务(这里是P300)中犯错误的人,对他们来说纠错和基于错误报告的适应将是最有用的,ErrP被正确解码的可能性较小。因此,需要识别强有力的奖励信号。
只有几个提议的方法实际上是在线使用的。对于无监督的方法,由Vidaurre等人提出[219]一个简单有效的在线证明其价值的方法是自适应LDA。这种方法和其他基于增量自适应的方法(即更新算法参数而不是完全重新优化它们)通常具有足够低的计算复杂度,可以在线使用。需要用新的输入数据完全重新训练分类器的自适应方法通常具有高得多的计算复杂性(例如,定期从零开始实时重新训练SVM需要大量的计算能力),这可能会妨碍它们实际在线使用。
然而,更多的在线研究显然是必要的,以确定如何在实践中进行适应,让使用者参与进来。这对于涉及人类学习的心理想象BCI尤其重要。事实上,因为使用者正在通过学习如何执行心理想象任务来适应BCI,以便它们被分类器识别,所以适应可能不总是有帮助的,甚至可能使使用者困惑,因为它可能导致不断变化的反馈。机器学习和人类学习不一定会收敛到合适且稳定的解决方案。在[168]中提出了这个双学习者问题的一个最近的理论模型,并指出要么太快要么太慢的适应实际上可能对使用者学习有害。因此,有必要设计适应性分类器,以确保和促进人类学习。
黎曼几何在BCI领域引入了挑战经典分类方法中采用的一些惯例;黎曼几何分类器(RGC)的思想不是估计空间滤波器和/或选择特征,而是将数据直接映射到配备有合适度量的几何空间上。在这样一个空间中,数据可以很容易地被处理,用于几个目的,例如平均、平滑、内插、外推和分类。例如,在EEG数据的情况下,映射需要计算数据的某种形式的协方差矩阵。这种映射的原理是基于这样的假设,即对于给定的精神状态,脑电信号源的功率和空间分布可以被认为是固定的,并且这种信息可以由协方差矩阵编码。黎曼几何研究可以局部线性逼近的光滑曲线空间。曲线空间被称为流形,它在每个点的线性近似就是切线空间。在黎曼流形中,切线空间有从点到点平滑变化的内积(度量)。这导致任意两点之间的距离的非欧几里得概念(例如,每个点可以是一个试次)和任意数量的点的质量中心的后续概念(图2)。因此,代替使用欧几里得距离(这称为外在距离),而是使用内在距离,其适应于流形的几何形状,并因此适应于数据被映射的方式[47,232]。
图2 黎曼流形的表征流程。EEG试次用点来表示。
图3 用于两类问题的黎曼最小均值距离(RMDM)分类器的示意图
在用于BCI应用的最常见的矩阵流形中,当处理从EEG试次估计的协方差矩阵时,我们遇到了埃尔米特或对称正定(SPD)矩阵的流形[19],当处理子空间或正交矩阵时,遇到了斯蒂费尔和格拉斯曼流形[62]。几个机器学习问题可以很容易地通过利用它们的几何约束扩展到那些流形(即流形上的学习)。此外,优化问题可以在这样的空间上具体地公式化,这导致了几种新的优化方法和新问题的解决方案[2]。为了说明这些概念,考虑SPD矩阵的情况。C1矩阵和C2矩阵之间的固有距离的平方具有由下式给出的封闭形式的表达式:
正如在[47]中彻底讨论的那样,这个定义类似于算术平均值
的定义,是用欧氏距离代替黎曼距离时优化问题(2)的解。与算术平均值相反,几何平均值没有封闭形式的解。文献[48]提出了一种计算几何平均值的快速而稳健的迭代算法。最简单的RGC方法允许通过简单的最近邻方法直接对试次进行分类(通过某种形式的协方差矩阵进行映射),仅使用黎曼距离的概念(等式(1)),并且可能使用几何平均的概念(2)。例如,黎曼最小均值距离(RMDM)分类器[15,13]使用训练数据计算每个类的几何均值,然后将未标记的试次分配给对应于最接近均值的类(图3)。另一类广义似然分类方法包括将数据点投影到正切空间,然后进行分类,之后使用标准分类器,如线性判别分析、SVM、逻辑回归等。这些方法利用了黎曼几何和使用专用分类器执行复杂决策函数的可能性。另一种方法是将数据投影到切线空间,在那里过滤数据(例如通过线性判别分析),并将数据映射回流形,最终进行RMDM滤波。
如上所述,黎曼分类器或者直接在流形(例如RMDM)上操作,或者通过数据在切线空间中的投影来操作。只要电极数量不是很大,流形上的简单RGC与BCI以前使用的最先进的分类器相比具有竞争力,对健康的使用者[13,46,100]和临床人群[158]都提供了更好的噪声鲁棒性和更好的泛化能力。基于切线空间投影的RGCs在精度方面明显优于其他最先进的方法[13,14],正如[47]中所描述的,它们在最近五次国际BCI预测建模数据竞赛中获得第一名所证明的那样。表3总结了基于脑电信号的脑机接口使用黎曼几何分类器的各种方法。
如[232]中所强调的,黎曼方法(如RMDM)的处理过程比更经典的方法更简单,涉及的阶段更少。此外,黎曼分类器同样适用于所有BCI范式(例如,基于心理意象的脑机接口、事件相关电位和空间视觉诱发电位);只有数据点在SPD流形中的映射方式不同(详见[47])。此外,与大多数分类方法相比,RMDM方法是无参数的,即它不需要任何参数的调整。如[232]中所强调的,黎曼方法(如RMDM)的处理过程比更经典的方法更简单,涉及的阶段更少。此外,黎曼分类器同样适用于所有BCI范式(例如,基于心理意象的脑机接口、事件相关电位和空间视觉诱发电位);只有数据点在SPD流形中的映射方式不同(详见[47])。此外,与大多数分类方法相比,RMDM方法是无参数的,即它不需要任何参数调优,例如通过交叉验证。因此,黎曼几何为建立简单、更稳健和精确的预测模型提供了新的工具。
表3 EEG BCI的黎曼几何分类器总结
有人提出了几个理由来提倡使用黎曼几何。由于其对数性质,黎曼距离对极值(即噪声)是鲁棒的。此外,SPD矩阵的固有黎曼距离对于矩阵求逆和数据的任何线性可逆变换都是不变的,例如,应用于EEG源的任何混合都不会改变观察到的协方差矩阵之间的距离。这些特性在一定程度上解释了为什么黎曼分类方法提供了良好的泛化能力[224,238],这使得研究人员能够使用简单的subject-tosubject和session-to-session的迁移学习策略来建立免校准的自适应ERP-BCI。
有趣的是,如[94]所示,不仅可以在SPD流形上沿测地线进行插值(图2),还可以在不离开流形和考虑几何约束的情况下进行外推(如预测)。例如,在[99]中,通过沿测地线生成人工协方差矩阵,插值被用于数据增强,但也可以使用外推。通常,黎曼插值比欧几里得插值更相关,因为它没有所谓的膨胀效应[232]。这种效应描述了这样一个事实,即两个SPD矩阵之间的欧几里德插值不涉及矩阵的行列式(即欧几里德插值的行列式可以超过插值矩阵的行列式)。在[231]中,协方差矩阵的行列式可以被认为是矩阵的列所描述的多面体的体积。因此,不受膨胀效应影响的距离将尊重多面体沿测地线的形状。
如等式(1)所示,计算两个SPD矩阵之间的黎曼距离涉及添加平方对数,这可能导致数值问题;随着电极数量的增加或者用于估计和C1 和 C2的窗口尺寸的减小,矩阵
的最小特征值趋向于零,使得对数运算病态且数值不稳定。此外,请注意,尺寸越大,距离越容易产生噪音。此外,黎曼方法通常具有很高的计算复杂性(例如,随着用于计算几何平均值和黎曼距离的电极数量的立方增长)。由于这些原因,当电极的数量相对于窗口大时,建议减小输入矩阵的维数。经典的非监督方法如PCA或监督方法如CSP可用于此目的。最近,黎曼启发的降维方法也被研究[94,95,189]。
有趣的是,一些方法试图通过在CSP [12,233]等方法中结合一些黎曼几何来弥合黎曼方法和更经典的范式之间的差距。CSP是以前的黄金标准,基于不同于黎曼几何的范式。在压缩信息的同时,充分利用这两种范式有望获得更好的鲁棒性。
如前所述,BCI的分类过程通常包括对脑电信号进行空间滤波,然后对滤波后的数据进行分类。这导致几组参数的独立优化,即空间滤波器和最终分类器。例如,振荡活动BCI的典型线性分类器决策函数如下:
其中X为脑电信号矩阵,
是线性分类器权重向量,
是空间滤波器
的矩阵。因此,单独优化w和
可能导致次优解,因为空间滤波器不考虑分类器的目标函数。因此,除了RGC之外,一些作者已经表明,可以将这个双重优化问题公式化为单个问题,其中空间滤波器和线性分类器的参数被同时优化,具有获得改进性能的潜力。这些方法的关键原理是学习直接使用协方差矩阵作为输入的分类器(线性向量分类器或矩阵分类器),或者它们的矢量化版本。我们在下面简要介绍这些方法。
在[214]中,EEG数据被表示为增强的协方差矩阵A,包含作为块对角项的一阶项X,即信号时间过程,以及作为二阶项的在不同频带中带通滤波的EEG试次的协方差矩阵。因此,学习的分类器是权重矩阵W(而不是向量),决策函数
,由于增强协方差矩阵的维度比较大,矩阵正则化项对于这种分类器是必要的,例如为了获得稀疏的时间或空间权重。请注意,这种方法可以应用于事件相关电位和基于振荡的BCI,因为一阶项捕捉时间变化,协方差矩阵捕捉脑电信号的频带功率变化。
并行地遵循类似的思想,[65]通过构造频带特定协方差矩阵的张量来表示张量空间中的这种学习问题,然后也可以使用线性分类器对其进行分类,只要使用适当的正则化。
最后,如果我们放弃对数变换,[190]证明了方程(3)可以改写如下:
这些不同的方法在运动想象数据集上都显示出比基本的CSP+LDA方法更高的性能[65,190,214]。这表明这种模拟可能是标准CSP+LDA的有价值的替代方案。
通过同时优化空间滤波器和分类器,这种公式通常比独立优化各组组件获得更好的解决方案。它们的主要优点是提高了分类性能。尽管如此,由于输入特征的高维数增加(协方差矩阵具有
个唯一值,而仅使用信道的频带功率时为Nc值),该公式还是以大量分类器权重为代价。因此,适当的正则化是必要的。这种方法对于不同数量的训练数据的表现如何还有待评估,因为与具有较少参数的更简单的方法相比,它们必然会遭受更严重的维数灾难。这些方法至今也没有在网上使用过。如上所述,从计算复杂性的角度来看,这种方法比传统方法要求更高,因为它们的参数数量增加了。它们通常还需要大量的正则化,这会使它们的校准时间更长。然而,它们的决策函数是线性的,它们应该很容易适用于在线场景。然而,它们是否能被足够快地校准以供在线使用,以及它们对在线数据的性能如何,还有待观察。
张量(即多路阵列)为EEG数据提供了一种自然的表示,高阶张量分解和因子分解正在成为EEG数据分析的有前途的(但尚未很好地建立,也尚未完全探索)工具;特别是对于BCI的特征提取、聚类和分类任务[38–40,42,43]。
张量化的概念是指从较低的数据格式,特别是表示为向量或组织为矩阵的时间序列EEG数据,生成较高阶的结构化张量(多路阵列)。这是张量(多向)特征提取和分类之前的重要步骤[41,42,182]。
张量的顺序是模式的数量,也称为方式或维度(例如,对于EEGBCI数据:空间(通道)、时间、频率、受试者、试次、组、环境、小波、字典)。在最简单的情况下,多通道脑电信号可以表示为三阶张量,它有三种物理模式:空间(通道)×时间×频率。换句话说,在时间样本上记录的脑电信号的S通道可以产生叠加在一起的F × T维时频谱图的S矩阵,形成F × T × S维三阶张量。对于多项试次和多名受试者,EEG数据集自然可以用高阶张量表示:例如,对于5阶张量:空间×时间×频率×试次×受试者
应该注意的是,几乎所有用于特征提取和分类的基于向量和矩阵的基本机器学习算法都已经或可以扩展或推广到张量。例如,用于分类的SVM自然地被推广到张量支持向量机、核支持向量机和更高秩支持向量机。此外,标准线性判别分析方法已经推广到张量费希尔判别分析(TFDA)和/或高阶判别分析(HODA) [41,183]。此外,BCI数据的张量表示在减轻判别子空间选择中的小样本大小问题方面通常非常有用,因为关于数据结构的信息通常是张量固有的,并且是有助于减少学习模型描述中未知特征参数的数量的自然约束。换句话说,当EEG训练测量的数量有限时,基于张量的学习机通常被期望比相应的基于向量或矩阵的学习机表现更好,因为向量表示与诸如结构化数据的信息丢失和高维数据的过度拟合等问题相关联。
为了确保简化的数据集包含关于输入EEG数据的最大信息,我们可以应用约束张量分解方法。例如,这可以在正交或非负张量(多阵列)分解或高阶(多线性)鉴别分析(HODA)的基础上实现,由此输入数据被认为是张量而不是更传统的向量或矩阵表示。事实上,张量分解模型,尤其是PARAFAC(也称为CP分解)、TUCKER、分层tucker (HT)和张量训练(TT)是通过捕获大规模高阶数据集的多线性和多方面结构来解决特征提取问题的替代复杂工具[39,183]。使用这种方法,我们首先使用TUCKER或CP分解来分解多路数据,通常通过施加特定的约束(平滑度、稀疏度、非负向性),以便从因子(分量)矩阵中检索基本因子和重要特征。例如,小波/字典允许我们经常以更有效的方式表示数据,即以不同稀疏度分布的稀疏方式[43,183]。表4 张量分类器总结
此外,为了提高BCI分类的性能,我们可以应用两个或更多个时间-频率表示或相同的频率变换,但是具有两个或更多个不同的参数设置。不同的频率变换(或不同的母小波)允许我们获得不同的稀疏张量表示,具有不同的稀疏分布和一些互补信息。对于多通道脑电信号,我们可以生成至少两个张量的块,这两个张量可以连接成一个数据张量:空间×时间×频率×试次[43,182,183]。
张量表示的关键问题是选择合适的时频表示(TFR)或频率变换,以及选择最佳或接近最佳的相应变换参数。通过利用不同的传递函数关系,可以为相同的数据适当选择不同的参数设置,我们可能因额外的(部分冗余的)信息而提高BCI分类的准确性。这种方法已经被实现,例如,通过对具有62个通道的EEG数据集采用不同的复数小波,用于运动想象BCI[183]。对于这样的数据集,作者选择了具有两个不同带宽频率参数fb=1Hz和fb=6Hz的不同复Morlet(Gabor)小波用于相同的中心频率fc=1Hz。对于每个母小波,作者构建了一个4阶张量:62通道× 23频率仓× 50时间帧× 120次试次,用于训练和测试EEG数据。训练张量数据块可以连接为五阶张量:62通道× 23频率段× 50时间帧× 2小波× 120次试次。
HODA算法用于估计判别基。选择了四个最重要的特征来对数据进行分类,并使准确率提高到95%以上。因此,似乎通过对适当构造的数据张量应用张量分解,与标准方法相比,运动想象BCI [183,223]和P300范式[175]都可以实现相当大的性能改进。
在这种方法中,使用字典进行数据转换的目的是使原始数据不相关,并将它们稀疏表示。不同的字典(变换)有助于获得具有不同稀疏性轮廓的不同稀疏表示。此外,通过增加维度来创建具有附加模式的样本提高了性能。
总之,使用非负、正交或判别基的张量分解将BCI数据集的分类精度提高了近10%。表4提供了所有提及方法的比较。
从时频分析的角度来看,张量分解非常有吸引力,即使是对于单通道,因为它们同时考虑了试次和/或受试者的时间和频谱信息以及时频表示的可变性和/或一致性。此外,它们提供了各种潜在(隐藏)变量(如时间、光谱和空间成分)之间的联系,这些变量通常具有物理或生理意义和解释[40,183]。
此外,标准典型相关分析被推广到张量典型相关分析和多集典型相关分析,并被成功地应用于BCI空间视觉诱发电位的分类[242,243,245,246]。张量典型相关分析及其改进的多集典型相关分析已成为空间视觉诱发电位脑-机接口中最有效的频率识别方法之一。该方法学习多个线性变换,实现联合空间滤波,以最大化典型变量之间的整体相关性,从而从以相同刺激频率记录的多组EEG数据中提取SSVEP共同特征。优化的参考信号是共同特征的组合,并且完全基于训练数据。对EEG数据的大量实验研究表明,与标准CCA方法和其他现有方法相比,张量和MsetCCA方法提高了SSVEP频率的识别精度,特别是对于少量通道和短时间窗口长度。优越的结果表明,在基于SSVEP的脑机接口面张量MsetCCA方法是一个非常有前途的频率识别方法 [243]。
总之,BCI技术的最新进展已经得到了大量的大脑数据,这些数据表现为高维度、多模态(例如,诸如频率或时间的物理模式、多种大脑成像技术或条件)以及作为功能连接性数据的多种耦合。由于张量的多向性,张量为海量数据的BCI分析和融合提供了强大而有前途的工具,并为发现潜在的隐藏复杂(时空频率)数据结构提供了数学基础[42,183]。
它们的另一个优点是,使用张量化和低秩张量分解,它们可以有效地将大的多维数据压缩成低阶因子矩阵和/或通常表示简化特征的核心张量。张量方法还可以将表示为大规模矩阵的试次的链接(耦合)块分析成张量的形式,以便将观察到的原始EEG数据中的公共/相关分量与独立/不相关分量分开。
最后,值得一提的是,张量分解不仅是用于特征提取/选择和BCI分类的新兴技术,还用于模式识别、多向聚类、稀疏表示、数据融合、降维、编码和多线性盲脑源分离(MBSS)。它们有可能提供方便的多通道和多对象的时空频率稀疏表示、伪影抑制、特征提取、多路聚类和相干跟踪[39,40]。
缺点方面,张量方法的复杂度通常比标准矩阵和向量机学习方法高得多。此外,由于张量方法作为潜在的特征提取和分类工具刚刚出现,现有的算法并不总是成熟的,并且仍然没有完全优化。因此,仍然需要一些努力来优化和测试它们,以用于现实生活中的大规模数据集。
机器学习的一个主要假设是,训练分类器的训练数据和评估分类器的测试数据属于相同的特征空间,并且遵循相同的概率分布。在计算机视觉、生物医学工程或脑机接口等许多应用中,这一假设经常被违反。对BCI来说,数据分布的变化通常发生在从不同的对象和不同的时间段获取数据的时候。
迁移学习旨在通过利用在学习给定任务时获得的知识来解决不同但相关的任务,从而应对违反这一假设的数据。换句话说,迁移学习是基于在学习另一个任务时获得的信息,被考虑用于增强在一个任务(也称为域)上训练的学习分类器的性能的一组方法。自然,迁移学习的有效性很大程度上取决于这两项任务的关联性。例如,由两个不同的受试者执行的两个P300拼写任务之间的迁移学习比由同一受试者执行的一个P300拼写任务和一个运动想象任务之间的迁移学习更相关。
迁移学习是非常重要的,特别是在一个给定的任务中存在大量的标记数据的情况下,这种情况被称为源域,而第二个任务(被称为目标域)的数据很少或很难获得。事实上,在这种情况下,将知识从源域转移到目标域充当了解决目标任务的偏差或正则化。我们在Pan等人[177]研究的基础上提供了一个更正式的迁移学习描述。
根据学习环境、领域和任务,存在几种适用于迁移学习的情况。例如,同质迁移学习指的是XS = XT的情况,而域适应指的是边际概率分布或条件概率分布在源域和目标域不匹配的情况。标记数据在源域和目标域都可用的设置,以及TS ≠TT,被称为归纳迁移学习。在BCI,当源域和任务与视觉P300诱发电位相关,而目标域和任务涉及听觉P300诱发电位时,情况可能就是这样。相比之下,转导迁移学习指的是任务相似但领域不同的情况。一个特殊的情况是当域中的不匹配是由边缘或条件概率分布中的不匹配引起时的域适应问题。在BCI,转导迁移学习是最常见的情况,因为主体间的可变性或会话间的可变性经常发生。关于迁移学习的更多分类,我们请读者参考pan等人的研究[177]。
有一系列的方法和实现来解决迁移学习问题,这取决于特定的情况和领域的应用。同质迁移学习是脑-机接口中最常见的情况,主要有三种策略。如果域分布不匹配,一个可能的策略是学习源或目标域数据的转换,以便纠正分布不匹配[134,203]。如果不匹配的类型出现在边际分布上,那么补偿分布变化的一个可能的方法是考虑重新加权方案[208]。许多迁移学习方法也是基于为两个(或多个)领域找到一个共同的特征表示。由于表示或检索到的潜在空间是所有域共有的,来自源域和目标域的标记样本可用于训练通用分类器[53,177]。一个经典的策略是考虑目标是在匹配的域中定位表示的方法。转移学习的另一个趋势是考虑学习数据转换的方法,以便它们的分布匹配。这些变换可以是线性的,例如基于核方法[76,241],也可以是非线性的,通过使用最优传输策略[51]。
请注意,迁移学习并不总是能在特定的任务上提高绩效Tt。领域适应和迁移学习的理论结果[55]表明,只有当源任务和目标任务没有太大差异时,才能在Tt上获得性能增益。因此,在考虑迁移学习方法之前,必须仔细分析任务之间的关系。迁移学习方法如图4所示。
图4 领域适应的图示
近年来,迁移学习在改进BCI分类方面受到了广泛关注。BCI的研究集中在直推式迁移学习上,在这种学习中,源和目标之间的任务是相同的。运动想象已经成为测试迁移学习方法最常用的范例,这可能是由于BCI竞赛[4,10,35,67,97,102,103,143]中数据集的可用性。一些研究考虑了其他范式,如P300拼写[74,151,218],以及视觉和空间注意范式[165]。最近还在潜在错误数据集上组织了一次迁移学习挑战[1]。
一个普遍的策略是执行集合分析,其中来自可能不同主题的许多预先录制的会话被联合分析,而不是一个一个地考虑源域和目标域。这解决了一个众所周知的数据稀缺问题,特别是涉及标签数据,容易过度拟合。
有许多方法可以在集成中组合特征和分类器[205]。当考虑集成时,首先要考虑的是保证来自源域的特征和分类器的质量。在这种情况下,特征选择也是相关的(参见第2.2节),以消除异常值。已经使用了许多方法来从集合中选择相关特征,例如互信息[186]、分类精度[143]或稀疏诱导方法。
第二个主要挑战是处理跨对象或时间段的数据可变性。适应性分类方法有时适用于迁移学习。尽管自适应分类的目标,如4.1节所述,是更新分类器而不是传输数据,但传输学习可以从自适应分类中受益,以更新其初始化与主题无关的分类器。陆等[151]提出P300分类的方法。黎曼几何也可以提高主体间和会话间可变性的鲁棒性,如几项研究[46,238]所示。
一个特别有成果的研究方向是基于集合数据构建空间滤波器。普通空间模式(CSP)和空间过滤器通常能够在适当的训练数据上快速学习,但在从其他受试者或其他会话记录的大量异构数据上表现不佳[46]。在这种情况下,正则化策略是有效的[103]。更相关的方法是直接正则化CSP目标函数,而不是协方差矩阵[143]。本着这种精神,布兰克茨等人[21]提出了一种不变CSP (iCSP),它以减少噪声和伪影影响的方式正则化CSP目标函数。Fazli等人[67]为运动想象检测建立了一个独立于主题的分类器。他们首先提取一组特征(空间和频率滤波器),然后将线性判别分析分类器应用于所有受试者。他们比较了各种组合这些分类器来对新受试者的数据进行分类的方法:简单地平均它们的结果(打包)表现良好,但是被相关特征的稀疏选择所超越。
当应用于来自多个时间段或对象的集成数据集时,稀疏表示确实是相关的。波形/拓扑/时间-频率表示的字典(稀疏表示从其导出)可以以跨越自然处理会话或主题可变性的空间的方式构建。稀疏诱导方法属于“不变特征表示”的范畴。字典可以预先定义,但是为了更好地表示研究中的数据,可以使用数据驱动的方法来计算它们。字典学习是一种数据驱动的方法,它交替地用字典调整代表函数的字典和数据表示的系数。字典学习已被用来揭示神经生理信号的试次间变异性[91]。森冈等人[165]提出学习一个空间过滤器的字典,然后适应目标对象。这种方法的好处是通过静息状态EEG考虑到目标受试者的特殊性。Cho等人[35]还通过构建与噪声模式重叠最小的时空滤波器来利用目标会话数据,这是Blankertz’siCSP [21]的扩展。
一个更复杂的解决特征领域适应性的方法是模拟它们在受试者一个时间段中的可变性。贝叶斯模型通过模型参数捕捉可变性。这些模型通常在多任务学习环境中实现,其中任务集合从源(标记)域中联合学习。对商业智能来说,“任务”是一个典型的独特的单个或多个对象的录制会话。因此,贝叶斯模型已经在光谱[4],空间[102],以及最近在组合的空间和光谱领域[97]中建立了特征。最近在[218]中提出了结合贝叶斯模型和从标签比例(LLP)中学习。表5 迁移学习方法总结
另一个有趣的领域适应方法是将目标数据的特征实际传输到源领域。一旦传输到源域,目标数据就可以用在源数据上训练的现有分类器进行分类。阿瓦内等人[10]通过估计目标数据的线性变换,将这种方法应用于运动图像BCI的会话间传输,使源分布和变换后的目标分布之间的Kullback–Leibler距离最小化。最近,P300数据的会话间传输已经使用通过求解最优传输问题获得的非线性变换来完成[74]。最佳传输非常适合域自适应,因为其算法可用于将概率分布从一个域传输到另一个域[51]。这些不同的工作总结在表5中。
正如在上述引用的研究中所报告的,迁移学习有助于跨时间段和跨对象的解码性能。这对于未来能够实现真正的免校准BCI操作模式至关重要,这反过来将提高BCI的可用性和可接受性。事实上,在社区中众所周知的是,校准会话对于认知资源有限的临床用户来说可能是过度疲劳的,并且对于健康用户来说通常是令人讨厌的。正如Sanelli等人[195]所讨论的那样,从BCI体验的最开始就接受反馈对新的使用者来说是极具激励和吸引力的。然后,在应用共同适应策略之前,迁移学习可以为使用者提供一个表现出色的BCI。使用这种方法,可以使用来其他受试者的数据来初始化未知使用者的BCI和使用知用户的其他时间段的数据来使用转移学习来初始化BCI。在任何情况下,这样的初始化都是次优的,因此这种方法需要在实验期间调整分类器,这是我们在4.1节中讨论的主题。因此,传递学习和适应性必须齐头并进,以实现免校准操作模式的最终目标[46]。
虽然一般来说是次优的,但根据定义,迁移学习是鲁棒的。例如,如果受试者对受试者的校准质量较低,则与受试者特定校准相比,受试者对受试者的迁移学习可以产生更好的结果[15]。这在临床环境中特别有用,在临床环境中,获得良好的校准有时是被禁止的[158]。
正如我们已经看到的,在迁移学习环境中寻找用于执行分类的不变空间的方法在理论上是有吸引力的,并且通过利用黎曼几何已经显示出有希望的结果;然而,这有可能会丢掉一些与解码相关的信息。事实上,与其像我们上面表述的那样处理跨时间段的变化的数据,不如努力从集成的可变性中获益,以更好地对目标会话进行分类。这个想法是设计能够代表多个时间段或对象的分类器。
迁移学习和自适应分类器的结合是BCI当前研究的前沿课题。预计它将在未来几年受到越来越多的关注,从而产生备受追捧的新一代免校准生物芯片。
很少的迁移学习方法已经在网上使用,但是计算能力不是一个限制,因为这些方法不需要大量的计算资源,并且可以在简单的台式计算机上运行。对于学习阶段可能需要很长时间的方法(如稀疏诱导方法或字典学习),这种学习应该提前进行,以便适应新的主题或会话[165]。
深度学习是一种特定的机器学习算法,其中特征和分类器是直接从数据中联合学习的。术语深度学习是由模型的体系结构创造的,它基于可训练特征提取器模块和非线性的级联。由于这样的级联,学习的特征通常与概念水平的提高有关。我们在这一节讨论了BCI最流行的两种深度学习方法:卷积神经网络和受限玻尔兹曼机器。
图5 两种深度学习框架举例
通过根据维度增加求和的数量,这个等式可以扩展到更高维度。几个滤波器也可以独立用于卷积运算,从而增加输出通道的数量。这个卷积层之后通常是非线性[75],并且可能是汇集层将输出的本地信息聚合成单个值,通常通过平均值或最大值运算符[25]。标准的ConvNet架构通常堆叠几个这样的层(卷积+非线性),然后是其他层,通常是完全连接的,充当分类层。但是请注意,一些体系结构使用所有卷积层作为分类层。给定一些体系结构,模型的参数是用于卷积的所有滤波器的权重和完全连接的层的权重。
通常通过解决以下形式的经验风险最小化问题,以监督的方式训练转换网络:
在几个领域的应用中,ConvNets非常成功,因为它们能够学习到与手头任务最相关的特性。然而,它们的性能强烈地依赖于它们的体系结构和它们的学习超参数。图5(右侧)显示了一个ConvNet。
4.4.2.
最先进的深度神经网络已被探索用于所有主要类型的基于EEG的BCI系统;也就是P300、视觉诱发电位、运动想象和被动BCI(用于情绪和工作负荷检测)。他们还研究了不常用的EEG模式,如慢皮质电位(SCP)或运动启动视觉诱发电位(MVEP)。值得一提的是,这些研究都是离线进行的。
关于以P300为基础的BCI,Cecotti等人发表了第一篇为BCI探索CNN的论文[32]。他们的网络包括两个卷积层,一个学习空间滤波器,另一个学习时间滤波器,然后是一个完全连接的层。他们还探索了这种中枢神经系统的集合。在用于评估的P300拼写数据集上,该网络的表现优于BCI竞赛获胜者。然而,一组支持向量机获得了比CNN方法稍好的性能。继续P300分类,但这一次在快速串行可视化范式(RSVP)的背景下,[156]探索了另一个具有一个空间卷积层、两个时间卷积层和两个密集完全连接层的CNN。他们还在卷积层上使用了校正线性单元、缺失和时空正则化。根据论文描述,该网络比空间加权线性判别分析-主成分分析分类器精确2%。不过,它没有与任何其他分类器进行比较。应该提到的是,在本文中,正如在大多数关于深度学习的BCI论文中一样,该架构是不合理的,并且没有与不同的架构进行比较,除了该架构被报告表现良好的事实之外。
对于SSVEP,[113]还探索了一个具有空间卷积层和时间卷积层的CNN,该CNN使用了来自两个EEG通道的频带功率特征。该CNN获得了类似于三层MLP或基于典型相关分析(CCA)的分类器的性能,其中该分类器从静态使用者上记录kNN数据。然而,它也从移动的使用者那里记录的噪声EEG数据。然而,与CNN相比较的分类器并不是最先进的SSVEP分类器(例如,在有已知的任何SSVEP刺激的谐波上或者更多的通道上并没用使用CCA去提高性能)。
对于SCP分类,[59]探索了一种深度极限学习机(DELM),它是一种多层ELM,最后一层是内核ELM。网络的结构、单元数量、输入特征和超参数都不合理。对于所使用的数据集,这种网络获得的性能低于BCI竞赛获胜者,并且没有明显优于标准的ELM或多层ELM。
对于MVEP,[153] 采用由三个rbm组成的深度信念网络(DBN)。使用压缩感知降低输入特征(脑电信号时间点)的维数。这种DBN+CS方法优于既不使用DBN也不使用CS的SVM方法。
关于被动脑机接口,Yin等人探索了工作负荷和情绪分类的神经网络[234,235]。在[234]中,他们使用自适应DBN,由几个堆叠的自动编码器组成,用于工作负荷分类。通过使用以其估计等级标记的输入数据对网络的第一层进行再训练来执行自适应。与kNN、MLP或SVM相比,所提出的网络在没有信道选择的情况下优于所有网络,但在特征选择的情况下获得了相似的性能。正如DNN论文中经常提到的BCI的情况一样,所提出的方法并没有与最先进的方法进行比较,例如与基于模糊综合评判的方法进行比较。在[235]中,研究了由叠加的AE组成的另一个DBN。然而,这个DNN是一个多模态的,一种用于脑电图信号和其他生理信号的具有独立AEs的多模态信号。附加层合并了两种特征类型。这种方法似乎比其他分类器和使用相同数据库产生的结果更出色。然而,用于对提议的DNN进行模型选择和确定其结构的数据是全部数据,也就是说,它包括测试数据,这使结果有偏差。
几项研究探索了DNN与DBN和CNN[150,198,207,210]的运动想象分类。在[150]中探索了一种DBN方法来从两个EEG通道中的BP特征进行分类。该网络的表现优于FBCSP和BCI竞赛获胜者,但仅限于使用其选择不合理的任意结构时。当移除或添加单个神经元时,该网络表现出比FBCSP或竞赛获胜者更低的性能,因此对其可靠性及其初始结构选择产生了怀疑。另一个DBN在[207]中用于运动想象分类,但性能优于简单的CSP+LDA分类器。然而,作者提出了一种方法来解释网络所学的知识及其决定,这为错误分类的可能神经生理学原因提供了有用的见解。[210]探索了CNN和DBN的结合。他们使用CNN,其输出被用作六层SAE的输入。与只有一个CNN、一个DBN或一个SVM相比,CNN+DBN的方法似乎最有效。它没有在这个数据集上与BCI竞赛的获胜者进行比较,也没有与其他最先进的方法如黎曼几何和FBCSP进行比较。最后一项探索DNN运动想象的研究是席尔梅斯特等人的[198]。这项研究特别值得称赞,因为与前面提到的大多数论文相反,研究和介绍了各种DNN结构,这些结构都是经过仔细论证的,而不是任意的,而且这些网络与最先进的方法进行了严格的比较。他们探索了浅层CNN(一个时间卷积,一个空间卷积,平方和均值汇集,一个软最大值层),深层CNN(时间卷积,空间卷积,然后是三层标准卷积和一个软最大值层),一个混合的浅层+深层CNN(即它们的连接),和残差NN(时间卷积,空间卷积,34个残差层,和软最大值层)。深层和浅层神经网络都显著优于FBCSP,而混合神经网络和残差神经网络则没有。浅层CNN最有效,分类准确率比FBCSP高3.3%。作者还提出了解释网络所学内容的方法,这可以提供有用的神经生理学见解。
表6 EEG BC中使用深度学习的研究
最后,一项研究探索了一种通用的CNN,一种具有少量层和参数的紧凑CNN,用于多种EEG模式的分类,即P300、运动相关皮层电位(MRCP)、ErrP和运动想象。这个网络在主题到主题的分类上优于另一个CNN(上面提到的[156]的),和XDAWN + BDA以及RCSP+LDA。不过,xDAWN和RCSP的参数(滤波器数量和使用的通带)并未具体说明,但如果它们使用与CNN方法相同的频带,将是次优的。该方法也没有与最先进的(FBCSP或黎曼)方法进行比较。因此,与现有方法进行比较也无法令人信服。
表6列出了在BCI使用深度学习进行EEG分类的方法。
神经网络具有从原始脑电数据中同时学习有效特征和分类器的潜力。鉴于其在其他领域的有效性,神经网络无疑有望带来更好的特征和分类器,从而实现更鲁棒的EEG分类。然而,到目前为止,绝大多数已发表的基于EEG的脑机接口的神经网络的研究都不能令人信服地证明它们在实践中与最先进的BCI方法的实际相关性和优越性。事实上,许多研究没有将所研究的DNN与最先进的BCI方法进行比较,也没有进行有偏见的比较,要么是对最先进的竞争对手的次优参数进行比较,要么是对DNN的参数进行不合理的选择,这使得我们无法排除在了解测试集的情况下手动调整这些参数。因此,有必要确保这些问题在BCI DNN周围的未来出版物中得到解决。一个有趣的例外是[198]中的工作,他严格而令人信服地表明,一个肤浅的CNN可以胜过FBCSP。这表明,DNN对基于EEG的BCI的主要限制是,这种网络具有非常大量的参数,因此需要非常大量的训练实例来校准它们。然而,典型的BCI数据集和实验只有非常少的训练样本,因为在实际使用BCI之前,不能要求BCI用户执行数百万甚至数千个心理命令。事实上,在BCI领域之外已经证明,DNN实际上是次优的,并且是训练集相对较小的最差分类器之一[36]。不幸的是,通常只有小的训练集可用于设计脑机接口。这也许可以解释为什么只有参数少得多的浅层网络被证明对BCI有用。因此,未来有必要设计参数较少的神经网络,或者获得具有非常大的训练数据库的BCI应用,例如用于多学科分类。
同样值得注意的是,到目前为止,DNN只是在BCI进行了离线探索。这是因为他们的训练时间非常长。事实上,无论是训练还是测试,DNN的计算复杂度通常都很高。在标准的当前计算机上,校准可能需要几个小时或几天的时间,而测试,取决于层数和神经元的数量,也可能要求很高。因此,在实践中可能需要高性能计算工具,例如多个功能强大的图形卡。对于实际的在线BCI应用,分类器必须在最多几分钟内进行训练,以便能够实际使用(BCI用户不能每次都等半个小时或更长时间BCI)。因此,BCI需要快速训练DNN。另一种选择是设计不需要任何特定学科培训的指定国家网络,即一个通用的DNN。
表7 EEG BCI的多标签方法总结
为了对两个以上的心理任务进行分类,可以使用两种主要方法来获得多类分类函数[215]。第一种方法是使用多类技术直接估计类别,如决策树、多层感知器、朴素贝叶斯分类器或k近邻。第二种方法包括将问题分解成几个二元分类问题[5]。这种分解可以用不同的方式完成,使用(I)一对一成对分类器[20,84],(II)一对其余(或一对全部)分类器[20,84],(III)类似于二元决策树的分级分类器和(iv)多标签分类器[154,215]。在后一种情况下,标签(或属性)的不同子集与每个类别相关联[58]。根据预测标签和定义类别的标签的每个子集之间的最近距离来识别预测类别。
基于运动想象的脑机接口提供的命令数量取决于系统能够检测的精神想象状态的数量。反过来,这又受到使用者可以想象的身体部位数量的限制,这些部位可以以产生清晰和独特的EEG模式的方式移动。因此,多标签方法可以证明对于检测组合运动想象任务是有用的,即同时想象两个或更多身体部分[125,192,226],其中每个身体部分对应于单个标签(指示该身体部分是否被使用)。事实上,与标准方法相比,这种方法的优点是在使用相同数量的身体部位时,大大增加了不同精神状态的数量:2P与p相比,是身体部位的数量。因此,在简单和组合的运动想象任务中的EEG模式被研究,以证实BCI的七种不同类别的运动想象的可分性[126,226,249]。为了实现连续的3D控制,双手运动想象被用来补充基于简单肢体运动图像的指令组——BCI上升(休息下降)[114,192]。上下控制信号是为每个电极和3个hz频率箱计算的左右自回归频谱振幅的反向相加。另一种方法使用第三届BCI竞赛的数据集IIIa,将循环序数回归转换为多标签分类方法,以左手、右手、脚和舌头运动的想象作为运动任务[57]。多类和多标签方法已经被比较,以区分三个运动图像任务(左手,右手和脚)的组合来控制机器人手臂的高度命令[125]。第一种方法使用单个分类器,该分类器应用于与每个活动源(C3,Cz,C4)相关的级联特征,其中每个分支涉及一个源。第二种方法由三个二进制分类器组成的层次树来推断最终决策。第三种方法是前两种方法的结合。所有方法都使用CSP算法进行特征提取,使用线性判别分析进行分类。所有方法都经过验证,并与经典的一对一(OVO)和一对多(OVR)方法进行了比较。用分层法得到的结果与用OVO和OVR方法得到的结果相似。第一种方法(单一分类器)和最后一种方法(组合式分级分类器)的性能对所有受试者来说都是最好的。表7中提到了所探索的各种多标签方法。
因此,多类和多标签方法旨在识别两个以上的命令。在这两种情况下,所识别的类的数量的增加潜在地为使用者提供了更多的命令来更快地与系统交互,例如,不需要下拉菜单。多标签方法可以使学习变得更短、更少疲劳,因为它只需要学习少量的标签。这些标签的许多可能的组合导致大量的类,因此导致更多的命令。此外,多标签方法允许描述一个类的标签中有冗余,这可以导致更好的类分离。通常,要生成的标签数量少于类的数量。最后,与标准方法相比,多类和多标签方法通常具有较低的计算复杂度,因为它们可以共享参数,例如使用多层感知器或类描述符(尤其是在没有引入冗余的情况下)。
然而,标签的含义和相应的心理命令之间可能缺乏联系,例如,两只手的意象上升。这可能会产生更大的精神负担,从而导致疲劳。因此,有必要仔细选择心理状态。
表8 表8 使用有限数量数据可以训练的分类器总结
如前所述,大多数基于EEG的脑机接口目前是针对每个受试者进行优化的。事实上,这已经被证明通常比独立于受试者的分类器具有更高的分类性能。典型的BCI系统可以通过只使用少量的训练数据来优化,通常每类20-100次试次,因为受试者在被提供功能性BCI之前不能被要求产生数千次相同的心理命令。此外,收集这样的训练数据需要时间,这对受试者是不方便的,因此理想的BCI需要尽可能短的校准时间。这要求分类器能够使用尽可能少的训练数据进行校准。在下文中,我们介绍了那些被证明是有效的分类器。它们依赖于使用专用于小样本大小的统计估计器或在几个分类器之间划分输入特征来降低维数,从而减少每个分类器所需的训练数据量。
三种主要的分类器在训练数据很少的情况下被证明是有效的,因此对于基于EEG的BCI设计是有效的,它们是收缩LDA分类器[22,137,142],随机森林[3,54]和黎曼分类器[47,232]。
收缩线性判别分析(sLDA),是一个标准的线性判别分析分类器,其中用于优化的类相关协方差矩阵使用收缩进行正则化[22]。事实上,从小数据估计的协方差矩阵往往比实际数据分布具有更大的极值特征值,导致协方差估计较差。这可以通过将协方差矩阵Σ收缩为Σˆ = Σ − λI来解决,I是单位矩阵,λ是正则化参数。有趣的是,有自动确定最佳λ值的解析解(见[118])。无论是对基于事件相关电位的BCI [22]还是对振荡活动的BCI [137],所得到的sLDA分类器都优于BCI的标准LDA分类器。也已经表明,这种分类器可以用比线性判别分析少得多的数据来校准,以获得相同的性能[137,142]。例如,对于心理想象BCI,一个单反装置在每类10次训练试次的情况下获得了与标准单反装置相似的性能,每类30次训练试次,有效地将校准时间减少了三倍[137]
随机森林分类器是几个决策树分类器的集合[26]。该分类器的思想是随机选择可用特征的子集,并在其上训练决策树分类器,然后用许多随机特征子集重复该过程以生成许多决策树,因此称为随机森林。最终决定是通过组合所有决策树的输出来做出的。因为每棵树只使用特征的一个子集,所以它对维数灾难不太敏感,因此需要更少的训练数据才能有效。在BCI研究之外,在各种分类器和各种分类问题和领域中,随机森林算法实际上经常被发现是最精确的分类器,包括小训练数据集的问题[26,36]。基于ERP的BCI [3]和BCI [54]的运动想象都成功地使用了RFs。他们的表现优于基于BCI运动想象线性判别分析分类器的设计[54]。
黎曼分类器已经在4.2.1节讨论过了。通常,简单的黎曼分类器(如RMDM)比最佳滤波方法(如运动想象的CSP[46]和P300的XDawn[15])需要更少的训练数据。这是由于黎曼距离的鲁棒性,几何平均直接继承了黎曼距离,如[47]中所讨论的。通过计算黎曼中值或修剪黎曼均值,可以得到更鲁棒的均值估计。当考虑少量数据点时,收缩和其他正则化策略也可以应用于黎曼框架,以改进协方差矩阵的估计[100]。这些方法总结在表8中。
sLDA、RF和RMDM是简单的分类器,易于在实践中使用,总体上提供良好的结果,包括在线结果。因此,我们建议使用它们。sLDA和RMDM没有任何超参数,这使得它们非常方便使用。在许多数据集上,sLDA在企业资源规划和基于活动的振荡BCI两方面都优于LDA[22,137]。因此没有理由使用经典LDA相反,sLDA应该是首选。对于基于BCI的振荡活动,RMDM的表现与CSP+LDA一样好[13,46],以及xDAWN+LDA,但对于基于企业资源规划的BCI,在时间样本上优于逐步LDA[15,46],对于SSVEP,优于CCA[100]。请注意,因为LDA是一个线性分类器,所以在假设的未来情况下,当大量训练数据可用时,它可能是次优的。另一方面,射频是一个非线性分类器,无论是小的还是大的训练集都是有效的[36]。RMDM也是非线性的,在小的和大的训练集上都表现良好[46]。在计算复杂度方面,而RF可以更J. Neural Eng。15(2018)031005T opic Review 21比RMDM或sLDA要求更高,因为它使用了许多分类器,所有这些都是相当简单和快速的方法,并且都已在标准计算机上成功地在线使用。
5.讨论和指导方针
基于本文中研究的许多论文,我们确定了一些关于是否使用各种类型的分类方法的指导方针,如果是,何时以及如何使用。我们还确定了一些值得回答的开放式研究问题,以便设计更好的分类方法,使BCI更可靠、更有用。这些指南和开放式研究问题将在以下两个部分中介绍。
根据本文综述的各种研究,我们提取了以下指南,用于为BCI设计选择合适的分类方法:
就分类性能而言,分类器和空间滤波器的自适应分类方法应优于静态方法。即使只有无监督的适应对于目标应用是可能的,也应该是这种情况。
鉴于可用的训练数据有限,深度学习网络迄今为止在BCI对脑电信号分类似乎并不有效。浅层卷积神经网络更有前途。
收缩线性判别分析(sLDA)应该总是用来代替经典的LDA,因为它对有限的训练数据更有效、更鲁棒。
当可用的训练数据非常少时,应该使用迁移学习、sLDA、RMDM分类器或随机森林。
当受试者之间的任务相似时,可以考虑领域适应来提高分类器的性能。然而,应该注意迁移学习的有效性,因为它有时会降低绩效。
黎曼几何分类器(RGC)非常有前途,被认为是当前多BCI问题的最新技术,特别是运动想象,P300和SSVEP分类。应进一步应用和探索这些方法,以提高其有效性。
张量方法正在出现,因此可能也有希望,但目前需要更多的研究才能在实践中应用,在线,并评估其与其他先进方法相比的性能。
除了指导原则,我们的综述还使我们能够确定一些尚未解决的挑战或研究问题以及必须解决的问题。这些挑战和问题如下:
本文提及的许多分类方法都只是离线评估。然而,实际的BCI应用程序基本上是在线的。因此,还需要在线研究和验证这些分类方法,以确保它们具有足够的计算效率以便实时使用,能够足够快速地校准以便于使用,并确保它们能够承受脑电信号中的真实噪声。事实上,分类器的在线评估应该是常规而不是例外,因为如果不能在线使用,那么为BCI研究分类器的价值相对较小
迁移学习和领域适应可能是无校准BCI的关键组成部分。然而,在这个阶段,必须采取几项措施才能常规使用。在这些努力中,结合先进的特征如协方差矩阵和域自适应算法可以进一步提高BCI系统的不变性。
还有几个公开的挑战,一旦解决,可能会使黎曼几何分类器更加有效。一是设计一个黎曼中值的稳定估计量,使RMDM分类器比使用黎曼均值时对异常值更鲁棒。另一种方法是在多模态RMDM上工作,每个类有多个模态,而不仅仅是一个,这可能会提高它们的有效性。最后,还需要一些方法来避免条件差的协方差矩阵或低秩矩阵,因为这些可能导致RGC失败。
虽然深度学习方法在BCI的表现落后,主要是由于缺乏大型训练数据集,但它们可能与端到端领域适应[73]或通过使用生成性对抗网络来扩充数据集[77]密切相关。
分类器和整个机器学习/信号处理流水线不是BCI系统设计中的唯一考虑因素。特别是,使用者也应该被考虑和照顾,以确保有效的大脑-计算机通信[33,112,144]。因此,未来的BCI分类器应该设计成确保使用者能够理解来自分类器的反馈,并且能够从中学习有效的BCI控制[146]。
6.结论:
我们汇总了2007年至2017年间开发和评估的EEG分类方法,以设计BCI系统。所探索的众多方法可以分为四个主要类别:自适应分类器、矩阵和张量分类器、迁移学习方法和深度学习。此外,在这些类别之外还发现了一些其他方法,特别是有前途的收缩线性判别分析和随机森林分类器。
总的来说,我们揭示了有监督和无监督的自适应分类器总体上优于静态分类器。矩阵和张量分类器也很有前途,可提高BCI可靠性;特别是,黎曼几何分类器是当前许多BCI设计的最新技术。迁移学习似乎也很有用,尤其是当可用的训练数据很少时,但它的性能变化很大。应该投入更多的研究来评估它作为标准BCI设计的一部分。收缩线性判别分析和随机森林对于BCI也是有价值的工具,特别是对于小的训练数据集。最后,与它们在其他领域的成功相反,迄今为止,深度学习方法并没有表现出比最先进的BCI方法更令人信服和持续的改进。
与基于脑电信号的BCI分类相关的未来工作应侧重于开发更鲁棒和一致有效的算法,这些算法可容易地在线使用,并且能够处理小训练样本、噪声信号、高维和非平稳数据。这可以通过进一步发展转移学习方法、黎曼几何和张量分类器,以及通过确定深度网络在哪里以及如何对BCI有用来解决。总之,改进那些方法或者定义新的方法应该考虑不变性。实际上,一个理想的分类方法应该使用随时间、随用户和环境而变化的特征和/或分类器,以便在任何情况下都有效。此外,还需要新一代的BCI分类方法,该方法考虑循环中的人类使用者,即能够适应使用者的状态、特征和技能,并提供使用者能够理解和学习的反馈。
总之,本文表明是时候改变目前在基于EEG的BCI使用的黄金标准分类方法,并应用第二代BCI分类器。例如,我们可以从经典的CSP + LDA设计(在许多在线研究中多年来基本未变)转向自适应黎曼几何分类器。最后,更重要的是,下一代基于EEG的BCI分类方法必须考虑到使用者。
如需原文及补充材料请添加思影科技微信:siyingyxf或18983979082获取,如对思影课程及服务感兴趣也可加此微信号咨询。另思影提供免费文献下载服务,如需要也可添加此微信号入群,原文也会在群里发布,如果我们的解读对您的研究有帮助,请给个转发支持以及右下角点击一下在看,是对思影科技莫大的支持,感谢!