深度学习+EEG：一种采用单通道EEG检测被试注意力状态的卷积神经网络构架

《本文同步发布于“脑之说”微信公众号，欢迎搜索关注~~》

脑机接口(BCI)系统可以记录并处理大脑信号并将其转换为输出命令，其可用于各种应用场景，如辅助技术，神经康复和认知增强等。在各种用于脑信号记录的技术中，脑电图（EEG）是BCI研究中研究最多的方法。而基于EEG的认知BCI，旨在评估和增强诸如注意力等认知功能。

之前的研究更多的关注于选取合适的特征，以将其用来对注意力程度进行分类。用于监视专注精神状态的现有技术方法主要与EEG频带中的特定频段有关。大量的研究调查了注意力引起的beta，alpha 和不同频段之间能量比值的变化。总体而言，很多研究认为像beta这样的高频段活动增加是一种注意唤醒的指标，另外一些研究表明θ和β的能量比值、α和θ能量的降低也表明较高的专注程度。

深度学习近年来在语音识别及图像识别领域取得了非常突出的表现，因其可以自动提取相关特征用于分类任务，近年来将深度学习技术应用于EEG数据的研究也逐渐增多。但是深度学习技术应用于认知BCI的研究目前还较少。近期，来自新加坡的研究团队在Journal of Neural Engineering杂志发表题目为《Inter-subject transfer learning with end-to-end deep convolutional neural network for EEG-based BCI》研究论文，其提出了一种深度学习框架，利用单通道EEG信号来检测被试的注意力状态，可以显著提高被试间注意力检测任务的准确性。

材料与方法

1.数据

这项研究使用从健康受试者中收集到的脑电图数据作为试验的一部分，该试验已在NCT02228187中在Clinicaltrials.gov中注册。请注意，该研究不是临床试验，仅使用EEG数据。总共120名健康受试者进行了Stroop色彩测试, 其为研究注意力的常用任务，可以追溯到John Ridley Stroop在1935年的工作中报道的Stroop效应。

在实验过程中，屏幕上会显示一个彩色的单词, 单词自身含义为其他颜色，要求受试者说出该单词的书写颜色是什么。受试者在实验过程中会经历信息的冲突, 冲突信息在于这个单词代表的颜色和这个单词是由什么颜色写出来是不同的。因此，受试者需要在Stroop颜色任务中保持注意力，如图1b所示。

在每个session中，参与者重复执行40次Stroop测试（注意任务），然后休息一段时间（非注意任务）。因此，他们在任务中经历了精神状态的改变（专心/不专心）。总体而言，每个session耗时约10分钟。使用干电极EEG头带, 该头带带有位于额叶区域(Fp1-Fp2)的单个双极通道.采样频率为256Hz。如图1a所示。

深度学习+EEG：一种采用单通道EEG检测被试注意力状态的卷积神经网络构架_第1张图片

图1

2.预处理

应用一个长度为2s的滑动窗（窗与窗之间数据重叠率为50%）对数据进行分段, 经人工观察以及阈值法去除bad trials, 阈值为±100µv, 最后数据经过0.5Hz的高通滤波。如图1c所示。

3. 深度卷积神经网络（Deep CNN）

3.1 输入

为了最大程度地减少计算量并保留有用信息，我们使用了原始的EEG，并以最少的处理量作为输入。实际上，我们没有做任何特征提取或将EEG转换为图像，这些是信息丢失和增加计算成本的主要原因。我们为网络设计了3种没有任何预提取特征的输入。在所有表示形式中，均对采用率为256Hz的原始数据降采样3倍，从而得到171个采样点，长度为2s的数据。

• DR1: 原始数据

• DR2: 原始数据经过0.5-40Hz带通滤波

• DR3: 原始数据分为五个频带成分, δ(0.5-4 Hz), θ (4-8Hz), α(8-12 Hz), β (12-30Hz), γ (30-40 Hz)

3.2 网络结构

LeCun引入的早期卷积神经网络（LeNet-5）由一系列卷积和池化层组成。从那以后，为了加速训练，避免过度拟合和更好地保存信息，人们进行了许多尝试，以通过一些方法来改善CNN（卷积神经网络），例如批量标准化和dropout。在该项研究中，研究者使用了其中一些技术。

在卷积层中，卷积核对输入进行卷积操作。这些输入会经过非线性变换，生成一个数值。通过在整个输入上滑动卷积核来重复此过程，从而生成多个相应的值（也叫特征图），最终将生成的特征图作为卷积层的输出。使用池化层的目标在于通过根据感兴趣的操作（例如，最大池化的最大值）用单个值替换小数据片段，从而减小特征图的尺寸。当输入通过多个堆叠的卷积层时，将生成高级的特征图。对于分类任务，网络的最后一层是一个全连接层，该层接受前一层的输出并输出n维向量（n是类数）。例如，在Softmax层（激活函数是Softmax的全连接层）中，此向量的每个元素代表原始输入属于相应类别的概率。网络通过反向传播学习网络参数。

如前文所述，共三种EEG数据作为输入送入网络中（文章比较了三种经过不同预处理的单通道脑电数据作为输入时对最后分类结果的影响）。由于输入数据是时间序列，因此一维（1D）卷积核用于时间维度上的卷积操作（提取时间维度上的特征）。之前的文献中已经证明了即使对于2D输入，也可以跨时间使用1D卷积的有效性。为了生成高级特征，研究者为网络共设置了三个带有1D滤波器的卷积层。

深度学习+EEG：一种采用单通道EEG检测被试注意力状态的卷积神经网络构架_第2张图片

图2

第一层为60个1×4卷积核（共60个窗长为4的一维卷积核，提取时域特征）, 步长为1×2（卷积核每次移动两个采样点，这种操作可以起到减少参数量的作用），其后是大小为1×2的最大池化层（选窗中最大的值作为输出，可以起到减少参数量的作用）。池化后接第二个卷积层，其中包含40个卷积核，大小为1×3, 步长为1×1。第三个卷积层有20个卷积核, 大小为1×2, 步长为1×1，将生成的特征图展平为一个向量（通常而言神经网络最后需要将学习到的特征转换为一维向量）。然后，此向量在送入共100个神经元的第一个全连接层之前，以20％的概率穿过一个dropout层（起到增强网络鲁棒性的作用）。然后，研究者在第二个全连接层（Softmax）之前以30％的概率插入了第二个dropout层来克服过拟合。最后，将特征输入到Softmax层（将网络的输出转换为对应类别的概率）中进行分类。在每个卷积层和第一个全连接的层之后，都使用了整流线性单元（ReLU）作为激活函数（可以赋予网络处理非线性特征的能力）。该研究使用了ADAM作为优化方法（一种常用的训练网络参数的方法）。

结果

1.基线

为了给所提出的结构提供一个公平的基准，研究者对单通道数据应用了之前文献中介绍的分类框架，以在注意力和非注意力之间进行分类。另外，为了与之前文献的数据表示相一致，研究者使用与数据表示3（DR3）中所述相同的频带执行了常规的特征提取和分类方法。

研究者使用快速傅里叶变换将原始信号分为delta(0.5-3Hz)，theta (4-7Hz), alpha(8-13Hz), beta (14-30Hz) 以及alpha与beta的比值作为输入，将其送入支持向量机（SVM）分类器中进行分类。对于第二基线，研究者使用II型切比雪夫滤波器对包括δ，θ，α，β和低γ（如DR3中所述）的5个频带进行了带通滤波，然后计算功率（均方根值）并送入LDA进行分类。请注意，与之前文献使用k折交叉验证不同，研究者在两种基线方法中均做了被试间分类方法（留一法，仅保留一个被试的数据），以与本文提出的网络结构的结果进行合理比较。基线1的平均准确度仅为50.70％。此外，为了提高准确性，研究者对基准线1的特征进行了归一化，结果平均准确性提高到67.90％。

表1左侧总结了基线结果。可以看出，基线1和2分别平均精度为67.90和68.23，它们之间没有统计学上的显着差异（p = 0.87）。超过50％的受试者的准确度低于70％（作为公认的BCI表现阈值）。要提高这些被试的准确性，需要付出很多努力。

深度学习+EEG：一种采用单通道EEG检测被试注意力状态的卷积神经网络构架_第3张图片

表1

该文研究者发现了另一项试图从额叶单通道脑电数据中对注意力进行分类的研究。在这项研究中，neurosky设备用于脑电图记录。该设备会生成注意力指标和一些其他信息，例如频带功率。作者仅使用从设备获得的注意力指标，即可使用LDA分类器检测注意力状态。最初，有10名受试者参与了实验，但其中4名受试者不能控制他们的注意力水平（基于注意力指标），因此被排除在外。因此，分类是在6名受试者中完成的。根据他们的论文表7，平均准确度是79.5％。除了样本量小之外，他们工作的主要局限是对每个被试分别在每类中进行分类，然后对分类结果取均值。他们还报告说，包括频段功率并不能提高分类准确性。请注意，由于用于分类的注意力指标是由记录设备生成的，并且未提供算法的详细信息，因此将其方法用作本文数据的基线是不可行的。

2.留一法

“留一法”（LOO）将使用来自一组被试（源域）的数据来学习一个通用的网络，然后将学习到的知识迁移到新的被试（目标域）上。这实际上是一种被试间迁移模型。由于不需要重新训练，因此该方法的计算要求相对较低。在这项研究中，研究者将来自除目标域被试之外的所有被试的数据用于网络训练，并将学习到的网络模型应用于目标域被试。该方法使精度明显优于基线（p <0.0001），平均提高了7.92％。DR1，DR2和DR3的平均准确度分别为76.20％，75.07％和76.68％，彼此之间无统计学差异。结果显示，准确率低于70％（作为BCI阈值）的受试者的百分比显着下降，分别仅占DR1，DR2和DR3的120名受试者的26.67％，24.17％和23.34％。

3.被试自适应（迁移学习）

尽管零次学习（zero-shot learning）避免了对新被试数据的长时间训练，但是这种方法在将知识从源域(训练集)迁移到目标域(新的被试数据)时可能会遇到信息变换的问题。为了解决这个问题，研究者采用了一种自适应方法，其使用新被试数据的一小部分样本进行了重新训练。这样，可以解决过度的重新训练时间和信息变换的问题。

在这项研究中，研究者将新被试数据的一半用于适应性训练。该策略分别在三种输入DR1，DR2和DR3的平均准确度达到79.26％，78.12％和79.86％，均超过了基线和LOO方法。这意味着，与基线（p <0.0001）相比平均增加了11.02％，与LOO（p<0.01）相比增加了3.10％。表现差的受试者的总数分别下降到DR1，DR2和DR3的120名受试者中的15.83％，17.50％和15.83％,如图3所示。

深度学习+EEG：一种采用单通道EEG检测被试注意力状态的卷积神经网络构架_第4张图片

图3

总体而言，采用被试自适应技术的Deep CNN可获得最佳性能。尽管Deep CNN方法（LOO和被试自适应）之间在统计上有显着差异，但每种方法内的不同数据表示输入之间都没有显着差异。

4.多通道的公开数据集

为了研究所提出的框架具有通用性，研究者将网络应用于多通道公开数据集。数据的实验属于内隐注意研究。共有8名健康受试者（18-27岁）参加了该实验，并使用64导国际10-10系统电极帽记录了他们的脑电图。采样频率设置为1000Hz，随后将其下采样至200Hz。实验包括注意，响应和休息。研究者对注意和休息进行分类。基于对该数据集的原始研究，包括PO3、4、7-10，Oz，O1和O2的9个电极是研究注意力的最佳电极。研究者在研究中使用了这9个推荐电极。

作为多电极数据集的第一个基线，研究者使用了常用的“滤波器组共空间模式”（FBCSP）方法。基于互信息的最佳个体特征（MIBIF）和朴素贝叶斯Parzen窗（NBPW）方法分别用于特征选择和分类。除了使用LOO进行分类（可以提供与端到端框架进行公平比较的结果）之外，研究者还使用10倍交叉验证进行了被试内分类。

研究者使用的第二个基线是shallow CNN。研究者称其受到FBCSP方法的启发。简而言之，其具有两个隐藏层，分别进行时间卷积和空间滤波以进行频带功率特征解码。他们报告说，此方法通过单个网络同时优化了所有计算步骤.

深度学习+EEG：一种采用单通道EEG检测被试注意力状态的卷积神经网络构架_第5张图片

表2

表2给出了结果。总体而言，基于FBCSP构建的shallow ConvNet优于FBCSP方法，Deep CNN优于两种基线方法。比较LOO结果，该方法的性能明显优于FBCSP（+ 18.31％，P<0.001）和shallow ConvNet（+6.28％，P <0.001）。实际上，使用端到端框架进行LOO分类的结果与使用FBCSP进行被试内分类的结果一样好。这表明，尽管FBCSP在被试内分类方面表现良好，但在被试间分类方面却无法产生令人满意的结果（下降19.21％）。观察结果表明，基于CNN的方法可以用于解决此问题。研究者提出的端到端Deep CNN对所有8位受试者正确地解码了70％以上的EEG试验。

总结与讨论

该文章的研究者提出的Deep CNN结构，平均分类准确性为79.26％，在120名受试者中，只有15.83％的准确性低于70％（BCI的公认阈值）。这种端到端的分类框架优于用于注意力检测的常规分类方法。

以最少的预处理和特征提取进行脑电图分类始终是一个值得追求的目标。因此，研究者对几种数据表示进行了探索，而没有将预提取的特征作为CNN的输入，目的是从原始的脑电进行端到端研究。第一种输入形式（DR1）是具有最少预处理（已去除伪迹）的原始EEG。以这种表示形式作为输入的CNN优于基线（p <0.0001），平均准确度提高了8.14％（LOO）和11.20％（自适应）。在数据处理上更进一步，研究者对数据进行了0.5-40Hz（DR2）的带通滤波，然后将其馈入CNN进行分类。有趣的是，平均分类精度在LOO中下降了1.13％（p> 0.1），而在自适应方法中下降了1.14％（p> 0.1）。已知最常用的EEG频带是δ，θ，α，β和低γ，研究者从EEG中提取了这些频带以获得第三种输入（DR3）。使用DR3作为输入所产生的结果要比DR1略好（LOO为+ 0.48％，自适应性为+0.60％），但没有统计学意义（p> 0.1）。根据数据表示形式对分类性能的影响，可以推断出Deep CNN分类框架能够通过从原始的EEG数据中学习来有效区分注意力集中的状态。

有趣的是，研究者观察到网络学习感知到了输入数据的部分特征。网络从原始数据（DR1）学习到的注意力和非注意力状态的模式很容易区分。注意类别包括高频成分(图4,a)，而非注意类别显示其模式为低频振荡(图4,b)。为了进一步研究，使用burg算法计算这些感知输入的功率谱密度（PSD）。（图4,c和图4,d）展示了最常见的PSD，即theta（4-8Hz），alpha（8-12Hz），beta1（12-16Hz），beta2（16-20Hz），高beta（20-30Hz）和低伽玛（30-40Hz）。有趣的是，可以观察到随着心理状态从非专心（class2）变为专心（class1）：

1）Beta活性增加。

2）Beta 2增加更多。

3）θ活性降低。

4）被称为注意力指标的Theta/beta比值（TBR）下降。这可以从1和3推论得出。

深度学习+EEG：一种采用单通道EEG检测被试注意力状态的卷积神经网络构架_第6张图片

图4

总体而言，这项研究表明，通过CNN进行深度学习是一种有前途的脑电分类技术，其性能优于LDA，SVM和FBCSP等其他技术。观察结果表明，通过使用Deep CNN，可以从原始的EEG中学习，并成功地将所学的知识转移到新的目标被试中。该研究的成果可以应用于基于注意力的BCI系统，并可以扩展到其他类型的基于EEG的BCI。

参考文献：

Fahimi F , Zhang Z , Goh W B , et al. Inter-subject transfer learning with end-to-end deep convolutional neural network for EEG-based BCI[J]. Journal of Neural Engineering, 2018.

深度学习+EEG：一种采用单通道EEG检测被试注意力状态的卷积神经网络构架

你可能感兴趣的:(深度学习+EEG：一种采用单通道EEG检测被试注意力状态的卷积神经网络构架)