本次分享一篇发表于JNE期刊的基于耳部脑电的语音想象脑机接口系统。
摘要
本研究调查了以用户耳朵 (ear-EEG) 为中心的脑电图 (EEG) 对基于语音想象的脑机接口 (BCI) 系统的功效。开发了一种可穿戴的耳脑电图采集工具,并将其性能直接与多类语音想象分类任务中的传统 32 通道头皮脑电图设置进行比较。EEG协方差矩阵的黎曼切线空间投影被用作多层极限学习机分类器的输入特征。10名受试者参与了一项为期三天的六次实验。该实验涉及想象四个语音命令(左、右、前进和后退)并保持静止状态。我们系统的分类准确率明显高于机会水平(20%)。所有十名受试者的平均分类结果为 38.2% 和 43.1%,耳脑电图和头皮脑电图的最大值(最大值)分别为 43.8% 和 55.0%。根据方差分析,十分之七的受试者在耳脑电图和头皮脑电图的表现之间没有显着差异。据我们所知,这是第一项研究耳脑电图在基于语音想象的 BCI 中的性能的研究。结果表明,耳脑电图具有巨大的潜力,可以替代头皮脑电图采集方法进行语音想象监测。我们相信,所提出系统中语音想象和耳脑电图采集的优点和可行性将加速 BCI 系统在日常生活中的发展。
前言
脑机接口 (BCI) 系统已被广泛研究,作为失去说话或移动能力的患者(例如患有闭锁综合征 (LIS) 或肌萎缩性侧索硬化症 (ALS) 的患者)的一种替代通信和控制方法) [1]。BCI 系统通过将用户的大脑活动转换为计算机或机器命令来工作 [1]。许多研究证明,BCI 可以成功地帮助这些患者恢复正常生活的能力 [2]。但是,BCI 尚不适合日常生活使用。日常生活中的BCI除了功效外,还应方便、简单、时尚,并与日常生活活动相协调。许多研究报告的 BCI 范式受到 BCI 模式的限制。P300 [3] 和稳态视觉诱发电位 (SSVEP) [4] 等反应性 BCI 需要来自外部设备(例如监视器)的刺激。这会影响 BCI 的可穿戴性,并且视觉刺激也可能导致用户因盯着显示器而感到疲劳,从而使反应性 BCI 不是日常生活使用的最佳选择。虽然使用运动想象 (MI) [5] 的 BCI 不需要刺激,但在用于控制计算机或机器时会受到自由度的限制。基于 MI 的 BCI 也可能根据具体情况使用起来不直观,因为用户可能会发现难以将 MI 任务(例如想象左手移动)与他们想要完成的任务(例如打开电视)联系起来。
为了克服这些限制,已有研究并提出了语音想象作为 BCI 的替代模式。语音想象是一种心理任务,指的是当一个人在没有实际移动任何发音器或说话的情况下想象大声说话 [6]。与其他类型的 BCI 相比,基于语音想象的 BCI 可以更直观,因为用户可以简单地想到与系统检测的输出命令相关联的单词。语音想象任务也需要更少的训练时间,因为大多数人已经自然地习惯了它。理论上,它还支持与声音和声音组合一样多的命令。
大多数早期的语音意象研究都是基于想象元音。Fujimakiet al[6] 通过检查想象元音 /a/ 的诱发电位,首先提出了语音想象的概念。在 [7] 中,DaSalla 对受试者想象元音时获得的脑电图 (EEG) 信号进行了分类:/a/ 和 /u/,或者使用来自收集的 EEG 信号的公共空间模式 (CSP) 保持静止。类似地,Matsumoto 等人 [8] 使用支持向量机 (SVM) 和相关向量机 (RVM) 从想象的日本元音中对脑电图进行分类。[9] 中的研究使用希尔伯特谱分析对音节进行分类:/ba/ 和 /ku/ 以不同的节奏想象。
还使用来自皮层电图 (ECoG) 的大脑信号研究了语音想象。Leuthardt 等人 [10] 使用 ECoG 解码音素来控制一维光标。[11] 中的研究使用朴素贝叶斯分类器对元音和辅音进行分类,该分类器使用 ECoG 信号对公开和隐蔽的语音进行分类。在公开和隐蔽的语音任务中,他们对元音和辅音的平均准确率都达到了大约 40%。Martin 等人 [12] 在三种情况下记录了六个单词的 ECoG 响应:听力、想象的语音和公开的语音。他们使用 SVM 对 15 个单词对进行了成对分类。在 15 对中,有 8 对显示出准确度显着高于想象语音的机会水平。
最近,还研究了使用具有语义意义的词的语音想象。Nguyen 等人 [13] 使用黎曼流形特征对以固定节奏周期性想象的短词、长词和元音进行分类。Qureshi 等人 [14] 使用五个想象的词(Go、Back、Left、Right 和 Stop)进行分类,准确率高达 40.30%。García-Salinas [15] 对 13 个单词和图像进行了语音和视觉想象实验。他们报告的语音和视觉想象实验的准确率分别为 34.2% 和 26.7%。
然而,这些研究中的大多数是使用传统的 EEG 采集方法进行的,这些方法使用带有电解质凝胶的电极或帽上的导电糊(即湿电极)从用户的头皮采集 EEG。这种方法提供了高质量的脑电信号,其脑电图通道范围广泛,覆盖了人脑的所有部分,这使得这种脑电图采集技术在 BCI 系统的准确性方面通常是最好的非侵入性技术。然而,基于头皮的 EEG 采集方法不适用于旨在用于日常生活的 BCI,主要有以下三个原因:(a) 设备准备需要时间并且需要额外的培训来学习该程序,(b) 电极帽和湿电极使他们不舒服,并且(c)他们不时髦,可能在社交上很尴尬。为了解决这些问题,研究人员尝试用不同类型的电极代替湿电极,并改变脑电图采集工具的设计,使其可穿戴。商业级可穿戴脑电图采集设备的例子包括 NeuroSky (www.neurosky.com),它使用一个有源干电极从用户的前额采集脑电图,以及 Emotiv (www.emotiv.com),它使用一次性海绵电极和生理盐水。
以用户耳朵为中心的脑电图(ear-EEG)是一种替代脑电图采集方法,由于其舒适性、移动性和谨慎性,在 BCI 研究领域中越来越受欢迎。这种脑电图采集方法测量以用户耳朵为中心的脑电图。Ear-EEG不需要任何复杂的设备准备,传感器不与用户的头发有任何接触;因此,与传统的头皮脑电图方法相比,用户使用起来更容易、更舒适。耳 EEG 方法中的电极放置也使它们对其他人不可见,并且不会引起用户不必要的注意,使耳 EEG 方法非常谨慎,适合日常生活。Looney 的研究 [16] 是最早提出耳 EEG 概念的研究之一。他们开发了可从用户耳道内部获取脑电图的整形耳机。Debener 的小组 [17] 采用了一种不同的方法,即从耳朵周围获取耳 EEG。他们开发了一种名为 cEEGrid 的耳罩式脑电图采集工具,该工具由印刷在 C 形柔性片材上的十个电极组成。在这些工作之后,许多研究开发了自己的耳脑电图采集工具,并表明耳脑电图是 BCI 系统的可靠数据采集方法。耳脑电图可以检测到的 BCI 信号类型包括 α 衰减 [18]、听觉稳态反应 [18]、浓度水平 [19]、听觉注意力状态 [20、21]、睡眠状态评估 [22]、 SSVEP [23] 和听觉事件相关电位 [18, 24, 25]。
为了加速日常生活 BCI 的发展,我们提出了一种使用耳 EEG 的基于语音想象的 BCI 系统。在这项研究中,我们开发了一种可穿戴且低成本的耳部脑电图采集设备,并研究了耳脑电图采集方法在基于语音想象的 BCI 系统中的功效。我们在多类语音想象实验中同时测量头皮和耳朵的脑电图,并直接比较两种脑电图采集方法的分类结果。此外,还训练了一个模型以将耳脑电图特征映射到头皮脑电图特征空间,以提高基于耳脑电图系统的准确性。我们的特征提取方法基于黎曼框架中的 EEG 协方差矩阵。我们使用多层极限学习机(MLELM)分类器作为我们系统中的分类方法。我们系统中使用的方法将在下一节中详细描述。据我们所知,这项研究是第一个使用耳 EEG 作为基于语音想象的 BCI 的数据采集方法的研究。
方法
数据采集
耳脑电–
我们在六个通道中测量来自受试者两个耳朵周围的耳 EEG 信号,每侧三个。左耳周围电极的通道名称为 L1、L2 和 L3,右耳周围电极的通道名称为 R1、R2 和 R3。这些信号分别以右耳 (REF) 和左耳 (GND) 底部的电极为参考和接地。每侧的电极排列成高 55 毫米、宽 20 毫米的 C 形。图 1(a) 说明了耳 EEG 通道的位置。
Ear-EEG 是使用为本研究定制的低成本可穿戴设备获得的。可穿戴设备呈水平头带形状,覆盖用户耳后并环绕用户后脑勺。该设备包含覆盖耳朵周围的由柔性硅胶(Dragon Skin 30)制成的 C 形听筒。我们的设备使用直径为 14 毫米的泡沫型固体凝胶按扣电极(3 M 红点)。电极可以很容易地从嵌入硅胶耳机的插座上安装和拆卸。硅胶耳机和泡沫型按扣电极给用户的皮肤带来柔软的触感,使设备佩戴舒适。电极的阻抗低于 15 k,这与 cEEGrid [17] 的阻抗相似,无需使用任何额外的导电物质。电极不会变干并保持相同的阻抗水平至少 6 小时。
硅胶耳机固定在由 ABS 材料制成的 3D 打印框架上。电线连接到包含在 3D 打印外壳中的脑电图传感板,该外壳可以挂在用户的衣服上。该外壳还包含一个便携式电池和一个充电器。我们使用 OpenBCI 的 Cyton Biosensing Board (www.OpenBCI.com) 作为 EEG 传感板。EEG 采集采样率为 250 Hz。电池持续至少 10 小时以进行连续 EEG 记录。图 2 显示了我们的 ear-EEG 可穿戴设备的图片。
低成本的可穿戴耳脑电图设备不显眼,佩戴舒适。与 EEG 帽和其他基于头皮的可穿戴工具相比,该设备隐藏得很好。该设备可以在制造框架的 3D 打印机的帮助下轻松手工构建,并且所有材料都可以在市场上买到。我们设备的设计还允许广泛的应用。例如,可以修改头带框架以连接相机或其他传感器,这些传感器可用于瞄准环境中的对象以进行控制。设备设置过程包括从电极上撕下贴纸,并将其贴在设备硅胶部件的插座上。对于瘫痪患者,这个过程可以在额外人员的帮助下轻松完成,无需任何特殊培训。我们的耳脑电图采集工具的总设备准备时间不到 3 分钟。
头皮脑电–
我们使用 BrainVision actiCHamp 以 500 Hz 的采样率获取头皮脑电图,脑电图帽由 32 个 Ag/AgCl 电极组成,按照 10 20 国际系统放置在左半球周围(图 1(b))。Fpz 和 FCz 分别被选为接地和参考通道。Broca s 区(F5、FT7、FC5 和 FC3)和 Wernicke 区(TP7、CP5、CP3 和 P5)分别与语言产生和理解相关 [26、27],这已在之前的研究中得到证明这些区域的大脑活动在语音想象任务中占主导地位[13,26,28]。因此,我们不是将电极横跨用户的头皮,而是将电极密集地放置在左半球,以便在将电极数量保持为 32 个的同时最大限度地提高在语音想象中获取有意义数据的机会。这可以缩短与密集覆盖用户头皮所有区域的 64 通道设置相比,设备准备时间减少了一半。电极没有放置在通道 T9、TP9 和 P9 上,因为它们靠近耳 EEG 设备。插入电解质凝胶以确保电极和头皮之间的连接,并将阻抗水平保持在 10 k 以下。头皮脑电图设备准备大约需要 30 分钟才能完成。
实验设置–
所有实验均在隔音室内进行,以尽量减少外部噪音。每个受试者在三个不同的日子里总共进行了六次实验,每天两次,两次之间有 20 分钟的休息时间,每次实验大约需要 20 分钟。受试者准备在距离大型显示器约一米的舒适椅子上进行脑电图采集。
实验程序在实验开始时用视觉提示进行了解释。我们给了受试者充足的练习时间,并鼓励他们提出问题,以确保他们完全理解任务。我们在实验过程中同时记录了耳朵脑电图和头皮脑电图。由于脑电图帽,我们从耳脑电图设备上取下了 3D 打印框架,只使用了硅胶耳机。实验的每个环节都有十个任务块。每个块包含四个语音想象任务,用于语音命令 Right、Left、Forward 和 Go back,以及一个控制任务,其中要求受试者睁开眼睛放松(标记为 Rest),按随机顺序排列。每项任务包含 5 次语音意象或静息状态试验,每项任务总共 50 次试验。
语音想象任务以音频提示开始,其中相应的单词由带有美国口音的女性声音朗读。2 秒后,十字准线提示显示 1 秒,期间指示受试者放松。然后,给出一个圆圈符号,持续 2 秒,在此期间,他们预计会发出之前给出的语音命令。在此之后,再次显示 1 秒的十字准线以进行放松。实际发音清晰一般不到一秒,因此受试者实际上有超过 1 秒的时间来进行下一步的休息。然后显示加载条 2 秒,在此期间,要求受试者根据加载条的进度以伸展的方式想象语音命令。这连续显示了五次,中间显示了 1 秒的十字准线。在下一个任务开始之前,受试者被给予 2.5 秒的休息时间。控制任务以与语音想象任务类似的方式执行,但发出哔声而不是可听词,并且没有后续步骤用于清晰的语音。在这项任务中,受试者被指示在不想象任何讲话的情况下查看加载条。实验程序如图 3 所示。
数据预处理–
我们首先对每个实验阶段的原始头皮脑电图和耳脑电图数据应用一个截止频率为 60 Hz 的陷波滤波器,以去除电源线上的噪声。然后,从视觉提示开始,每个试验的脑电图数据被分割成多个 2 秒脑电图时期,并用它们相应的类别进行标记。最后,我们将脑电图历元分解为五个不同的脑电图频带,包括 delta (0.5-4 Hz)、theta (4-7 Hz)、alpha (7-14 Hz)、beta (14-30 Hz)、gamma (30-100 Hz) 和 Board (0.5-100 Hz)使用四阶巴特沃斯带通滤波器。前五个频段是常见的脑电频段,根据其独特的特性和功能进行分类,宽带的目的是对脑电数据进行整体捕获和处理。通过将脑电图数据分解成不同的波段并提取特征,我们可以分析和利用实验结果来研究脑电图与语音想象任务的认知机制之间的关系。
特征提取–
协方差矩阵
在数据预处理步骤中,第i次试验各频带的脑电图数据时代可以表示为矩阵Xi = [x1,…, xT]∈Rn*T其中n表示通道的数量,T是一个epoch的数据点的数量。协方差矩阵Pi∈Rn*n的定义为:
结果协方差矩阵Pi是对称正定(SPD)矩阵。
协方差矩阵的切空间投影
由于SPD矩阵的空间位于黎曼流形中,对于基于[29]超平面投影的分类算法,我们不能直接有效地使用协方差矩阵作为特征。在本研究中,我们将协方差矩阵投影到它们对应的切线空间中,并构造切线向量,使它们能够有效地作为分类算法的特征。对于每个协方差矩阵Pi,其切空间向量(si ϵR m,其中m = n(n+1) 2)定义为:
在[29]中可以找到SPD矩阵黎曼几何性质和切空间投影过程的详细描述。
在我们的系统中,协方差矩阵的切空间向量分别计算了每个频带。然后将各频带的切向量串联起来,构造特征矩阵。为简单起见,我们将这种特征提取方法命名为TS,耳脑电特征矩阵的维数为(Ns126),头皮脑电特征矩阵的维数为(Ns2976),其中n为样本数。最后,通过方差分析(ANOVA) f值来选择最优的k个特征进行分类,确定最终特征矩阵的维数(Ns*k),并将k = [1,10,20,…, 110]用于耳脑电,k = [1,100,200,…, 2500]用于scalpEEG。该特征选择方法可以减少系统的计算量,提高系统的精度。在第3节中,我们展示了特征选择方法对分类结果的影响,并根据f检验方差分析(F-test ANOVA)讨论了最显著的特征。
分类方法–
极限学习机
极限学习机(ELM)是一种单层前馈神经网络,由输入层、单个隐藏层和输出层[30]组成。ELM与普通神经网络的区别在于不需要调整隐藏层。输入层的权值和隐藏节点的偏置值是随机分配的,在整个过程中都不学习和更新。由于ELM对输入权值和偏置值的随机初始化,使其训练速度极快,这使得它适用于日常生活中由于EEG的非平稳特性而需要定期更新分类模型的BCI应用。ELM在基于语音想象的BCI中也比以往研究中其他常用的分类方法表现出更好的性能[13,14]。
自编码ELM (ELM- ae)是ELM模型的一种变体。ELM- ae是一种无监督学习ELM,其构造方法是将ELM网络的输出与网络的输入相同,并以与普通ELM模型相同的方式进行训练。
MLELM
MLELM是ELM的一种深度学习变体。它通过使用多个ELM-AEs[31]来训练每个隐含层的输入来构造。图4描述了具有k个隐藏层的MLELM模型的结构。从图中可以看出,第l + 1个隐含层是由以第l个隐含层(hl)为输入的ELM-AE构造的(图4(a))。然后利用从ELM-AE学习到的输出权值Vl将第lth隐含层转移到更高层次的特征空间(图4(b))。在数学上,MLELM模型的第lth隐层可以表示为:
需要注意的是,在第一个隐含层(l = 1)中,H0是输入层x,然后学习连接最后一个隐含层和输出层的输出权值,方法与原ELM相同。
Ear-to-scalp特征映射
我们假设头皮脑电会比耳脑电得到更好的结果,因此我们试图通过将耳脑电特征矩阵映射到头皮脑电特征空间(标记为EtoS方法)来改进耳脑电的结果。映射过程是使用ELM模型完成的。EtoS模型的训练方法与分类任务中的相同,但是我们没有将样本标签y设置为输出层,而是使用相同样本的scalpEEG特征作为输出层。在本研究中,隐藏节点的数量设置为2976,与头皮-脑电图特征的数量相同。采用与耳脑电和头皮脑电特征矩阵相同的方法对EtoS特征矩阵进行进一步处理和分类。图5总结了我们提出的BCI系统的流程。
以往研究方法
除了使用TS特征提取方法和MLELM分类器(标记为TS + MLELM),我们还使用以前BCI研究中提出的方法处理和分类来自语音想象任务的脑电图数据,以比较和评估我们的方法的性能。采用TS特征提取方法,采用线性判别分析、线性支持向量机、ELM、RVM等分类器作为分类器。RVM与SVM类似,但使用贝叶斯框架来获得稀疏解[32]。[13]的研究表明,RVM分类器在语音想象任务分类方面优于ELM等分类器。我们还执行不同的方法已经被证明是有效的在MI-based BCI系统中,其中包括使用滤波器组CSP (FBCSP)作为特征提取方法与支持向量机分类器(贴上FBCSP + SVM)[33],并直接使用预处理脑电图数据作为输入特性ShallowNet(标记为脑电图+ ShallowNet)[34]。在FBCSP + SVM方法中,我们将脑电信号带通滤波为5个主要频段(delta、theta、alpha、beta和gamma),并从每个频段提取6个CSP特征。shallow net是一种浅层结构的卷积神经网络,此前有报道称,与基于mib的BCIs[34]中的FBCSP + SVM方法相比,它可以提高精度。我们以与[34]中相同的方式构造我们的ShallowNet。此外,我们还利用协方差矩阵的上三角形直接作为MLELM分类器的输入特征。该方法标记为COV + MLELM。
参与者
本研究招募了10名男性受试者,年龄20 - 29岁,英语流利。所有受试者均无任何神经系统疾病,无视觉和听觉障碍或重大健康问题。4名被试没有BCI经验,另外6名被试有参加过BCI实验的经验,但没有参加过基于语音想象的BCI实验。所有受试者均给予书面知情同意。KAIST机构审查委员会批准了本研究的实验方案。
脑电图可视化
为了更好地理解语音成像任务中脑电活动的特征,我们将所有任务中获得的脑电数据在频谱和时频域进行可视化。利用多锥法获取每个2 s脑电历元的功率谱密度(PSD),进行频谱分析。然后,我们将每个语音想象任务获得的PSD值与静息状态进行f检验,得到相应的f值,这有助于我们更多地了解在语音想象任务中哪些光谱和空间特征占主导地位。利用Morlet小波变换进行时频分析。在此分析中,我们将脑电通道分为不同的组,以检查在每个特定的兴趣区域进行言语想象任务时的脑电特征。Ear-EEG渠道分为两组:左耳(L1, L2, L3)和右耳(R1、R2和R3)和scalpEEG渠道分为四组:布洛卡年代区域(F5、FT7 FC5,和一个FC3)文件,韦尼克年代区域(TP7 CP5, CP3和P5),正中矢状面(CPz Fz, Cz, Pz、POz和Oz)和颞频道(T7和FT9)。Broca和Wernicke区域的选择是由于它们与语音功能的关联,而时间通道的选择是由于它们接近耳-脑电通道。在三种情况下平均每组的时频响应:短语音指令想象(左和右)、长语音指令想象(前进和后退)和休息条件。
系统评价
该系统的评估使用十倍交叉验证的每一阶段的实验。这将为交叉验证的每次迭代提供225个训练样本和25个测试样本。交叉验证的方式是使来自同一块的样本保持在同一褶皱。切线空间投影仪和特征选择器的计算仅使用来自训练样本的数据。我们使用网格搜索的方法,在ELM和MLELM模型的每一层中从[50,60,200]找到隐藏节点的优化数量,进行交叉验证。由于ELM模型及其变化使用随机值作为它们的权重和偏差值,因此指定了随机种子,以便每次模型训练都给出相同的输出。交叉验证十次迭代的精度结果取平均值,表示每一阶段实验的精度结果。
此外,还计算了每个会话的混淆矩阵,以检验每个类的预测精度。除了比较耳脑电、头皮脑电和EtoS方法的结果,以及我们的方法与以往研究的方法的比较之外,我们还在其他方面检验了我们的系统。首先,我们计算并比较了所有受试者在三种通道设置下的耳脑电分类结果:同时使用左、右通道、仅使用左通道和仅使用右通道。这有助于我们在基于语音想象的脑电接口中对耳脑电在不同通道设置下的表现有更多的了解。最后,我们通过比较每一组实验的分类结果来研究训练对用户在语音想象任务中的表现的影响,看看随着实验经验的增加,是否有任何改善。所有结果比较采用t检验,分析其统计学意义。在多次比较中(即每个受试者的耳- eeg和scalpEEG结果的比较),使用Bonferroni方法对p值的置信度进行修正。建议系统的性能和数据分析将在接下来的部分中展示和讨论。
结果
数据可视化–
我们的数据可视化显示,每个参与者在语音想象任务中有不同的大脑活动模式,但在某些受试者之间有一些潜在的相似性。图6和图7分别显示了受试者S04耳脑电和头皮脑电的频谱分析和时频分析。我们选择受试者S04的脑电数据,因为其耳脑电和头皮脑电的分类结果都比较高(见第3.2节)。其他科目的数据可视化在补充数据中提供(可在stacks.iop.org/JNE/18/016023/mmedia在线获取)。需要注意的是,本节中描述的以下观察结果仅针对受试者S04的数据,可能不适用于其他参与者的数据。
在耳脑电频谱分析(图6(a))中,我们看到了从20hz开始的相关活动。在这四个类中,Right类显示最小的f值。这在受试者S02, S03, S04, S08和S10的数据(补充数据A)中也有所体现。与其他类别相比,左、前两个类别显示出更高的f值,尤其是从左耳。Go back类只在R1通道中显示高f值。R3通道在所有类别中显示出很少或没有差异,可能是由于它接近参考电极。除了S01、S07和S10(补充数据A),这在大多数受试者中都可以看到。对于头皮脑电图,在频谱分析中可以看到每个语音指令的不同趋势(图6(b))。左型在布洛卡区、韦尼克区周围的通道以及30赫兹以上的时间通道(T7和FT9)显示出较高的f值。这也适用于受试者S03, S06, S07和S10(补充数据B)。除了受试者S01, S02, S05和S09之外,与左类相比,右类在PSD中与其他条件更相似。Forward和Go back类显示出相似的f值。这些长时间的语音指令显示,活动集中在布罗卡区,但在韦尼克区较少。
在时频分析中(图7(a)),我们可以看到,在语音成像任务中,左耳的耳电图比右耳显示了更高的激活。短语音的响应从0.25 s开始出现,而长语音的响应更低、更延迟。从受试者S01、S03、S08、S09和S10(补充数据C)的数据中也可以观察到延迟反应。除了S01、S02和S06之外,大多数受试者的短音频和长音频想象中都可以看到30hz以上的活动。在图7(b)中,与其他区域相比,在30hz以上的情况下,韦尼克区域在短语音想象和长语音想象中都显示出了最高的活动:短命令加载条开始的0.3 s,长命令0.5 s。受试者S03、S07、S08和S10也出现了长命令的延迟活动(补充数据D)。布罗卡区和时间通道也显示出与韦尼克区相似的模式,但振幅较低。布洛卡区在10赫兹以下的频率也有活动,而时间通道在控制任务中也有活动。
特性分析
通过对输入特征的分析,进一步研究了语音想象任务的脑电特征。在此分析中,我们对实验的每一阶段分别进行ANOVA f测试,而不像我们在实际特征选择过程中所做的那样将数据分为训练集和测试集。图8显示了耳朵-脑电图数据(a)和头皮-脑电图数据(b)在所有会话中每个特征(x轴)的平均f评分(y轴)。我们还计算了每个频带特征的平均f评分。从耳脑电数据中,我们可以看到伽玛波段的特征具有最高的平均分数,其次是Broad和delta波段,而θ波段的特征具有最低的平均f分数。对于scalpEEG, gamma特征的平均f评分最高,θ波段的f评分最低。
分类结果–
耳脑电与头皮脑电结果的比较
表1展示了我们系统的分类结果。平均准确度和标准偏差(std)是使用所有六个会议的结果为每个主题。当使用所有特征时,耳脑电和头皮脑电的平均准确率分别为37.3% 3.2%和41.9 6.4%。表1(b)显示了采用特征选择方法时的分类结果和每个主题的最佳k数。在所有受试者中,耳脑电和头皮脑电的平均准确率分别为38.2 3.3%和43.1 6.5%。当所有受试者的k值固定时,结果显示所有受试者的平均准确率有非常小的提高(最佳结果:37.6%,k=50的耳朵脑电图和42.8%,k=1000的头皮脑电图)。特征选择方法并没有显著提高系统的精度(p >耳脑电和头皮脑电均为0.5)。
结果表明,在耳脑电和头皮脑电两种方法中,所有会话的分类正确率均显著高于机会水平(20%)(单侧t检验,p <0.01)。耳脑电的最大(max)和最小(min)结果分别为43.0%(受试者S01)和32.9%(受试者S09),头皮脑电的最大(max)和最小(min)结果分别为55.0%(受试者S03)和36.1%(受试者S09)。在比较每个受试者的头脑和耳脑电结果时,只有S02、S03和S07组的头脑电结果显著优于耳脑电结果(p<0.001),而其他7名被试头皮-脑电图分类结果无明显增加。只有S02和S03受试者的耳脑电和头皮脑电结果差异大于10%。S05的耳脑电结果略高于头皮脑电结果(耳脑电结果为38.2 3.3%,头皮脑电结果为37.9 3.8%,p = 0.78)。
讨论
4.1. 结果讨论
本研究的主要目的是检查基于语音想象的 BCI 系统中的耳脑电图的性能,本研究的结果表明耳脑电图的性能并不逊于头皮脑电图的性能。在大多数科目中。这表明耳脑电图作为基于语音想象的脑机接口的替代脑电图采集方法具有巨大的潜力。
为了提高耳朵脑电图的性能,我们执行了 EtoS 方法。然而,结果表明,当前的耳-头皮特征映射方法并没有显着提高耳-EEG 的性能。也许,必须开发一个更好的特征映射模型,或者需要更多的数据来正确训练模型以使这种方法起作用。需要更多的研究来解决这个问题。
在检查耳脑电图和头皮脑电图的混淆矩阵时,我们首先发现 Rest 类具有最高的真阳性率。与其他四个语音任务相比,这可能是由于其在神经活动中的不同模式所致。结果还表明,与其他语音命令相比,右语音命令在 EEG 中的活动最弱,这导致它最常被误分类为休息类。最后,我们发现音节数相同的单词最常被误分类为彼此。这支持了语音命令中的音节数量会影响语音想象过程中脑电图模式的观点。然而,需要更广泛的实验来证实这一假设。
还应该讨论的一件有趣的事情是我们的数据中 ShallowNet 方法的性能不佳。一种可能的解释是,基于信号幅度的特征可能在语音想象任务中占主导地位。正如之前在 [35] 中指出的那样,ShallowNet 将 log bandpower 提取为特征,这可能使其对于此类 BCI 范例的鲁棒性降低。此外,本研究中用于评估系统的训练样本数量(225 个样本,每个类别 45 个样本)可能太少,无法对 ShallowNet 模型进行适当的训练。
最后,每个会话的分类结果之间的比较表明,训练不会影响用户在基于语音想象的 BCI 系统中的表现,这支持了语音想象任务是用户无需任何操作即可执行的直观心理任务的观点。过度训练。这使得基于语音想象的 BCI 系统适合日常生活使用。此外,每天第一次和第二次会话的结果之间的微小变化意味着实验中没有用户疲劳的迹象。
4.2.语音意象期间脑电图的神经活动
数据可视化表明,在语音想象任务期间脑电图的神经活动主要可以在与语音和语言相关的大脑区域中观察到。数据可视化和特征分析的结果表明,这些活动在高频率(如伽马波段)中占主导地位,而在 theta 波段则表现出最少的活动。
以前的研究将布罗卡区归因于语言产生,将韦尼克区归因于语言理解。这解释了我们的头皮脑电图时频图,其中布罗卡区在试验开始时显示活动(即受试者开始在他们的头脑中想象演讲)。布罗卡区在所有语音想象任务中都表现出高光谱活动也是可以理解的。
我们对主题 S04 的光谱分析表明,Wernicke 区域的功能可能不限于语言处理中语音的语义方面。如果 Wernicke 的区域主要有助于语音的语义理解,我们期望单个词:Left、Right 和 Forward 在该区域引起类似的反应。相比之下,我们的分析显示 Forward 和 Go back 之间的相似性更高,其中 Go back 是一个由两个具有离散含义的单词组成的短语,应该在 Wernicke 的区域中显示出一些活动差异。[36] 中的研究提出,Wernicke 区域有助于音素感知。这或许可以解释为什么包含更多音素并且两个音节(或单词,在“返回”的情况下)之间有间隔的长演讲的语音在 Wernicke 的区域中显示出类似的活动。
除了音素感知之外,Wernicke 区与认知预测之间的关系也可能有助于本研究中观察到的 Wernicke 区的神经活动。根据 [37],Wernicke 的区域在做出预测时显示出响应活动。在我们的实验中,受试者知道要想象什么演讲。Wernicke 区域的激活可能是受试者预测要想象的语音的结果。因此,在一个实验环境中观察 Wernicke 区域在语音想象任务期间的神经活动会很有趣,该实验环境不会为受试者提供任何关于语音想象任务语料库的先验知识,并将其与当前研究的数据进行比较.
图 7 中另一个有趣的观察结果是,耳 EEG 中左通道和时间通道的时频响应与 Wernicke 区的响应非常相似。这表明在本研究中的语音意象任务中获得的耳脑电图主要受到来自 Wernicke 区域的活动的影响。
我们还观察到在时频分析中,与短语音相比,Wernicke 区的延迟反应来自长语音想象。我们认为对这一观察结果有两种可能的解释。一个原因可能是由于我们的实验协议。受试者被给予一个加载栏,在此期间他们以伸展的方式发音这个词。虽然受试者在这个实验协议中对于短篇演讲没有问题,但对于长篇演讲可能不会这么说。因为长语音想象任务中使用的命令是双音节的,所以受试者可能会强调一个音节而不是另一个音节(与明显的语音产生方式相同)。当我们就这个问题向受试者提问时,我们发现大多数受试者确实更关注第二个音节的意象。与第一个音节相比,这可能导致第二个音节的脑电图激活更高,这在 Wernicke 区域的时频分析中显示为长语音想象任务的延迟响应。另一种可能的解释是两个音节之间的不明确划分。使用单个加载条,受试者在试验之间可能难以在长语音想象中保持一致的节奏。由于每次试验之间的时间不同,音节之间的轻微停顿可能每次都不同。当我们对分析的试验进行平均时,这可能导致早期语音想象部分的活动较低,从而导致活动延迟。此外,我们认为,在将整个 EEG 时期纳入计算时,Wernicke 区域对长语音命令的延迟响应导致该时期开始时低神经活动期的增加导致该区域的 PSD 值较低,因此,与“Rest”类相比,F 值较低,如图 6 所示。
此外,在数据可视化中,Right 类似乎对语音想象的反应最弱。一种可能的解释是,尽管受试者的英语流利,但字母 R 的发音在受试者的母语中并不存在。因此,Right 一词的语音想象可能不会像其他命令一样被执行,因此神经活动水平较低。我们认为,为了正确检查语音想象的认知机制,需要进行更广泛的研究来检查不同语音命令之间的语音想象任务期间神经活动模式的差异,最好使用更好的大脑监测方法,如 fMRI。需要强调的是,上述关于语音想象任务期间大脑模式中特定特征的讨论是基于受试者 S04 的数据可视化,需要更多的研究来对语音想象过程中的大脑活动做出一般性结论。
4.3.选择正确的语音命令
从结果中,我们可以看到,为语音想象任务选择语音命令是可能影响 BCI 系统性能的最重要的事情之一。在这项工作中,我们的选择与方向相关联,可用于广泛的应用,例如控制轮椅或无人机。但是,仅根据其含义选择单词是不明智的。为基于语音想象的 BCI 选择的单词应该在 EEG 特征方面很容易区分,同时保留它们对特定命令的含义。我们认为需要更多的研究来解决这个问题,以找到一组优化基于语音想象的 BCI 性能的语音命令。我们之前讨论并假设右语音想象任务显示脑电图活动最弱的原因可能是字母 R 的发音不存在于受试者的母语中。在此之后,看到一个实验比较基于语音想象的 BCI 系统使用来自不同语言的具有相同含义的单词的性能将会很有趣。
4.4.关于ear-EEG采集工具的备注
本研究中开发的可穿戴耳脑电图采集工具已被证明能够成功地从语音想象任务中获取有意义的信号。但是,需要讨论一些问题以进一步改进设备。3.2.3 节的结果表明,在语音想象任务期间,仅使用左通道足以获得有意义的 EEG 数据,而使用从右通道获取的 EEG 并不能显着提高系统的分类精度。这支持了与语音想象相关的大脑活动在左半球占主导地位并且耳朵脑电图的左通道可以接收这些信号的假设。但是,参考通道位于设备的右侧,这可能会导致来自右侧通道的信号由于距离较近而较弱。需要对耳 EEG 上的不同通道设置进行更多实验来证实这一假设。如果即使所有通道(包括地面和参考通道)都位于左耳周围,系统也显示出可行的结果,则可以重新设计设备以仅覆盖左耳周围的区域。与当前设计相比,这可以使设备更加谨慎和舒适。此外,我们发现戴眼镜的参与者的设备设计存在问题。由于设备覆盖了用户耳朵周围的区域,因此将眼镜与耳-EEG设备一起佩戴会很不舒服。这个问题可以通过在设备框架上添加一个插槽来解决,该插槽可用于将眼镜镜腿连接到设备上,或者通过将设备本身重新设计成眼镜的形状并在镜腿上安装传感器。
4.5.未来的工作
这项工作的下一步是在在线实验中测试系统。在这里,我们仅以离线方式进行实验,并通过对整个数据使用交叉验证来评估系统,以比较两种 EEG 采集方法之间的性能。由于交叉验证方法的过程,包括分类器、特征选择器和黎曼切线空间投影仪在内的模型在交叉验证的每次迭代中都是不同的。我们还分别处理了每个主题的数据。在现实环境中,将对从离线实验中获取的数据执行交叉验证方法,以找到优化的超参数。然后,最终模型将使用具有优化超参数的整个数据进行训练,然后再在现实世界环境中使用(或测试)它们。尽管基于语音想象的 BCI 比其他类型的 BCI 具有优势,特别是在日常生活环境中,但它还没有准备好在现实生活中使用,主要是因为分类准确性。根据 [38] 中对 61 名 ALS 患者进行的一项调查,大多数参与者更喜欢至少 90% 的命令分类准确率,不幸的是,目前基于语音想象的 BCI 开发无法实现这一点。通过在数据处理、特征提取方法和分类模型中开发更强大的算法,可以进一步提高分类精度。
该系统还需要在其他方面进行改进。首先,目前大多数基于语音想象的BCI研究,包括我们的研究,都是在实验室中进行的,以最大限度地减少来自环境的噪声,并且数据是在受试者坐着不动的时候获取的。在现实生活中,环境的不断变化和用户的动作会产生更多的噪音和脑电图伪影。因此,需要对系统进行噪声消除和脑电伪影去除。其次,由于脑电图是一种非平稳的生物信号,可能会随着时间、环境和人体状况的变化而变化,因此每次使用之前,系统模型都需要进行校准。这个问题可以通过使用通用模型[39]或迁移学习(TL)技术来缓解。TL是一种利用源域知识来提高目标域[40]的学习性能,从而提高机器学习模型的泛化性的方法。最近的研究表明,在基于语音想象的BCI系统中,TL技术可以在主体内和主体间两方面提高模型的性能[40,41]。
此外,由于本研究仅针对健康受试者,因此有必要再次进行实验,以确认LIS或ALS患者也有同样的结果。此外,MI研究表明,尝试动作的脑信号比想象动作[42]更类似于实际动作的信号,这可能是由于MI任务[43]中发生的运动抑制机制。使用尝试运动任务的基于MI的BCI系统也优于使用MI任务[44]的系统。因此,进行一项研究,将实际的、尝试的和想象的语音信号与它们在BCI系统中使用时各自的表现进行比较,这将是一件很有趣的事情。
结论
在这项研究中,我们提出了一种基于语音想象的 BCI 系统,使用耳 EEG 作为数据采集方法,最终目标是为日常生活 BCI 构建一个良好的框架。所提出的系统使用 EEG 协方差矩阵的黎曼切线空间投影作为具有 MLELM 的输入特征来对数据进行分类。从数据分析中,我们发现一些证据表明,在语音想象任务期间,伽马频带中布罗卡和韦尼克区域的大脑活动占主导地位。多类语音想象实验的结果表明,尽管头皮脑电图在所有受试者中的平均准确度略高,但在十分之七的受试者中,耳脑电图的分类结果与头皮脑电图没有显着差异。此外,使用 ELM 模型将耳朵脑电图特征映射到头皮脑电图特征空间并不能显着提高系统的分类精度。
总体而言,这项研究的结果表明,对于基于语音想象的 BCI 系统,耳脑电图采集方法具有作为传统头皮脑电图更方便和谨慎的替代方案的巨大潜力。建议未来对基于语音想象的脑机接口的研究应开发更强大的数据处理和机器学习技术,以提高分类准确性,然后再将其用于实际应用。
参考文献