癫痫影响着全球近1%的人口,其中三分之二可以通过抗癫痫药物治疗,通过手术治疗的比例要低得多。癫痫的诊断程序和监测是高度专业化和劳动密集型的。诊断的准确性也因医疗症状重叠、经验水平不同和临床职业中观察员之间的差异而变得复杂。本文提出了一种新型混合双线性深度学习网络,并将其应用于癫痫分类诊断的临床程序中,其中使用表面脑电图(sEEG)和视听监测是标准实践。基于卷积神经网络(Convolutional Neural Networks, CNNs)和循环神经网络(Recurrent Neural Networks, rnn)两种特征提取器的混合双线性模型,使用一秒sEEG的短时傅里叶变换(Short-Time Fourier Transform, STFT)进行训练。在提出的混合模型中,CNN提取时空模式,而RNN则专注于给定相同输入数据的相对较长的时间间隔内的时间动态特征。基于这些时空特征之间相互作用的二阶特征,通过双线性汇集进一步探讨并用于癫痫分类。我们提出的方法在TUSZ数据集中获得了97.4%的F1 Score,在EPILEPSIAE数据集上获得了97.2%的F1 Score,与现有的基于SEEG的癫痫发作类型分类基准相比具有优势。
国际抗癫痫联盟(ILAE)将癫痫定义为"一种以产生癫痫发作的长期倾向为特征的大脑障碍”[1],[2]。癫痫发作有不同的类型,治疗方法也不同。关键的治疗和预后程序都依赖于并从正确识别癫痫发作类型开始。ILAE根据不同的诊断类型,包括起源和症状[2],将癫痫类型进行分类。癫痫类型的分类主要基于临床依据,基于人口统计学和病史变量,并得到脑电图和放射学研究的支持。长期录像脑电图监测(videoEEG)是最常用的癫痫分类方法。
一般情况下,抗癫痫药物可以成功治疗癫痫。大约60-70%的癫痫患者可以通过药物控制癫痫发作。外科手术是治疗某些癫痫病发作的另一种可行的医学选择。正确的癫痫类型诊断对于选择合适的药物治疗和提供预后信息至关重要。本文主要研究癫痫发作类型自动分类的深度学习工具。
准确的临床诊断需要患者和观察人员的全面病史,而不准确和不充分的患者病史[5]可能会影响到这一点。重叠的临床特征会导致不准确的癫痫识别,因为局灶性和全身性发作障碍表现出临床症状和脑电图症状的重叠。最近的研究表明,局灶性癫痫和全身性癫痫往往很难区分,即使是有经验的神经学家[7]。由于不同类型癫痫的表现在不同的患者之间可能有很大的差异,而且随着时间的推移,个别患者的癫痫表现也不尽相同,因此临床诊断进一步复杂化。
当诊断不能可靠地达到临床基础上,视频脑电图(video-EEG)已被证明是必不可少的癫痫诊断工具。在许多情况下,包括婴儿痉挛、肌阵挛性癫痫和特发性全身性癫痫,视频脑电图可以明确确认或支持正确诊断[7]。视频脑电图监测包括患者在癫痫监测单元呆几天,记录自然或诱发的癫痫发作事件。神经学家随后会目视检查这些视频脑电图记录,这是一个冗长而耗时的过程,特别是需要目视检查几个小时或一天的脑电图。在许多国家,缺乏神经学家和其他脑电图专业人员——人工检查脑电图记录拖延了诊断过程,并占用了本已面临短缺的领域的技术人员。视觉检查固有的主观性也有助于基于EEG读者专业水平的临床解释的可变性。信号伪影的存在进一步复杂化了读者准确识别关键生物标记的能力。临床脑电图诊断的耗时特性及其可变性可以大大改善自动癫痫分类系统,以协助专业人员。
癫痫检测和癫痫预测:
癫痫发作类型分类:
经典机器学习算法:
深度学习算法:
经典机器学习算法通常受到多通道脑电图信号中复杂模式识别和捕获潜力的限制。这些经典技术在利用自然信号中的层次结构和从原始数据中学习而没有先验特征选择[19]的能力方面也很有限。最近,基于深度学习的方法[20]和[12]在从脑电图数据中学习更有区别的特征方面比手工制作的特征表现得更好。
本研究的动机:将深度学习架构应用于癫痫类型分类问题的潜力。实验中使用CNNs、RNNs和双线性网络来揭示多维脑电图信号的复杂模式并完成分类任务。
本文的主要贡献:展示了CNN和RNN特征的二阶统计量和双线性池化在诊断分类任务中的有效性。此外,我们的研究表明,混合双流架构通过利用两种显式特征类型的交互,优于对称双线性模型。最后,该方法的预测性能和泛化能力为癫痫类型分类建立了新的基准。
表1总结了本工作中使用的数据集:天普大学医院(TUH)癫痫发作语料库v1.4.0数据集和EPILEPSIAE数据集。TUH数据集包含817个会话的表面EEG数据,其中305个会话包含癫痫发作,导致记录的总癫痫发作事件有2012次[21]。已识别的癫痫发作有8类,每种类型的总发作次数和每次发作的总记录时间如表1所示。TUH数据集由不同采样率的EEG记录组成,范围为250 ~ 512 Hz。记录包括24至36个信号数据通道以及标注通道。
本研究也使用了EPILEPSIAE数据集,目的仅仅是为了测试我们模型的泛化能力。该数据集包含30名患者的sEEG记录,癫痫发作记录次数为276次[22]。经鉴定的癫痫发作分为四种类型,每种类型发作的总次数见表1。所有记录的采样频率为256 Hz,包含19个通道。
由于TUH数据包含不同的采样率,所有样本都被重新采样到250hz,以确保神经网络的统一输入维度。在10-20头皮脑电图电极布局中,选择所有记录共有的19个通道,并根据电极的邻近性重新排列。
本研究考虑利用短时傅里叶变换(STFT)对原始脑电图信号进行频域表征。在提出的特征工程方法中,使用64点FFT余弦分析窗口对窗口重叠为50%的1秒样本进行短时傅里叶变换。然后取log10计算强度值。经过此过程后,每个训练样本的维数为(32,9,19),其中32为频率点数,9为时间步长数,19为脑电通道数。
大多数癫痫发作后,脑电图通道的一个子集发展出节律性活动,通常由[10]多频率成分组成。因此,脑电信号的多通道、多时间的频谱结构和表现是表征脑电信号特征的重要手段。短时傅立叶变换检测频率和相位信息随时间的变化,可以有效地捕获癫痫脑电信号时变的频谱结构。
本研究提出使用双线性模型来进行癫痫发作类型的分类。双线性模型已被证明在细粒度识别和区分相似物体(例如不同犬种的分类)方面非常有效。双线性模型由两个特征提取器组成,它们的输出在每个位置用矩阵外积相乘,然后合并得到一个高级描述符。该体系结构既能对局部特征交互进行建模,又能以平移不变的方式对判别部分进行局部定位。双线性模型的详细拓扑如图1所示。在本节中,我们讨论为什么CNN和RNN是适合我们的双线性结构的特征提取模型。在我们的实验中,这些模型都是在同一数据集上进行预训练,然后提取并用于双线性结构。这种架构是模块化的,因为图1“特征提取器”中的CNN或RNN模型可以互换。由于某些癫痫发作类别的脑电图模式,特别是局灶性和全身性癫痫发作的脑电图伪影有重叠,双线性模型将有效地区分这些事件。
本研究考虑使用对称双线性和混合双线性模型。用相同的基本特征提取器对对称网络进行初始化。本文实验使用由相同的预训练CNN块组成的双线性CNN模型(B-CNN)和由预训练卷积 - LSTM块组成的双线性RNN模型(B-RNN)。混合双线性模型通过使用不同的特征提取器打破了这种对称性。混合模型采用CNN和RNN作为特征提取器,其中一个网络(ConvLSTM)提取时间特征,另一个网络(CNN)提取空间特征,通过双线性池化将其组合成二阶统计量。
在双线性架构中,基特征提取器的输出(即上一层卷积或ConvLSTM层的输出)通过外积相乘得到输出中每个位置的双线性特征。两个特征提取器分别提取尺寸为 O × M O×M O×M和 O × N O×N O×N的特征,其中 O O O为输出尺寸(宽×高), M M M和 N N N为每个位置的特征尺寸。每个位置的两个特征向量( M × 1 M × 1 M×1和 N × 1 N × 1 N×1)的外部矩阵乘积得到一个大小为( M × N M ×N M×N)的双线性特征。为了使两个提取的特征之间的外部产品操作兼容,两个特征输出必须具有匹配的输出尺寸 O O O。在设计网络时要特别注意确保输出尺寸匹配。计算每个位置上的外积就会产生 O − ( M × N ) O - (M × N) O−(M×N)双线性特征。将所有 O O O个位置的双线性特征通过和池化(双线性池化)进行聚合,最终输出大小为 M × N M × N M×N。然后将矩阵重构为大小为 M N × 1 M N ×1 MN×1的双线性向量,归一化后送入全连接分类器。
本研究提出的CNN和ConvLSTM在每个位置都产生了输出维数为12的特征和64维的特征。双线性运算和池化得到双线性维向量(64 × 64) × 1。预测通过最后一层softmax激活层获得,每个节点对应于输入信号属于特定发作类别的概率。下面几节将更详细地探讨基本模型,并强调所采用的两步训练过程。
1)卷积神经网络:基于生理信号和医学图像分析已经成功应用于生物医学研究的许多方面(参见[12],[18])。本研究中使用的CNN包括两个部分,一个由三个卷积块组成的特征提取器和一个全连接Dense分类器。本研究中使用的CNN的拓扑结构如图2a所示。
2)循环神经网络:递归神经网络(RNN)被设计用于处理序列预测问题,LSTM模型在时间序列分类任务中显示出显著的前景。本研究使用了一种LSTM网络的变体,卷积LSTM (ConvLSTM),由[24]首先提出。ConvLSTM用卷积运算代替了传统的LSTM单元的矩阵乘法运算,利用了参数共享和数据连接稀疏性。本文采用的RNN由两部分组成:由两个ConvLSTM层组成的特征提取器和一个全连接Dense分类器,采拓扑结构如图2b所示。
TUH数据集的类别分布不均匀(见表一),最少的类别,Absence发作,仅有14分钟的记录。EPILEPSIAE数据集相对比较均匀,但仍存在类别不平衡。在这种情况下,仅靠准确性不太可能选择性能最好的模型。因此,F1 SCORE被用作评价训练模型性能的指标[27]。
为了解决类别不平衡问题,在分类器的训练中加入了分类的权重(即少数类别权重较高,多数类别权重较低)。采用提前停止(early stop)作为正则化技术,以减少训练过程中的过拟合。该方法监测验证损失,如果验证损失在10个周期内没有改善,则终止训练过程。
分层五折交叉验证被用来稳健地评估所提出的算法的性能。数据集被随机分成5 folds,每个部分保持类在整个数据集中的比例分布。在训练过程中,对模型进行四次估计(训练集),并在剩余的第五次评估(验证集)。该模型的整体性能是基于所有Folds的平均验证F1 Score。
神经网络(CNN和RNN)使用batch大小为32和超过200个epoch的Adam优化算法进行训练。双线性模型依赖于预先训练的特征提取器。算法1说明了双线性模型的训练和评估过程。在每一次折叠中,首先在训练集上训练CNN和RNN。随后,特征提取层,即卷积层和递归层,用学习到的权值插入到双线性网络中。然后在同一个训练集上使用两步过程(算法1的第7和第8行)训练双线性模型。首先,只对双线性池化和Dense层进行50个早期停止的训练。然后,整个模型,包括预训练的特征提取层,通过100个epoch的反向传播进行微调,并提前停止。
由于外积和和池化都是可微矩阵运算,双线性模型仍然是有向无环图,参数可以使用反向传播以端对端方式进行训练。在工作[23]中阐明了梯度通过双线性层传播的细节。此外,双线性池操作创建了高维度的双线性向量,显著增加了可训练参数的数量。通过加载预训练层,采用两步训练程序,大大缩短了训练时间。
值得注意的是,针对每个神经网络拓扑结构提出的架构仅在TUH数据集上进行训练和微调。这些模型没有对它们的结构进行任何调整,然后在EPILEPSIAE数据集上进行训练。这样做是为了评估我们的算法的泛化能力。
在本节中,我们将在两个数据集上测试我们的方法。所有模型都是使用Python 3.5和Keras 2.0以及Tensorflow 1.4.0后端实现的。这些模型是在NVIDIA K80显卡上运行的,每次训练大约在100秒内完成。进行了5次交叉验证,并报告了平均F1 Score。表3总结了两个数据集上的发作类型分类结果。在TUH数据集上,仅CNN和RNN就做得非常好,在STFT数据上的F1-score分别为95.50%和95.80%。对称双线性模型进一步提高了分类性能,分别达到96.70%和96.90%,混合模型的F1 Score为97.40%,分类性能最好。
基于STFT的输入和我们提出的算法在癫痫ae数据集上取得了相似的性能水平,在基础CNN和RNN模型上分别取得了87.3%和89.0%的f1分数。B-CNN模型达到93.7%,B-RNN达到94.9%。混合模型再次取得了97.0%的最佳性能。需要注意的是,我们的方法在两个独立的数据集上可以比较地工作,而不需要对癫痫学数据集的算法进行任何修改
表二描述了最近癫痫发作分类方法的基准。在某些情况下,比较不同的方法是具有挑战性的,因为每种方法都是在不同的数据集上测试的,癫痫类别的数量是不同的。
在基于深度学习的方法领域,
从表三可以看出,本研究提出的双线性模型在8类分类问题上表现较好。
非深度学习方法,包括[15]中提出的KNN和[25]中提出的支持向量机(Support Vector Machine),表现出了合理的性能(90.7%和91.4%),但通过大量不可取的特征工程实现。我们的算法用最小特征工程证明了非常高的分类精度。我们还证明了我们的算法不会过度拟合到一个特定的数据集,并可以很好地推广到其他数据集。
图3和图4展示了双线性算法在两个数据集上对每个发作类的分类性能。对于TUH数据集,不同癫痫发作类型的分类性能通常具有可比性,但失神发作(ABSZ)除外。这可以归因于TUH数据集中的失神发作次数较少,只有14分钟的记录供算法学习。在EPILEPSIAE数据集上,双线性模型在未分类(UC)癫痫发作方面表现稍差。与失神发作一样,在EPILEPSIAE数据集中,非分类发作的记录时间最短。此外,许多不同的癫痫活动和困难的脑电图模式通常被标记为“未分类”,这使得很难对该类别做出可靠的预测。还应该注意的是,混合双线性网络在预测这些困难类时比对称网络的性能要好得多。
从脑电信号中提取的频域和时域信息已广泛应用于生物医学分类任务。在FFT处理过的输入上训练的模型的性能与使用STFT获得的相似。然而,[15]在之前的研究中提出的FFT存在一些缺陷。首先,FFT方法丧失了对高度非平稳的脑电信号至关重要的宝贵时间信息。其次,FFT将频谱信息截断到前24个频段。虽然这是一种常见的预处理方法,以帮助传统的机器学习算法进行学习,但在深度学习的背景下,这是不必要的,算法可以从更复杂的信号中学习。最后,不清楚为什么预处理产生了20个通道,因为只有19个常见的记录脑电图通道。
双线性模型比现有的基准(表2)要好。然而,基本的CNN和RNN已经实现了非常高的分类性能。一种可能的解释是,这些网络是为这个问题精心设计和调整的。我们执行了一个MannWhitney U Test来比较混合网络与对称架构在100倍范围内的性能。p值= 0.025表明差异具有统计学意义,表明混合网络优于对称架构的能力。混合网络的性能优于单一流网络2%以上,与最佳单一流网络相比差异也有统计学意义(p-value = 0.022)。此外,CNN和RNN不能很好地归纳到不同的数据集,这在EPILEPSIAE数据集的性能下降中很明显。混合网络的优势在EPILEPSIAE数据集中表现得更加突出,混合架构在对称网络中获得了更好的性能。混合双线性网络在EPILEPSIAE和TUH数据集上取得了相似的性能,突出了模型的泛化能力。EPILEPSIAE数据集更小,记录时间只有349分钟,而TUH数据集的记录时间为2494分钟,这表明了混合模型从少量数据中学习的能力。
双线性模型的效果较好,因为由特征提取器的输出相乘得到的双线性向量可以有效地模拟局部特征对之间的相互作用。因此,当输入数据相似时,它们可以很好地区分,从而可以区分不同发作类别的相似脑电图伪影。直观上,混合双线性模型利用了两种不同类型的深度网络的独特优势,并考虑了所有空间和时间特征之间的成对相互作用。由于双线性体系结构是模块化的,因此可以交换不同的特征提取方法以达到最优性能。例如,可以结合手工制作的特征提取器来识别特定的脑电图伪影,从而提高性能。
这项研究向自动癫痫诊断工具迈出了一步,它可以帮助神经学家诊断癫痫发作类型。该工具还可以扩展到癫痫性和非癫痫性癫痫发作的检测和分类,形成了一个集成的诊断工具,可以大大提高癫痫诊断的速度、准确性和可靠性。研究还表明,其他类型的感觉数据,包括心电图、血氧水平、温度、葡萄糖水平以及患者变量,如年龄和性别,都影响癫痫[28]、[29]、[30]、[31]的表现。基于脑电图的模型在边缘病例(如失神发作)上的不一致表现进一步强调了多模态系统的必要性,未来的工作可以集中于整合这些额外的感觉数据,以提供更准确的诊断。