SPECTRAL CAPSULE NETWORKS 翻译

这篇文章主要是提出了一种新的胶囊网络(光谱胶囊网络),并且与EM路由的胶囊网络进行了对比。

摘要

为了寻找更准确的预测模型,我们定制了胶囊网络以学习诊断问题。 我们还提出了光谱胶囊网络,这是胶囊网络的一种新颖变体,其收敛速度比带有EM路由的胶囊网络更快。 光谱胶囊网络由空间重合滤波器组成,这些重合滤波器基于一维线性子空间上提取的特征的对齐来检测实体。 在公共基准学习中诊断数据集的实验不仅显示了胶囊网络在此任务上的成功,而且证实了光谱胶囊网络的收敛速度更快。

1.  简介

通过人工智能改善护理质量的潜力已导致医疗保健预测模型的重大进步(Lipton等人,2015; Choi等人,2016; Razavian等人,2016; Che等人,2016 ; Miotto等,2017; Suresh等,2017; Rajkomar等,2018)。为了进行准确的预测,医疗保健中的模型不仅需要识别风险因素,而且还需要提取症状,状况和药物之间复杂且分层的时间相互作用。
有人认为,传统的深度神经网络可能无法有效地捕获图像中实体的层次结构(Oyallon&Mallat,2015; Cohen&Welling,2016; Dieleman et al。,2016; Gens&Domingos,2014; Worrall等人,2017)。他们认为,保留输入变化的网络的性能要优于丢弃变化的网络(同构与不变的体系结构),因为上层可以访问下层检测到的实体的空间关系。特别是在胶囊网络中(Hinton等人,2011; Sabour等人,2017; Hinton等人,2018),胶囊被设计为既具有激活成分又具有姿势成分,其中后者负责保存基因组中的变异。检测到的实体。
在这项工作中,我们首先开发了具有EM路由(EM-Capsules)的胶囊网络版本,并证明它可以准确地预测诊断。我们观察到EM胶囊在我们的数据集中收敛缓慢,并且对诸如学习率之类的超参数的选择敏感。为了解决这些问题,我们提出了频谱胶囊网络(S-Capsules),它也是空间重合滤波器,类似于EM-Capsules。与EM-Capsules相比,S-Capsules通过一维线性子空间(而不是集中式群集)中来自下方胶囊的选票的对齐程度来衡量一致性。在S胶囊中,变化(姿势)分量是线性子空间的法线向量,该线性子空间保留了来自下面的胶囊的投票中的大部分方差,并且激活分量是根据所保留的方差的比率计算的。
我们基于基准学习来诊断任务的实验(Harutyunyan等人,2017)在公开可用的MIMIC-III数据集(Johnson等人,2016)中进行了定义,突出了胶囊网络的成功。此外,我们确认所提出的S胶囊比EM胶囊收敛更快。最后,我们证明了S胶囊的变化(姿势)向量的元素与常用的手工设计特征之间存在显着相关性。

2.  方法

学习诊断(表型)任务(Lipton等人,2015; Harutyunyan等人,2017)是一个多元时间序列分类任务,我们需要根据患者的生命体征和实验室结果的时间序列来预测患者的疾病 。 这是一个多标签分类任务,这意味着可以诊断出患者患有多种疾病或没有疾病。

由于篇幅所限,我们通过概述和比较其前进过程中的三个步骤,并在附录中将其细节推迟到图2中,来描述用于此任务的定制EM胶囊和建议的S胶囊。 两种架构之间只有第3步有所不同。 在这两个网络中,胶囊具有两个成分:激活α∈[0,1]和位姿(变化)1向量u∈Rd。 (Hinton et al。,2018)选择姿态矢量而不是矩阵的原因是我们特征的时间序列性质。

步骤1:提取特征。首先,我们使用一维卷积提取低维特征以进行胶囊处理。我们使用了三个残差块(He et al。,2016),并受到(Van Den Oord et al。,2016)的启发而增加了膨胀,不仅增加了卷积的接收场,而且以更少的层和层减少了输入的维数。参数。最后,我们将残差网络的输出展平,使其具有准备好被胶囊层处理的120维向量。
步骤2:初级胶囊。在这两种体系结构中,我们每个胶囊使用两个密集的残差网络来创建主要胶囊的激活和姿势成分。选择残差块作为变换操作而不是线性图的原因是因为在医疗保健领域,我们对数据的变形没有正式的了解,而在计算机视觉中,例如旋转等的失真得到了很好的研究(Dieleman et al。,2016 ; Worrall等人,2017)。残留块允许简单的非线性转换,而不会导致网络的过度参数化。
步骤3:从胶囊到胶囊的计算。 EM-Capsule网络使用如(Hinton等人,2018)中所述的EM路由过程,期望我们选择将变换作为残差块这一事实。为了描述S-Capsule网络中的胶囊计算,请分别考虑具有nL和nL + 1个胶囊的两层L和L + 1。对于第L层中的每个胶囊i,层L + 1中的第j个胶囊计算出来自L层胶囊的加权选票yj,,其中是一个密集的残差块。然后,它将来自第L层的所有加权票合并为矩阵,并计算的奇异值分解。胶囊j的姿势向量很简单,即第一个(主要)右奇异向量uj = V [0 ,:],它是线性子空间的法线向量,其中保留了L层胶囊的表决向量中的大部分方差。使用奇异值sk计算第j个胶囊的激活

其中对b进行有区别的训练,而η在训练过程中线性退火。 请注意,比率是在uj定义的一维子空间中捕获的来自下一层的投票的方差分数,它测量第j个胶囊的姿势的投票之间的一致性。

我们通过二元交叉熵损失的端到端判别训练来训练整个网络。 我们还将(Hinton等人,2018)的扩展损失扩展到了多标签设置,但是在我们的实验中,它的表现比二元交叉熵损失要差得多。 我们还发现,从步骤1中提取的要素到最后一个胶囊层的激活添加跳过连接可以提高性能。

备注。 S胶囊中的第3步只需要top-1 SVD,它比完全分解更有效,从而降低了网络的计算成本。 步骤3中计算的激活和姿势固有地进行了归一化:我们始终具有uj2= 1和@。考虑到稳定的SVD实现,固有地归一化的输出可稳定SCapsule网络的训练。 使用保留在顶部奇异值中的方差来计算激活具有额外的自我退火影响:随机矩阵通常具有相当大的rank-1分量(Vershynin,2010; Tropp等人,2015),可以防止死于死亡。 训练初期的胶囊。

SPECTRAL CAPSULE NETWORKS 翻译_第1张图片

3.  初步实验

学习诊断基准的方法(Harutyunyan et al。,2017)从MIMIC-III数据集中为每位患者提取了78维多元时间序列(Johnson et al。,2016)。数据分为29,250 / 6,371 / 6,281位患者的训练/验证/测试分区。我们遵循基准测试中的预处理和离散化过程,还将时间序列裁剪为最后50个时间戳。每当验证精度达到稳定水平时,我们都会使用Adam(Kingma和Ba,2014年)以批量大小64和学习率一半的方式训练所有算法。我们使用提供的验证集调整其他超参数。
图1显示了我们训练更多批次时EM胶囊和S胶囊的收敛行为。图1a和1b显示了二进制交叉熵的减少,图1c显示了微AUC的增加。图b和c的小幅上升和下降分别归因于具有单独验证集的模型选择。图b和c中的间隔是通过在测试集上自举1000次获得的一个标准偏差间隔。为了公平起见,尽管S-Capsules可以以更高的速率进行学习​​,但两种算法的学习率均设置为相等。这些数字证实,与EM-Capsules相比,SCapsules学习速度更快,泛化效果更好。 S胶囊的最终AUC达到80.50%,超过了EM胶囊和深层GRU网络(共同的基线)的准确性,分别为80.17%和80.02%。

解释输出胶囊的姿势向量。分析输出胶囊的姿势矢量是否保留了输入数据的变化是很有意思的。在计算机视觉中,可以通过视觉检查来进行此分析(Sabour等人,2017),但了解医学数据的模式需要更多的专业知识。代替目视检查,我们选择为输入时间序列中的连续变量构建常见的手工设计医学特征(Pollack等,1996; Lipton等,2015),并测量姿势各维度之间的相关性向量和他们。给定13个连续输入变量和从每个变量中提取的7个特征,我们构建了91个手工设计的特征。我们测试姿态向量的15个维度中的每个维度与91个特征之间的Spearman相关性。在Bonferroni校正(Shaffer,1995)之后,在p值为5%的情况下,我们观察到47.40%的姿势矢量元素与手工设计的特征显着相关。该结果表明,姿势矢量确实在输入数据中保留了大量变化。显然,我们也不希望这个百分比太大,因为我们知道手工设计的功能并不是输入数据的完美总结。

4.  结论和讨论

在这项工作中,我们使用EM路由定制了胶囊网络(Hinton等人,2018),用于学习诊断任务。 我们还提出了频谱胶囊网络,以提高胶囊网络的稳定性和收敛速度。 与EM胶囊类似,S胶囊也是空间符合过滤器,用于寻找以下胶囊的一致性。 但是,光谱胶囊通过线性子空间而不是集中簇中的对准量来测量一致性。 除了EM胶囊中的注意力机制外,S胶囊与EM胶囊之间的连接类似于高斯混合模型与主成分分析之间的连接。 这种类比说明了为什么S胶囊在训练过程中更坚固。 我们的初步结果证实了拟议的S胶囊网络具有出色的收敛速度,并且可以保留其姿势向量中数据的变化。

致谢

我们要感谢PyTorch的开发人员开发了出色的软件。

你可能感兴趣的:(SPECTRAL CAPSULE NETWORKS 翻译)