***本文章仅为个人笔记,方便阅读***
0 Abstract
获得能够捕获与疾病进展和治疗监测相关的成像标记物的模型是一个挑战。模型通常是基于大量的数据与已知注释的标记物的例子,目的是自动化检测。高度的注释工作和对已知标记的词汇表的限制限制了这种方法的能力。在这里,我们执行无监督学习来识别成像数据中的异常作为候选标记物。我们提出了AnoGAN,一个深度卷积生成对抗性网络,以学习多种正常解剖学的变异性,伴随着一个新的异常评分方案,基于图像空间到潜伏空间的映射的基础上,一个新的异常评分方案。应用于新的数据,该模型对异常点进行标记,并对图像补丁进行评分,表明其与所学分布的匹配度。对视网膜光学相干断层扫描图像的研究结果表明,该方法能够正确识别异常图像,如含有视网膜液或高反射灶的图像。
1 Introduction
在本文中,我们提出对抗性训练的一个正常外观的生成模型(见图1中的蓝色块) ,在 sect. 2.1中描述,和一个耦合的映射模式,在 sect. 2.2中描述,使评估新的数据(sect. 2.3)识别异常图像和成像数据中的分割异常区域(见图1中的红色块)。 对从光谱域 OCT (sd-OCT)扫描中提取的标记测试数据进行的实验表明,该方法能够高精度地识别已知的异常,同时检测到其他没有体素级注释的异常。
据我们所知,这是第一个工作,其中甘斯用于异常或异常检测。 另外,我们提出了一种新的映射方法,可以解决预成像问题。
2 Generative Adversarial Representation Learning to Identify Anomalies
为了识别异常,我们基于GANs学习一个代表正常解剖学变异性的模型[13]。该方法训练一个生成模型,并同时训练一个判别器来区分生成数据和真实数据(见图2(a))。该方法的目标不是单一的成本函数优化,而是以成本的纳什均衡为目标,提高了生成模型的代表性和特异性,同时在从生成数据中对真实数据进行分类的同时,也提高了相应的特征映射的准确性。在下面我们将介绍如何建立这个模型(2.1节),以及如何用它来识别训练数据中不存在的外观(2.2和2.3节)。
2.1 Unsupervised Manifold Learning of Normal Anatomical Variability
GAN :
2.2 Mapping New Images to the Latent Space
残余损失: 残余损耗衡量查询图像x与图像空间中生成的图像G(zγ)之间的视觉差异,其定义为
在完美生成器G和对潜伏空间的完美映射的假设下,对于一个理想的法线查询情况,图像x和G(zγ)是相同的。
在这种情况下,残差损失为零。
判别损失: 用于图像绘制,Yeh等人[13]基于判别器输出的判别损失LDˆ(zγ)的计算,将生成的图像G(zγ)送入判别器LDˆ(zγ)=σ(D(G(zγ)),α),其中σ是sigmoid交叉熵,定义了真实图像在对抗性训练时的判别损失,对数D(G(zγ))和目标α=1。
一种基于特征匹配的改进型歧视损失:
生成器的参数优化不是通过对生成的例子(Eq.(2))的判别器的输出最大化来优化生成器的参数,而是强迫生成器生成与训练数据具有相似统计量的数据,即中间特征表示与真实图像的中间特征表示相似。Salimans等人[14]发现,当分类是目标任务时,特征匹配特别有用。由于我们在对抗性训练过程中不使用任何标记数据,因此我们的目标不是学习类特定的判别特征,而是学习良好的表示。因此,我们在对抗性训练过程中不调整生成器的训练目标,而是利用特征匹配的思想来改进对潜伏空间的映射。
我们建议不使用判别器的标量输出来计算判别损失,而是使用鉴别器更丰富的中间特征表示,并将鉴别损失定义如下:
其中判别器的中间层f(-)的输出被用来指定输入图像的统计量。基于这个新的损失项,z的坐标的适应性不仅仅依赖于训练有素的判别器的硬决定,即生成的图像G(zγ)是否符合正态图像的分布,而是考虑到了特征表示的丰富信息,这些信息是判别器在对抗性训练过程中学习到的。在这个意义上,我们的方法不是把训练好的判别器作为分类器,而是作为特征提取器来使用。
对于对潜伏空间的映射,我们将总损失定义为两部分的加权和。
只有z的系数通过反向传播进行调整。生成器和判别器的训练参数保持固定。
2.3 Detection of Anomalies
在新数据的异常识别过程中,我们评估新的查询图像x是正常或异常图像。我们的损失函数(Eq. (5)),用于映射到潜伏空间,在每一次更新迭代中评估生成的图像G(zγ)与图像的相容性,在对抗性训练过程中看到的图像。因此,可以直接从映射损失函数(Eq.(5))中得到异常值,它表示查询图像x与正常图像模型的拟合度。
其中,残差分数R(x)和辨别分数D(x)分别由映射过程到潜伏空间的最后(Γ次)更新迭代时的残差损失LR(zΓ)和辨别损失LD(zΓ)定义。对于异常图像,该模型会得到一个大的异常值A(x),而一个小的异常值意味着在训练过程中已经看到了非常相似的图像。
我们使用异常点得分A(x)进行基于图像的异常检测。此外,残余图像xR = xR = |x - G(zΓ )|用于识别图像中的异常区域。为了比较的目的,我们另外定义一个参考异常点得分Aˆ(x) = (1-λ)-R(x) +λ - Dˆ(x),其中Dˆ(x) = LDˆ (zΓ )是Yeh等人[13]使用的参考判别得分。
3 Experiments
数据、数据选择和预处理。我们评估了该方法在临床高分辨率的SD-OCT视网膜卷上进行了评估,每卷49个B扫描(代表zx-平面的图像切片),总卷分辨率分别为496×512×49voxels(z-、x-、y方向)。训练GAN是在270个健康受试者的临床OCT卷中提取的二维图像补丁上进行训练,选择的标准是OCT卷不包含流体区域。为了测试,我们从另外10个健康病例和10个病理病例中提取了含有视网膜积液的补丁。OCT卷的预处理方式如下。灰色值被归一化为-1至1的范围内。 在x方向上调整了体积的大小,以22μm的大小导致约256列。视网膜区域被提取和扁平化,以调整方向,形状和厚度的变化。我们使用自动层分割算法,按照[15]找到视网膜的顶层和底层,定义视网膜在Z方向的边界。从这些归一化和扁平化的体积,我们总共提取了1.000.000.000的二维训练补丁,图像分辨率为64×64像素,在随机采样的位置。
原始数据和预处理后的图像表示如图1所示。测试集共包括8192个图像补丁,包括训练集中未包含的正常和病理样本。对于病理OCT扫描,临床视网膜专家提供了液体和非液体区域的脉络膜注释。这些注释仅用于统计评估,但在训练和评估阶段都没有反馈到网络中。为了评估检测性能,我们给一张图像分配了一个正向标签,如果它至少包含一个像素注释为视网膜流体,我们就给它分配一个正向标签。
评价:在健康病例的图像数据上,只学习了正常图像的多样性,目的是建立健康外观的多样性模型。为了评估异常检测的性能,我们进行了以下实验。
(1) 我们对模型是否能产生真实的图像进行了定性的探讨。
(2) 我们对从训练集或测试集中提取的健康病例的图像补丁和从测试集中提取的疾病病例的图像进行了定量评估。我们基于异常点检测的异常点得分A(x)或仅基于异常点得分A(x)或仅基于两个分量中的一个分量、残差得分R(x)或辨别度得分D(x),并报告相应的异常点检测性能在图像水平上的接收机工作特性(ROC)曲线。
(3)为了提供更多关于单个组件作用的细节,以及所提出的方法所带来的收益,我们评估了对异常点检测性能的影响,当不使用DCGAN,而是使用对抗性的卷积自编码器(aCAE)[16],而不改变异常点的定义,进行多重学习时,对异常点检测性能的影响。
aCAE也实现了判别器,但用编码器-解码器流水线代替了生成器。训练过的aCAE的组件深度与我们的对抗性模型的深度相当。作为第二种替代方法,被称为GANR,我们评估了异常检测的性能,当参考异常评分Aˆ(x)或参考判别评分Dˆ(x)被用于异常评分,相应的损失被用于从图像空间到潜伏空间的映射,而AnoGAN的预训练的GAN参数被使用。
我们报告了这两种替代方法的ROC曲线。此外,我们计算了灵敏度、特异性、精确性和召回率,在ROC曲线上的最佳临界点上,通过尤登指数确定了灵敏度、特异性、精确性和召回率,并报告了AnoGAN和两种替代方法的结果。
图3. 异常图像的像素级识别。第一行:真实输入图像。真实输入图像。第二行:真实输入图像。由我们提出的映射方法触发的模型生成的相应图像。第三行: 残余叠加图。红色条形图。残余分数的异常点识别。黄色条形图:通过判别分数识别异常点。底部行:视网膜液的像素级注释。视网膜液的像素级注解。第一块和第二块:分别从训练集和测试集的健康病例的OCT卷中提取的正常图像。第三块:从训练集和测试集中的健康病例的OCT卷中提取的正常图像。第三块:从测试集中的病变病例中提取的图像。最后一列。超反射病灶(绿色方框内)。(以彩色图像为最佳浏览效果)
实现细节。与历史上的尝试不同,Radford等人[12]确定了一种DCGAN架构,可以在64×64像素的图像上进行稳定的GAN训练。因此,我们在相同大小的图像补丁上进行实验,并使用Radford等人[12]1提出的DCGAN架构进行GAN训练(Sect.2.1)。我们在生成器中使用了四个分股卷积层,在判别器中使用了四个卷积层,都是5×5大小的滤波器。由于我们处理的是灰度图像,所以我们使用了512 - 256 - 128 - 64通道的中间表示(而不是[12]中使用的1024 - 512 - 512 - 256 - 128)。DCGAN训练是利用随机优化器Adam[17]对20个epochs进行的。我们运行了500个backpropagation步骤,将新图像映射到潜伏空间(Sect.2)。所有的实验都是使用Python 2.7和TensorFlow[18]库进行的,并在使用CUDA 8.0的Titan X图形处理单元上运行。
3.1 Results
结果证明了DCGAN的生成能力以及我们提出的映射和评分方法在异常检测中的适用性。我们分别报告了我们的方法的分割性能和检测性能的定性和定量结果。
模型能否生成逼真的图像?训练好的模型可以生成逼真的医疗图像(图3中的第二行),这些图像是通过我们的映射方法从潜伏代表物z中取样,通过我们的映射方法找到的,在第2.2节中描述了。在正常图像补丁的情况下(见图3中的第一和第二块),我们的模型能够生成与查询图像视觉上相似的图像(图3中的第一行)。但在异常图像的情况下,输入图像和生成的图像对的强度或纹理差异明显(见图3中的第三块)。正常和异常图像的t-SNE嵌入(图2(b))的正常和异常图像的特征表示中的最后一个卷积层的特征表示被利用在歧视损失,说明了异常的特征在异常检测中的可用性,并表明我们的AnoGAN学习了一个有意义的正常解剖变异性的歧义
图4. 图像级异常检测性能及适用性评价。(a)模型比较。基于aCAE(蓝色)、GANR(红色)、提出的AnoGAN(黑色)或训练好的判别器的输出PD(绿色)的ROC曲线。(b) 异常得分成分。基于残差分R(x)(绿色)、鉴别分D(x)(黑色)或参考鉴别分Dˆ(x)(红色)的ROC曲线。(c)残差分和(d)的辨别分的分布,在训练集(蓝色)或测试集(绿色)的正常图像上评估,在从病变病例中提取的图像上评估(红色)。(在线彩色图)
模型能否检测出异常点?图4显示了基于异常点得分A(x)、或两个分量中的一个、残差得分R(x)、或辨别度得分D(x)的图像级异常检测的ROC曲线。在括号内注明了相应的ROC曲线下的面积(AUC)。此外,残差分数R(x)(图4(c))和辨别分数D(x)(图4(d))在训练集和测试集的正常图像上或从病变病例中提取的图像上的分布表明,所提出的对抗性分数的两个分量都适合于正常和异常样本的分类。图3显示了结合视网膜液的像素级识别异常样本的像素级注释,显示了高准确度。图3中的最后一列显示,该模型成功地识别了额外的视网膜病变,在这种情况下,这些病变对应于高反射灶(HRF)。在图像层面上,图3中的红色和黄色条形图表明,我们的模型成功地识别了每一个样本图像,分别根据残余分和辨别分,从测试集的病变病例中识别出了每一个样本图像的异常。
表1. 基于我们模型的对抗性得分A(x)的优登指数ROC曲线和相应的AUC计算出的临床表现统计数字
(AnoGAN )和aCAE的,基于GANR利用的参考对抗性得分Aˆ(x),或直接基于DCGAN(PD)的输出。
该模型与其他方法的比较如何?我们评估了GANR、aCAE和AnoGAN在图像级标签上的异常检测性能。结果汇总于表1,相应的ROC曲线如图4(a)所示。虽然aCAEs同时产生了生成模型和直接映射到潜伏空间,这在测试过程中的运行时间上具有一定的优势,但与AnoGAN相比,这种模型在异常检测任务上表现出了较差的性能。事实证明,aCAEs在异常图像上往往会过度适应。图4(b)显示了基于我们提出的识别分数D(x)的异常检测性能优于参考识别分数Dˆ(x)。由于异常检测的得分与映射到潜伏空间的损失直接相关,这些结果证明了我们提出的辨别损失LD(z)相对于辨别损失LDˆ(z)具有优势。然而,根据基于异常点得分计算的AUC,AnoGAN和GANR显示出相当的结果(图4(a))。这要归功于残差分R(x)的良好性能。当跳过对潜伏空间的映射,并从判别器的输出中直接以查询图像为条件得到二进制决策时,可以获得良好的异常检测性能(参见图4(a)和表1中的PD)。
4 Conclusion
我们提出了一种基于深度生成对抗性网络的异常检测方法。
通过同时训练一个生成模型和一个判别器,我们在健康数据上对模型进行无监督训练的基础上,实现了对未观察到的数据的异常识别。结果显示,我们的方法能够检测出不同的已知异常,如视网膜积液和HRF等在训练过程中从未见过的异常。因此,该模型有望能够发现新的异常现象。虽然基于异常类子集的定量评估是有限的,因为假阳性不考虑新的异常,但结果显示出良好的灵敏度和细分异常的能力。规模化地发现异常,可以挖掘出有待未来验证的标记候选数据。与之前的工作相比,我们表明,仅利用残差损耗就可以获得良好的结果,并且在图像到潜伏空间的映射中,使用所提出的适应性调整可以使结果略有改善。