Using deep learning to enhance cancer diagnosis and classification

使用自动化的计算机工具,特别是机器学习来促进和提高医疗分析和诊断是一种很有前途的和重要的领域。在本文中,我们表明,无监督特征学习如何被用于癌症检测和分析基因表达数据类型。该方法的主要优势在以前的癌症检测方法应用数据从各种类型的癌症的可能性来自动形成特性有助于提高specic的检测和诊断。这里的技术是应用于癌症的检测和论述基于基因表达数据的类型。在这个领域,我们表明,该方法的性能优于以前的方法,因此承诺一个更全面的和通用的癌症检测和诊断的方法。

研究基因表达之间的相关支持文件和疾病状态或阶段的细胞生物和临床应用中发挥着重要作用(Tan &吉尔伯特,2003)。基因表达的模样在这里可以从多个组织样本,通过比较获得的基因表达在正常组织和病变组织的人,一个可以获得更好的了解疾病的病理(Tan &吉尔伯特,2003)。的一个挑战,以这种方式处理是决定肿瘤细胞的癌基因表达差异基因表达在正常,非肿瘤组织。为了解决这个问题,相当多的机器学习论述技术被用来分类组织癌变和正常。然而,由于高维度的基因表达数据(a.k.。一个特征空间的维数太高),只有几百样品的可用性对于一个给定的肿瘤,这个应用程序需要一个特定的考虑处理这些数据。rst的挑战就是如何降低特征空间的维数,确保生成的特征空间仍然包含足够的信息来执行准确的论述。此外,小样本集(即少量的训练例子)更难解决的问题和增加过度拟合的风险。多年来,人们提出了许多解决方案,解决癌症检测问题,其中大部分执行减少特征空间紧凑派生出来的特性集,选择和构建功能手动或在监督方面。然而,这导致了这些方法的问题,他们大多不是可伸缩并不能推广到新的癌症而重新设计的新特性。此外,这些技术不能effiective利用组织样本的其他癌症,例如,乳腺癌检测得知,被有效地限制只有数据从乳腺癌和正常组织在构建分类器。鉴于这种限制,反过来,可能导致这些方法方式的限制扩展到新的癌症检测任务时只有少数样本是可用的。

为了解决这个问题并促进和开发更广泛的癌症分类,我们在本文中提出了一种通过应用无监督特征学习和深度学习方法来学习特征的更一般方法。我们使用稀疏自动编码器方法从未标记数据中学习简明的特征表示。与先前的方法相反,其中数据必须严格来自待检测的癌症类型以便为监督学习提供适当的标签,这里可以通过组合来自不同肿瘤细胞的数据来获得未标记的数据,条件是它们被生成使用相同的微阵列平台(即,它们含有相同的基因表达信息)。例如,对于形成前列腺癌分类基础的特征学习,我们可以使用来自乳腺癌,肺癌和该平台中可用的许多其他癌症的样品。

然后将所有这些集合的结果特征用作构造分类器的基础。本文的其余部分安排如下:第2部分提供了一些关于基因表达的背景。第3节回顾了之前的研究。第4节概述了所提出的方法,第5节显示了我们方法的结果,并将它们与使用其他方法获得的结果进行了比较。最后,第6节总结了论文。

基因表达数据测量给定组织内基因的活性水平,从而提供关于相应细胞内复杂活性的信息。该数据通常通过测量转录期间产生的信使核糖核酸(mRNA)的量来获得,其反过来是相应基因的活性或功能的量度(Aluru,2005)。由于癌症与细胞中的多种遗传和调节异常有关,因此这些异常应该在基因表达中起作用
数据。为了捕获这些异常,已经越来越多地利用允许同时测量数万个基因的表达水平的微阵列来表征肿瘤细胞的全局基因表达文件和相同来源的匹配的正常细胞。具体而言,微阵列用于鉴定两个实验之间基因的差异表达,通常是测试与对照,并且在多个实验中鉴定相似表达的基因。微阵列数据的处理流程涉及原始数据预处理以获得基因表达矩阵,然后分析矩阵的表达的差异和/或相似性。基因表达矩阵GEM包含行中基因的预处理表达值,以及列中的实验。因此,每列对应于阵列(或基因芯片)实验,并且如果存在重复,则可包含多个实验。矩阵中的每一行代表基因表达文件(Aluru,2005)。基因芯片可以容纳数万个基因的探针,而受时间和金钱等资源限制的实验数量要小得多,最多可达数百个。因此,基因表达矩阵通常非常窄(即基因数n,明显大于实验数m)。这被称为维度诅咒,它是基因网络推理中的一个严重问题(Aluru,2005)。

已经提出了很少的方法来使用基因表达数据来检测癌症。在(C.Aliferis等,2003),Aliferis等。使用递归特征消除和单变量关联过滤方法来选择基因表达的一小部分作为简化特征集。 Ramaswamy等。在(Ramaswamy等人,2001)中,使用SVM应用递归特征消除,类似地将少量基因表达用作分类的特征空间。在(Wang等,2005b),Wang等人。表明通过将基于相关性的特征选择器与不同的分类方法相结合,可以选择具有高可信度的相关基因,并且与其他方法相比可以获得良好的分类准确性。 Sharma等。 al(Sharma等人,2012)提出了一种特征选择方法,旨在找到基因表达的信息子集。在他们的方法中,基因被分成小的子集,然后选择这些较小子集中的信息基因然后合并,最终得到基因的信息子集。 Nanni等。 al in(Nanni et al。,2012)提出了一种基因微阵列分类方法,该方法结合了不同的特征减少方法。在大多数这些方法中,重点是如何学习特征和减少基因表达数据的维度。这些方法中的大多数使用手动设计的特征(例如特征工程)选择器来减少基因表达的维度并选择信息集基因。这些特征选择方法的潜在问题是可扩展性和特征的一般性(即,所选择/设计的特征是否可以扩展并应用于新的分类任务和数据集)。此外,由于特定的癌症数据通常很少,并且大多数提到的方法不能有效地利用来自其他癌症的数据而不是待检测或分类的数据,这些方法必须以非常小的数据集操作,限制了使用的自动特征学习方法的有效性。例如,前列腺癌数据不能用于选择乳腺癌检测的特征,从而减少了特征学习的基础。与这些方法相比,我们提出的方法可以在特征学习步骤中使用来自不同癌症类型的数据,承诺在存在非常有限的数据集的情况下进行有效特征学习的可能性。

无监督的特征学习方法和深度学习已被广​​泛用于图像和音频应用,如(Lee等,2009b; Huang等,2012)等。在这些领域中,这些技术在自动表示方面表现出强烈的希望。使用未标记数据的特征空间,以提高后续分类任务的准确性。使用数据的其他属性,这些功能已进一步扩展,以便于在非常高维度的特征空间中进行学习。例如,通过使用诸如图像的局部性和静止性之类的图像特征,Lee in(Lee等人,2009a)提出了一种将无监督特征学习和深度学习方法扩展到高维和全尺寸图像的方法。类似地,Le in(Le等人,2012)通过将其应用于组织学图像特征的分类和肿瘤结构的分类,在癌症检测的背景下应用无监督特征学习方法(特别是重建独立子空间分析)。然而,据我们所知,无监督的特征学习方法尚未应用于基因表达分析(应该注意Le的方法(Le et al。,2012)仍然应用于图像而非基因表达)。其中一些原因可见于基因表达数据的极高维度,缺乏足够的数据样本,以及缺乏全球已知特征,如基因表达数据中的局部性,这限制了卷积等技术的适用性。汇集在上述图像数据应用中非常成功。在这里提出的方法中,我们试图在基因表达数据领域解决这个维度问题。在我们的方法中,我们首先使用PCA减少特征空间的维度,然后将PCA的结果应用为压缩特征表示,该表示仍然编码样本集中可用的数据,以及一些随机选择的原始基因表达式(即原始的)原始特征)作为一个或多层稀疏自动编码器的更紧凑的特征空间,以找到数据的稀疏表示,然后将其用于分类。这种构建和训练系统以从基因表达数据中检测和分类癌症的总体方法如图1所示。如图所示,这里提出的方法包括两个部分,特征学习阶段和分类学习阶段

我们提出的特征学习方法使用两个阶段,首先是基于PCA的阶段,旨在减少特征空间的维度,同时保持数据的信息内容。其次,基于PCA特征的增强形式以及一些随机原始特征,开发数据样本的稀疏编码以获得用于分类方法的高级和复杂特征。这种两阶段方法的主要原因是,由于基因表达数据的维数极高(大约20000到50000个特征)并且这些包含冗余和噪声数据,我们应用PCA来减少数据的维数而不需要显着的信息丢失。但是,直接使用PCA组件作为分​​类特征存在问题。 PCA对数据​​执行线性转换。换句话说,在应用PCA之后,所得到的提取特征仅仅是原始输入数据的线性函数(Raina等人,2007)。然而,为了提供捕获不同基因表达之间关系的非线性的机会,需要一种不同的特征学习方法。为了促进这一点并获得更多区分特征,我们在第二阶段使用无监督特征学习方法,并且为了使其有机会捕获PCA特征隐藏的其他非线性关系,我们随机添加一些PCA的原始特征功能构成了第二阶段特征学习算法的增强基础。对于特征学习评估的第二阶段,我们使用稀疏自动编码器的框架(Coates等,2011; Bengio等,2007; Ng)。 autoneocder神经网络是一种无监督的特征学习方法,其中输入被用作输出层(Ng)的目标。通过这种方式,它学习函数hw; b(x)? x表示从由网络的隐藏单元表示的有限数量的特征激活构造的输入数据的近似值。稀疏自动编码器由神经网络中的三层(即输入层,隐藏层和输出层)构成,其中隐藏层包含K个节点。隐藏层中的单元迫使网络学习输入的表示,仅具有K个隐藏单元激活,表示K个特征。为了训练网络,它使用反向传播方法来最小化平方重建误差,同时额外的稀疏性惩罚(Coates等,2011; Raina等,2007):

其中x(i)u是未标记的训练示例,b是基础向量,a是基础激活的向量(Raina等,2007)。 以激活矢量的一个范数的形式包括的稀疏性惩罚a,这里使学习者偏向于特征bj,其允许使用少量这些特征的组合来表示数据项。 在基因调控数据中使用稀疏编码进行特征学习的基本原理是,允许稀疏表示的特征更可能编码原始数据的区别性和功能性单一性质,因此更有可能形成分类的良好基础。 阳离子学习。 在神经网络内,sigmoid功能

作为一个额外的选择,为了进一步比较,我们使用了一个带有两层的堆叠自动编码器,其中贪婪的逐层学习被用来训练深层网络(Bengio et al。,2007)。 在这种贪婪的分层方法中,我们分别训练每个网络。 但是,第一网络功能的输出是第二网络的输入。

为了执行癌症检测和癌症类型分类的任务,在所提出的无监督特征学习方法中学习的特征随后与一组用于特定癌症类型的标记数据一起用于学习分类器。 对于本文的结果,我们使用softmax回归作为分类器的学习方法。

为了在本文提供的实验中进行比较,使用具有一层和一层具有两层(也称为堆叠自动编码器)的稀疏自动编码器作为无监督特征学习方法来从未标记数据学习稀疏表示然后用作输入。使用softmax回归分类器进行分类学习的表示。此外,我们还执行,其中,我们使用了NE-调谐方法的另外的实验(Bengio等人,2007),以便调的层叠自动编码器的特征的权重,以更好地匹配CLASSI阳离子任务的要求。在该方法中,由无监督特征学习器学习的特征的权重通过使用标记数据的分类器来调整。虽然这使得这些特征通过针对特定的分类任务进行调整而不那么通用,但它也承诺在某些情况下可能具有更高的分类精度。总的来说,本文提出的方法的优势在于通过PCA降维数和无监督非线性稀疏特征学习相结合来构建一般分类任务的有效特征。该方法允许有效使用未标记的数据,从而有效地使用与特定分类任务无关的微阵列数据,以帮助和改善分类准确性。如前所述,由于针对特定癌症类型的基因表达数据样本的数量通常较低,来自相同平台的其他癌症数据(即,在微阵列中具有相同基因)是在该方法中使用的良好候选者。用于特征学习的未标记数据。与大多数以前的工作相比,这种方法的一个显着优点是它可以推广不同类型癌症的特征集。例如,来自前列腺癌,肺癌和其他癌症的数据可以用作乳腺癌检测或分类问题中的特征学习的未标记数据。 Lu等人的结果进一步证明了这种潜力。 al(Lu等,2007)通过全面的基因分析显示,可以在不同的癌症数据中找到常见的癌症基因。这一发现强化了我们关于在各种癌症类型的数据中具有广义特征集的论点。
5.结果
为了证明所提方法的可行性和适用性,我们首先从表1中总结的各种论文/来源获得了13个不同的数据集。在表1中,第2列和第3列显示了数据的维数。第3列显示了用于训练分类器的标记数据。对于特征学习,我们使用第2列中的未标记数据。已经扩展了一些特征集以包括来自同一微阵列平台的其他数据集的各种不同类型的癌症的样本。该特征扩展提供了特征学习算法的能力,以学习更具体的特征,这些特征不是针对个体癌症而是反映一般癌症中感兴趣的特征。由于数据的高维度,如方法部分所述,数据通过应用PCA进行预处理以降低其维数。已经使用三种不同的稀疏编码器来学习特征:稀疏自动编码器,其仅包含一个隐藏层,两层堆叠自动编码器和具有微调的堆叠自动编码器,其基于贪婪的分层方法训练。在分类训练阶段,微调方法使用标记数据来调整堆叠自动编码器中的参数。表2中的第2,3和4列分别对应于这些方法中的每一种的结果。

为了评估分类器的稳健性,我们进行了10次交叉验证,结果以平均分类精度表示。此外,表中列出了不同学习试验中分类准确度的标准偏差。我们还将我们提出的算法与两个基线进行比较:SVM与高斯核和Softmax回归。注意,这些方法还使用主成分投影作为特征来解决数据集中非常高的维度和相对少量的样本。表2报告了数据集的结果,其中仅报告了两种基线算法中较好的结果。由此我们可以看出,使用从PCA和随机选择的原始特征导出的稀疏自动编码器特征的所提出的方法优于不使用无监督稀疏特征的基线算法。唯一的例外是第二和第九个数据集,我们的方法不会优于基线算法。我们相信,通过向功能集添加更多未标记的数据,我们实际上可以改善这些结果。我们无法这样做,因为数据集的平台要么是一个非常专业的微阵列,没有大量的样本,或者我们无法从同一平台找到数据。

在本文中,我们提出了一种使用无监督和深度学习方法从基因表达数据增强癌症诊断和分类的方法。该方法使用PCA来解决初始原始特征空间的极高维度,然后是稀疏特征学习技术为最终分类步骤构建判别和稀疏特征,提供了克服具有特征维度的传统方法以及非常有限的大小数据集的问题的潜力。它通过允许来自不同癌症和其他组织样本的数据在特征学习期间使用而不依赖于它们对最终分类任务的适用性来实现这一点。将此方法应用于癌症数据并将其与基线算法进行比较,我们的方法不仅表明它可用于提高癌症分类问题的准确性,而且还证明它提供了一种更通用和可扩展的方法来处理基因表达不同癌症类型的数据。

你可能感兴趣的:(论文笔记)