深度学习各个领域近年来一直是比较火的论点,今天和大家分享一篇今年4月发表在cancers(IF:6.126)有关基于多组学和深度学习识别癌症亚型的文章。
Performance Comparison of Deep Learning Autoencoders for Cancer Subtype Detection Using Multi-Omics Data
利用深度学习技术探究不同自动编码器在多组学数据检测癌症亚型的性能
Simple Summary
研究比较了四种不同的自动编码器:(a) vanilla,(b) sparse,(c) denoising,(d) variational for subtype detection,检测四种癌症类型的性能,这四种癌症分别是:多形性胶质母细胞瘤,结肠腺癌,肾透明细胞癌和乳腺浸润性癌。通过将TCGA中包含基因表达、DNA甲基化和miRNA表达的多视图数据集输入到自动编码器中,得到压缩的非线性表示。然后将聚类技术应用于该压缩表示以揭示癌症的亚型。虽然不同的自动编码器在不同的数据集上的性能有所不同,但它们的性能远远优于标准的数据融合技术,如PCA、核PCA和稀疏PCA。
Abstract
像癌症这样的异质性疾病是通过多种途径和不同的扰动激活的。根据激活的途径不同,患者的生存期有显著差异,不同药物的疗效也不同。因此,利用基因组水平的数据进行肿瘤亚型检测是一个重要的研究问题。亚型检测通常是一个复杂的问题,在大多数情况下需要多组数据融合来实现准确的亚型。多年来,人们提出了不同的数据融合和亚型分类方法,如基于核的融合、矩阵分解和深度学习自编码器。在本文中,我们比较了不同深度学习自编码器用于癌症亚型检测的性能。我们使用四种自动编码实现对来自癌症基因组图谱(TCGA)数据集的四种不同癌症类型进行了癌症亚型检测。我们比较了特征选择和相似性度量对亚型检测的影响。为了进一步评估,我们使用了多形性胶质母细胞瘤(GBM)数据集,并鉴定了每个亚型中的差异表达基因。所获得的结果与其他基因组研究一致,并可与所涉及的通路和生物学功能相印证。由此可见,通过不同癌症数据类型的交互作用,自动编码器(autoencoder)得到的结果可以用于预测和表征患者亚群和生存轮廓。
Introduction
由于技术的进步和成本的降低,高通量测序技术如RNA-seq、SNP-chip、UPLC-MS和GC-MS技术产生了大量的组学数据,使生物学家能够以前所未有的细节了解生物有机体中的不同过程和相互作用。然而,由于生物单位内部的多级调控,这些个体数据只能提供生物体内部分子复杂性的有限信息。例如,我们观察到由于基因组缺陷,转录本和甲基组在肿瘤细胞中的联合作用。此外,这种数据的维度和多样性使得执行适当的数据处理和深入分析极具挑战性。因此,迫切需要数学模型,以有效地融合这些来自不同测量的不同分子数据,并为我们提供一个全面和健全的生物学表现型的见解。Ritchie等人,将多组学数据集成定义为将不同类型的组学数据组合为预测变量,从而对复杂性状或表现型进行更准确和广泛的建模的方法。综合的多组学方法允许识别关键的基因组因子和生物标记物,生成模型来解释和预测疾病风险,并理解复杂表型的遗传学和基因组学结构。与传统的基于数据的方法相比,这种综合数据还提供了对生物系统的整体看法。最近提出了几种数据融合模型,主要分为三类:(a)早期融合,(b)中间融合,(c)后期融合。数据融合算法的一个例子是相似网络融合(SNF)。在这里,不同类型的数据首先通过非线性核函数归一化成网络形式。然后,信噪比通过迭代融合算法对这些网络进行有效融合。最近,自动编码器的深度学习框架也显示出了作为数据融合算法的巨大潜力。自动编码器通过其原始输入特征的非线性变换来重建其输入。因此,在这个过程中,自动编码器从其原始输入特征集中生成新的非线性特征。一些癌症研究使用自动编码器来分析多组学数据。基于自动编码器的数据集成也已成功应用于预测药物反应和移植肾存活分析。自编码器是一种基于前馈神经网络的无监督深度学习(DL)算法,用于降维和异构数据集成。自动编码器可以在设置输出值等于输入值后,从未标记的数据中自动学习非线性特征。一种由简单神经元组成的自编码器,其中一层神经元的输出作为另一层神经元的输入。自动编码器网络形成“蝴蝶”结构,输入数等于输出数,中间由瓶颈隐藏层构成。这种设计促使网络寻求数据的压缩表示,同时保留输入数据最重要的特性(图1)。自动编码器的结构允许它连接不同组学源的特征和信息。
图 1
首先,我们从TCGA数据库中同一患者的多组学数据中进行特征选择。接下来,自动编码器通过编码和解码融合选定的特征。然后,我们在瓶颈层构建的患者相似度网络上运行两种聚类算法来识别癌症的亚型。最后,我们对确定的聚类进行生存分析以验证结果。
这种数据融合算法的一个关键应用是利用组学数据检测癌症亚型。多种致癌基因参与了像癌症这样的异质疾病,它们通过几个途径被扰乱。癌症患者的严重程度和生存期也因这种干扰而有很大差异。例如,多形性胶质母细胞瘤(GBM)有四种已确定的亚型:经典型、间充质型、神经型和神经前型。子类型检测是一个复杂的问题,经常需要对各种异构数据集进行融合。最近,通过融合三种异构数据类型,自动编码器也被用于肝癌的亚型检测问题。例如,Chaudhary等人利用甲基化、RNA-seq和miRNA-Seq数据的自动编码器,开发了一个稳健的模型来预测两个不同的生存组。Tan等人使用去噪自动编码器开发了一个模型,可以从乳腺癌组学数据中识别和提取复杂的模式。利用多组学数据,深度学习自动编码器也被用于结直肠癌的亚型分类,而应用自动编码器来识别神经母细胞瘤的两种亚型。
在Zhang等人的论文中,作者使用了一种变分自编码器来整合多组癌症数据。采用该模型进行泛癌分类分析,对33种肿瘤类型与正常样本进行10倍交叉验证后,平均精度为97.49%。
Simidjievski等人探讨了使用变分自编码器的多组体数据集成方法的不同架构、设计和构造;他们证明了自动编码器是表示数据和生产稳定和准确诊断的合适方法。为了研究介导人肺腺癌的基因,建立了一个基于去噪自编码器的模型。与其他方法相比,这种方法可以鉴定出更多与这种癌症相关的阳性基因。
根据深度学习层的构造和正则化,自动编码器可以是不同类型的,例如vanilla autoencoder, denoising autoencoder, sparse autoencoder, 和variational autoencoder。尽管自动编码器在数据融合和子类型检测方面取得了进展,但不同类型的自动编码器在不同数据集上的性能仍然是未知的。在这项工作中,我们比较了四种不同的自动编码器的性能,以集成和减少多组数据。通过数据融合,自动编码器创建新的特征来表示输入数据集。新的特征被用来实现一种基于生存的聚类算法,以定义具有相似特征分布和生存预后的患者组。我们评估了不同的自动编码器(vanilla autoencoder, denoising autoencoder, sparse autoencoder, variational autoencoder)对四种不同癌症类型的不同来源(如RNA-seq、甲基化和miRNA-Seq)的癌症数据维度的融合和缩减的效率。
Materials and Methods
数据和前期处理
我们从the cancer Genome Atlas Program (TCGA)数据库中获得了多组学癌症数据。TCGA包括超过20,000个原发癌症样本,超过33种癌症类型。我们在四种癌症类型的数据集上应用了基于自动编码的分型:来自TCGA的多形性胶质母细胞瘤(GBM)和结肠腺癌(COAD),来自TCGA的肾透明细胞癌(KRCC)和乳腺浸润性癌(BIC),但Wang等人进行了预处理[文章:Similarity network fusion for aggregating data types on a genomic scale]。我们利用了三种类型的数据:基因表达、DNA甲基化和miRNA表达。多形性胶质母细胞瘤(GBM)是最具侵袭性的脑肿瘤之一;即使经过化疗和放疗,诊断出的患者平均存活时间为13个月。我们分析了276例此类癌症患者(男性- 164,女性- 112)的数据,其中mRNA表达有17,814个特征,miRNA表达有470个特征,DNA甲基化有13,000个特征。乳腺浸润性癌(BIC)是最常见的乳腺癌类型之一。从BIC数据集中,我们分析了106例患者的数据,其中miRNA表达的335个特征,DNA甲基化的23,094个特征,mRNA表达的17,814个特征。结肠腺癌(COAD)是一种癌症,通常产生于大肠内的上皮内衬。这种类型的癌症在50岁以上的人群和低纤维饮食的国家,如欧洲,美国和澳大利亚更普遍。COAD数据集约占确诊癌症的10%。从COAD数据集中,我们分析了92例患者的数据,这些患者的mRNA表达有17,814个特征,DNA甲基化有23,087个特征,miRNA表达有311个特征。肾透明细胞癌(KRCC)是肾癌中最常见的一种,它会影响到肾内过滤血液废物和产生尿液的内衬细胞和小管。这种癌症在55岁以上的男性中更为普遍。从这个数据集中,我们分析了122名患者的数据,其中有17,898个mRNA表达特征,24,959个DNA甲基化特征,329个miRNA表达特征。
首先,我们使用TCGAbiolink软件包从TCGA数据库下载了包含基因表达、DNA甲基化和miRNA表达的TCGA数据集。然后,我们选择这些数据集中常见的患者进行分析,并下载患者的临床数据进行生存分析。接下来,我们使用下面的方程对每个数据进行标准化。
其中Xi为数据实例,Xmax和Xmin分别为特征X的最小绝对值和最大绝对值,Xn为归一化后的特征。我们从R中的CancerSubtypes包中使用函数FSbyVar,基于最大方差(VAR)从每个数据集中选择100/400/500个重要特征.
Autoencoder 构建
根据图2所示的结构,自动编码器可以是不同的类型。vanilla autoencoder是一个简单的autoencoder。通过学习使以下损失函数最小化。
其中L是输入x和输出g(f(x))的损失函数。由于编码器和解码器激活函数是非线性的,vanilla encoder从数据学习非线性特征。这在主成分分析(PCA)等线性特征推断方法中是不可行的。
图 2
虽然,vanilla autoencoder并不难,但是其容易出现过拟合的情况。Denoising autoencoder, sparse autoencoder, variational autoencode是vanilla autoencoder的规范化版本。Denoising autoencoder从输入的损坏副本重建原始输入;因此,它将使以下损失函数最小化。
其中L为输入x和输出g(f(x))的损失函数。通过在原始输入中引入噪声,就形成了输入的损坏副本。通过将一些输入值设为零,通过随机映射实现去噪。附加的噪声帮助自编码器学习特征,而不是直接从数据的原始特征。
Sparse autoencoder是vanilla autoencoder的正则化版本,在瓶颈层添加了稀疏性惩罚Ω(h)。sparse autoencoder的学习使以下损失函数最小化。
sparsity penaltyΩ(h)有助于了解数据的重要特征,即使在自动编码器中有许多隐藏单元。
variational autoencoder通常采用潜在高斯分布,对潜在变量进行了强假设。它对编码器网络施加了约束,使瓶颈层服从高斯分布。variational autoencoder通过学习使以下损失函数最小化。
其中L(l)是潜在损失,用瓶颈层到单位高斯分布的kullbeck - leibler散度来度量,它量化了它们之间的差异。这个假设产生了潜在变量与泛化的网络。
Autoencoder实现
我们使用Keras库和TensorFlow后台实现了本文比较的四种不同的自动编码器。对于分型和生存分析,我们使用了CancerSubtype R包。
对于 vanilla autoencoders, denoising autoencoders, sparse autoencoder这三个自动编码器,我们分别为三个隐藏层设置了500、100和500个节点,为输入层和输出层设置了1000个节点。输入输出层的节点数是根据三种数据类型的最大方差来选择的,我们从基因表达中选择了500个特征,从DNA甲基化中选择了400个特征,从miRNA表达中选择了100个特征。对于denoising autoencoder,我们在输入数据网络中应用了0.5的噪声因子。对于sparse autoencoder,我们在节点上设置L1正则化,penalty设为0.01并且用L2正则化,将penalty设为0.01来诱导稀疏性。对于variational autoencoder, 我们分别设置了1000、500、250和100个节点的四个隐藏层。此外,我们对解码器使用了顺序模型,对编码器使用了功能模型。必要时,我们使用对数方差和lambda层来转换数值稳定性的标准偏差。
为了优化所有的自动编码器,我们对随机梯度下降(adam)算法进行了扩展。对于vanilla、sparse和denoising的自编码器,我们在输入层和隐藏层上应用双曲正切(tanh)激活函数,在输出层上应用sigmoid激活函数。对于variational autoencoder,我们在输入层和隐藏层上应用了一个修正的线性激活函数(ReLU),在输出层的运用sigmoid激活函数。同时,为了测量输入层(X)和输出层(X’)之间的loss,vanilla autoencoder 和 denoising autoencoders使用均方误差来衡量loss。sparse autoencoder使用二元交叉熵来衡量loss。variational autoencoder使用负对数似然函数来衡量loss。
聚类和子类型区分
自动编码器将多维特征转化为瓶颈层中较少的特征。在这个简化的特征集上,我们将标准的分型方法应用于亚型患者。首先,我们考虑这些简化的特征集,计算每个病人对的相似度。在这里,我们使用欧几里德距离和Spearman相关作为两个病人之间的相似性度量。我们使用一种结合k-means 和 Partitioning around medoids (PAM)的聚类方法来对疾病亚型进行无监督聚类。我们在3到6个集群之间的窗口中执行这两种算法(k-means和PAM)。
子类型的评估指标
我们利用两个不同的指标来评估TCGA数据集上不同自动编码器的性能。首先,我们进行生存分析,评估不同亚型的生存模式。接下来,我们计算log-rank检验的p值,以确定不同亚型之间Kaplan-Meier生存曲线的差异。
我们还使用集群的silhouette宽度来衡量集群的性能。silhouette得分衡量的是与其他集群相比,患者与其识别集群的匹配程度,例如组内vs组外。较高的Silhouette值表示适当的组分布。
COX特征选择模型
为了验证融合效果,我们选择了方差特征选择结果最低的两个数据集(COAD和KRCC),并基于COX比例风险模型对特征进行了新的选择。COX比例风险模型是预测预测变量与患者生存期关系的回归模型。使用单变量COX模型,p < 0.05,我们从mRNA数据中选择了8788个特征,从DNA甲基化数据中选择了400个特征,从COAD数据集中的miRNA表达数据中选择了16个特征。接下来,我们将这些选定的特征作为自动编码器的输入。
与其他数据集成方法的比较
我们将我们的结果与其他数据融合方法,如SNF,主成分分析(PCA),核主成分分析和稀疏主成分分析进行比较。SNF是一种基于相似网络融合来聚合多组数据的计算方法。我们使用了来自GBM数据集的甲基化和mRNA进行比较。应用SNF之前,我们使用COX回归模型进行了特征选择。我们从DNA甲基化数据中选择2806个特征,从mRNA表达数据中选择3309个特征。SNF算法和生存分析使用CancerSubtype包进行3到6个聚类。PCA允许线性降维来将数据投影到低维空间。而核主成分分析是非线性版本的主成分分析,稀疏主成分分析是正则版本的主成分分析。我们使用sklearn软件包在Python中实现了主成分分析、核主成分分析和稀疏主成分分析,并根据GBM数据集的方差(0.90)选择特征。我们使用PCA转换的数据集作为k-means/PAM聚类算法的输入,使用CancerSubtype包进行癌症亚型识别。
检测亚型的差异表达与富集分析
最后,我们对聚类进行了差异表达(DE)和功能富集分析,并比较了聚类中的DE基因和富集过程。DE基因检测采用线性法LIMMA[40],功能富集分析采用R. ClusterProfiler包。这可以识别属于某个亚型的关键基因,并识别可能导致这种结果的功能过程。为了探索聚类的组织,我们使用GBM数据集进行了差异表达分析。为了进行分析,我们下载了从不同类型的自动编码器获得的每个聚类的基因表达数据,并使用了HT_HG-U133A平台的聚类算法(PAM和k-means),使用了GDCquery、GDCdownload和GDCprepare函数。利用TCGAanalyze_DEA函数(fdr.cut=0.01, logFC.cut=1)对原发肿瘤和实体组织正常标本进行差异表达。
对于基因集合的富集分析,我们使用了TCGAanalyze_EAcomplet功能,该功能允许我们获得基因本体(GO)的生物过程、细胞成分和分子功能,以及富集通路。
Results and Discussion
GBM疾病中不同自动编码器的性能
GBM是使用多视角学习进行亚型检测研究最多的癌症。然而,在不同的数据集上采用不同的计算方法检测出了不同数量的子类型(图3和图4)。作者通过mRNA、miRNA和DNA甲基化数据在215名TCGA患者中发现了三种亚型。而GBM分为以下四种亚型:(a)经典型,(b)间充质型,(c)神经型,(d)神经前型。我们预测3为最佳聚类数。所有8个自动编码器都获得了较高的silhouette得分(>0.8),而PAM/Spearman的变分自动编码器在log-rank测试中获得了最低的p值。
图 3
图3表示的是数据集的K-means生存分析的结果。(上图):三个确定集群的Kaplan-Meier生存曲线。log-rank检验证实了聚类间生存特征的差异;(下图):患者与患者之间的相似性和聚类结果。
图 4
图4表示的是基于数据集的PAM生存分析的结果。(上图):三个确定集群的Kaplan-Meier生存曲线;(下图): 患者与患者之间的相似性和聚类结果。
COAD疾病中不同自动编码器的性能
对于COAD,基于silhouette score,我们预测出最优簇数为3(图3和图4)。四种不同的自动编码器(Vanilla and variational autoencoders)在三个集群中获得了较高的silhouette score。带有PAM/Spearman的Vanilla autoencoder获得了最高的silhouette score 0.96。我们还观察到这些集群之间的生存概况有显著差异p=0.05。此外,所有其他自编码器在K=3时也检测到生存时间的差异。
不同相似度的影响
计算患者与患者之间的相似性度量是亚型检测的关键步骤。我们可以使用不同的相似性度量来检测子类型,其性能可以根据数据集的不同而不同。这里我们观察到,使用Spearman距离的PAM聚类通常优于使用欧式距离的k-means聚类。基于silhouette score的PAM与Spearman的聚类效果更好。然而,使用k-means/欧氏距离的聚类通常显示出较低的生存差异p值。
监督特征选择的效果
对于KRCC和COAD数据集,大多数自动编码器在聚类之间的生存剖面没有显著差异。因此,我们选择了有监督的特征选择算法COX来选择输入特征。COX模型是一种基于患者生存状态选择基因的监督模型。我们观察到使用这种方法的聚类之间生存差异的p值有显著改善。
与其他亚型检测方法的比较
接下来,我们将自动编码器的子类型检测结果与其他四种常用的数据融合技术:主成分分析(PCA)、核主成分分析(kernel PCA)和稀疏主成分分析(sparse PCA and SNF)进行比较。主成分分析是一种常用的降维方法。不幸的是,PCA在亚型检测方面表现不佳。用Spearman相关分析确定的聚类在生存时间上没有显著差异(图5)。SNF是另一种流行的数据融合方法。SNF在亚型检测方面表现出与自动编码器相当的性能(图6)。然而,SNF有一些额外的超参数,并且结果对超参数的选择很敏感。
图 5
图5表示的是主成分分析结果,(A)主成分分析(PCA)结果;(B)核主成分分析(KPCA)结果;C)空间主成分分析(SPCA)。结果在各子图中(上图):所鉴定群体的Kaplan-Meier生存曲线。(下图): 患者与患者之间的相似性和聚类结果
图 6
图6表示的是相似网络融合(SNF)结果。在每个子图中(上图):确定的聚类的Kaplan-Meier生存曲线。(下图): 患者与患者之间的相似性和聚类结果
检测亚型的差异表达与富集分析
基因本体(GO)和KEGG通路的富集显示GBM和对照样本在4个自编码器识别的亚组上存在大量差异表达基因。基因与细胞成分、生物过程和分子功能的关系如图7所示。为了提高结果的可靠性和准确性,我们采用了以下选择标准:(i) p-value < 0.05, (ii) reads count≥6 (0 - 12),(iii)所有自动编码器的结果共享,(iv)至少属于两个聚类。
图 7 A)分子功能,(B)细胞成分,和(C)生物过程
Conclusions
近年来,深度学习自动编码器在多视角数据融合和癌症亚型检测方面显示出了巨大的潜力。在这里,我们比较了TCGA数据库中用于四种癌症亚型检测的四种正则化自动编码器。在这里,我们比较了TCGA数据库中用于四种癌症亚型检测的四种正则化自动编码器。虽然不同的自编码器在不同的数据集上表现出不同的性能,但在vanilla autoencoder 和 variational autoencoder表现出最好的检测子类型的性能。我们还观察到PAM/Spearman相似性比k-means/Euclidean聚类表现出更好的性能。通过比较四种自动编码器的结果,我们预测了四种癌症类型的最佳亚型数。此外,对所鉴定的亚型进行DE分析,发现了关键基因和通路。