摘要:
乳腺癌是一种复杂的疾病,其有效治疗需要负担得起的诊断和分型特征。虽然机器学习方法在临床计算生物学中的使用仍处于起步阶段,但鉴定分子生物标志物的普遍方法仍然是通过差异表达分析筛选所有生物标志物。这些尝试中的许多尝试都使用了miRNA在乳腺癌中的表达数据,并导致该癌症中大量差异表达的miRNA。因此,尚未确定用于分类乳腺癌的最小miRNA生物标记集。诸如癌症基因组图谱之类的多种多样的癌症数据集的可用性促进了患者肿瘤的分子谱分析,并带来了新的挑战,例如根据大数据对临床等级进行解释。在这项研究中,来自TCGA数据库的乳腺癌患者的miRNA表达数据集被用于开发预测模型,从中可以识别出miRNA生物标志物以诊断和诊断该癌症。我利用基于树的分类模型的可解释性的优势来提取其规则并确定该癌症中最少的生物标志物集。获得了乳腺癌中的经验阴性对照miRNA,并将其用于标准化数据集。在我的分析中训练的基于树的机器学习模型使用hsa-miR-139和hsa-miR-183对正常样品中的乳腺肿瘤进行分类,并将hsa-miR4728和hsa-miR190b进行分类,以将这些肿瘤进一步分类为三种乳腺癌的主要亚型。除了提出的生物标志物,还介绍了乳腺癌分类中最重要的miRNA。
Tree-based machine learning algorithms identified minimal set of miRNA biomarkers for breast cancer diagnosisand molecular subtyping
Gene,2018
背景
公认的乳腺癌分类:luminal(estrogen-receptor and/or progesterone-receptor positive,HER2 negative), HER2-enriched(HER2 positive, ER and PR negative) and triple negative tumors (basal) (all receptors negative)
在这里,我着手在免费的乳腺癌TCGA miRNAseq数据集上使用基于树的机器学习算法并发现miRNA生物标记物可对乳腺癌的状态和亚型进行分类。
结果
1.对TCGA miRNA测序数据过滤后分为测试集和训练集
数据筛选:剔除超过10个样品中reads少于100的测序数据,以及测序数据中表型数据不明,缺乏临床信息
2.探索数据分析,检测批次效应
PCA和层次聚类分析探索数据的整体特征:使用患者临床信息中所有变量的相关性,包括主要变量(乳腺癌状态,其内在亚型和分期)以及来自TCGA的种族和性别等其他相关变量,来评估混杂因素的存在。尽管预计第一个主要成分与乳腺癌及其主要受体的状态高度相关,但种族和日期却是混杂变量,显示出与PC1和PC2密切相关。在进行机器学习前,需要移除批次效应。
3.通过DESeq2差异表达分析对乳腺癌进行计算机模拟经验阴性对照
癌症状态和癌症亚型被结合形成六个状态,其中所有的miRNA的统计学显着性测量通过DESeq2软件包进行计算。 p值大于50%的乳腺癌中表达差异最小的miRNA被用作计算机内经验阴性对照,用于以下标准化。即p>0.05的miRNA被用于阴性对照。
4.使用阴性对照miRNA消除变异因素以标准化数据
RUVseq方法用于从miRNAseq数据中删除不需要的变异并进行标准化。 先前从训练数据集中获得的阴性miRNA分别用于训练和测试数据集。 仅训练数据集用于随后的探索性数据分析。通过PCA图和分层聚类进一步探索MiRNAseq归一化计数,以混淆因素并评估生物学效果。 以前发现的miRNAseq数据原始计数中的批处理效应在PC1和PC2中不再明显,而重要的生物学变量(如雌激素受体状态)在主要PC中高度相关。尽管归一化之前样品的分层聚类导致某些癌组织与正常组织的错误聚类,但在去除批效应后,通过归一化计数的聚类分析解决了这一问题(图3)。
5.通过综合少数族裔过采样技术(SMOTE)处理TCGA数据的类不平衡
由于并非所有TCGA肿瘤样本都与它们自己的相邻实体正常组织配对,因此大多数样本都是肿瘤。此外,由于HR +乳腺癌的总体优势,与其他乳腺癌亚型相比,富含HER2的基础型和基础亚型的发生频率较低。这使除了富含HER2的乳腺癌和基底性乳腺癌之外,其他正常情况也属于少数事件,这会影响机器学习模型及其性能(图5. a)。为了缓解此问题,使用了过采样方法(SMOTE),其中通过创建合成样本对少数类别(肿瘤正常分类中的正常病例和富含内在亚型分类的HER2)进行过采样。从正常和亚型鉴定中对肿瘤分类的训练数据集和测试数据集分别进行了此处理。绘制所得训练数据集的PCA图,以确保保留具有不同癌症状态的样品的分离(图5. b)。
6.使用分类树的算法对乳腺癌状态进行建模,获得两个互补的miRNA
三种分类树(random forest, Rpart and treebag)算法对标准化的miRNAbalanced后进行建模分析。计算每个特征在建立分类模型中的重要性,并比较结果以检查哪些miRNA在各个模型中始终很重要。 在所有三个模型中,hsa-miR-139和has-miR-96一直很重要。 同样,从所有三种基于树的机器学习算法中对实体组织正常的乳腺癌肿瘤进行分类的十个最重要的miRNA是hsa-miR-139、96、145、183、592、204、125b.2、21、141和125b .1。从rpart训练模型中提取分类树的简单规则,如图7所示。hsa-miR-139和has-miR-183是区分乳腺癌肿瘤样品和正常肿瘤的唯一特征。 has-miR-193的高表达(> = 421)和hsa-miR-183的低表达(<22e + 3)确保样品正常(图7a)。 尽管此树模型仅使用两个功能,但其在测试数据集中对癌症状态进行分类的性能很高(图7b)。
Fig6
Fig7
7.仅用两个miRNA特征可以对乳腺癌的亚型进行分类
通过随机森林算法对miRNAseq训练数据集的所有肿瘤病例进行分类,以从模型中的所有树木中获得最重要的miRNA。 根据我的模型,用于分类三种主要乳腺癌亚型的最有价值的miRNA是hsa-miR-4728、190-b,342、135b,577、224和375(图8)。
尽管随机森林模型的性能高于rpart,但来自随机森林模型的单个树的信息少于rpart模型的主要树。 因此,我们还应用了rpart模型并提取了rpart模型的规则。像受过训练可以对癌症状态进行分类的人一样,用于对乳腺癌亚型进行分类的Rpart模型也很简单并且提供了很多信息。 富含HER2的乳腺癌样品的特征在于被表达的hsa-miR-4728(<16)。 在没有hsa-miR-4728表达(<16)的样品中,hsa-miR-190b(> 15)的表达将乳腺癌样品分类为腔类型,缺乏其表达(<15)则将其标记为基础。
讨论
1在分类之前消除不必要的变化可改善模型训练和机器学习模型的性能
为了准确推断miRNA的表达水平,对miRNAseq数据进行归一化是典型的。为此,应在分析之前从数据中删除现有的系统变异源。这些变异包括样本差异之间和之内以及除感兴趣的生物变异以外的其他来源所引起的有害变异[16]。批处理效应的消除是标准化的重要方面,但经常被忽略[5]。当生物组没有划分为实验室和技术人员等处理组时,就会出现批量效应。 miRNA测序等高通量技术的优势在于可以提供足够的数据来检测和消除批次效应。 Cava等。在TCGA乳腺癌数据集中,我们将随机森林分类算法应用于miRNA和mRNA表达数据,但是,批次效应的去除被忽略。
在这项研究中,我们使用了TCGA乳腺癌患者临床数据中提供的表格准备日期来证明乳腺癌TCGA miRNAseq数据的批量作用。不用说,该变量只是其他变异来源的替代品,例如测序平台。在数据集中检测到明显的批处理效果可能是因为样品是在不同的实验室(可能是通过不同的测序技术和平台)进行处理和测序的。
不需要的变异的因子分析只能在已知变异来源的情况下进行,并且由于检测到的批次效应不是数据集中唯一的不需要的变异来源,因此我选择借助阴性对照miRNA去除不需要的变异。由于已知阴性对照miRNA的表达与感兴趣的生物学效应无关,因此在实验设计中假定它们的变异是不需要的。对该变异进行因子分析以使miRNAseq表达标准化,并通过在标准化后进行进一步的聚类和PCA分析来确认其去除。我还目睹了标准化步骤后,模型训练和训练模型的性能均得到改善。
2 基于树的机器学习算法为三种基本乳腺癌亚型的分类找到了最少的标记集:管腔型,her2富集型和基础型。
由于乳腺癌是用于生物标记发现的研究最多的癌症之一,因此该癌症中许多差异表达的miRNA已通过miRNAseq数据集的差异表达进行了检测,其中一部分已通过实时PCR进行了验证[24]。这些研究中的假阴性和阳性结果可能分别是这些研究中小样本量和批次效应的结果。由于乳腺癌中存在大量差异表达的miR,因此无法鉴定出最小的miRNA生物标记物集来有效地对乳腺癌状态及其亚型进行分类。以前使用差异表达的研究引入了miRNA的特征来诊断乳腺癌。这些小组包括let-7a,miR-145、205,miR-21,miR-155,miR-191,miR-196a和miR-125b,miR-221,用于诊断组织样本中的乳腺癌。在本研究中,miR-145,miR-21和miR-125是检测到的从非肿瘤分类中重要的miRNA [24]。 Parker等人还提出了50个基因的亚型预测,即微阵列预测分析(PAM50)。通过整体学习,将METABRIC数据集的肿瘤样本分配给先前使用单一分类器方法(PAM50)定义的乳腺癌亚型(腔A,腔B,富含HER2的正常或基底样)。 Bhattacharyya等针对乳腺癌的状态和亚型使用了五种分类算法,并为所有分类测试报告了中等准确度值[27]。这项研究试图确定乳腺癌分类中最少的生物标志物,同时保持分类试验的准确性。 针对这一挑战的拟议解决方案是使用更大的数据集,消除不必要的变异并将管腔A和B亚型合并为管腔亚型。 与提到的研究不同,仅使用了四个miRNA特征来检测乳腺癌并确定其亚型。
3 拟议的miRNA生物标志物在乳腺癌检测和亚型鉴定中的支持证据。
通过基于树的分类方法(图6),从正常的乳腺癌分类中认为重要的所有miRNA(包括用于rpart模型构建的两种miRNA)均已通过实时PCR进行了实验验证,可以在以前的乳腺癌样品中差异表达实验研究[28,29,30]。在癌细胞组织中,hsa-miR-183、592、96、21、141已被上调,hsa-miR-125b.1被下调。此外,在乳腺癌血清样本中还进一步定量了hsa-miR-96和21的上调和hsa-miR-139,145,125b.1的下调[31,32]。
在部分癌症分类模型中使用的两种miRNA生物标志物是抑癌miRNA和oncomiR。 Hsa-miR-139除胃癌外,在胃癌和大肠癌中也被认为是一种抑制肿瘤的miRNA。该miRNA的过度表达已显示出抑制增殖并引起凋亡的作用。用于将乳腺癌与正常肿瘤分类的第二种生物标记物hsa-miR-183是一种oncomiR,它通过抑制整联蛋白来调节癌细胞的侵袭。hsa-miR-4728是rpart分类模型中第一个区分HER2内在亚型的miRNA,它是一种内含性miRNA,位于编码HER2受体的ERBB2基因中[33]。由于该miRNA与宿主基因共转染,因此许多研究报告其在HER2 +乳腺癌样品中的过表达并不奇怪。在rpart模型中,用于区分管腔内在亚型和基础亚型的miRNA生物标记物是hsa-miR-190-b,它被证明是ER +(与ER-相比)乳腺癌样品中最高的上调miRNA [34]。另外,腔A亚型和基底亚型已经与该miRNA的过表达和下调相关。 [35]