基于基因突变ML模型对CRC患者的治疗反应进行分层和预测(IF6+)

Gene-Mutation-Based Algorithm for Prediction of Treatment Response in Colorectal Cancer Patients

基于基因突变的算法用于预测结直肠癌患者的治疗反应

发表期刊:Cancers (Basel)

发表日期:2022 Apr 18

DOI:  10.3390/cancers14082045

期刊相关信息

一、背景

        结直肠癌(CRC)是全球最流行的癌症之一,也是癌症相关死亡的主要原因,初次诊断的患者中约有20%患有转移性CRC(mCRC)。病理评估的高变异性限制了它们的临床准确性,并造成了有针对性的治疗决策和预测治疗结果的错误。重要的是要考虑到CRC的高度异质性和复杂性,特别是mCRC的原发和转移性病变,在多个致癌基因中存在功能增益突变,在多个肿瘤抑制因子中存在功能缺失,这些都参与了增殖、生存和侵袭。

        基于机器学习(ML)的算法和通过使用CT或MR成像和切片上的组织形态学开发的模型在临床决策中变得有用。目前,基于ML的预测模型已经成为预测CRC疾病转移和治疗反应的有力工具。新技术的快速发展使我们能够从每个病人的原发肿瘤中获得大量的基因组、表观基因组和影像学数据,基于人工智能的ML工具不仅对数据处理而且对癌症的早期检测和预后也特别有用。

二、材料与方法

1.数据来源

1) 结直肠癌MSK队列:从cBioportal获得了471名在纪念斯隆凯特琳医院治疗的不可切除的结直肠癌(CRC)患者的数据

2) TCGA Firehose Legacy的结直肠癌队列:在随访的221名患者中,共有191名有基因突变和治疗后癌症进展/复发的信息,组成了TCGA队列

2.实验流程

图1    实验流程

三、实验结果

01、开发7种基因的算法

        由于RAS-RAF-MEK-ERK和PI3K/Akt/PTEN/mTOR途径的基因突变以及TP53和APC主要参与CRC治疗反应,作者想研究这些途径的基因突变情况是否可用于预测治疗反应。治疗后的疾病进展是治疗反应的一个主要指标;因此,研究了是否可以建立一个基于基因突变的ML模型作为生物标志物,在诊断场合对CRC患者的治疗反应进行分层和预测。根据MSK队列中447名患者的临床数据,将患者分为两个亚组:(i)应答组:患者在50个月内一线化疗后没有疾病进展;(ii)无应答组:患者在50个月内一线化疗后出现疾病进展。然后利用随机森林机器学习分类筛选,测试候选基因的各种突变情况组合是否能够区分应答者和非应答者。一种被称为7-基因算法的算法由七个基因的突变谱组成:KRAS、BRAF、ERBB2、MAP2K1、TSC2、TP53和APC,与所有其他基于基因突变的测试算法相比,使用逻辑回归分析确定的分类准确率最高。7-基因算法的敏感性为83%,特异性为98%,区分应答者和非应答者的表现准确性AUC为0.98(图2A)。

        作者比较了7-基因算法与临床和病理风险指标之间的表现准确性,包括癌症分期、辅助治疗、原发肿瘤的手术和MSI。Logistic回归分析显示,癌症分期对区分应答者和非应答者的效用AUC值为0.5(图2B)。辅助治疗的敏感性为0%,AUC为0.41;原发肿瘤手术的敏感性为0%,AUC为0.41;MSI的敏感性为0%,AUC为0.34(图2C-E)。当7-基因算法与所有这些参数结合在一起时,癌症分期、辅助治疗、原发肿瘤手术和MSI,其敏感性和AUC值仍与单独的7-基因算法相似(图2F)。这些数据表明,7-基因进展算法作为区分一线化疗应答和无应答的分类器具有统计学意义;但是,当使用临床和病理指标,包括癌症分期、辅助治疗、原发肿瘤的手术和MSI作为分类器对患者进行分层时,没有统计学意义。

图2    ROC曲线

02、评估7-基因算法用于预测MSK队列治疗后的无进展生存期

        为了评估7-基因算法是否可以作为生物标志物来预测MSK队列的无进展生存期(PFS),作者进行了对数秩分析。K-M图显示,根据7基因算法评分分层的亚组之间的PFS存在统计学上的显著差异。诊断时原发肿瘤的7基因算法评分高的患者与得分低的患者相比,PFS明显较差(图3A)。

        接下来,研究了临床和病理指标,包括癌症分期(I/II期与III/IV期)和辅助治疗(治疗与不治疗),原发肿瘤的手术(手术与不手术),以及MSI类型(稳定与不稳定),是否可以用来预测MSK队列的PFS。K-M图与log-rank分析显示,根据癌症分期、治疗方法和MSI类型的状况分层的亚组之间的PFS没有统计学上的显著差异(图3B,C,E),而根据原发肿瘤的手术状态分层的亚组之间有小的但有统计学意义的差异(图3D)。

图3    K-M生存分析

        作为与该算法的比较,作者研究了7-基因算法中每个单独基因的突变状态是否可用来预测PFS。进行了K-M分析,比较诊断时确定的原发肿瘤中每个基因有突变型和野生型的患者的PFS。根据每个基因突变状态分层的突变组和WT组之间的PFS没有统计学上的显著差异。同时,原发肿瘤中BRAF或APC突变的患者与这些单个基因为WT的患者之间存在着统计学上的显著差异。这些数据表明,与MSK队列中的每个单独基因相比,7-基因算法可能被用作预测无进展生存期(PFS)的生物标志物,具有更好的精确性。

        作者进一步进行了点阵图分析,以说明7-基因算法的分类分数在MSK队列中治疗应答和无应答病人之间的分布。该图显示两组患者之间的7-基因算法得分有统计学上的显著差异(图4)。综合来看,逻辑回归分析、Kaplan-Meier图和点阵图的结果是一致的,表明7-基因算法作为预测治疗反应的生物标志物的准确表现。

图4    7-基因算法作为区分患者亚群的分类器的性能的点阵分析

03、7-基因进展算法用于预测治疗后的进展情况

        为了进一步评估7-基因算法是否可以作为独立的预测性生物标志物来预测首次诊断时CRC的治疗反应,作者根据MSK队列的PFS进行了单变量和多变量的Cox比例风险回归分析。单变量分析显示,7-基因算法对PFS的预测能力,如用风险比(HR)表示,为7.5;而癌症分期的HR值为1.3,辅助治疗的HR为1.1,手术的HR为0.8,MSI的HR为0.7。这些数据表明,与其他临床和病理指标相比,7-基因进展算法的HR要高得多,在预测PFS方面具有统计学意义。为了进一步证实7-基因算法对PFS的预测价值与临床指标的关系,进行了多变量的Cox分析。7-基因算法作为一个独立的生物标志物预测PFS的HR为8.9,而癌症分期的HR为1.1,辅助治疗的HR为1.1,手术的HR为0.7,MSI的HR为0.6。这些结果表明,7-基因算法有很大的潜力作为PFS的预测性生物标志物。

对7基因算法和临床病理学因素的单变量和多变量Cox回归分析

04、7-基因进展算法用于预测治疗后的进展情况

        为了验证7-基因算法对治疗后进展的预测,作者使用了一个有119名患者的TCGA队列(图1)。在这个队列中,119名患者中有30人对治疗有反应,没有进展/复发。使用与MSK队列相同的随机森林机器学习算法,利用7个基因的突变情况,将每个患者分为无进展的治疗应答或有进展的治疗无应答。逻辑回归分析显示,7-基因算法在区分应答和无应答患者群体方面表现出很高的准确性,敏感性为96%,特异性为77%,AUC为0.97(图5A)。与在MSK队列中观察到的情况类似,临床和病理参数,包括癌症分期、新辅助治疗、手术和MSI,在区分应答者和非应答者方面没有表现出高的特异性和高的AUC值(图5B,C)。通过使用7-基因算法与上述所有临床指标相结合,进行逻辑回归分析。数据显示,在TCGA队列中,7-基因算法与所有临床指标一起使用,在区分治疗的应答者和非应答者方面的表现仍与单独使用7-基因算法相似(图5D)。

图5    ROC曲线

        为了进一步验证7-基因算法作为治疗反应预测性生物标志物的性能,使用TCGA队列进行了K-M分析。与使用MSK队列观察到的情况类似,诊断时原发肿瘤中7-基因算法得分高的患者与得分低的患者相比,其PFS明显较差(图6A)。作者研究了临床和病理指标,包括癌症分期(I/II期与III/IV期)和辅助治疗(治疗与不治疗),是否可用于预测TCGA队列的PFS。K-M图与对数分析显示,根据癌症分期或治疗方法的状态分层的亚组之间的PFS没有统计学上的显著差异(图6B,C)。

图6    K-M生存分析

        作为比较,在MSK和TCGA队列中,也通过K-M图评估了算法中七个基因的突变状态对PFS的预测能力。在这个队列中,KRAS、ERBB2、TSC2和TP53的突变对PFS没有统计学意义,WT MAP2K1和MAP2K1突变患者的PFS有明显差异。结果显示,大多数单个基因突变没有表现出统计学意义,无法对患者的PFS进行分层。

        为了进一步验证7-基因算法作为TCGA队列中治疗反应的预测性生物标志物的性能,作者在TCGA验证队列中进行了单变量和多变量的Cox回归分析。在单变量分析中,7-基因算法的HR所显示的PFS的预测能力为16.9,而癌症分期的HR为1.2,辅助治疗的HR为3.0×10−7。在多变量分析中,调整了癌症分期和辅助疗法后,7-基因算法的HR值为16.9,这与单变量分析相似。癌症分期和辅助治疗的HR值在单变量分析中也相似。有趣的是,7-基因算法预测PFS的HR值在TCGA队列中比在MSK队列中高。与在MSK队列中观察到的情况类似,TCGA队列中的点阵图显示,治疗应答和无应答的7-基因算法分类得分有统计学上的显著差异(图7)。这进一步显示了7-基因算法区分进展期和非进展期患者的能力。TCGA队列的所有评估结果与MSK队列获得的结果一致,证实了7-基因算法在预测治疗后癌症进展方面的高准确性。

图7    7-基因算法作为区分患者亚群的分类器的性能的点阵分析

05、预测mCRC患者治疗反应的7-基因算法的评估

        在471名CRC患者中,有388名患者在MSK队列中有转移性疾病。在临床实践中,没有预测性生物标志物可用于预测mCRC患者的治疗反应。因此,作者想研究7-基因算法是否可用于预测这388名mCRC患者的反应。进行了K-M图和对数排名分析,发现在mCRC队列中,根据7-基因算法得分分层的亚组之间的PFS存在统计学上的显著差异。在诊断时原发肿瘤中7-Gene Algorithm得分高的mCRC患者与得分低的患者相比PFS明显较差(图8A)。与在MSK队列总人口中观察到的情况类似,通过使用病理指标分层的亚组之间的PFS没有统计学上的显著差异,包括癌症分期(I/II期与III/IV期)和辅助治疗(治疗与不治疗)(图8B,C)。同时,按原发肿瘤使用手术(手术与不手术)和MSI类型(稳定与不稳定)分层的亚组之间的PFS差异很小,但有统计学意义(图8D,E)。

图8    K-M生存分析

        为了进一步评估7-基因算法是否可以作为一个独立的预测性生物标志物来预测mCRC患者在诊断场合的治疗反应,作者通过使用单变量和多变量的Cox比例危险回归分析来评估7-基因算法作为mCRC患者PFS的独立生物标志物的预测价值。单变量分析显示,7-基因算法对mCRC PFS的预测能力用HR表示为16.9。多变量分析显示,7-基因算法对mCRC PFS的预测能力为17.6,与癌症分期(I/II期与III/IV期)、辅助治疗(治疗与不治疗)、原发肿瘤的手术(手术与不手术)、MSI类型有关。这些临床指标在单变量和多变量Cox分析中都没有表现出作为mCRC患者PFS的预测性生物标志物的统计学意义。有趣的是,7-基因算法预测mCRC患者PFS的预测HR值远远高于其在MSK队列总人群中的预测HR值,这是用单变量和多变量分析确定的。7-基因算法可作为一种预测性生物标志物,在首次诊断场合对mCRC患者进行分层和预测治疗反应。

四、结论

        作者建立并比较了7-基因算法与现有的临床和组织病理学指标来预测CRC的治疗反应。这种生物标志物模型具有很大的优势,可以在大型患者群中进一步发展和验证。基于ML的算法的效用将对改善临床实践中的个性化医疗和降低CRC的死亡率有很大的好处。

你可能感兴趣的:(基于基因突变ML模型对CRC患者的治疗反应进行分层和预测(IF6+))