Nat Biotech | 多癌种免疫检查点阻断的改进
原创 huacishu 图灵基因 今天
收录于话题#前沿生物大数据分析
撰文:huacishu
IF=54.900
推荐度:⭐⭐⭐⭐⭐
亮点:
1、作者开发了一个机器学习模型,通过整合来自综合治疗队列(MSK-IMPACT)的基因组、分子、人口统计学和临床数据预测ICB反应;
2、该模型提供了对预测最显著模型特征的定量评估。这种方法将大大改善免疫治疗的临床决策,并为未来的干预治疗提供了有力帮助。
纪念斯隆-凯特林癌症中心(MSKCC)的临床医学科学家Timothy A. Chan团队在国际知名期刊Nat Biotechnol在线发表题为“Improved prediction of immune checkpoint blockade efficacy across multiple cancer types”的论文。癌症患者中只有一小部分对免疫检查点阻断(ICB)治疗有反应,但目前的决策程序的准确性有待商榷。在这项研究中,作者开发了一个机器学习模型,通过整合来自综合治疗队列(MSK-IMPACT)的基因组、分子、人口统计学和临床数据预测ICB反应,该队列共有1479名患者接受了16种不同癌症类型的ICB治疗。在回顾性分析中,该模型在预测免疫治疗的临床反应方面具有较高的敏感性和特异性,并在不同癌症类型的试验数据中预测了总生存率和无进展生存率。该模型明显优于基于肿瘤突变负担的预测,该预测最近得到美国食品和药物管理局的批准。此外,该模型提供了对预测最显著的模型特征的定量评估。这种方法将大大改善免疫治疗的临床决策,并为未来的干预提供了有力信息。
作者从斯隆凯特林纪念癌症中心(MSKCC)获得了16种不同癌症类型的1479名患者的完整临床、肿瘤和正常测序数据(图1a)。约37%的患者患有非小细胞肺癌(NSCLC),13%患有黑色素瘤,其余50%患有其他类型的癌症(以下简称“其他”),包括肾细胞癌和膀胱癌、头颈癌和结直肠癌(图1a)。这些患者接受PD-1/PD-L1抑制剂、CTLA-4阻断剂或两种免疫治疗药物的联合治疗。总共有409名患者的肿瘤对免疫治疗有反应,1070名患者的肿瘤在不同癌症中没有反应(图1a)。反应基于实体瘤(RECIST)中的反应评估标准或成像的最佳总体反应(方法)。出现完全应答(CR)或部分应答(PR)的患者被归类为应答者(R);经历稳定疾病(SD)或进展疾病(PD)的患者被归类为无应答者(NR)。使用美国食品和药物管理局(FDA)批准的MSK-IMPACT下一代测序平台(方法)对患者肿瘤进行分析。为了计算免疫治疗的反应概率,作者开发了一个集成学习随机森林分类器,具有16个输入特征(以下称为RF16)。在模型中纳入了基因组、分子、临床和人口统计学变量,其中一些先前报道与ICB反应相关。纳入的变量包括肿瘤突变负荷(TMB)、拷贝数改变分数(FCNA)、HLA-I进化分化(HED)、HLA-I杂合性缺失(LOH)状态、微卫星不稳定性(MSI)状态、体重指数(BMI)、性别、血液中性粒细胞与淋巴细胞比率(NLR)、肿瘤分期以及免疫治疗药物和年龄(方法)。此外,还包括癌症类型、患者在免疫治疗前是否接受化疗以及白蛋白、血小板和血红蛋白(HGB)的血液水平(图1b)。根据癌症类型将数据集随机分为训练子样本(80%,n=1184)(图1b),为此开发了预测算法和测试子样本(20%,n=295),在此基础上,评估了经过训练的分类器(图1b)。对训练数据进行了五次交叉验证,得出了基于二元分类(应答者和非应答者)的ICB反应预测模型(图1b)。由此产生的经过训练的模型将选定的临床、分子、人口统计和基因组特征的预测效果进行汇总,以得出癌症类型特异性免疫治疗反应概率。通过使用这种类型的模型,可以量化各种特征在多大程度上有助于解释患者对反应的差异(图1c)。这些估计值代表了各类预测因子对人群水平反应结果的贡献。在个体水平上,可以根据每个患者的反应概率对其进行评分(较高的值表示ICB反应的概率较高)。在比较反应预测的单一特征贡献时,TMB是发挥最大作用的预测因子(图1c),这与许多显示其与反应相关的独立研究是一致的。此外,化疗史对ICB反应的影响与TMB相似。值得注意的是,MSI状态没有被模型选为最重要的预测因素之一,这可能是因为它与TMB密切相关。此外,作者量化了白蛋白、血红蛋白和血小板水平对ICB反应的相对贡献(图1c)。已知这些血液标记物可提供系统性和潜在促瘤性炎症程度的信息,这些炎症已被证实作为肿瘤微环境的一个重要组成部分出现,因为它具有促进血管生成、转移和免疫抑制的潜力。尽管一些标记物与癌症患者的总体预后相关,但有趣的是,在这里,它们对ICB治疗本身的放射学反应作出了贡献。作者试图使用多种指标评估综合临床遗传模型的性能。为了评估将癌症类型、患者在免疫治疗前是否接受化疗以及血液标记物(白蛋白、血红蛋白和血小板)与影响ICB反应的其他变量相结合的预测能力,作者开发了第二个随机森林模型(以下称为RF11),仅包括变量FCNA、TMB、HED、NLR,BMI、HLA-I中的LOH、性别、年龄、MSI状态、肿瘤分期和药物类别。使用RF11模型作为RF16模型的参考,以确定包括以前未广泛用于预测ICB响应的附加变量的附加值(图1c)。由于TMB已被FDA批准作为预测实体瘤ICB疗效的生物标志物,作者还比较了综合RF16和RF11模型与仅基于TMB的预测的性能。
首先通过使用相应RF16和RF11模型计算的响应概率和TMB的连续值来计算接收器工作特性(ROC)曲线和精确召回曲线下的面积。综合RF16模型在预测不同癌症类型的应答者和无应答者时,在训练集(图1d)和测试集(图2a)中取得了优于TMB单独模型和RF11模型的性能,如曲线下面积(AUC)所示。在训练集和测试集中,RF16模型比TMB单独和RF11模型在精确召回曲线(AUPRC)下的面积更大。RF16的任何特征都不能单独达到RF16所达到的性能水平,这表明多个特征的非线性组合对整体预测性能的贡献程度不同(图1c)。此外,综合RF16模型计算的连续概率与试验组中肿瘤的反应显著相关(图2b)。在各种癌症中,有应答者和无应答者之间的应答概率差异显著高于有应答者和无应答者之间的TMB差异(图2b,c)。为了将RF16产生的连续概率分为预测响应者组和非响应者组,作者发现了优化训练集中ROC曲线敏感性和特异性的概率(图1d)。当概率值超过最佳工作点阈值时,患者将被视为“预测响应者”。在训练集中,不同肿瘤类型的概率分布显著不同。因此,我们通过分别优化每个癌症组(黑色素瘤、NSCLC和其他)训练集中的敏感性和特异性,将概率分为预测反应组和非反应组(图1d),从而显著解决了低敏感性或特异性问题。为了测试这些癌症特异性鉴别能力,将其应用于测试集的每个癌症组(图2d-g)。结果发现,与TMB单独使用相比,RF16模型的敏感性、特异性、准确性、阳性预测值(PPV)和阴性预测值(NPV)始终具有更高的预测性能(图2h)。特别是,RF16模型在非小细胞肺癌和其他癌症类型中的敏感性明显高于TMB(图2h)。在泛癌分析中,RF16模型的敏感性和特异性分别为76.67%和74.15%,而TMB单独在试验集中的敏感性和特异性分别为47.78%和75.61%(图2h)。综上所述,综合RF16模型以高精度预测ICB治疗的反应,如不同癌症类型的各种常见性能指标所示。此外,根据泛癌数据训练的RF16模型产生的反应概率分布与根据癌症特异性数据训练的单独模型产生的反应概率分布进行了比较。这些反应概率分布在训练集和测试集都具有统计相似性。与在测试集中根据癌症特异性数据训练的RF16模型相比,根据泛癌症数据训练的RF16模型具有更高的预测性能。因此,这些结果表明,在大型泛癌症数据上训练的RF16既能够学习癌症特异性关系,又能够概括可能与癌症相关的关系,从而在测试集中获得更高的预测性能。作者进一步比较了RF16与使用相同训练数据和相同模型特征进行模型校准的logistic回归的性能。在训练集和测试集,RF16模型在泛癌、黑色素瘤、NSCLC和其他肿瘤中的预测性能始终高于逻辑回归。
为了测试模型是否也能预测免疫治疗前的总生存率(OS),使用了Brier评分,该评分通过计算观察到的OS概率和预测OS概率之间的误差来量化一组预测的准确性。来自RF16的预测比基于参考(随机)模型、TMB单独或RF11的预测误差更小。进一步计算了OS的一致性指数(C指数),其范围在0到1之间(0.5表示随机性能)。在训练集和测试集,RF16预测的C指数显著高于TMB或RF11产生的肿瘤类型的C指数(图3a,C,e,g)。此外,与训练集和测试集中归类为无应答者的患者相比,RF16模型预测的应答者与更长的OS显著相关(图3b,d,f,h)。此外,在各种癌症类型中,RF16预测的有应答者和无应答者之间的OS差异明显高于TMB单独预测的有应答者和无应答者之间的差异(图3b,d,f,h)。在训练数据和测试数据中,RF16产生的无进展生存率(PFS)预测比预测的无反应者(图3j,l,n,p)准确得多,在各种癌症类型中,RF16预测的应答者和无应答者之间的PFS差异大于TMB单独预测的PFS差异(图3j,l,n,p)。总之,这些数据表明,机器学习方法能够在免疫治疗前准确预测反应、OS和PFS。此外,结果表明,ICB反应的准确预测需要一个综合模型,该模型包括遗传(种系和体细胞)、临床和人口统计学因素以及提示患者整体健康的血液标记物。每个模型特征都可以从血液和肿瘤组织DNA测序中轻松测量。此外,模型中使用的外周血标记物的值,如NLR、白蛋白、血小板和HGB,在临床上几乎所有的血液检测中都是常规进行的。该的模型的一个局限性是没有可用的转录组数据或肿瘤PD-L1染色,这是评估肿瘤微环境的重要信息。作者的分析为理解和量化免疫治疗反应的异质性提供了更精细的方法。同时分析显示,多种生物因素的非线性组合对反应有不同程度的影响。
这项研究中,在一个大型、具有临床代表性的不同癌症类型患者数据库上开发并测试了作者构建的模型。然而,该患者群体规模有限,不一定代表全球目标人群,需要在临床试验背景下对其他大型患者队列进行进一步测试,这将提供更准确的模型性能估计。作者预计,随着对分子数据的理解和可用性的提高,即将进行的前瞻性试验将使用类似的机器学习方法来改进现有的最先进的分类器。具体而言,肿瘤免疫微环境的分子特征;微生物组分;T细胞受体库的多样性;特异性肿瘤基因组改变,如DNA损伤反应和修复相关基因突变或与ICB耐药性相关的突变;转录组学数据可能进一步有助于提高预测性能。作者认为,这种定量模型将在精确免疫肿瘤学领域对改善患者预后具有重要意义。
教授介绍
Timothy A.Chan博士就职于斯隆凯特林纪念癌症中心,专注于免疫治疗研究,是癌症生物学和免疫组学方面的专家。Timothy A.Chan博士是NCI杰出研究员和美国医师协会(AAP)的当选成员。他在《自然》、《科学》、《新英格兰医学杂志》、《细胞》等杂志上发表了200多篇论文。他是细胞科学咨询委员会和弗雷德里克国家实验室/国家癌症研究所的成员。Timothy A.Chan博士实验室专门使用基因组分析来描述免疫治疗和肿瘤发生的遗传程序的驱动因素。这些方法包括大规模分析、功能基因组学、免疫基因组学、生化和分子分析以及小鼠建模。该实验室对解读免疫治疗反应、耐药性和潜在机制特别感兴趣。
参考文献
Chowell D, Yoo SK, Valero C, et al. Improved prediction of immunecheckpoint blockade efficacy across multiple cancer types. Nat Biotechnol.2021;10.1038/s41587-021-01070-8. doi:10.1038/s41587-021-01070-8