单基因纯生信分析套路 8+|单基因突变新思路2

昨天我们推出了单基因突变思路后,粉丝问是否还有不一样的东西。那么今天的推文肯定不负众望了。小编今天给大家带来了一篇Briefings in Bioinformatics(IF=8.9)杂志关于TP53突变的文章。对的,昨天今天研究的主角都是TP53突变,有想研究单基因的想法可以关注哦!


数据类型:

Chinese HCC patients with hepatitis B virus (HBV) infection (CHCC-HBV) cohort的基因表达数据,以及基因水平的蛋白质组数据。数据访问方式https://www.bio sino.org/node 和 https://proteomics.cancer.gov/programs/cptac。日本乙型肝炎病毒/丙型肝炎病毒患者(LIRI-JP项目)的基因表达数据(原始计数),体细胞突变数据和临床数据(https:// dcc.icgc.org/projects/LIRI-JP)肝癌基因组图谱(TCGA-LIHC)队列包括373例HCC患者,具有多组学数据以及对应的临床信息。

 

主要模型:

随机森林预测模型


背景调研:

抑癌基因TP53的突变是肝细胞癌(HCC)中最常见的基因改变,平均TP53发生突变的频率为30%。野生型p53蛋白在DNA损伤后细胞周期调控和细胞凋亡中起关键作用。与野生型TP53的HCC患者,TP53突变总生存期(OS)和无复发生存时间较短。

有分析意向(http://gaptechsxr.mikecrm.com/1vdMmqy)生信人WX公众号

要点概述:

•使用机器学习方法解决TP53突变型肝癌样本数量有限的问题。

•本研究强调了开发TP53突变型肝癌特异性预后模型的重要性。

•预后特征不仅可以用于预测生存率,还可以用于提供个性化治疗策略。

•最终确定了三个治疗靶点(CANT1, CBFB和PKM)和两种最有前途的药物(伊立替康和YM-155)可以用于治疗TP53突变型肝癌。


研究方法:

>>> 从GEO下载GSE14520(包括221例基于GPL3921平台的HCC样本)和GSE76427(包括115例基于GPL10558平台的HCC样本)。使用R包分别进行数据归一化处理(Affy&lumi)。另一个队列E-TABM-36的原始转录谱分析数据从ArrayExpress芯片数据库下载。


>>> 从Broad Institute-CCLE 获取人类癌细胞(CCLs)的表达谱数据和体细胞突变数据。从DepMap获取全基因组的739个细胞系18333个基因的CRISPR敲除筛选出来的CERES分数。该评分用于衡量相关基因对某些CCL的依赖性,分数越低,表明该基因对特定CCL的细胞生长和存活可能更重要。CCLs的药物敏感性数据来自https://portals.broadinstitute.org/ctrp和PRISM( https://depmap.org/po rtal/ PRISM /)。用于测量药物敏感性的曲线(曲线下面积- auc)值曲线下面积(AUC)值越低,说明对处理的敏感性越高。采用k-NN (Knearest neighbor, k-NN)法对缺失的AUC值进行了归算。在估算之前,排除了缺失数据超过20%的化合物。


>>> 如果变量是正态分布的,则使用参数检验(学生t检验或方差分析)或非参数检验(Wilcoxon秩和检验或Kruskal-Wallis检验)进行两组或两组以上连续变量的比较。两个连续变量之间的相关性通过皮尔逊的r相关或斯皮尔曼的秩序相关来衡量。使用Cox回归模型估计生存计算HR。生存分析采用Kaplan -采用Meier法和log-rank检验确定差异有统计学意义。使用timeROC R包计算ROC曲线下的时间依赖面积。采用pec - R软件包计算时间依赖一致性指数(C-index)。NTP用于预测先前发表的数据肝细胞癌的分类基于所提供的亚类的特定特征。所有统计分析,双尾,P <0.05被认为是显著的。


研究结果:

>>>研究概述

图1A显示了研究设计流程图。共有1135例HCC患者来自6个临床队列(CHCC-HBV, LIRI-JP, TCGA-LIHC, GSE14520,本研究对GSE76427和E-TABM-36进行了回顾性分析。其中男性863例(76.04%)女性272 (23.96%);诊断时的中位年龄为60岁(范围:14-93岁;在其他分析中,年龄的临界值设置为55岁)。1116例患者有预后信息,799例患者有TP53突变状态。对780例患者可用的预后和TP53突变信息,统计预后差异。结果显示,两组患者的预后有显著差异,TP53野生型患者的中位生存时间(MST)更长(MST = 81.87个月,95%置信区间[CI]: 64.51-99.22个月)优于突变组(MST = 46.57个月,95%CI: 39.82-53.31个月,P <0.001),与既往研究结论一致(图1B)。

 (图1.研究概述)

单基因纯生信分析套路 8+|单基因突变新思路2_第1张图片

 

>>>基于转录组数据,提出预测TP53变异稳健模型

先利用RF方法在联合RNA-seq队列上构建了TP53突变预测的稳健模型。该预测模型的预测精度达到了在训练队列(结合RNA-seq队列)和在独立验证队列(E-TABM-36)中占93.2%。ROC曲线也用于评估模型的性能曲线下面积(AUC)接近1,表明在模型的极低假阳性率下具有很高的灵敏度。该模型在训练队列中AUC为1.00,在验证队列中AUC为0.96,表明该模型的性能足够有效TP53在其他转录组中的突变预测。接下来,我们将该模型应用于GSE14520和GSE76427来鉴定估计的tp53突变样本。然后将这些样本合并为一个去除批处理效应的联合队列(n= 124)。将RNA-seq联合队列中的TP53突变样本作为训练集,联合GEO队列中估计的TP53突变样本作为独立测试集。


>>>开发17个基于PPSTP53突变HCC基因集

预后特征使用267名具有临床信息的tp53突变型HCC患者在RNA-seq的队列,首先进行单因素cox比例风险回归分析,初步鉴定出与OS相关的1630个基因(P <0.01)。使用bootstrapping方法,在900多个bootstrap迭代中,我们进一步鉴定出709个与预后稳定相关的基因。接下来,我们使用基于最小深度(minimum depth, MD)的随机生存森林(random survival forest, RSF)方法选择与预后相关的最重要特征。RSF分析重复1000次,认为模型中c指数值最大的17个基因集为PPS,保留以供进一步研究。使用Coxmultivariate regression model计算签名基因的Cox回归系数,将每个样本的PPS得分定义为每个PPS基因乘以他们的回归系数之和。


分别对TP53的mRNA表达与17个PPS评分进行了相关性分析,并与17个基因相关的PPS mRNA表达进行了相关性分析。用GOSemSim软件包对这18个基因进行了功能相似性分析。


>>>评估PPS预后潜力

在Kaplan-Meier生存分析中,根据PPS评分的中位数将训练组和测试组的患者分为PPS评分高组和PPS低评分组(其他病例为除非另有说明,PPS一直被视为连续变量)。两组间预后均有显著差异, PPS低评分组MST较PPS高评分组更长(图2A和B)。首先使用所有临床变量进行单变量分析,使用单变量分析中P值<0.05的变量构建多变量Cox模型。多变量分析中具有统计学意义(P<0.05)的变量被认为是独立的预后因素.在所有四组中,在调整预后相关的临床变量(CHCC: HR= 1.28, 95% CI = 1.09-1.51,P = 0.003;LIRI: HR = 1.89, 95% CI = 1.33-2.70, P <0.001;LIHC: HR= 1.50, 95% CI = 1.11-2.03, P = 0.009;结合GEO队列:HR= 1.45, 95% CI = 1.07-1.97, P = 0.016)。


>>>不同的变异类型在亚组中评估PPS预后效应

考虑到不同的TP53突变类型可能在肿瘤发生中有不同的作用,文章进一步将患者分为RNA-seq队列分为两个亚组,灭活突变亚组和和其他非沉默突变亚群。时间依赖性ROC分析结果表明,在两种失活突变中,PPS的AUC平均值均高于其他三种种群标记亚组(PPS: 0.834 vs Liu: 0.759, Li: 0.734, Yan: 0.668)和其他非沉默突变亚组(PPS: 0.736 vs Liu: 0.650,图2E)这些结果表明PPS在具有不同突变类型的亚群中仍能保持良好的预测性能。

单基因纯生信分析套路 8+|单基因突变新思路2_第2张图片

(图2. 17个基因PPS的预后值评估)


>>>评估TP53野生型患者PPS预后效应

评估PPS在TP53野生型患者中的预后潜力。计算RNA-seq队列和GEO队列中每个TP53野型患者的PPS评分,采用对数秩检验确定PPS评分中位分层的患者的预后差异。在RNA-seq队列中, PPS高评分组的预后明显差于PPS低评分组。然而,在GEO队列中,两组间无统计学意义。


>>> PPS与HCC分子和临床特征的相关性

使用NTP方法进行基于亚类特异性签名的亚类预测,并比较不同亚类间PPS评分的差异。相关研究证实这些亚类的预后较差,这与它们PPS评分较高的特点一致。CHCC、LIRI、LIHC及GEOPPS患者与常规临床特征的关系(图3A)。在所有组群中,临床分期越深(包括BCLC和TNM分期系统),PPS评分越高。此外,年龄、肿瘤血栓、肿瘤大小、AFP水平等其他临床特征也与PPS相关(图3B、C)。

单基因纯生信分析套路 8+|单基因突变新思路2_第3张图片

(图3. PPS与HCC分子和临床特征的相关性)

 

>>>确定PPS相关的生物学过程

基于转录组的病理改变分析和基于蛋白质的基因集富集分析(GSEA)。首先,使用TP53突变肿瘤和成对正常样本的表达谱以及pathway deregulation score(PDS)进行病理改变分析。对PDS与PPS评分进行相关分析,并对具有正相关系数的生物学过程进行分析。结果表明,增殖相关过程如Myc targets v1、Myc targets v2和代谢相关过程如糖酵解、脂肪酸代谢、胆汁酸代谢与不良预后的相关性最高(图4)。对CHCC队列(93个TP53突变患者)的蛋白质组学数据进行GSEA以验证上述结论。首先计算PPS与8456个基因水平的蛋白丰度的相关系数,然后以相关系数列表为输入进行GSEA。结果表明,具有正相关系数的蛋白在增殖相关过程中富集,包括E2F targets, G2M checkpoint , Myc targets v1和 Myc targets v2,而负相关系数是富含蛋白质代谢相关流程,包括氧化磷酸化、胆汁酸代谢和脂肪酸代谢。

 

>>>确定高PPS分数的HCC潜在药物靶点

在高PPS评分患者中,与PPS呈正相关的蛋白可能具有潜在的治疗意义。根据收集的6125个化合物的靶点信息,通过两步分析来寻找候选靶点,从而为预后不良的tp53突变患者寻找潜在的药物治疗靶点。首先计算可给药蛋白表达水平与PPS的相关系数,筛选出163个相关系数大于0.30的蛋白靶标(P <0.05)。接下来,通过对TP53突变型肝癌细胞系的CERES评分和PPS评分进行相关性分析,我们进一步筛选出43个预后依赖不良靶点(Spearman’s r <−0.5和P <0.05) (图4D和E)。包括ABCC1, CANT1,CBFB, CTSG和PKM通过以上两种分析识别。另外,在大多数肝癌细胞系中,ABCC1和CTSG的CERES评分均大于零,说明ABCC1和CTSG在HCC中可能不是必需的。其余三个基因CANT1、CBFB和PKM被认为是潜在的治疗靶点,这意味着在高pps评分患者中抑制这三个基因的功能可能会获得良好的治疗效果。

单基因纯生信分析套路 8+|单基因突变新思路2_第4张图片

(图4. 鉴定与PPS相关的生物学过程和药物靶点)

 

>>>估计临床样本的药物反应

CTRP和PRISM数据集包含了数百个CCLs的基因表达谱和药物敏感性谱,可用于构建药物反应的预测模型。这两个数据集共有160种化合物。去除重复后,共得到1770个化合物(图5A)。排除了超过20%的样本和来自造血和淋巴组织的细胞系中含有NAs的化合物。最后,CTRP数据集含有654个CCLs和354个化合物,PRISM数据集中1291种化合物的和439 CCLs进行后续分析。用ISOpure算法消除非肿瘤成分的影响,该算法可以得到一个以非肿瘤表达谱为参考的纯化肿瘤表达矩阵。结果如图5B、C所示,纯化前,近一半(46.4%)间质标记物在肝细胞癌标本中表达水平高于肝癌标本细胞株(log2FC>1,调整P <0.05)。纯化后,未检测到纯化后的样品与细胞系间基质标记的差异表达,表明纯化后的表达谱不再受非肿瘤成分的影响。然后使用内置ridge回归模型的pRRophetic package,根据临床样品纯化后的表达谱预测其药物反应,得到各临床样品中各化合物的AUC值。

 

索拉非尼是一种治疗晚期HCCs的多靶点激酶抑制剂,用于研究索拉非尼的反应是否与临床疗效一致。最近的一项研究发现,PI3K-mTOR通路突变的患者(包括PIK3CA、PTEN、TSC1和TSC2)与PI3K-mTOR通路无突变的患者相比,索拉非尼治疗的临床获益率更低,预后更差。因此,根据其在PI3K-mTOR中的改变状态,将病人RNA-seq分为两组。采用Wilcoxon秩和检验比较两组索拉非尼的曲线下面积估计值的差异,结果显示PI3K-mTOR改变的患者曲线下面积估计值明显高于对照组(P = 0.008)。(图5D),与索拉非尼临床表现一致。


>>>高PPS评分的潜在治疗药物的鉴定

采用两种不同的方法来鉴别高PPS评分患者中具有较高药物敏感性的候选药物(图5 e)。分别使用CTRP和PRISMderived药物反应数据进行分析。首先,对PPS评分高(top十分位数)组和PPS评分低(bottom十分位数)组进行药物差异反应分析,以确定PPS评分高组AUC预测值较低的化合物(log2FC>0.10)。然后利用AUC值与PPS评分的Spearman相关性分析,选择相关系数为负的化合物(CTRP的Spearman’s r < - 0.30, PRISM的Spearman’s r < - 0.35)。这些分析产生了6个ctrp衍生化合物(包括BI-2536, leptomycinB, narciclasine, methotrexate, SR-II-138A,和长春新碱)和六种prism衍生化合物(包括巴拉辛、伊立替康、PHA-793887, talazoparib, vindesine and YM-155)。在PPS评分高的组中,所有化合物的AUC估计值均较低,且与PPS呈负相关(图5F和G)。


单基因纯生信分析套路 8+|单基因突变新思路2_第5张图片

(图5.高PPS评分患者高药物敏感性候选药物的鉴定)


虽然12个候选化合物在PPS评分高的患者中显示出较高的药物敏感性,但仅以上分析不能支持这些化合物对HCC有治疗作用的结论。随后从别的角度进行分析,以研究这些化合物在HCC中的治疗潜力。我们首先使用CMap分析来寻找基因表达模式与HCC特异性表达模式相反的化合物(即,在肿瘤组织中基因表达增加,但通过治疗某些化合物而降低)。发现表达水平的折叠变化差异计算候选药物在肿瘤和正常组织之间的靶点(包括mRNA和蛋白水平),变化倍数越大,表明候选药物治疗HCC的潜力越大。另外结合PubMed (https://www.ncbi.nlm.nih)分析文献,寻找候选化合物治疗HCC的实验和临床证据。所有结果如图6所示,认为在高PPS评分的tp53突变型HCC患者中具有最有前景的治疗潜力。

单基因纯生信分析套路 8+|单基因突变新思路2_第6张图片

(图6.根据多种来源的证据,为高PPS评分患者确定最有前途的治疗药物)

 

全文总结回顾:有分析意向(http://gaptechsxr.mikecrm.com/1vdMmqy)生信人WX公众号

TP53是HCC中最常见的突变基因之一。许多研究揭示了TP53作为生物标志物具有一定的分子特性。因此,提出针对HCC患者进行特定治疗的研究思路。HCC肿瘤在个体间具有高度异质性,因此几乎不可能找到适合所有HCC病例的治疗方法。因此,寻找针对特定人群的治疗策略可以最大化治疗效果。PPS除了提供预后信息,还可以作为生物标记物靶向治疗。该研究确定了HCC患者高PPS评分的三个潜在治疗靶点(CANT1、CBFB和PKM)和两种药物(伊立替康和YM-155)。PPS在风险分层和个体化治疗预测方面优于其他方法,使用机器学习解决同时拥有RNA-seq和WES数据的队列数量有限问题。

你可能感兴趣的:(单基因纯生信分析套路 8+|单基因突变新思路2)