代谢相关+机器学习+预后相关生信思路,思路不复杂,一出手就是5+


今天给同学们分享一篇生信文章“Development and validation of robust metabolism-related gene signature in the prognostic prediction of hepatocellular carcinoma”,这篇文章发表在J Cell Mol Med期刊上,影响因子为5.3。

代谢相关+机器学习+预后相关生信思路,思路不复杂,一出手就是5+_第1张图片

结果解读:

患者特征和风险评分的构建

根据图1,最初从纳入的四个数据集中排除了3例缺乏生存信息的癌旁正常组织病例,最终共纳入了466例HCC组织病例进行后续分析,并在表1中展示了纳入患者的特征。在GEO队列中,进行了单变量Cox回归分析以筛选与OS相关的代谢基因。结果,筛选出了38个代谢基因(p < 0.005),以进行进一步分析。此外,在GEO队列中观察到这些基因之间存在强相关性。(图2A)因此,作者将这些基因引入LASSO-Cox和LASSO-pcvl算法以减少过拟合并构建模型。

代谢相关+机器学习+预后相关生信思路,思路不复杂,一出手就是5+_第2张图片

代谢相关+机器学习+预后相关生信思路,思路不复杂,一出手就是5+_第3张图片


代谢基因特征的验证和评估

根据图3A的结果,与GEO队列中的低风险患者相比,高风险患者的5年生存率明显较差(30.0% vs. 57.8%;风险比[HR],0.411;95%置信区间[95% CI],0.302–0.651;p < 0.001)。此外,Cox回归分析的多变量结果显示,被分类为低风险评分(HR,0.374;95% CI,0.256–0.547;p < 0.001)以及I/II期肿瘤分期(HR,0.492;95% CI,0.323–0.748;p < 0.001)与更好的生存率显著相关。

代谢相关+机器学习+预后相关生信思路,思路不复杂,一出手就是5+_第4张图片


风险评分与临床特征之间的相关性

为了进一步探索开发的标志物在不同人群中的预后价值,整个队列根据收集到的临床特征被分成几个亚组人群,以探索高风险组和低风险组之间的OS的K-M曲线。结果显示,亚组分析揭示了男性或女性、60岁以上或以下、来自亚洲和肿瘤分期I/II或III/IV的患者,高风险人群与不良预后显著相关(所有p < 0.050;图4A-F,H)。有趣的是,白人种族的HCC患者无法根据当前标志物将高风险人群和低风险人群分层(p > 0.050;图4G)。此外,基于整个队列的病例被用来探索风险评分与HCC患者的临床病理特征之间的相关性(图5A-F)。结果表明,较高的风险评分与晚期肿瘤分期、年龄较小和较高的AFP水平显著相关(所有p < 0.050;图5C、D、F)。然而,与乙型肝炎病毒(HBV)感染状态(p = 0.580;图5A)和不同性别(p = 0.110;图5B)和不同的种族。(p = 0.120;图5E)。

代谢相关+机器学习+预后相关生信思路,思路不复杂,一出手就是5+_第5张图片

代谢相关+机器学习+预后相关生信思路,思路不复杂,一出手就是5+_第6张图片


风险评分与肿瘤微环境之间的相关性

随后,通过CIBERSORTx和ssGSEA算法研究了风险评分与肿瘤免疫微环境之间的关联。(图5G,H)就CIBERSORTx算法而言,从低风险组样本中统计上更多地招募了B细胞原始型、B细胞记忆型、T细胞CD4记忆型静止型、自然杀伤(NK)细胞静止型、单核细胞、巨噬细胞M1型、巨噬细胞M2型和肥大细胞静止型(所有p < 0.050;图5G)。相反,T细胞CD4激活型记忆型、滤泡辅助性T细胞、调节性T细胞(Tregs)、巨噬细胞M0型、树突状细胞静止型和活化型肥大细胞在高风险组样本中显示出显著更丰富的密度(所有p < 0.050;图5G)。此外,当进一步使用ssGSEA算法研究浸润免疫细胞的亚群时,记忆型CD27 B细胞、黏膜相关不变T(MAIT)细胞、髓系细胞、前B细胞、前B细胞、辅助性T细胞(Th细胞)和Th17细胞在被归类为低风险组的样本中显著更丰富(所有p < 0.050; 图5H) 然而,B细胞、疲劳T(Tex)细胞、髓源性抑制细胞(MDSC)、浆细胞样DC细胞(pDC)、调节性T细胞(Tregs)、抑制性T细胞(suppressive Tregs)、过渡性疲劳CD8 T细胞和肿瘤相关巨噬细胞(TAMs)在高风险组样本中富集程度统计上更高(所有p < 0.050; 图5H)。


泛癌之间的验证

为了评估从HCC中开发的与代谢相关的风险评分的特异性,同样的公式被应用于其他32种TCGA肿瘤的mRNA测序数据集,包括30种实体肿瘤和两种血液系统肿瘤。关于结果,该标志能够显著区分七种类型肿瘤中不同OS结果的低风险和高风险患者(胰腺腺癌、间皮瘤、甲状腺癌、肺腺癌、肉瘤、肾乳头状细胞癌和头颈部鳞状细胞癌;p < 0.050;图6A-G)。此外,该标志在五种类型的肿瘤中与OS也有较弱的关联(乳腺浸润性癌、嗜铬细胞瘤和副神经节瘤、皮肤切除性黑素瘤、宫颈癌和子宫颈内膜癌以及肾透明细胞癌;图6H-L)。尽管对数秩检验未达到统计学显著水平(p < 0.050),生存曲线明显不同,以上5种肿瘤的风险比结果也具有说服力。

代谢相关+机器学习+预后相关生信思路,思路不复杂,一出手就是5+_第7张图片


构建和评估N

随后,为了增强当前模型的预测能力,开发的风险评分和其他三个临床参数,包括性别、年龄和肿瘤分期,被整合到基于整个队列的图表中。(图7A)图表的校准曲线显示,该图表对于2年、3年和5年的总生存率具有可信的一致性,与实际观察和预测值之间存在一致性。(图7B)之后,绘制了这些变量的2年、3年和5年总生存率的ROC曲线。(图7C)在整个队列中,该图表评分的AUC分别为0.730、0.719和0.693,与其他变量相比,在2年、3年和5年总生存率方面具有更好的预后效果。(p < 0.050;图7C)最后,进行了DCA分析,比较了图表、年龄、传统分期系统和代谢相关风险评分之间的临床净效益。结果显示,与年龄、传统分期系统和代谢相关风险评分相比,该图表在预测2年、3年和5年总生存率的阈值概率范围内具有更好的净效益。(图7D)

代谢相关+机器学习+预后相关生信思路,思路不复杂,一出手就是5+_第8张图片


功能富集分析

为了探索基因表达特征所涉及的生物途径,首先,基于KEGG的GSEA被应用于确定低风险组和高风险组之间标志性途径的差异。根据当前结果,在高风险组中显著富集的前5个途径包括“酪氨酸代谢”、“视黄醇代谢”、“甘氨酸、丝氨酸和苏氨酸代谢”、“丁酸代谢”和“类固醇激素生物合成”(所有p < 0.05;FDR, q < 0.25;|标准化富集得分[NES]| ≥1;图8A)。而在低风险组中,根据相同的阈值,显著富集的前5个途径包括“细胞周期”、“TNF信号通路”、“Wnt信号通路”、“类风湿性关节炎”和“IL-17信号通路”(所有p < 0.05;FDR, q < 0.25;|NES| ≥1;图8C)。接下来,分别描述了高风险组和低风险组中由GESA标志性途径所指示的前五个途径。(图8B)最后,利用Metascape工具对开发的14个与代谢相关的基因进行功能注释,并协助确定潜在的分子机制。(图8D,E)结果显示,这些基因的生物过程主要涉及被提名的途径“PID HIF1 TFPATHWAY”,“核苷酸单磷酸盐生物合成过程”,“氟嘧啶活性”,“有机羟基化合物代谢过程”,“对外源性刺激的反应”和“跨膜运输的调节”。

代谢相关+机器学习+预后相关生信思路,思路不复杂,一出手就是5+_第9张图片


总结

在本研究中,首次确定了与OS相关的代谢基因列表,并为HCC患者开发了一个与代谢相关的风险评分。经过一系列的生物信息学和统计分析,该标志的预测能力得到了证实。相信这个标志将在未来为HCC的治疗策略的发现带来新的视角。

你可能感兴趣的:(论文阅读)