非肿瘤纯生信拿下7+,多种机器学习算法,搭配WGCNA。

今天给同学们分享一篇非肿瘤+WGCNA+机器学习的生信文章“Screening of immune-related secretory proteins linking chronic kidney disease with calcific aortic valve disease based on comprehensive bioinformatics analysis and machine learning”,这篇文章于2023年1月1日发表在J Transl Med期刊上,影响因子为7.4。
非肿瘤纯生信拿下7+,多种机器学习算法,搭配WGCNA。_第1张图片

慢性肾脏疾病(CKD)是最重要的心血管风险因素之一,在钙化主动脉瓣病(CAVD)等各种心血管疾病的发病机制中起着重要作用。作者的目标是探索与CKD相关的基因,可能涉及CAVD的发病机制,并发现CKD合并CAVD的诊断候选生物标志物。


1. 数据处理

生物信息学分析策略如图1所示进行。从GEO数据库中收集了钙化和对照主动脉瓣样本的三个原始数据集,并在进行批次效应去除后进行了合并。批次校正后,得到了整合的CAVD数据集,并进行了归一化处理,其中CAVD组包括34个钙化样本,对照组包括23个对照样本。如图2A和B所示,在批次效应去除后,三个数据集之间的差异显著减少。

非肿瘤纯生信拿下7+,多种机器学习算法,搭配WGCNA。_第2张图片

图1 本研究设计的流程图

非肿瘤纯生信拿下7+,多种机器学习算法,搭配WGCNA。_第3张图片

图2 CAVD数据集的整合和整合CAVD数据集的差异表达分析


2. 钙化主动脉瓣病中不同表达基因的鉴定

综合钙化和对照主动脉瓣样本之间的差异分析显示,共有173个差异表达基因(DEGs),其截断标准为调整后的p值≤0.05且|log2(FC)|≥1,其中包含119个上调基因和54个下调基因。通过火山图和热图来描述综合CAVD数据集中DEGs的表达模式(图2C和D)。


3. CAVD中加权基因共表达网络的构建和关键模块的识别

为了进一步探索CAVD中的关键基因,作者进行了加权基因共表达网络分析(WGCNA),以确定钙化主动脉瓣样本中最相关的基因模块。根据尺度独立性和平均连接性,选择了软阈值为5(图3A)。使用该阈值生成了14个模块,并在图3B中呈现了模块的聚类树状图。模块特征基因的聚类显示在图3C中。此外,本研究还探讨了CAVD与基因模块之间的相关性(图3D)。这些数据显示,粉色模块与CAVD呈最高正相关(358个基因,r = 0.84,p = 5e−16),而黄色模块与CAVD呈最负相关(769个基因,r = − 0.72,p = 2e−10)。基于此,粉色和黄色模块被视为后续分析的关键模块。此外,作者发现粉色(r = 0.4,p = 3.5e−15)和黄色模块(r = 0.6,p = 2.2e−76)的模块成员与基因重要性之间存在强关联(图3E,F)。因此,在粉色和黄色模块中确定了与CAVD显著相关的1127个关键基因。此外,作者还进一步交叉分析了来自DEGs和WGCNA的关键基因,以在钙化主动脉瓣样本中确定CAVD的关键基因,共获得了124个基因,这些基因将进一步进行后续分析(图3G)。

非肿瘤纯生信拿下7+,多种机器学习算法,搭配WGCNA。_第4张图片

图3 通过WGCNA筛选综合CAVD数据集中的关键模块基因,并通过关键模块基因和DEGs的交集鉴定CAVD关键基因


4. 慢性肾脏疾病中不同表达的分泌蛋白的鉴定

众所周知,CKD与CAVD有因果关系,并可能加速CAVD的发生和进展[15]。为了研究与CKD相关的CAVD的致病基因,作者首先重新分析了来自GEO数据库的CKD外周血单个核细胞(PBMC)和CKD肾组织的表达谱。如图4A和D所示的火山图和热图可视化,CKD PBMC中共鉴定出2681个差异表达基因(DEGs),而CKD肾组织中发现了4111个DEGs,符合调整后p≤0.05和|log2(fold change)|≥0.585的阈值。考虑到CKD可能主要通过释放分泌蛋白质来促进CAVD的发生和发展,作者随后通过结合来自CKD PBMC(图4E)和肾组织数据集(图4F)的376个和607个差异表达的分泌蛋白质,获得了与CKD相关的分泌蛋白质。

非肿瘤纯生信拿下7+,多种机器学习算法,搭配WGCNA。_第5张图片

图4 通过对CKD的PBMC和肾组织中的分泌蛋白进行差异表达分析,鉴定与CKD相关的分泌蛋白


5. 蛋白质相互作用网络和参与CKD相关CAVD的致病基因的功能富集

为了揭示CKD相关CAVD中的潜在致病基因和潜在机制,作者使用STRING数据库收集了CKD相关分泌蛋白与CAVD关键基因之间的相互作用,置信度得分大于0.4。通过Cytoscape软件展示了CKD相关CAVD的致病基因,并通过采用MCODE方法确定了最显著的两个模块,其中包括76个基因被确定为CKD相关的致病基因(图5A和B)。为了更好地了解这些致病基因的功能和特定机制,作者将这些基因从最显著的两个模块中导入DAVID在线数据库进行功能富集和KEGG分析。基因本体(GO)术语的生物过程(BP)分析表明,CKD相关CAVD的致病基因主要富集在“炎症反应”和“免疫反应”方面(图5C)。在细胞组分(CC)的GO术语分析中,这些致病基因主要位于“膜的整体组分”和“细胞外区域”(图5D)。关于分子功能(MF)分析,结果表明“蛋白质结合”和“相同蛋白质结合”是致病基因中最相关的项目(图5E)。KEGG通路分析显示,与CKD相关的CAVD中的致病基因与“细胞因子-细胞因子受体相互作用”、“PI3K-Akt信号通路”和“NF-Kappa B信号通路”密切相关(图5F)。

非肿瘤纯生信拿下7+,多种机器学习算法,搭配WGCNA。_第6张图片

图5 CKD相关分泌蛋白与CAVD关键基因之间的PPI分析,随后对筛选出的节点进行富集分析


6. 寻找CAVD治疗候选小分子化合物

为了进一步研究可能对CKD相关CAVD患者产生治疗效果的潜在小分子药物,作者将CKD相关致病基因中钙化主动脉瓣样本中的上调基因导入到连接图谱(cMAP)数据库中,以预测能够逆转CAVD中CKD相关致病基因表达改变的小分子化合物。经过重要的查询,作者确定了排名前十的化合物,包括甲酰肾上腺皮质酮、吉非替尼、地拉嗪、氨基戊酰胺、甲氧苯酥酮、福斯科林、CGP-37157、IKK2抑制剂、韦达拉滨和TG-101348,它们具有最高的负分数,被认为是CKD相关CAVD治疗的潜在药物治疗剂(图6A)。这10种化合物的靶向途径和化学结构的描述显示在图6B、C中。

非肿瘤纯生信拿下7+,多种机器学习算法,搭配WGCNA。_第7张图片

图6 通过cMAP分析筛选用于CAVD治疗的潜在小分子化合物


7. 通过机器学习筛选具有诊断价值的关键基因,并构建CKD相关CAVD的诊断模型

由于CAVD和CKD之间的常见差异表达的分泌蛋白可能在与CKD相关的CAVD患者中起着关键作用,因此在CKD相关分泌蛋白和CAVD关键基因的交汇处确定了17个共同基因,并对其进行了后续构建CAVD诊断模型的研究,该模型可以区分患有或不患有CAVD的CKD患者(图7A)。采用LASSO回归算法,从17个共同基因中鉴定出了8个对诊断CKD相关CAVD患者具有重要影响的潜在候选基因(图7B、C)。为了进一步缩小诊断生物标志物的范围,还进行了随机森林(RF)机器学习算法,根据每个基因的变量重要性对17个共同基因进行排序,并提取了MeanDecreaseGini > 2的基因(图7D)。有趣的是,在将LASSO的8个候选基因和RF的6个潜在基因叠加后,只有两个核心基因在两个子集中重叠,分别是分泌性白细胞蛋白酶抑制剂(SLPI)和基质金属蛋白酶9(MMP9)(图7E)。为了更好地进行诊断和预测,作者基于两个核心基因进行了逻辑回归分析,构建了一个图表(图8A)。作者使用受试者工作特征曲线(ROC曲线)评估了每个核心基因和图表的曲线下面积(AUC)值,以确定它们在CKD相关CAVD的诊断效能中的敏感性和特异性。正如作者所预期的那样,这两个核心基因的AUC值均大于0.9,而图表的AUC值比每个核心基因都要高,这表明图表可能对CKD相关CAVD具有很强的诊断价值(图8B-D)。校准曲线显示,构建的图表诊断模型的预测概率与理想模型几乎相同(图8E)。此外,作者还进行了图表的决策曲线分析(DCA),结果显示根据图表模型进行决策可能有助于CKD相关CAVD的诊断(图8F)。硬化是CAVD的早期阶段。在GEO数据库的GSE51472数据集中,诺莫图还展示了在患有硬化主动脉瓣的CKD患者中的理想预测价值,该数据集包括5个人类硬化主动脉瓣组织样本和5个人类正常主动脉瓣组织样本(图8G),这意味着诺莫图模型对早期患有CKD的CAVD患者也能展现出良好的诊断效能。

非肿瘤纯生信拿下7+,多种机器学习算法,搭配WGCNA。_第8张图片

图7 通过机器学习方法鉴定CKD相关CAVD的潜在诊断生物标志物

非肿瘤纯生信拿下7+,多种机器学习算法,搭配WGCNA。_第9张图片

图8 诊断评分模型的开发和疗效评估


8. 冠状动脉瓣膜疾病(CAVD)中的免疫细胞浸润及与入侵免疫细胞的关联分析

作者发现,与CAVD相关的致病基因的功能和通路分析与炎症和免疫过程密切相关。作者使用CIBERSORT算法来推导免疫细胞的特征,并探索免疫调节以及诊断生物标志物与CAVD中免疫细胞浸润的相关性。图9A显示了每个样本中22种免疫细胞的比例,并且在10个免疫细胞亚群中,钙化和对照主动脉瓣样本之间存在显著差异。与对照组相比,CAVD显示出更高比例的巨噬细胞M0、T细胞CD8和调节性T细胞(Tregs),而B细胞原始、活化树突状细胞、巨噬细胞M2、活化肥大细胞、活化NK细胞、浆细胞和T细胞CD4原始的比例较低(图9B)。此外,对22种免疫细胞的相关性分析表明,T细胞CD4原始与Tregs呈显著正相关(r = 0.57,p < 0.05),而活化肥大细胞与活化树突状细胞呈负相关(r = -0.68,p < 0.05)(图9C)。此外,进一步探索了两个关键基因的表达与不同浸润免疫细胞类型比例之间的关联。如图9D所示,关键基因SLPI和MMP9在CAVD中均与免疫细胞积聚呈显著相关。

非肿瘤纯生信拿下7+,多种机器学习算法,搭配WGCNA。_第10张图片

图9 CAVD中的免疫细胞浸润分析


9. 两个关键基因表达模式的验证和诊断模型的评估价值

为了进一步确认上述综合生物信息学分析的准确性,作者首先检查了外部队列中招募患者的两个关键基因的表达模式。RT-qPCR结果证实,与对照主动脉瓣样本相比,钙化主动脉瓣样本中的两个关键基因表达模式一致上调(图10A)。此外,通过ELISA可以检测到SLPI和MMP9,并且在CKD和CAVD患者以及合并CKD的CAVD患者中水平显著升高(图10B)。然后,作者基于作者的队列开发了一个CAVD诊断评分模型(名为评分图A),用于预测来自对照组和CAVD组的CAVD可能性(图10C)。根据ROC曲线,与每个生物标志物相比,评分图A在对照组和CAVD患者之间显示出最高的AUC(图10D)。此外,校准曲线和决策曲线分析显示,基于评分图A进行决策可能有利于CAVD的预测(图10E,F)。此外,作者还构建了另一个诊断评分模型(名为评分图B),用于区分合并或不合并CAVD的CKD患者(图... 10G)。同样,ROC曲线、校准曲线以及DCA显示出了B型诺模图对于患有CAVD的CKD患者具有理想的预测价值(图10H-J)。

非肿瘤纯生信拿下7+,多种机器学习算法,搭配WGCNA。_第11张图片

图10

 

总结

在这项研究中,作者发现了冠状动脉瓣膜疾病(CAVD)和对照组之间免疫细胞浸润方面的显著差异。CAVD组中巨噬细胞M0、T细胞CD8和调节性T细胞的丰度较高,而B细胞(初级)、活化树突状细胞、巨噬细胞M2、活化肥大细胞、活化自然杀伤细胞、浆细胞和T细胞CD4(初级)的比例较低。此外,核心基因SLPI和MMP9与CAVD中的免疫细胞浸润密切相关,这意味着这些候选生物标志物不仅可以区分CAVD,还可能通过与炎症免疫途径的相互作用对CAVD产生影响。因此,全面了解与CAVD相关的炎症免疫途径对于开发新的诊断或预后生物标志物以及CAVD的治疗靶点至关重要。

你可能感兴趣的:(零知识证明)