Briefings in Bioinformatics|基于REO的干性指数

今天跟大家分享的是二月份发表在Briefings in Bioinformatics(IF:9.101)杂志上的一篇文章An absolute human stemness index associated with oncogenic dedifferentiation。作者基于基因表达水平的相对高低秩序识别肿瘤干性基因对,发现基于干性指数有助于区分多种肿瘤的分级和预后,具有指导肿瘤治疗的潜力。

An absolute human stemness index associated with oncogenic dedifferentiation

干性指数与致癌性去分化有关

一.研究目的

癌症的进展伴随着干性的获得与分化表型的丧失,而基于转录谱已提出了许多评估肿瘤干性的方法。但是,由于这些评估肿瘤干性的方法仅给出干性指数的相对范围(而非绝对干性指数),亦或是基于基因表达绝对检测值 (由于批次效应等影响,不同实验检测的样本数据并不能简单的直接合并进行分析),使得这些方法无法直观评估肿瘤干性。研究人员基于基因表达水平的相对高低秩序 (relative expression orderings,REOs)关系识别出基因对,并提出一个绝对干性指数用来量化肿瘤分化程度。该干性指数算法不仅具有高度的鲁棒性和可扩展性,较高的干性数与较差的预后和组织学分级与更高的肿瘤去分化呈高度相关,这一方法有助于开发新的针对肿瘤去分化的靶向药物。

二.方法解读

(一).基于REOs计算干性指数的数据来源

1.训练集:PCBC+GSE69626+GSE108115+GSE60996+GTEx+GSE30652

2.验证集:GSE120795 (正常组织样本)+GSE90749 (SC=胚胎干细胞ESC+诱导多能干细胞iPSC)

3.SC细胞系数据集:(不同时间下)GSE35671+GSE64189+GSE85331+GSE56796_batch1+GSE56796_batch2+GSE90053+GSE70741+GSE58665+GSE98411

(二).肿瘤干性指数的数据来源

1.TCGA数据集:25种癌症类型+癌旁组织 (组织学等级)

2.多形性胶质母细胞瘤(GSE72951)+非小细胞肺癌(GSE42127) (评估肿瘤预后)


(三).如何REOs计算干性指数

1.RNA-seq的基因注释 (GEO/TCGA):将探针ID对应到相应的基因 ID。如果一个探针ID没有相应的基因ID或同一个探针ID对应到多个基因ID 上,则删除这个探针及其所对应的所有样本的表达谱;如果多个探针 ID对应到相同的基因ID,则取多个探针的表达值的算术平均值作为此基因的最终表达值。

2.训练集初步计算

对于每个样品,对所有基因的表达水平进行成对比较,对于每个基因对(Gi,Gj),只有两个可能的REO结果(Gi> Gj或Gi

(四).评估已发表研究的干性指数

1.基于逻辑回归算法(11774基因)训练PCBC数据库的胚胎表达数据,最终得到基因表达干性指数(mRNAsi)

2.基于ssGSEA的干性指数,GSVA包计算109个与干性相关的基因。

(五).富集分析

使用Pearson相关性分析识别出与干性相关的基因,在DAVID进行KEGG富集分析。


三.结果解读

1.已发表研究的干性指数的局限性

在五个不同的SC数据集(GSE108115;GSE30652;GSE60996;GSE69626;GSE90749)评估了两项已发表研究干性指数(基于ssGSEA的和mRNAsi的干性指数),干性指数之间存在显著差异,这些结果说明了已发表研究中的干性指数不稳定性(图1A-B)。此外,通过线性变换将mRNAsi映射到0-1范围,该线性变换减去最小值并除以最大值。作者认为由于不同的样品组成,尤其是数据集中具有极高mRNAsi值的样品,这种线性转化会严重影响mRNAsi值(图1C)。对于每个样本,作者进一步计算了三个mRNAsi值的变异系数(CV)(图1D),以上结果均提示已发表研究的干性指数的局限性。

 图1. 基于ssGSEA和mRNAsi的干性指数的不稳定性

2.基于REO的干性指数

基于REO的干性指数分析流程如图2所示。作者在124个SC样本(至少99%样本)和2704个正常组织样本(至少99%样本)中鉴定了242110个基因对,接着基于159个SC样本(至少99%样本)和20个正常组织样本(至少99%样本)进一步识别出有42472个共享基因对(图3A)。众所周知,SCs的分化时间增加导致干细胞减少。此外,基于REO的干性指数与干性相关基因表达之间都存在显著的正相关(图3B)。此外,SC随着培养时间的增加,干性指数值降低(图3C–G)。此外,使用来自PCBC数据集,基于REO的干性指数也与重要干性基因-OCT4,SOX2,NANOG和LIN28的表达具有显著相关性(图4A)。对于其他重要的多能性因子,如SALL4,GLS1 ,REX1和MYC,也可以看到相似的显著相关性(图4B)。

 图2. 分析流程图

图3.验证干性指数

图4. 重要基因与干性指数的相关性分析

3.影响干性的关键基因和途径

基于来自PCBC数据库的230个样本,作者鉴定出与基于REO的干性指数显著相关的11163个基因(Pearson相关,FDR <0.05)。在这些基因中,作者显示了参与基于REO的干性基因对中最多的五个基因对。值得注意的是,所有五个基因与干性指数均具有显著正相关性,四个基因的相关系数超过0.8。LIN28B是一种RNA结合蛋白,可以与SOX2,OCT4和NANOG有效结合。在胚胎早期发育过程中,SALL4的表达模式与OCT4相似,而敲低SALL4可以导致ESC分化,这表明SALL4在干性中具有促进作用[34,35]。对于上述11163个与干性相关的基因,作者进一步保留了与基于REO的干性指数显著强相关的3706个基因(Pearson相关,FDR <0.05;| r |> 0.6)。KEGG富集分析表明,2218个正相关基因在与遗传信息处理和细胞过程有关的途径(如RNA转运,DNA复制和细胞周期)中显著富集。1488个负相关基因与干性相关通路中显著丰富,这些途径在干细胞分化中起着重要作用,例如ECM-受体相互作用,PI3K-Akt信号通路和MAPK信号通路(P <0.05)。


4.基于REO的干性指数与肿瘤分级高度和预后高度相关。

作者通过使用TCGA中的RNA-seq数据,基于REO的干性指数评估了13种具有组织学数据的肿瘤,结果表明,大多数肿瘤中的干性指数值与肿瘤等级之间呈正相关。在13种肿瘤类型中,9种肿瘤呈现显著正相关(图5A)。此外,干性指数在肿瘤和癌旁组织中也有显著差异(图5B)。Cox回归分析表明,与组织学分级相比,基于REO的干性指数在同一癌症中也具有更高的HR值,并且作为大多数肿瘤患者生存的危险因素(图5C)。以上所有结果表明,基于REO的干性指数与分级具有较高的相关性,并且比分级具有更好的预后能力,这表明它有助于确定肿瘤的分级,并具有指导治疗的潜力。

图5. 干性指数在肿瘤中的应用


作者利用样本内基因表达水平的相对高低秩序关系,作为转录组层面的定性特征,整合由不同平台检测的表达数据进行分析(有效地消除批次效应),识别出肿瘤干性的基因对,并结合肿瘤的组织学分型和肿瘤预后进行评估。除此之外,还对比了2项已发表研究中的肿瘤干性指数算法。该研究联合了多平台的基因表达谱数据库,如GEO,TCGA和PCBC数据集,使用了多种生物信息学方法,如KEGG分析,COX回归模型,相关性分析(Pearson)等,值得我们学习。

你可能感兴趣的:(Briefings in Bioinformatics|基于REO的干性指数)