10X单细胞(10X空间转录组)数据分析之转录因子的分析方法与解读

作者,追风少年i

最近呢,收到了很多粉丝的提问,其实关于多样本通讯分析比较的内容我已经在单细胞个性化分析之多样本细胞通讯比较篇一文中详细说明,还有一个提问较多的问题就是关于SCENIC的分析内容解读,听了很多客户的意见,我发现很多人都无法掌握SCENIC该如何运用,分析完的结果也不知道有哪些用处,该如何解读,其实关于SCENIC,我已经写了一下代码文,这一篇带大家来进行如何解读和文章中的运用。

首先思考一个问题,直接拿注释好的单细胞样本分析SCENIC有意义吗???免疫细胞和组织细胞比较分析的调节子能说明什么???

10X单细胞(10X空间转录组)之基因网络推断方法之间的优劣势

10X单细胞数据分析转录因子的前世今生---scenic

10X单细胞(10X空间转录组)转录因子活性分析之DoRothEA

9月初人生迎来转折,面临重要选择,当断不断,必受其乱

首先我们先来看看TF调节靶基因的原理

图片.png

原则上转录因子跟基因的开放情况相关,但一般我们只有单细胞转录组的数据。

我们解读一下原理

  • If only scRNA-seq data is available, then it is natural to identify such TFs by searching for TFs whose expression correlation with the differential TG is significantly different in the two linked subpopulations

  • first construct a numerical index to represent the regulatory potential of a TF on a TG. This index, which we call transcription factor regulatory potential (TFRP), is a cell-specific index defined as the product of the (cell-specific) expression of the TF and its regulatory potential on the TG, where the regulatory potential is calculated by integrating accessibility information from multiple REs that may mediate the activity of the TF to regulate the TG

TF调控基因的原理

TF对TG的差异调节可能是由于以下一种或两种机制。

TFRP(调控潜能) 的变化:TF 在两种条件下都调节 TG,但两种条件下的 TFRP 差异很大。这两种情况是

  • 1> TF 表达量或 RE 可及性的变化会导致差异的 TFRP。

  • 2> 调控网络结构的变化:两种条件下的TFRP相似, 但TF在一种条件下对TG进行调控,而在另一种条件下不存在调控 .


    图片.png

这表明我们可以通过测试这种条件分布的变化来检测差异规则。

在这个基础上,我们就来分析一下SCENIC这个软件,这个软件很多人都写了文章,无论是原理还是代码,但是很多生信人员还是不太会使用

SCENIC是2017年11月发表在Nature Methods 期刊的一种单细胞转录因子分析方法,也是目前进行单细胞转录因子分析的主流软件,该软件在进行数据分析的同时也能得到可视化结果图。另外,SCENIC是一款开源软件,可以免费下载使用,目前软件有R和python两个版本,每个版本都配备了详细的使用说明(软件官网https://scenic.aertslab.org/)。但有一点需要特别注意,该软件是有物种限制的,目前只能分析人、小鼠和果蝇的数据,具体限制原因,在后面的分析原理中揭晓~

SCENIC分析原理

在输入单细胞基因表达量矩阵后,SCENIC经过以下三个步骤完成转录因子分析:第一步是构建共表达网络、第二步是构建TF-targets网络、第三步是计算Regulons活性,每一个步骤都由一个专门的软件包完成。我们来看一下各步骤详解。

GENIE3——共表达网络构建

第一步由GENIE3或GRNBoost软件完成,这里以GENIE3为例介绍。GENIE3 (GEne NetworkInference with Ensemble of trees) ,基于树的基因网络推理,是一种从基因表达数据推断基因调控网络的方法。软件以单细胞基因表达量矩阵为输入文件,以每个目标基因 (gene) 为输出,以转录因子 (TF) 为输入,构建P个随机森林树(P=矩阵中基因数量),并计算每个TF与gene之间的重要性评分 (IM) ,最终可以获得TF-genes共表达模块。最后删除IM低于阈值的基因关系,过滤基因数低于50的模块。如果觉得不太好理解,下图也为大家做了简化~

GENIE3网络构建过程

RcisTarget——motif富集及靶基因预测

从第一步获得了TF-genes共表达网络,但这个网络只是基于TF和gene表达量相关性推测的,TF和gene之间是否现实存在调控关系还需要进一步确证。确证的方法主要从TF功能结构入手,从下图可以看出,TF是通过直接与DNA结合而发挥作用的,因此我们可以通过反向查看gene上是否存在TF结合的motif序列来验证TF与gene的靶向关系

TF功能结构示意图

这一步可以借助RcisTarget软件完成,该软件运行必备两个数据库:1)gene-motif排名数据库:为每个motif提供所有gene的排名(~分数);2)motif-TF注释数据库:对每一个motif注释其所对应的TF。由于不同物种基因组不一样,导致每个motif对应靶基因不同,因此针对不同物种需要构建不同的数据库,软件目前配置了人、小鼠、果蝇数据库,其他物种需要自己构建数据库噢~这也是在开头提醒大家注意物种限制的原因。

那么具体验证过程,首先基于gene-motif数据库,每个motif对模块中所有基因进行累积,模块中的基因排名越靠前,累积曲线越高,曲线下面积 (AUC) 越大,表明motif在该模块中的富集程度越高,然后对每个模块选取显著富集的motif,并预测其靶基因,最终综合TF-genes模块和靶基因预测结果,构成一个包含了TF和靶基因的基因调控网络模块 (regulons)。下图也为大家做了简要概括。

RcisTarget Regulons构建过程

AUCell——Regulons活性定量

第三步就是Regulons活性定量。这一步由AUCell软件完成,AUCell是一种新的方法,允许在scRNA-seq数据中识别具有活性基因调控网络的细胞。

实际分析过程中,输入到AUCell的是一个基因集,输出的是每个细胞中的基因集“活性” (AUC, Area Under Curve)。在SCENIC中,这些基因集即Regulons中所有基因,针对每个细胞,将细胞中所有基因按照表达量从高到低进行排序,根据Regulons中的基因在序列中的位置,计算累计曲线面积 (AUC) ,即为Regulons在细胞中的活性。

但由于不同regulons包含的基因不同,它们之间的AUC值不具有可比较性,因此基于AUC值在所有细胞中的双峰分布特征,增加了Regulons“on/off”的概念,认为双峰之间的低谷为判断Regulons活性开放的阈值,如果AUC值小于阈值,则判定为该Regulons在该细胞中未开放,即未发挥调控作用。最终获得每个Regulons在每个细胞中的开放性热图。


AUCell 细胞Regulons活性计算过程

结果解读(简单版)

SCENIC分析结果

结果可视化也是SCENIC软件功能之一,默认输出的结果图主要是以下两种,一个是基于AUC值绘制的Regulons活性热图,图中每一行表示一个Regulons,每一列为一个细胞,颜色表示AUC值大小,这类热图主要用于比较同一Regulons在不同细胞中的活性,寻找Regulons特异性活化的细胞亚群;另一种是基于AUC二值矩阵绘制的Regulons开放性热图,这类热图可用于寻找细胞中开放的Regulons,有利于细胞亚群功能判断

上面的内容相信很多人都看到过,接下来我们要进行文献中的实例解读

你可能感兴趣的:(10X单细胞(10X空间转录组)数据分析之转录因子的分析方法与解读)