JASPAR:转录因子motif数据库

欢迎关注”生信修炼手册”!

JASPAR是一个免费公开的转录因子数据库,在该数据库中收录了转录因子的mitif信息,可以用来预测转录因子与序列的结合区域。网址如下

http://jaspar.genereg.net/

在该数据库中,提供了以下9种不同来源和类别的转录因子信息

1. JASPAR CORE

该类别下都是从文献中收集的,有实验证据支持的真核生物转录因子motif信息,而且经过了人工核对,是一个非冗余的,高质量的转录因子motif数据库,所以也是整个数据库中的核心。

由于其高质量量,非冗余等特性,通常情况下,该类别信息都是我们的第一选择。每个motif编号以MA开头,示意如下

JASPAR:转录因子motif数据库_第1张图片

2. Collection CNE

该数据集包含了233个调控人类非编码基因的转录因子motif信息,是根据Xie et al. (PNAS 2007)文章中的数据收集整理的,编号以CN开头,示意如下

JASPAR:转录因子motif数据库_第2张图片

3. Collection FAM

该类别下保存的是转录因子的类别class信息,多个转录因子可以拥有相同的调控序列,将调控序列相同的转录因子归为一类。每个class的编号以MF开头,示意如下

JASPAR:转录因子motif数据库_第3张图片

4. Collection PBM

该类别下是运用体外技术分析了104个小鼠的转录因子后得到的motif信息,每个motif编号以PB开头,示意如下

JASPAR:转录因子motif数据库_第4张图片

5. Collection PBM HLH

和PBM类似,只不过该类别下是 C. elegans bHLH的19个转录因子的信息,物种不同,该类别下的motif编号以PL开头,示意如下

JASPAR:转录因子motif数据库_第5张图片

6. Collection PBM HOMEO

该类别下包含的是小鼠的转录因子motif信息,是从文献Berger et al (Cell 2008)整理得到的,每个motif编号以PH开头,示意如下

JASPAR:转录因子motif数据库_第6张图片

7. Collection PHYLOFACTS

该类别下分析的是哺乳动物进化保守基因的转录因子motif信息,对应的文章为

Systematic discovery of regulatory motifs in human promoters and 3’ UTRs by comparison of several mammals

每个motif的编号以PF开头,示意如下

JASPAR:转录因子motif数据库_第7张图片

8. Collection POLII

该类别包含的是RNA聚合酶结合区域的motif序列,每个motfi编号以PL开头,示意如下

JASPAR:转录因子motif数据库_第8张图片

9. Collection SPLICE

该类别包含的是human剪切位点的motif序列,数据量很小,一共只有6个motif, 每个motif编号以SA开头,示意如下

JASPAR:转录因子motif数据库_第9张图片

每个collection都是一个小的子集,core 是整合了所有这些子集,从而构建的非冗余数据集。在core数据集中,将物种分层了一下6大类别

JASPAR:转录因子motif数据库_第10张图片

通过官网的检索功能,可以方便的进行检索,示意图如下

JASPAR:转录因子motif数据库_第11张图片

在检索出的motif详情页面,提供了许多信息,以MA0001.1为例

1.  基本信息

包括名字,编号,类别,对应的物种等信息,示意如下

JASPAR:转录因子motif数据库_第12张图片

2. Sequence logo

motif每个bp上碱基的分布,碱基的大小与对应的频率成正比,频率越大,对应的字母越大,示意如下

JASPAR:转录因子motif数据库_第13张图片

3. position frequency matrix

简称PFM, motif每个bp上四种碱基的频数分布,提供了多种格式的下载,示意如下

JASPAR:转录因子motif数据库_第14张图片

4, Binding sites

红色标识的是motif对应的具体的序列,示意如下

JASPAR:转录因子motif数据库_第15张图片

该数据库提供了下载功能,主要是motif对应的PFM矩阵,示意如下

JASPAR:转录因子motif数据库_第16张图片

JASPAR数据库是免费的,但是相比TRANSFAC数据库, 还是有很多不足之处,首先就是motif数量的差异,比TRANSFAC数据库少了许多,其次就是信息的类别上,JASPAR只提供了motif信息,并没有直接的转录因子调控的靶标基因的信息。

通过JASPAR数据库,我们只能获取转录因子的motif信息,然后通过软件去预测和DNA序列的结合位点,即TFBS。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

你可能感兴趣的:(数据库,人工智能,大数据,机器学习,python)