Ensembl数据库

Ensembl官网: https://asia.ensembl.org/index.html

Ensembl官网定义: Ensembl is a genome browser for vertebrate genomes that supports research in comparative genomics, evolution, sequence variation and transcriptional regulation. Ensembl annotate genes, computes multiple alignments, predicts regulatory function and collects disease data. Ensembl tools include BLAST, BLAT, BioMart and the Variant Effect Predictor (VEP) for all supported species.

个人翻译: Ensembl是一个脊椎动物基因组的基因组浏览器,支持比较基因组的研究,进化,序列变异和转录调控。Ensembl可以注释基因,计算多重比对,预测调节功能和收集疾病数据。Ensembl工具集合包括BLAST、BLAT、BioMart和变异效应预测器(VEP)(支持所有物种)。

Ensembl涵盖物种

上图为Ensembl数据库涵盖的物种,包括Human、Mouse、Zebrafish等模式动物。

我们以Human为例,进入Human的数据库。

Ensembl的Human数据库

根据上图,我们可以发现Ensembl的Human数据库有许多个模块可供搜索,分别是Gene、Transcript、Variant、Phenotype、Stuctural Variation等。

进入FASTA下载界面

如果想下载GRCh38(Human)的基因序列文件(FASTA),可以点Download DNA sequence。


FASTA下载界面

Ensembl数据库的FASTA下载分为染色体和全基因组(所有染色体整合在一起),一般我们下载以.primary_assembly.fa.gz结尾的文件即可。


进入GTF下载界面

如果想下载GRCh38(Human)的基因注释文件(一般是GTF),可以点Download GTF or GFF3。


GTF下载界面

一般我们下载以.chr.gtf.gz为结尾的gtf文件即可,.gz代表以gzip格式压缩过。

综上,我们从Ensembl下载了Human的参考基因组序列文件(fasta)以及对应的基因组注释文件(gtf)。一般来说,有了这两个文件就可以配合比对软件进行序列比对。

你可能感兴趣的:(Ensembl数据库)