Ensembl数据库

简介

Ensembl :http://www.ensembl.org/info/data/ftp/index.html,常用的参考基因组和GTF文件下载网站。


Ensembl提供的参考基因组有2种组装形式和3种重复序列处理方式,分别是primary,toplevel,unmasked(dna),soft-maskked(dna_sm),masked(dna_rm)。一般选择dna.primarydna_sm.primary

  • Primary:Primary assembly contains all toplevel sequence regions excluding haplotypes and patches.This file is best used for performing sequence similarity searches
  • masked:指所有重复去和低复杂度被N代替的基因组序列,会造成信息的丢失
    soft-masked基因组是指把所有重复区和低复杂度的序列用小写字母标出的基因组,主流比对软件BWA,bowtie2等都忽略soft- masked直接把小写字母当做大写字母比对,所以使用soft-masked与使用unmaked比对效果相同

Ensembl的基因注释文件与GeneCode(http://www.gencodegenes.org/)V26版本一致。
Ensembl中基因组和GTF文件中染色体名字都没有添加chr,最好自行添加,保持和UCSC或下游操作一致。

Ensembl数据库的BioMart:http://www.ensembl.org/biomart/martview为下载基因的功能信息、序列信息、结构信息、ID的转换提供便利。
下载页面可见XML按钮,将XML中内容调整为一行,并在行尾添加一个单引号即可反复使用。如果想换一个物种,只需修改对应的Dataset name即可。

来自:生信宝典

你可能感兴趣的:(Ensembl数据库)