【施工中】常用数据库下载参考基因组及注释文件

参考:Jimmy老师博客:基因组各种版本对应关系
目前常用的人类参考基因组是GRCh37和GRCh38,在三大常用数据库对应关系如下:

NCBI UCSC ENSEMBL
GRCh37 hg19 release_59/61/64/68/69/75
GRCh38 hg38 release_76/77/78/.../99/100

ENSEMBL

1. 下载人类GRCh38参考基因组及注释文件

1.1 打开ENSEMBL官方主页http://asia.ensembl.org/index.html,如下图,点击Human

【施工中】常用数据库下载参考基因组及注释文件_第1张图片
ENSEMBL主页

1.2 点击Download DNA sequence (FASTA),进入参考基因组文件的ftp下载地址:
ftp://ftp.ensembl.org/pub/release-100/fasta/homo_sapiens/dna/

【施工中】常用数据库下载参考基因组及注释文件_第2张图片
GRCh38.p13页面

1.3 进入ftp下载页面后,选择按大小排序,下载参考基因组文件Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

【施工中】常用数据库下载参考基因组及注释文件_第3张图片
参考基因组文件ftp下载页面

在这个页面的最下端有一个README文件,记录了有关上面所有文件的详细信息,有兴趣的同学可以自行查阅。

1.4 回到GRCh38.p13页面,点击Download GTF,进入参考基因组注释文件ftp下载地址:ftp://ftp.ensembl.org/pub/release-100/gtf/homo_sapiens/

【施工中】常用数据库下载参考基因组及注释文件_第4张图片
GRCh38.p13页面

1.5 进入ftp下载页面后,
下载Homo_sapiens.GRCh38.100.chr.gtf.gz
或者Homo_sapiens.GRCh38.100.gtf.gz

【施工中】常用数据库下载参考基因组及注释文件_第5张图片
参考基因组注释文件ftp下载页面

1.6 回到GRCh38.p13页面,点击Download FASTA ,进入ftp下载地址:
ftp://ftp.ensembl.org/pub/release-100/fasta/homo_sapiens/

【施工中】常用数据库下载参考基因组及注释文件_第6张图片
GRCh38.p13页面

【施工中】常用数据库下载参考基因组及注释文件_第7张图片
ftp下载

可以看到,有一系列文件夹,其中dna文件夹,就是步骤1.2演示的参考基因组文件所在的文件夹,而cdna文件夹,存放的则是参考转录组文件

1.7 进入cdna文件夹,下载Homo_sapiens.GRCh38.cdna.all.fa.gz

【施工中】常用数据库下载参考基因组及注释文件_第8张图片
参考转录组文件ftp下载页面

至此,我们就下载了人类参考基因组GRCh38版本的

  • 参考基因组文件 Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
  • 参考基因组注释文件Homo_sapiens.GRCh38.100.chr.gtf.gz
    或者Homo_sapiens.GRCh38.100.gtf.gz
  • 参考转录组文件Homo_sapiens.GRCh38.cdna.all.fa.gz

2. 下载人类GRCh37参考基因组及注释文件

2.1 打开ENSEMBL官方主页http://asia.ensembl.org/index.html,如下图,点击Still using GRCh37?

【施工中】常用数据库下载参考基因组及注释文件_第9张图片
ENSEMBL主页GRCh37
【施工中】常用数据库下载参考基因组及注释文件_第10张图片
GRCh37页面
【施工中】常用数据库下载参考基因组及注释文件_第11张图片
GRCh37页面
【施工中】常用数据库下载参考基因组及注释文件_第12张图片
GRCh37.p13页面

可以看到,这个页面就跟前面GRCh38.p13下载页面非常的类似了,我们可以点击Download DNA sequence (FASTA)进入到GRCh37的参考基因组文件Ftp下载地址:
ftp://ftp.ensembl.org/pub/grch37/current/fasta/homo_sapiens/dna/
我们可以点击Download genes, cDNAs, ncRNA, proteins (FASTA)进入到GRCh37版本各种Fasta格式文件ftp下载地址:
ftp://ftp.ensembl.org/pub/grch37/current/fasta/homo_sapiens/
可以下载到GRCh37版本参考基因组文件参考转录组文件

人类参考基因组GRCh37版本

  • 参考基因组文件:
    ftp://ftp.ensembl.org/pub/grch37/current/fasta/homo_sapiens/dna/Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz
  • 参考转录组文件:
    ftp://ftp.ensembl.org/pub/grch37/current/fasta/homo_sapiens/cdna/Homo_sapiens.GRCh37.cdna.all.fa.gz
  • 参考基因组注释文件:(页面上并没有下载地址,但是可以根据前面GRCh38下载网页规律构建,将ftp网址里的fasta更换为gtf
    ftp://ftp.ensembl.org/pub/grch37/current/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.gtf.gz
    【施工中】常用数据库下载参考基因组及注释文件_第13张图片
    参考基因组注释文件ftp下载页面

NCBI

UCSC

GENCODE

你可能感兴趣的:(【施工中】常用数据库下载参考基因组及注释文件)