RNAseq004 转录组入门(4):参考基因组下载

1 参考基因组

以下内容主要参考jimmy大佬的生信技能树及生信菜鸟团公众号

1.1 【直播】我的基因组(五):测试数据及参考基因组的准备

这个对新手来说,是一个很大的坑,hg19、GRCH37、 ensembl 75这3种基因组版本应该是大家见得比较多的了,国际通用的人类参考基因组,其实他们储存的是同样的fasta序列,只是分别对应着三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC及ENSEMBL各自发布的基因组信息而已。有一些参考基因组比较小众,存储的序列也不一样,比如BGI做的炎黄基因组,还有DNA双螺旋结构提出者沃森(Watson)的基因组,还有2016年发表在nature上面的号称最完善的韩国人做的基因组。前期我们先不考虑这些小众基因组,主要就下载hg19和hg38,都是UCSC提供的,虽然hg38相比hg19来说,做了很多改进,优点也不少,但因为目前为止很多注释信息都是针对于hg19的坐标系统来的,我们就都下载了,正好自己探究一下。也顺便下载一个小鼠的最新版参考基因组吧,反正比对也就是睡个觉的功夫,顺便分析一下结果,看看比对率是不是很低。

1.2 基因组各种版本对应关系

首先是NCBI对应UCSC,对应ENSEMBL数据库:
GRCh36 (hg18): ENSEMBL release_52.
GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.
GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.
可以看到ENSEMBL的版本特别复杂!!!很容易搞混!
但是UCSC的版本就简单了,就hg18,19,38, 常用的是hg19,但是我推荐大家都转为hg38
看起来NCBI也是很简单,就GRCh36,37,38,但是里面水也很深!
Feb 13 2014 00:00 Directory April_14_2003
Apr 06 2006 00:00 Directory BUILD.33
Apr 06 2006 00:00 Directory BUILD.34.1
Apr 06 2006 00:00 Directory BUILD.34.2
Apr 06 2006 00:00 Directory BUILD.34.3
Apr 06 2006 00:00 Directory BUILD.35.1
Aug 03 2009 00:00 Directory BUILD.36.1
Aug 03 2009 00:00 Directory BUILD.36.2
Sep 04 2012 00:00 Directory BUILD.36.3
Jun 30 2011 00:00 Directory BUILD.37.1
Sep 07 2011 00:00 Directory BUILD.37.2
Dec 12 2012 00:00 Directory BUILD.37.3
可以看到,有37.1, 37.2, 37.3 等等,不过这种版本一般指的是注释在更新,基因组序列一般不会更新!!!
反正你记住hg19基因组大小是3G,压缩后八九百兆即可!!!

2 在UCSC上下载人类hg19参考基因组

2.1 chromFa.tar.gz

chromFa.tar.gz - The assembly sequence in one file per chromosome.Repeats from RepeatMasker and Tandem Repeats Finder (with period of 12 or less) are shown in lower case; non-repeating sequence is shown in upper case.
每个染色体一个文件中的装配顺序。RepeatMasker和Tandem Repeats Finder的重复(周期为12或更短)以小写形式显示; 大写显示非重复序列。

2.2 UCSC参考基因组下载链接

hg19:http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz
hg38:http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.chromFa.tar.gz

迅雷很好用,别再傻乎乎的wget了,将上述链接复制放入迅雷,分分钟搞定

cd /mnt/d/Data
mkdir reference && cd reference
mkdir -p genome/hg19 && cd genome/hg19
#  下载速度简直就是龟速,需要十几天,我是将网址复制到迅雷,10分钟搞定
nohup wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
# 解压缩,并将其合并为完整的基因组序列
tar -zxvf chromFa.tar.gz
cat *.fa > hg19.fa
# 删除单独的基因组序列
rm chr*

3 注释下载

GTF文件的全称是gene transfer format,主要是对染色体上的基因进行标注,而GTF文件的主要功能,就是指出我们所谓的基因在染色体上的位置(coordinate),并且还标注了这一段区间的其他信息

  • GFF(general feature format):用于基因组注释。

seqid :通常格式染色体ID或是contig ID。
source:注释的来源,一般指明产生此gff3文件的软件或来源数据库。如果未知,.代表空。
type: 一般使用gene,repeat_region,exon,CDS,或SO对应编号等。
start:起始位置,从1开始计数(需要注意:bed文件从0开始计数)。
end:终止位置。
score:得分,注释信息可能性说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值。.代表空
strand:表示正链,-表示负链,.表示不需要指定正负链,? 表示未知.
phase :仅对编码蛋白质的CDS有效,本列指定下一个密码子开始的位置。可以是0、1或2,表示到达下一个密码子需要跳过碱基个数。
attributes:包含额外属性的列表,格式为tag=value,不同属性之间以;相隔。

  • GTF(gene transfer format):用于对基因的注释。

seqname: 通常格式染色体ID或是contig ID。
source:注释的来源。,一般指明产生此gff3文件的软件或来源数据库。如果未知,.代表空。
start:起始位置,从1开始计数。
end:终止位置。
feature :表示基因结构。CDS,start_codon,stop_codon是一定要含有的类型。
score :得分,注释信息可能性说明,可用.代替空。
strand:链的正向与负向,分别用+和-表示。
frame:密码子偏移,可以是0、1或2。
attributes:必须要有以下两个值:
gene_id value: 表示转录本在基因组上的基因座的唯一的ID。gene_id与value值用空格分开,如果值为空,则表示没有对应的基因。
transcript_id value: 预测的转录本的唯一ID。transcript_id与value值用空格分开,空表示没有转录本。

基因组各种版本对应关系

下载GTF注释文件,基因组版本尤为重要

  • NCBI
# hg38/GRCh38
wget ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ANNOTATION_RELEASE.109/GFF/ref_GRCh38.p12_top_level.gff3.gz
# hg19/GRCh37
wget ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.3/GFF/ref_GRCh37.p5_top_level.gff3.gz
  • ensembl
    ftp://ftp.ensembl.org/pub
    ftp://ftp.ensembl.org/pub/grch37/
# hg38/GRCh38
wget ftp://ftp.ensembl.org/pub/release-90/gtf/homo_sapiens/Homo_sapiens.GRCh38.90.chr.gtf.gz 
# hg19/GRCh37
wget ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz 
  • UCSC
    网址:http://genome.ucsc.edu/cgi-bin/hgTables

    image.png

  • GeneCode
    只包含人和鼠的注释文件
    地址:https://www.gencodegenes.org/human/release_29.html

你可能感兴趣的:(RNAseq004 转录组入门(4):参考基因组下载)