关于人参考基因组的一些总结

人参考基因组fasta文件的组成部分说明

chr1
chr2
...
chr22
chrX
chrY
chrM 线粒体
chr1_KI27...v1_random 表示知道在哪条染色体上,但是不知道方向和顺序
chrUn_KI27...412v1 表示在哪个染色体上
Alternate contigs, alternate scaffolds,alternate loci,以alt结尾的序列,用来表征序列多

样性,基因组是由单倍体类型表现的,基因的多样性(如等位基因)无法通过一条序列表示,就有

了alt序列来补充说明,这样的alt序列在测序分析map过程容易产生multiple-mapping低质量的

reads,GATK的zeroMappingQuality会将这样的reads过滤掉。

chr1_KI270762v1_alt
PAR区域:伪染色体序列,在X Y染色体上都存在,在map序列时会造成multiple-mappling reads,

需要其中一条染色体上的par区域mask掉。
decoy基因组 包含人疱疹病毒EBV基因组的序列。

chrUn_KN707606v1_decoy

关于基因组版本
GRCh38版本,也有GRCh38.p6, GRCh38.p11等小版本,p指的patchs指定期对基因组的修补,并且每

次修补并没有扰乱染色体位置信息,两种patch
fix patches表示下次主版本发布时将要替换的序列
Novel patches表示上面提到的alternate loci,也就是将新的patches看做变异序列。

analysis set
常用的基因组文件只包含primary assembly,而analysis set 还包含alt序列,PAR序列,decoy基

因组。这些时做基因组变异分析必须的。

1参考基因组的选择
1.1三种选择
如果比对到GRCh37/hg19,ftp://ftp-

trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/human_g1k_v37.fasta.gz
如果比对到GRCh37/hg19,并且认为包含decoy序列能够更准确地进行变异检测,使用:
ftp://ftp-

trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/phase2_reference_assembly_seque

nce/hs37d5.fa.gz
如果比对到GRCh38/hg38,使用:
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_fo

r_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz

1.2ALT contig序列是为了反映人群多态性的一段替补序列,和原染色体位置对应的序列之间有一

定的差异。放在ref中的隐患是人为增加了重复序列。
用很长的N间隔这些ALT contig序列增加了不必要的ref的size

Ensembl
可以下到最新版
ftp://ftp.ensembl.org/pub/release-98/fasta/homo_sapiens/dna/
ftp://ftp.ensembl.org/pub/release-98/gtf/homo_sapiens/

GATK
https://software.broadinstitute.org/gatk/download/bundle
包括SNP, InDel这类为变异检测提供参考的文件。

NCBI
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.39_GRCh38.p13

UCSC
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/
包含很多的文件,

image.png

NCBI
https://www.ncbi.nlm.nih.gov/genome/guide/human/
包含各种文件

image.png

  1. ensembl
    官网:http://asia.ensembl.org/index.html
    ftp://ftp.ensembl.org/pub/release-98/gff3/homo_sapiens/

ftp://ftp.ensembl.org/pub/release-98/fasta/homo_sapiens/dna/

[1] https://lh3.github.io/2017/11/13/which-human-reference-genome-to-use

[2] https://www.biostars.org/p/73100/

[3] https://software.broadinstitute.org/gatk/blog?id=8180

[4] https://genestack.com/blog/2016/07/12/choosing-a-reference-genome/

你可能感兴趣的:(关于人参考基因组的一些总结)