参考基因组的选择

基因组的研究都离不开参考基因组,本文带大家了解参考基因组的组成,及如何选择参考基因组。


人参考基因组

参考基因组的 contig 指连续的序列,比如一号染色体 chr1.


contig

人种参考基因组包含以下部分:

  1. chromosomes | 包含 ch1-chr22,chrX,chrY,chrM
  2. unlocalized sequence | 在染色体上但是方向(orientation)未知,命名有 _random 后缀
  3. unplaced sequence | 无法组装到任何染色体的序列,命名有 chrU_ 前缀
  4. alternate contigs (ALT) | 显示一些多变位点(loci)的多种单倍型组装可能性序列,这些区域的序列复杂多变因此无法用单一序列代表,比如说 HLA 位点。命名有 _alt 后缀。

其中包含 1-3 部分的组装称为 "Primary assembly", 代表了非冗余的单倍型基因组。

另外,还有比较特殊的 PAR 区域和 Patch.
Patch 表示基因组主版本更新之外的补丁,用于在不影响基因组作标情况下添加信息。比如 GRCh38.p13 的 p13 表示 GRCh38 的第 13 补丁版本。Patch 包含 FIX 和 NOVEL 两种,FIX 用于更正错误组装信息,在下次主版本更新时将合并到新版本;NOVEL 表示上次主版本未包含的组装,下次更新时将添加到主版本。

PAR (Pseudoautosomal region) 是性染色体 chrX,chrY 上同源区域,可在减数分裂时发生重组。这个区域序列采用 X 染色体序列,并拷贝到 Y 染色体。

在选择参考基因组时,ALT 和 PAR 区域容易造成多位点比对,在下游分析可能被一些软件过滤掉。如果不需要分析 ALT. 可以干脆选择不包含 ALT 的 "Primary assembly" 组装。或者是比对时让软件区分序列比对到其他区域的 ALT 区域,比如 bwa mem 的 -j 参数。
同样,如果不需要分析 PAR 区域,可以干脆不管,错误比对也无所谓。方法二是将 Y 染色体的 PAR 区域 hard-mask 处理,保留 X 染色体 PAR 区域。

目前人种一般用 GRCh37/hg19 或 GRCh38/hg38. GRCh37 发布于 2009 年,GRCh38 发布于 2013 年,对比 GRCh37, GRCh38 添加了 ALT 和着丝粒序列以及修正了一些错误组装。新的项目尽量选择 GRCh38 版本。
完成分析除了参考基因组往往还需要一些注释文件,或者其他数据库文件。分析开始前就应该想好在哪些机构下载各文件,会不会有 contig 命名冲突,比如有的染色体有 chr 前缀,一号染色体表示为 "chr1", 有的没有 chr 前缀,一号染色体表示为 "1". 有一些下游工具可能因为混淆使用出错。

参考资料
https://gatk.broadinstitute.org/hc/en-us/articles/360041155232-Reference-Genome-Components
Which human reference genome to use?
Which human reference genome should I use?
(How to) Map reads to a reference with alternate contigs like GRCH38 – GATK
Genome Reference Consortium

你可能感兴趣的:(参考基因组的选择)