参考基因组(Reference genome)

译自gatk.broadinstitute.org

本文介绍基因组参考用途,以及一些术语和相关注意事项。有关人类基因组参考build的更多具体信息,请参阅人类基因组参build(Human genome reference builds)。

1. 背景

基因组分析工具箱(Genome Analysis Toolkit,GATK)的中心法则:所有基因组分析都应该是根据一个一般的参考序列来进行的。

为什么呢?让我们看一个简化的问题。 现在我们知道下面三个句子是从一个共同的祖先演化而来的:

The quick brown fax jumped over the lazy doge.

The quick _ fox jumps over the lazy doge.

The quick brown fox jumps over the lazy brown dog.

我们希望以一种不偏向于其中任何一个的方式来挑出它们的差异,并且在遇到新添加的突变句子时保持稳健。 因此,我们创建了一个混合体,封装了它们最共同的东西:

The quick brown fox jumped over the lazy doge.

我们可以将其用作通用参考坐标系,可以根据该坐标系绘制每个突变体的不同之处(不一定是独一无二的):

第四个词,o->a 取代; 第九个词缺失“e”

第三个词缺失; 第五个字 ed->s 替换; 第九个词加“e”

第五词 ed->s 取代; 位于第八个词之后重复了第三个词。

这显然不是一个完美的方法,它给我们的不是祖先的句子——我们怀疑这不是“dog”最初的拼写方式,我们不确定最初的时态(jumps vs. jumped——但它使我们区分什么是“正常”(从某种意义上说,这是我们可以接触到的人群中的规范)和什么是分歧的。

初始参考的句子越多,抽样越具有代表性,就越适合描述我们将来遇到的变异。

这正是我们在使用参考基因组时所做的:与其尝试绘制基因组序列彼此之间差异(一旦我们涉及两个以上的序列,这会变得非常复杂),我们将它们相对于一个共同标准绘制出来。在这一点上,识别序列中的哪些变异子集是普遍观察到的,而不是样本、个体或其集合所特有的,变得更加容易处理(如果不是完全微不足道的话)。

那么我们使用谁的基因组作为共同标准呢?不用任何人的,同时希望用每个人的。在最简单的情况下,任何个体基因组都可以用作参考基因组。 然而,当参考基因组更能代表我们可能想要研究的最广泛的个体群体时,分析的质量和灵敏度就会提高。因此,基因组参考的每个片段都应具有在可用的单个基因组中最常观察到的序列。因此,由此产生的参考基因组是一种用作原型的混合体,但实际上并未在任何特定的个体基因组中观察到其序列。

请注意所有当前的标准参考基因组序列都是单倍体,这意味着它们仅代表单拷贝的每个染色体(或重叠群)。最直接的后果是,在诸如人类这样的二倍体生物中,每个常染色体都有两个副本,在杂合状态(表现出两个不同的等位基因,例如 A/T)中最常观察到的位点的标准表示的选择在很大程度上是任意的。这在多倍体生物中显然更糟,例如许多植物,包括小麦和草莓,它们的染色体拷贝数更高。虽然可以使用基于图的表示(graph-based representations)来表示参考基因组,从而将解决这个问题,但目前很少有基因组分析工具能够处理这种表示。进一步讨论请参阅这篇文章。

2. 选择一个参考基因组build

无论你使用的是模式生物还是非模式生物,都有可能有多个参考版本可用。就人类基因组而言,要选择哪个版本曾经是一个巨大的问题,尽管最新的参考基因组(GRCh38/Hg38)的出现似乎在某种程度上降低了复杂性。我们对其他生物的情况不太熟悉,但据说这是一个相当普遍的问题。

在实践中,最大的问题是,一旦你开始使用特定的参考build,就很难切换到另一个或合并源自不同build的外部资源。 我们这里有一个完整的文档,专门讨论在这种情况下可能出现的问题。

为了让未来的工作更轻松,你最好在准备实验设计时谨慎选择将要使用的参考build。 你应该考虑 (1) 哪些资源将是必要的,以及你正在查看的各种build哪些是可用的,(2)你的同事或潜在合作者已经使用的资源,(3) 你所在领域的人最常使用的资源。

3. 术语:用来描述参考基因的术语

有一大堆专门与参考基因组相关的术语;我们尝试在此处收集其中最常见的,但如果你发现任何你认为我们应该添加的内容,请在评论中告诉我们。

分析集(Analysis set)参考基因组具有适应序列读取比对的特殊功能。 这种类型的基因组参考可能与你用于浏览基因组的参考不同。有关示例,请参阅有关人类基因组参考build的文档。

重叠群(contig)是没有“物理”间隙的连续序列(在此,“N”个碱基的延伸不被视为间隙),例如染色体。也可以是不完整组装中的支架、细菌基因组中的质粒等。

Alternate contigs、alternate scaffolds 或 alternate loci允许在对于单一表示过于复杂的区域中表示不同的单倍型。有关 ALT contigs 的目的和用法的更多讨论,请参阅人类基因组参考build文件。

初级组装(Primary assembly)是指 (i) 组装的染色体,(ii) 未定位(已知属于特定染色体但顺序或方向未知)和 (iii) 未放置(染色体未知)序列的集合。它代表一个非冗余的单倍体基因组。

PAR代表拟常染色体区域(pseudoautosomal region)。哺乳动物 X 和 Y 染色体中的 PAR区域允许性染色体之间的重组。因为 PAR 序列一起创建了一个二倍体或拟常染色体序列区域,所以 X 和 Y 染色体序列在基因组组装中是刻意一致的。分析集基因组进一步屏蔽了 Y 染色体 PAR 区域中的两个,以便允许将序列仅映射到 X 染色体 PAR 区域。

不同的组装(assemblies)会移动位点的坐标,组装很少发布。在人类基因组环境中,Hg19 和 GRCh38/hg38 代表两个不同的主要组装。 比较来自不同组装的数据需要工具来调整基因组坐标以匹配位点,有时结果并不完美。

补丁(Patches)是针对给定组装定期发布的区域性修补。它们旨在在不破坏染色体坐标的情况下改进表示或向组装添加信息。有两种类型的补丁,固定的和新的,代表不同类型的序列改变。

    固定补丁(Fixed patches)表示将在下一个版本中替换主要组装序列的序列。在解释数据时,固定补丁应该优先于染色体。

    新补丁(Novel patches)代表alternate loci。在解释数据时,将新补丁视为群体序列变体。

4. 推荐基因组浏览器:IGV

我们建议使用 Integrative Genome Viewer (IGV) 来浏览/查看基因组序列数据。IGV 是用于查看基因组数据(包括比对)的桌面应用程序。该工具能够使用通过文件或 URL 提供的参考基因组,或者它在服务器上的众多参考基因组。服务器上的参考基因组包括GRCh38。 有关服务器上的参考基因组的信息,请参阅此页面。 如需最新的基因组列表,请打开 IGV 并转到 Genomes>Load Genome From Server。菜单列出了可以在主基因组下拉菜单中提供的基因组。

为什么我们特别推荐IGV? 诚然,还有其他功能齐全且非常棒的基因组浏览器。但是,我们与 IGV 的开发人员(最初是在我们楼下的Broad Institute)有着密切的关系,因此我们可以方便地继续使用它。你当然可以使用任何你喜欢的浏览器;请注意,我们在线和现场研讨会上的文档材料和教程中的所有屏幕截图都只使用了 IGV。

在基因组浏览器上查看 CRAM 比对

由于 CRAM 压缩取决于对齐参考基因组,因此使用 CRAM 文件的工具通过比较参考 contig MD5 标签值来确保正确解压缩。这些对序列中的任何变化都很敏感,例如用 Ns 来模糊化。当浏览器中加载的参考与比对中使用的参考不相交时,这可能会对在基因组浏览器中查看比对产生影响。 如果你使用的工具版本存在此问题,请务必加载原始分析集参考基因组以查看 CRAM 比对。

你可能感兴趣的:(参考基因组(Reference genome))