目前,基因测序普遍使用的DNA测序仪主要基于短读长测序技术,在获得基因组序列片段后,将其映射到参考基因组序列中来确定染色体位置,识别出其与基因组参照的差异。但完全依赖单一参考序列来鉴别具有遗传多样性的人类亚群中的遗传变异时,不可避免会出现对不同基因组参照序列的错误映射。近年来,随着参考基因组的不断发布以及基因组间的相互比较,人们逐渐认识到单一参考基因组不能代表物种内的多样性,由此,泛基因组(Pan-genome)应运而生。
泛基因组能够在短读长测序数据集中识别单一参考基因组难以发现的结构变异(SV),了解这些SV的功能影响、与疾病的关联或和进化中的作用。此外,泛基因组还包含多种完整基因组组装及其同源信息。
近日,美国加州大学圣克鲁斯基因研究所的Benedict Paten研究团队在Science杂志上发表了题为“Pangenomics enables genotyping of known structural variants in 5202 diverse genomes”的研究文章。研究团队开发了一种泛基因组短读长映射工具——Giraffe,能够高效地将单个测序reads映射到包含数千个人类基因组的泛基因组上,其运行速度与VG-MAP等现有标准映射方法相当,且减少了映射偏差。Giraffe可基于短读长测序数据对SNV、InDel以及SV进行更准确地基因型分析。研究团队利用Giraffe对5,202个不同人类基因组中的167,000个SV进行基因分型,结果显示Giraffe对SV基因分型具有较高的准确度。同时,Giraffe可以更全面地描述遗传变异的特征,对变异进行更全面的表征,进而改进基因组分析。
文章发表于Science
Giraffe的设计基础是:单个测序reads可以与GBWT无间隙局部比对直至末端,序列中不匹配的间隙能够通过间隙比对的方法解决,有效地处理了复杂的图形区域(图1)。Giraffe首先通过读取个体基因组中的参考单倍型将其graph Burrows-Wheeler transform (GBWT)作为输入,并表示为一系列彩色矩形,然后再按照它们在序列中对应的节点进行分割,根据GBWT与序列中节点的同源性进行着色。其中,单个测序reads和GBWT所匹配的最小长度片段被定义为“Seed”(黑框部分),Giraffe可以列举出Seed并按其在序列中的间距(以核苷酸为单位测量)进行聚类,对“高分”的Seed进行线性拓展使其与GBWT最大化地无间隙局部比对。
图1. Giraffe 操作视图。来源:Science
参考泛基因组可以从多个基因组序列中创建,使用数学图形结构来表示不同序列之间的关系。研究人员利用公开的GRCh38人类参考基因组构建了“1000GP”和“HGSVC”(图2B)两个人类基因组参考图来替代传统线性参考图(图2A)评估Giraffe。 “1000GP”主要包含来自2503个人的76,749,431个SNV,其中包含3,177,111个InDels(<50bp)和181个SV(≥50bp);“HGSVC”主要包含来自三个使用长读长测序的个体的数据:HG00514、HG00733 和 NA19240,其中包含78,106 个较大的SV(≥50 bp)。
图2. 传统线性参考和参考序列图。来源:Science
在人类基因组参考图构建完成后,研究团队分别使用Giraffe和其他映射程序将reads序列映射到泛基因组和线性参考基因组上,并对映射的准确性、等位基因覆盖平衡和速度进行了评估。评估结果表明,Giraffe可以像现有的工具一样,准确地映射到泛基因组中嵌入的数千个基因组。在模拟中,每个reads的真实映射都是已知的,表明Giraffe与之前发布的最精确工具一样准确。
Giraffe是通过使用各种算法来实现这种速度和准确性。与以前的工具不同,Giraffe侧重于映射到个体基因组观察到的泛基因组路径:参考单倍型。这有两个关键好处。首先,优先考虑与已知序列一致的比对,避免在生物学上不太可能的等位基因组合。其次,通过限制reads可以对齐的序列空间来减小尺寸。有效处理了复杂序列区域。
研究团队利用Giraffe对5202人基因数据(短读长测序)中发现的16.7万个SV(长读长测序)进行了基因分型,平均成本为每个样本1.5美元。结果显示,Giraffe对SV基因分型非常准确(图3),并得到了SV在整个人群和各个亚群体中的频率估计,确定了数千个作为表达数量性状位点(eQTL)的SV。
图3. 实验概述。来源:Science
论文通讯作者、加州大学圣克鲁兹分校生物分子工程副教授Benedict Paten表示:“我们多年来一直朝着这个方向努力,如今我们第一次有了实质性的突破。Giraffe算法可以迅速、高效地工作,比单一参考基因组的效果更好。”
综上所述,Giraffe算法通过使用短读长测序数据可以准确地对SNV、InDels和SV进行基因分型,其速度可与映射到单一参考基因组的标准方法相媲美。Giraffe映射精度的提高使全基因组的基因分型在下游得到了改善,既适用于微小变体,也适用于较大的结构变体。Giraffe改进了基因组多态性区域中的泛基因组图谱构建,使具有更广泛代表性的泛基因组参考变得更加实用,有助于更全面地表征SV、改善基因组分析,使基因组学更具包容性。
参考文献:
Sirén J, Monlong J, Chang X, et al. Pangenomics enables genotyping of known structural variants in 5202 diverse genomes. Science. 2021;374(6574):abg8871.
https://www.science.org/doi/10.1126/science.abg8871
机器学习
后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集
喜欢就点个“在看”吧!