2022-05-01

Nature | 人类泛基因组计划揭示基因组多样性

原创 骄阳似我 图灵基因 2022-05-01 11:07

收录于合集#前沿分子生物学技术

撰文:骄阳似我

IF49.962

推荐度:⭐⭐⭐⭐⭐

亮点:

人类泛基因组参考的目标是创建一个更复杂、更完整的人类参考基因组,以图形为基础,以端粒到端粒的方式表达全球基因组多样性。本文利用技术创新、研究设计和全球合作关系,以构建尽可能高质量的人类泛基因组参考。本文的目标是改进数据表示和简化分析,以实现完整二倍体基因组的常规组装。随着对伦理框架的关注,人类泛基因组参考将包含全球基因组变异的更准确和多样性表示,改进跨人群的基因-疾病关联研究,将基因组学研究范围扩大到基因组中最重复和多态的区域,作为未来生物医学研究和精确医学的最终遗传资源。

 

人类参考基因组是现代人类遗传学和基因组学的基础开放获取资源,为比较研究结果提供一个集中的协调系统。它的发布为基因组数据共享设置了标准,这对几乎所有人类基因组学应用都至关重要,包括比对、变异检测和解释、功能注释、群体遗传学和表观基因组分析。当前的人类参考(GRCh38.p13)是由20多个个体收集的基因组数据拼图,其中约70%的序列由单个个体贡献。依赖单个镶嵌组合(不代表任何一个人的序列)会产生参考偏差,对变异发现、基因-疾病关联研究和基因分析的准确性产生不利影响。


2022年4月20日,科学家在nature杂志上发表了一篇名为“The Human Pangenome Project: a global resource to map genomic diversity”的前瞻性文章,概述了人类泛基因组参考联盟(HPRC)的目标、战略、挑战和机遇。本文将让科学家和生物伦理学家参与创建代表人类群体基因组多样性的人类泛基因组参考和资源,以及改进组装技术和开发基于图形的基因组序列分析工具生态系统。这一新的参考将保持与原始参考的基本联系,以保持连续性,即努力开发完整且无误的人类基因组所有染色体的端粒到端粒(T2T)组合,这里称为“单倍型”。


“泛基因组”是代表物种遗传多样性的多个个体的整体基因组序列。HPRC通过多学科合作发挥作用,召集跨机构和多国工作组,致力于样本收集和同意、群体遗传多样性、技术和生产、分阶段和组装、泛基因组参考构建方法、资源改进和维护、资源共享和推广。HPRC包括几个组成部分:收集:1000个基因组样本开始该项目,随后将通过社区参与和招募收集更多样本。样本选择工作将确保基于图形的参考捕获全球人类基因组多样性。序列:长读和长程技术用于生成基因组图,并在难以组装的基因组区域填补空白。组装:T2T完成的二倍体基因组将促进变异发现,尤其是在复杂、难以组装的基因组区域。构造:可扩展的生物信息学方法组装、质量控制、调用变量和基准图组装精度。该图用基因描述和转录组数据进行注释,使其更容易理解和解释。利用:跨科学和利益相关者社区的合作将创造一个新的分析工具生态系统。临床应用和研究使用将涉及结果的分析、验证、解释和公布。推广:HPRC推广社区的成员参与并教育用户社区,广泛分享所有基因组产品和信息学平台。ELSI:ELSI学者将制定选择流程和政策框架,以满足研究者的需求,并尊重研究伙伴的自主性和文化规范。


基因组学的技术进步使长重复序列测序、染色体物理定位以及母系和父系遗传单倍型的分期成为可能。在项目初始阶段,对单个个体HG002进行测序,其基因组序列已通过瓶中基因组(GIAB)联盟进行了全面表征。评估了多种测序技术和组装算法,以确定平台的最佳组合,并开发了生成最完整和准确基因组表达的自动化管道。从现在已经确立的假设开始,即长读(超过10 kb)产生的完整基因组组装比短读单独产生的完整基因组组装多。测试的技术包括Pacific Biosciences(PacBio)和/或用于生成重叠群的ONT长读、10倍基因组学连锁读、Hi-C配对读、链序列长读和/或用于将重叠群支架化为染色体的BioNano光学图谱。这项试点基准研究为测序技术和计算方法制定了标准,这对HPRC的成功至关重要。


科学家正在构建一个包含三个互补部分的泛基因组参考:(1)单倍型,即输入集合中的序列;(2)泛基因组比对是一个序列图,是每个输入单倍型作为路径在该图中的有效嵌入;以及(3)坐标系,这是一个向后兼容的坐标系和一组序列,使得能够平等地参考参考中编码的所有变化。单倍型提供了数百个基因组的个体代表,跨越了全球多样性。每个单倍型组合将单独用作研究与当前人类参考组合不同的基因组序列的参考。泛基因组比对表示各个装配之间的同源关系。这种规范的比对将支持单倍型之间的坐标转换(liftOver),并定义等位基因关系。它将成为许多新兴泛基因组工具和管道的基础,这些工具和管道将改善重要的基因组工作流程,例如,通过降低基因分型准确性对祖先的依赖性。坐标系提供了一种全局的、明确的方法来引用泛基因组中的所有变化。它使单倍型内的所有变异成为一类对象,可以平等地引用。最终,它将提供一种更完整的方法来引用未包含在现有线性引用中的变体,从而证明对基于泛基因组引用的数据库和工具非常有用。

本研究的目的是记录pangenome中人类基因组之间的遗传相似性和差异。然而,即使有高质量的基因组组装,全面的变异检测仍然是一个挑战。还没有单一的数据类型或生物信息学方法在所有变异类别和基因组区域中实现高性能。因此,正在寻求多种互补的变异检测方法,使用全基因组多组装比对、成对组装-组装比对和传统的基于参考的读取比对的组合。


当前GRCh38参考的注释包括基因和基因组特征,如重复序列、CpG岛、调节区和染色质免疫沉淀-seq峰等。pangenome参考将具有这些相同的实用程序和更多功能,包括以下内容。对于基因,基因组分析中主要使用的两个基因集是国家生物技术信息中心(NCBI)的Ref-Seq,和EMBL-EBI的Ensembl/GENCODE。pangenome参考支持RefSeq和Ensembl/GENCODE基因集并把这两个注释映射到每个单倍型。基因组功能包括影响基因表达的调控区域、调节表达水平的增强子,以及控制细胞内染色体结构组织的三维相互作用。将利用现有的RNA测序、甲基测序和转座酶可及染色质分析,以及来自路标表观基因组学、编码、4D核小体(4DN)、基因型组织表达(GTEx)和常见病基因组学中心(CCDG)等的高通量测序数据集,使用泛基因组参考来注释此类功能信息。这将增强功能性人类遗传变异目录。将功能数据与pangenome参考相结合将有助于开发工具包和分析管道,以评估遗传变异对复杂性状和表型变异的影响。HPRC将与开发者合作,为数据提供商和消费者定义多模式“大生物数据”的规则和机制。


为了加强访问和共享,将向AnVIL和国际核苷酸序列数据库合作组织(INSDC)提交序列数据(PacBio HiFi、ONT和Hi-C等)、联合体生产的组装和泛基因组。数据也将在S3和谷歌云存储上存储并公开。这个通用模型支持未来使用基于云的策略进行跨多个中心的生物数据分析。全世界各种云的用户都知道他们使用的是相同的数据集。

本文正在开发的资源和方法将对人类疾病和精确医学的基因基础研究产生深远影响。虽然认识到临床研究界的采用需要时间,但使用pangenome参考有三个重要的好处。首先,当对患者样本进行测序和分析时,纳入和显示人类遗传多样性的更完整参考将产生更少的模糊映射,并对整个基因组中的拷贝数变异进行更准确的分析。这将改善基因诊断和变异的功能注释。其次,该资源将有助于发现疾病风险等位基因和以前未观察到的罕见变异,尤其是在标准短读测序技术无法进入的区域。最后,pangenome方法代表着人类基因变异被发现方式的根本改变。


教授介绍:

王艇

王博士是圣路易斯华盛顿大学医学院Sanford C.和Karen P.Loewentheil的杰出医学教授。王博士于1997年获得北京大学本科学位。他在华盛顿大学获得了计算生物学博士学位,在加利福尼亚大学圣克鲁斯担任Helen Hay Whitney研究员,之后又回到华盛顿大学,开始在遗传学系和基因组科学和系统生物学中心开设自己的实验室。王博士是国际公认的遗传学家,他研究转座因子(TE)对基因调控的遗传和表观遗传学影响。他的团队以定义TEs对物种特异性基因调控网络进化以及3D基因组结构保护的广泛贡献而闻名,并揭示了TEs的表观遗传失调是驱动肿瘤发生的主要机制。


王博士的实验室通过整合尖端实验和计算技术,研究正常发育和再生、癌症和进化过程中细胞命运的表观遗传学决定因素。他的实验室开发了广泛使用的DNA甲基组学技术、识别调控基序和模块的算法,以及整合大型基因组和表观基因组数据的分析和可视化工具。他的实验室是WashU表观基因组浏览器的所在地,世界各地的研究人员利用该浏览器访问由大型财团生成的数十万个基因组数据集,包括NIH路线图表观基因组项目、编码项目、4D核小体项目和目标项目。王博士目前领导NIH 4D核小体网络数据协调与集成中心和NIEHS环境表观基因组学数据中心。


参考文献:

Wang, T., et al., The Human Pangenome Project: a globalresource to map genomic diversity. Nature, 2022. 604(7906): p. 437-446.

你可能感兴趣的:(2022-05-01)