2022-04-16

Science | 完整人类基因组中的片段重复及其变异

原创 风不止步 图灵基因 2022-04-16 10:15

收录于话题#前沿分子生物学机制

撰文:风不止步

IF=47.728  

推荐度:⭐⭐⭐⭐⭐

亮点:

文章比较了人类(n=12)和非人类灵长类动物(n= 5)基因组,系统重建生物医学相关和重复基因的进化,及结构单倍型多样性。分析揭示人类与其他灵长类动物之间片段重复(SD)组织结构杂合性和进化差异的模式。


2022年4月1日,美国华盛顿大学基因组科学系的Evan E. Eichler博士等人在《Science》上发表了一篇“Segmental duplications and their variation in a complete human genome”的文章,文章对268个人类基因组的分析后,表明91%先前未解析的T2T-CHM13 SD序列 (68.3 Mbp) 代表人类拷贝数变异。分析揭示人类遗传多样性被低估的模式,并表明SD基因在甲基化谱和转录水平之间表现出高度的一致性。

大且高同一性[>1千碱基对 (kbp)和>90%]的重复序列称为片段重复 (SD)——通常是基因组的最后一个被测序和组装的区域。基因组重复长期以来被认为是结构变化和基因创新的重要来源。在人类中,片段重复(SD)促进减数分裂不等交叉事件,从而导致与之相关联的反复重排。这些相同的SD是人类特异性基因的储存库,SDs富集了约10倍的正常拷贝数变异,尽管这种遗传多样性的大部分还没有被完全定性或与人类表型相关。SD的长度(经常>100kbp)、序列的一致性和人类单倍型之间广泛的结构多样性阻碍了在基因组水平上描述这些区域的能力。这是因为序列读数不够长,而人类单倍型的结构过于多样,无法解决重复拷贝或区分等位基因变体。


使用 Sanger 测序技术创建的第一批人类全基因组序列 (WGS) 组装草案之一几乎没有SD及其潜在基因。同样,基于细菌人工染色体(BAC)的从不同单倍型组装人类基因组的方法导致许多错误连接,造成的差距需要数年时间才能解决。尽管将基于WGS和BAC的数据结合起来进行人类基因组的早期测序提供了SD领域的路线图,但人类参考基因组中超过50%的缺口对应于复杂SD的区域。基因组资源的开发很大程度上是为了解决这些区域的组织问题并同时完成人类参考基因组。GRCh38 参考是多个人类单倍型和祖先的综合代表,与长读长技术的进步相结合,产生无间隙人类基因组汇编T2T-CHM13。使用T2T-CHM13来呈现人类基因组中SD的完整视图,并强调它们在促进对人类遗传多样性、进化和疾病的重要性。


T2T-CHM13参考增加一条染色体的SD值(81Mbp),将人类基因组平均值从5.4%增加到7.0%,并且SD配对关系的数量几乎翻了一番,因此预测基因组不稳定区域是因为它们有可能在减数分裂期间推动不平等的交叉事件。从每一个指标来看,T2T-CHM13都改进了我们对人类基因组结构的表征。基于序列的13、14、15、20和21号染色体短臂组织,发现SD比异色卫星(26.7 Mbp)或rDNA (10 Mbp)占更多序列(34.6 Mbp) 。与非近端中心区相比,近端中心型SD几乎大两倍,这可能是因为短臂之间发生异位交换事件,在核仁形成期间更频繁地关联。近一半的近端着丝粒SD涉及与染色体1、3、4、7、9、16和20的非近端着丝粒周围区域的重复。这些重复的近端着丝粒DNA中的常染色质样序列岛比以前认为的要广泛得多,但已被证明具有转录活性。值得注意的是,三个非近端着丝粒区域具有大的次级收缩位点(染色体1q、9q和16q),几乎完全由异色卫星(HSAT2和HSAT3)组成。因此,这些特殊的SD被大片异色卫星包围,这种配置可能使它们特别容易发生双链断裂事件促进近端着丝粒和非端着丝粒染色体之间的染色体间重复。


T2T-CHM13参考以及来自其他人类基因组的资源为研究更复杂的人类遗传变异形式提供了基准。例如,这个完整的参考序列有助于序列锚定探针的设计,以系统地发现和表征个体间染色体组织不同的SD异态变异(图2)。这种染色体异型性传统上已在细胞遗传学上进行了研究,并被认为在临床上是良性的。T2T-CHM13参考——与其他长读长数据集相结合——能够对最近复制的基因进行全基因组功能表征。基因注释和表征人类基因组调控格局的大规模努力通常都排除了重复区域,包括映射到高同一性SD的859个人类基因。这是因为短读长测序限制传统的RNA-seq或Chip-seq数据被明确地分配给特定的重复基因。


研究人员使用长读长全长转录本数据 (Iso-Seq) 和来自同一基因组ONT测序的长读长甲基化数据,同时针对完全组装的参考基因组研究表观遗传和转录数据。来自同一单倍体来源的长读长数据促进了这些功能读数的明确分配,能够将甲基化和转录本丰度关联起来。初步分析表明,大部分重复基因实际上是表观遗传沉默的(以启动子的高甲基化和基因的低甲基化为特征),即使基因几乎相同,这种表观遗传标记也可用于预测活跃转录的基因座。尽管需要研究更多的人类基因组和不同的组织来评估这一观察结果的影响,但很明显,具有长读长功能读数的分阶段基因组,例如甲基化、转录或Fiber-seq提供一种强有力的方法来理解人类基因组中重复和拷贝数多态基因的调控格局。


未来的重要挑战将是准确表示这些更复杂的人类遗传变异形式,包括线性表示可能不足的功能注释。尽管更复杂的泛基因组参考图可以克服这些限制,但目前尚不清楚这将如何在实践中实现或如何被基因组学和临床采用。这突出不仅构建泛基因组参考而且开发必要工具的重要性,这些工具将区分重复中的旁系同源和直系同源序列,以允许在具有不同SD架构的单倍型之间进行比较。


教授介绍

Evan E. Eichler博士,教授

Evan Eichler对人类基因组中基因复制和拷贝数变异背后的进化、病理学和机制感兴趣。具体来说,Eichler团队想要了解节段重复对功能和结构的影响,这些重复会产生新基因和与神经发育迟缓相关的反复重排。该团队使用计算和实验方法正在努力解决以下问题:这种重复架构在人类中是如何演变的,底层机制是什么?它们在多大程度上导致疾病和表型差异?而且,与猿和其他哺乳动物相比,人类的复制结构如何?


研究兴趣:基因组复制和适应性突变被认为是进化新功能的主要力量之一。重复序列也是染色体进化过程中快速结构变化的动态区域。研究的长期目标是了解人类基因组中近期基因复制和DNA转座的进化、病理学和机制。工作内容包括系统地发现这些区域、开发评估其变异的方法、检测快速基因进化的特征以及最终将这种遗传变异与物种内部和物种之间的表型差异相关联。

参考文献

Mitchell R. Vollger, Xavi Guitart et al.Segmentalduplications and their variation in a complete human genome.(2022)

你可能感兴趣的:(2022-04-16)