2022-07-27

Nat Cancer | 2428个全基因组测序发现人类癌症基因组重排特征

原创 风不止步 图灵基因 2022-07-27 16:28 发表于江苏

收录于合集#前沿分子生物学机制

语音朗读本文音频:00:0008:34

撰文:风不止步

IF=23.177

推荐度:⭐⭐⭐⭐⭐

亮点:

文章开发了一种计算算法“海星”,分析来自2428个全基因组测序(WGS)肿瘤的2014个CGRs,根据其拷贝数和断点模式发现6个基因组重排(CGR)标签。


2022年7月14日,美国Ben May癌症研究系的杨立兴博士等人在《Nature Cancer》上发表了一篇“Starfish infers signatures of complex genomic rearrangements across human cancers”的文章,文章描述了一个名为海星的计算算法,根据拷贝数变异(CNVs)和结构变异(SVs)断点模式推断人类癌症中的CGR特征。


基因组不稳定性是癌症的一个标志,癌症体细胞基因组重排非常多。基因组重排,也被称为结构变异(SVs),包括简单的形式,如缺失、复制、倒置和易位,以及更复杂的形式。一种特殊类型的复杂基因组重排(CGR),称为染色体三体化,是指单一事件导致许多体细胞基因组重排,在多个肿瘤类型中已被发现。此外,其他形式的CGR也已被描述,如染色体合成、染色体发生和染色质固定术。

图 1:在 PCAWG 队列中检测到的六个 CGR 特征。


了解导致癌症中体细胞基因组重排形成的分子机制对疾病的筛选和治疗具有重要临床意义。不同的突变过程在不同的组织中运作,并在DNA中留下不同的足迹(基因改变),可以用数学方法分解出其与个别突变过程相对应的突变特征。突变特征已经被分解为单核苷酸变异(SNVs)、拷贝数变异(CNVs)和SVs。

图2:CGR标签的基准测试


最近的体外研究揭示了两种CGR的形成机制;首先,由于分离错误而被困在微核中的染色体会破碎成许多碎片并随机重新连接。重排断点均匀地分布在染色体上,DNA片段有两个或三个拷贝数状态。其次,染色质桥可以通过双中心染色体形成,桥断裂导致染色体三裂,断点高度集中,DNA片段也有两到三个拷贝数状态。在成为染色体残缺之前,双中心染色体可能会经历断裂-融合-断桥(BFB)循环,期间DNA片段会被复制和丢失,导致三个以上的拷贝数状态。在BFB-循环/染色质桥诱导的染色体衰退中,所涉及的染色体经常失去端粒,并经常出现倒置。此外,微核和染色质桥都能导致循环外染色体DNA(ecDNA)的形成,也被称为双分钟(DMs)。ecDNA中,来自不同基因组区域的小DNA片段被连接起来并高度放大。然而,这些机制在多大程度上促成疾病组织中CGR的形成,以及是否还有其他机制,仍然不清楚。

图3:CGRs的分布


非负矩阵因子化(NMF)等方法被开发出来以提取突变特征。然而,这种策略不能用于分解CGRs的特征,因为需要从肿瘤基因组中提取大量的变体。虽然CGRs中存在大量重排,但是是一次性形成的,每个肿瘤只携带一个或两个CGRs。因此,需要其他方法来研究CGR的特征。研究使用图形对CGRs进行分类,但在纳入CGR断点分布和端粒丢失方面能力有限。

利用现有的基因组测序数据研究癌症的CGR形成机制。基因组测序数据,有两种可信的方法:(1) 使用真实案例训练一个计算模型,并对从癌症中检测到的CGRs进行分类。2)对从癌症中检测到的CGRs进行分类,并将其与已知机制联系起来。采取后一种方法,因为对CGRs的实验研究仍然局限于机制,更重要的是,前一种方法不允许检测具有未知机制的类型。策略不依赖于以前对CGR机制的了解,而且基准结果显示与实验诱导的CGRs有很高的一致性。因为大多数CGR的特可能被错误分类。例如,标签2的得分(图1b),与染色质桥机制是一致的,如果断点交界处离端粒太近,该事件的端粒丢失就会导致得分很低,并被误归为不同的标签。的确,在基准样本中,有一部分CGRs被错误地分类。尽管如此,还是能对五个独立的实验研究中的大部分CGR事件进行正确分类(图2a),这表明海星分类器的整体性能良好。

图4:CGRs的遗传关联。


研究表明,一种机制可以导致许多不同类型的重排,从简单的SVs、局部跳跃和BFB循环到非常复杂的重排。尽管将简单的SVs与微核或染色质桥联系起来将是非常具有挑战性的。CGRs的模式差异足够大,所以可以区分开。此外,当某些细胞系暴露于药物时,可以观察到各种类型的基因组改变,如臂级拷贝增加、简单重排、BFB循环、染色体残缺和具有各种配置的ecDNA。实验结果证明基因组改变的明显复杂性。

图5:CGR断点的偏差


在肿瘤中观察到的情况与实验观察高度一致,即一个基因可以通过几种不同的机制进行扩增。以前的研究报告说胶质母细胞瘤中的EGFR可以作为DM中的一个单一片段扩增,或与许多其他片段共同扩增。在标签1中,CGR区域的一些片段被扩增(例如,图1c中的染色体和X,白肌肉瘤的ecDNA),而其他片段要么不被扩增,要么扩增水平很低(例如,图1c中的染色体6和7,白肌肉瘤的ecDNA)。结果还揭示ecDNA的独特特征--它们的断点在转录和DNA复制的正面碰撞区域富集。这表明,尽管ecDNA在体外可以通过微核和染色质桥诱导的染色体剥离事件形成,但在肿瘤发生时,转录活动和复制压力可能发挥重要作用。

总之,文章开发了一种计算算法“海星”,分析来自2428个全基因组测序(WGS)肿瘤的2014个CGRs,并根据其拷贝数和断点模式发现了6个CGR标签。广泛基准测试表明,CGR标签是高度准确且有生物学意义。

教授介绍


杨立兴博士

目前在美国Ben May癌症研究系担任人类遗传学助理教授

研究和学术兴趣: 生物信息学、癌症、计算生物学、基因组学

实验室专注于精准医疗的前沿。主要关注人类癌症,对非癌症人类疾病感兴趣。开发新的计算方法来整合大规模基因组、转录组、表观遗传和临床数据,以了解发病机制,发现新的药物靶点,并最终帮助患者。

参考文献

Lisui Bao, Xiaoming Zhong et al. Starfish infers signatures of complex genomic rearrangements across human cancers(2022)

你可能感兴趣的:(2022-07-27)