38种癌症、2659份样本,举全球之力破解癌症全基因组密码

  作者:代丝雨&应雨妍&BioTalker

  今日上线的《自然》杂志以封面专题的形式报道了一组超重磅研究,包括《自然》主刊刊发的 6 篇论文在内,《自然》及其旗下子刊共计发表 21 篇论文,3 篇新闻报道及评论。

38种癌症、2659份样本,举全球之力破解癌症全基因组密码_第1张图片

  得到顶级期刊如此大规模礼遇的正是近年来备受关注癌症基因组研究,更准确地说,是以全球癌症基因组协会(ICGC)和癌症基因组图谱计划(TCGA)工作为基础的全基因组泛癌分析(PCAWG)

  众所周知,癌症是一种基因病,由体细胞癌基因突变引起。但是从人类认识基因直到最近,人类对癌症基因组的研究仍集中于功能基因,这部分基因仅占全基因组的不足2%。本次 PCAWG 披露的工作成果正是填补了这一空白,进一步探索了编码区和非编码区中体细胞和种系变异的性质及后果,特别关注了顺式调控位点、非编码 RNA 以及大规模结构变异。

  PCAWG 可以说是全球学者大规模合作的成果,研究数据来自分布在四个大洲、744 个科研机构的 16 个工作组,研究者们对 38 个癌种、2658 个原发癌及其相应的正常组织进行了全基因组测序和整合分析,为癌症研究提供了全新的视野。

  本次披露的科研成果揭示了大规模结构突变在癌症中所发挥的广泛作用在基因调控区域找到了新的癌症相关突变推断了多种肿瘤的进化等等,并同时展示了研究所用的数据、工具和其他资源,这对于想要进一步探索的学者来说也是非常有帮助的。

  今天奇点就对《自然》的 6 篇论文、《自然·遗传学》的 5 篇论文和《自然·生物技术》的 1 篇论文做一些简要的介绍,希望能为各位读者提供帮助。感兴趣的读者可以点击文末“阅读原文”直接跳转到论文合集页。

  PCAWG 研究数据的概述

  发表在《自然》杂志上的 6 篇文章分别从不同的角度介绍了癌症全基因组的分析结果。在第一篇文章中,研究人员概述了 PCAWG 数据的深度和广度。平均来看,每个癌症基因组均携带4-5 个驱动突变,但有5% 的肿瘤则没有发现,这表明我们在癌症驱动突变的发现中还有很多工作要做。

  另外,很多癌症患者还存在复杂的染色体重排(chromoplexy,17.8%)和染色体碎裂(chromothripsis ,22.3%)这两种类型的突变,它们导致了基因组结构的变化。

  在剩下的 5 篇文章中,不同小组的研究人员分别从基因组突变特征、癌症进化史、RNA 改变和非编码 DNA 这几个方面进行了详细的讨论。

  基因组突变特征

  首先来说基因组突变特征,5 篇文章有 2 篇分析了不同类型的突变特征,其中一篇是关于体细胞突变。

  癌症基因组中的体细胞突变是由多个突变过程引起的,每个突变过程都会产生具有特征性的突变特征。研究人员通过对 4645 个全基因组和 19184 个外显子序列的测序,确定了 49 个单碱基取代,11 个双碱基取代,4 个簇碱基取代和 17 个小插入/缺失特征。

38种癌症、2659份样本,举全球之力破解癌症全基因组密码_第2张图片
单碱基取代、双碱基取代和小插入/缺失特征的突变负荷

  在这些突变特征中,既包含过去研究已经发现的,也有一些全新的。虽然有些突变特征的诱因没有找到,但是在这些数据的基础上建立突变特征库并确定它们在不同癌症中的作用,可以帮助研究人员更系统地了解癌症的发展。

  另一篇则是关注了结构变异,结构变异也是癌症的关键突变过程,研究人员共找到了 16 种结构变异特征并且解析了它们在癌症中的作用。例如缺失,在各种癌症类型和患者中分布不均,在晚期复制区域富集,并且和倒位相关。

  总的来说,这些突变特征的发现为理解癌症发展机制以及风险因素的诱变暴露的作用奠定了基础。

  癌症进化史

  接下来是癌症进化史,在这篇文章中,研究人员重建了 38 种癌症的发展史以及突变过程和驱动突变序列的演变。

38种癌症、2659份样本,举全球之力破解癌症全基因组密码_第3张图片
肠癌(a)、肺鳞状细胞癌(b)、卵巢癌(c)和胰腺癌(d)重要突变出现的时间轴

  早期肿瘤发生的特征是一组受限制的驱动基因的突变,以及特定的拷贝数增加,而后期,驱动基因突变有了近 4 倍的多样化,基因组的不稳定性增加。在整个肿瘤发展过程中,有至少 40% 的肿瘤突变谱会发生显著变化。

  时序分析表明,环境对肿瘤进展的影响随着时间逐渐减弱,DNA 修复缺陷的频率和严重性逐渐增加。值得注意的是,驱动基因突变的发生通常要比癌症的诊断早几年,甚至几十年。  

  RNA 改变

  在癌症研究中,RNA 改变的研究还比较欠缺,因此,这次的新研究[5]利用庞大的样本量为我们提供了迄今为止最全面的数据。

  通过匹配的全基因组测序,研究人员将几类 RNA 改变(包括过表达和基因融合等)与 DNA 改变功能性地关联在了一起。他们一共确定了 649 个影响基因表达的体细胞单核苷酸变异和 1900 个与体细胞突变有关的剪切改变。

  此外,有高达 82% 的基因融合和结构变异有关,包括 75 种新的“桥接”融合(两个基因中插入第三个基因并发生融合)  

38种癌症、2659份样本,举全球之力破解癌症全基因组密码_第4张图片
桥接融合的过程

  研究人员观察到转录组改变的特征在不同癌症中是不同的,并且与 DNA 突变特征的变化相关。这种 RNA 改变为了解与癌症相关的功能性基因和机制提供了新的可能。

  非编码 DNA

  最后再来说说非编码 DNA 中的突变,由于准确地检测非编码区突变比编码区突变难度更大,因此研究人员开发了两种新的发现驱动突变的方法。

  他们的检测结果发现了一些新的突变,包括 TP53 的5’端非编码区,NFKBIZ 和 TOB1 的3’端非翻译区的点突变等,同时,也对过去发现的个别突变提出了质疑,例如 NEAT1 和 MALAT1。  

38种癌症、2659份样本,举全球之力破解癌症全基因组密码_第5张图片
TOB1 的3'端非翻译区的突变和相关基因表达

  他们还发现端粒酶基因 TERT 的非编码区中相对频繁的突变导致端粒酶的过表达,会促进癌细胞的分裂。

  虽然驱动癌症的点突变和结构变异在非编码基因和调控序列中发生的频率比编码基因和序列中要低,但是随着更大的基因组分析,还会有很多非编码 DNA 突变被发现。

  线粒体与癌症的关系

  线粒体是人体内的能量工厂,由于能量代谢的改变是癌症的普遍特征,因此一直以来,很多科学家怀疑线粒体也参与到癌症的发病过程中

  此外,线粒体在细胞的生物合成、信号传导、分化、凋亡、维持细胞周期和细胞生长的控制等方面也起着重要的作用,而上述的过程也都与癌症的发生有内在联系。

  虽然之前也有研究探索了线粒体与癌症之间的关系,但是没有充分探索线粒体基因组和核基因组之间的相互作用,以及线粒体改变的生物医学意义。

38种癌症、2659份样本,举全球之力破解癌症全基因组密码_第6张图片
论文首页

  PCAWG 为上述研究提供了充足的数据。

  来自 MD 安德森癌症研究中心的科学家,从多个方面分析了线粒体基因组数据和相关的 RNA 测序数据。相关研究发表在《自然·遗传学》上。

  他们绘制了线粒体基因突变图谱,还确定了几个超突变病例。他们发现,线粒体基因的截断突变在肾癌、结肠直肠癌和甲状腺癌中非常多,暗示这些基因信号的变化有致癌作用。

  他们还发现,线粒体 DNA 存在频繁的细胞核转移,其中一些线粒体 DNA 片段会破坏治疗靶基因。而且,线粒体拷贝数在癌症内部和之间差异很大,并且与一些临床变量相关。

38种癌症、2659份样本,举全球之力破解癌症全基因组密码_第7张图片
癌症线粒体基因组的突变景观和过程

  共表达分析凸显了线粒体基因在氧化磷酸化、DNA 修复和细胞周期中的功能,而且还发现它们与临床上可干预基因位点之间存在联系。

  这个研究为线粒体生物学意义转化成临床应用奠定了基础。

  拓扑相关结构域与癌症的关系

  我们都知道,我们体内的 DNA 是以特定的三维结构折叠在一起的。

  科学家好早就发现,具有相同拓扑相关结构域(TAD)的基因,表现出相似的表达水平和组蛋白修饰。而且区分不同结构域的边界,对于维持上述特点的稳定性至关重要。

38种癌症、2659份样本,举全球之力破解癌症全基因组密码_第8张图片
论文首页

  实际上,科学家已经发现,在人类癌症中,这种结构域的破坏,会导致基因表达的失调。不过结构域的在癌症中被破坏的程度,仍然鲜为人知。PCAWG 数据库提供了一个研究此类问题的好机会。

  来自 MD 安德森癌症研究等顶级癌症研究机构的科学家们,分析了 PCAWG 数据库中的 288457 个结构变异,以了解结构变异在拓扑相关结构域中的分布,以及对拓扑相关结构域的影响。

  他们发现结构变异可以导致离得很远的拓扑相关结构域发生融合,或者发生复杂的重排,最终破坏了癌症基因组染色质折叠图谱。此外,只有 14% 的结构域边界缺失,会导致附近基因表达水平变化超过 2 倍

38种癌症、2659份样本,举全球之力破解癌症全基因组密码_第9张图片
拓扑相关结构域边界受癌症基因组中不同类型结构变异影响

  这个研究探索了体细胞结构变异在不同癌症类型中的分布,以及它们在染色体折叠和基因调控中的作用。研究成果发表在《自然·遗传学》上。

  LINE-1 逆转录转座子与癌症的关系

  LINE-1 逆转录转座子是人类基因组中一个广泛存在的重复元件,占整个 DNA 的 17%。它可以通过转录和逆转录的转座过程产生新的 DNA 拷贝,插入到基因组不同的位置。

  显然,LINE-1 转座会影响基因组中其他基因的表达和调控,进而影响基因组的稳定性。科学家在大约一半的癌症中发现了逆转录转座子的捣乱行为。不过 LINE-1 的插入对癌症的影响,科学家了解的还不够。

38种癌症、2659份样本,举全球之力破解癌症全基因组密码_第10张图片
论文首页

  来自英国威康桑格研究所等研究机构的科学家,以 PCAWG 数据库为基础,分析了癌细胞的逆转录模式和机制。他们发现了 19166 个获得性逆转录事件,影响了 35% 的肿瘤样本

  具体而言,LINE-1 插入是食管腺癌中最常见的结构变异类型,是头颈癌和直肠癌中第二常见的体细胞结构变异类型。而且,异常的 LINE-1 插入甚至可以导致染色体上数百万碱基对的 DNA 片段被删除,有些抑癌基因就在被删除的 DNA 片段之中

38种癌症、2659份样本,举全球之力破解癌症全基因组密码_第11张图片
人类癌症中体细胞逆转录转座的情况

  此外,LINE-1 插入还会诱发复杂的 DNA 片段异位和大规模的重复,甚至还会导致癌基因表达水平大幅上升

  这些发现阐明了 LINE-1 逆转录转座子在重塑癌症基因组中的作用,对肿瘤的发展存在潜在的影响。研究成果发表在《自然·遗传学》上。

  病毒感染与癌症的关系

  世界卫生组织估计,15.4% 的癌症归因于感染,9. 9% 的癌症与病毒有关。由此可见病毒感染与癌症之间存在密切的关系。

  在与癌症相关的病毒之中,最为我们所熟知的是HPV、HBV、HCV 和 EBV四种。

  那么在 PCAWG 数据库中,能挖到哪些病毒与癌症之间的关系呢?

38种癌症、2659份样本,举全球之力破解癌症全基因组密码_第12张图片
论文首页

  来自德国癌症研究中心的科学家在 PCAWG 数据库中,发现 382 个基因组数据和 68 个转录组数据集中存在病毒的踪迹。他们发现,在发现的病毒数据集之中,EBV、HBV 和 HPV(尤其是 HPV16 和 HPV18)的出现频率较高

  他们还发现,在头颈癌中,HPV 的存在与驱动基因突变之间存在显著的排他性;而HPV 与 APOBEC(有广谱的抗病毒作用)突变之间的相关性,意味着抗病毒能力的减弱,是宫颈癌、膀胱癌和头颈癌的驱动因素

  HBV、HPV16、HPV18 和 AAV2 病毒的整合,与基因组拷贝数的局部变异有关。在TERT 启动子处发生的病毒整合,与端粒酶表达水平高有关,意味着这个肿瘤驱动基因被激活。他们还发现,高水平的内源性逆转录病毒(ERV1)表达,与肾癌患者的预后差有关。

38种癌症、2659份样本,举全球之力破解癌症全基因组密码_第13张图片
病毒与癌症关系的研究过程及结果

  由此看来,病毒感染与癌症的关系值得深入研究。本研究也发表在《自然·遗传学》上。

  染色体碎裂与癌症的关系

  在染色体的复制过程中,有时会出现一种被科学家称为染色体碎裂的灾难性大规模基因重组。染色体碎裂的细胞一般会死亡,如果不幸存活下来,就会引发癌症。

  虽然近年来科学家对染色体碎裂的机制有了一些研究,但是对于染色体碎裂的成因、出现的频率,以及对细胞的影响,仍需要深入的研究。

38种癌症、2659份样本,举全球之力破解癌症全基因组密码_第14张图片
论文首页

  来自哈佛大学路德维希中心等研究机构的科学家,基于 PCAWG 数据库深入研究了癌症中的染色体碎裂事件。

  他们发现染色体碎裂事件普遍存在于所有癌症类型之中,在有几种癌症类型当中,出现的频率甚至超过 50%。从功能上看,染色体碎裂有助于癌基因的扩增,还会导致 DNA 错配修复相关基因失活

38种癌症、2659份样本,举全球之力破解癌症全基因组密码_第15张图片
染色体碎裂的检测方法极其在各种癌症中的分布

  总之,这个研究表明,染色体碎裂是驱动癌症基因组进化的重要过程。这个研究也发表在《自然·遗传学》上。

  云计算与癌症基因组数据分析

  今天要介绍的最后一个研究是欧洲分子生物学实验室(EMBL)发在《自然·生物技术》的研究成果。

38种癌症、2659份样本,举全球之力破解癌症全基因组密码_第16张图片
论文首页

  他们带来了一个叫做 Butler 的计算工具,它可以帮助科学家在公有云和学术云上开展大规模的基因组分析

  Butler 包括创新的异常检测和自我修复功能,与当前方法相比,该方法将数据处理和分析的效率提高了 43%。通过 Butler,可以高效、统一地处理 PCAWG 项目中的 725TB 癌症基因组数据。

38种癌症、2659份样本,举全球之力破解癌症全基因组密码_第17张图片
算法的工作流程

  这篇论文的剩下内容奇点糕也看不懂了,大家感兴趣的话自己去看看论文吧。

  结语

  如今,科研的方式已经与几十年前大不相同,全球的科学家们通过云技术分享,数据的获取不再是难题。

  根据《自然》杂志评论的数据,2019 年,共有来自 146 个国家/地区的八万三千余名研究者从欧洲信息学研究所获取 DNA 数据,总下载量达到 6.7PB,这相当于大约 2300 亿个完整的人类基因组。

  而这样的共享还会随着数据的可及性增加。

  当前科研要考虑的已经不再是基因数据本身,包括与其匹配的临床信息的收集、基因组信息与医疗保健系统的整合、参与者的隐私保护、国际统一标准的建立等等,这些都是当下已经不得不思考并解决的问题。

  这将是一个更加广阔的世界。

 

你可能感兴趣的:(38种癌症、2659份样本,举全球之力破解癌症全基因组密码)