生物信息学习的正确姿势
NGS系列文章包括NGS基础、在线绘图、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。
文丨张文叁
前 言
笔者曾在原上海生命科学研究院“Bio2000”课程上听过饶毅老师两节生物课。饶毅老师每次都从孟德尔的豌豆实验讲起遗传学的诞生,进而回顾DNA双螺旋的诞生以及富兰克林女士的贡献与遗憾。在课上,饶毅老师曾点评沃森的为人,赞赏克里克的才华。这么多年过去,我仍然记忆犹新!
在德国学习的时候,我的遗传学老师、著名植物生理学家Thomas Schmülling教授给了我一本名为Griffiths Introduction to Genetic Analysis(《格里菲思遗传分析导论》)的遗传学教材,里面用整整一章节介绍了孟德尔这位超越时代、孤独前进的遗传学之父八年来精巧灵妙、耗尽心血的实验,为1864年以后的遗传学研究点亮了灯塔。
图:格雷戈尔·孟德尔;位于捷克布尔诺的豌豆试验田;Griffiths Introduction to Genetic Analysis
如今,随着20年前人类基因组计划的完成,DNA测序和基因组学技术快速发展,遗传学由此跨进新的时代。在Nature Genetics Review期刊创办20周年之际,该期刊编委会邀请了十二位现代分子遗传学家,就遗传学和基因组学领域面临的主要挑战和机遇进行探讨,为广大研究者指点迷津,烛照莘莘学子的书案。
为示本篇文章的指导意义,我们首先简要介绍这十二位卓越的科学家:
Amy L. McGuire为美国贝勒医学院生物医学伦理Leon Jaworski席位教授和医学伦理及卫生政策中心主任。这位科学家获誉甚多,2014她年被邀请在tedMed演讲“人类精神中不存在基因组中”。2020年,她当选为哈斯丁中心(人类第一所生命伦理研究中心)研究员。她的研究侧重于探讨新兴技术的伦理和卫生政策问题,以及基因组学研究,并且她尤其关注个性化医学和新的神经科学整合领域。
Stacey Gabrielz自Broad研究所2012年成立以来一直担任研究所主任职务,她带领研究所在基因组学取得了重大研究成果。她是该研究所的首席科学家,在服务于科研外,还负责该研究所的行政管理事务。她是公认的基因组学技术和多项基因组项目的领导者和执行者,包括Hapmap基因组计划,1000人基因组计划,人类癌症基因组图谱计划,美国国家心脏、肺和血液研究所的全外显子组测序项目以及tOPMed计划。
Sarah a. tishkoffc为美国宾夕法尼亚大学David and Lyn Silfen讲席生物学副教授,同时在该校医学院和科学与艺术学院也有教职。她是美国科学院院士,曾获得NIH科学先锋奖、David and Lucile Packard奖、Burroughs/wellcome Fund奖和人类遗传学Curt stern奖项。她的研究主要关注非洲人群基因变异、人类进化历史、非洲人群适应环境和表型变异的遗传因素以及非洲人群感染性疾病的易感性的遗传基础。
Ambroise Wonkam为非洲人类遗传学协会的主席,是一名医学遗传学教授。他担任GeneMaP(非洲人口遗传医学研究中心) 主任,同时任南非开普敦大学健康科学学院副院长。他成功领导众多NIH和Wellcome Trust- Funded基金会资助的项目。在过去的十年中,Wonkam教授专注于镰状细胞病临床变异研究、听力障碍遗传学研究等。2014年他被授予英国医学遗传学会奖。
Aravinda Chakravarti为纽约大学医学院的医学教授和人类遗传学和基因组学中心主任, Muriel G.和 George W.Singer神经学和生理学讲席教授。他是美国科学院院士、美国国家医学科学院院士和印度国立科学院院士。他参与过人类基因组计划,国际人类基因组单体型图计划(Hapmap)和1000人基因组计划等。他的研究关注多因素诱发疾病的分子生物学机理。2013他被美国人类遗传学会授予威廉·艾伦奖,2018年他被人类基因组计划组织授予 Chen Award奖。
Eileen e.M.Furlong为欧洲分子生物学组织(EMBO)成员和EMBO理事会的成员,并担任该机构基因组生物学部门主任。她同时是欧洲科学院和欧洲研究委员会(ERC)高级研究员。她领导团队剖析基因组调控的基本原则以及基因如何在胚胎发育期间决定细胞命运,包括增强子如何在3D核内发挥组织协调功能。她的研究结合了遗传学、单细胞测序基因组学、细胞成像和生物信息学,可应用于复杂的多细胞生物学研究。
Barbara Treutlein为苏黎世联邦理工学院生物科学和工程系发育生物学副教授。她领导的小组使用和发展单细胞测序技术,结合基于2D和3D培养的干细胞系统来研究人体器官如何发展和再生,如何调节细胞命运。她获得了多个奖项和荣誉,包括Friedmund Neumann先灵葆雅基金会奖、国际干细胞研究学会授予的Susan Lim博士杰出青年科学家奖、EMBO授予的青年科学家奖。
Alexander Meissne为德国马克斯·普朗克学会(MPI)的成员,目前是柏林马克斯普朗克分子遗传学研究所主任。他曾领导哈佛大学基因调控生物学系,并且是干细胞与再生生物学系访问科学家。加入MPI之前他是哈佛大学终身教授和Broad研究所的高级副研究员,在次期间他主导进行表观基因组学计划。2018年他被选为EMBO成员。他领导团队使用基因组学技术研究发育生物学和疾病生物学以及表观遗传学。
Howard Y. Chang为斯坦福大学癌症基因组学研究中心的弗吉尼亚 D K路德维希讲席教授,也是霍华德·休斯医学研究所的研究员。他是一名生物物理学家,专注于破译非编码基因组中隐藏的信息。他最负盛名的研究包括LncRNAs的基因调控,开发新的表观基因组学研究技术。他是美国科学院院士、美国医学科学院院士和美国艺术与科学院学院士。
Núria López-Bigas为西班牙巴塞罗那庞培法布拉大学副教授、ICREA生物医学研究所副研究教授。她在2015年获得了ERC(欧洲研究委员会)奖项,并在2016年当选EMBO成员。她的研究被授予著名的德银萨瓦德尔生物医学研究奖,获誉加泰罗尼亚国家青年研究人才和人类前沿科学项目授予的职业发展奖。她的研究主要集中在识别癌症的驱动突变基因,不同肿瘤类型中信号通路,以解析基因突变导致癌细胞突变的累积。
Eran Segal为魏茨曼科学研究所计算机科学和应用数学系教授,领导一个多学科实验室,在机器学习领域积累了丰富经验,在计算生物学和变异分析的的高通量基因组数据的分析方面贡献卓越。他的研究侧重于微生物学、营养和遗传学、及其对健康和疾病的影响,旨在开发基于大数据分析的人类个性化医疗。他已经发表了150多篇文章,他的工作获得了许多奖项和荣誉,包括Overton奖和迈克尔·布鲁诺奖项,当选为EMBO成员和以色列青年学院成员。
Jin-soo Kim为韩国大田基础科学研究所基因组工程中心的主任。他获得过众多奖项,包括2017年Asan医学奖、2017年 Yumin科学奖,2018年他被Nature杂志评选为东亚地区十大科学明星奖,2019年亚太地区生物化学家和分子生物学家联合会授予他科学和研究卓越奖。自2018年Kim教授就一直是全球论文高引科学家之一,他领导团队致力于在生物医学研究发展中利用和革新基因组编辑工具。
正 文
01
Amy L. McGuire
实现基因组学研究的真正公平
对于遗传学和基因组学领域来说,21世纪的第一个10年是一段生物学快速发现、变革性技术快速发展和测序成本直线下降的时代。21世纪初,我们通过人类基因组计划这项划时代的国际合作项目,绘制了人类全部基因组。此后我们通过十多年的努力,花费数十亿美元,实现了个人基因组测序成本直线下降。
在随后的十年中,即21世纪的第二个10年,这个领域转向解析生物学研究产生的大量基因组数据、个人的环境因素、生活方式、其他非遗传因素。铺天盖地的宣传,使我们回忆起过去10年是人类了解自身生物学的精致以及复杂性。然而,医学领域的蓝图由遗传风险预测被精准医学取代,精准医学涵盖遗传、环境和生活方式,以上因素都致力于在恰当的时间利用恰当的药物治疗符合条件的疾病患者。
当我们开启21世纪的第三个10年,我们现在面对的前景是不仅仅能够更准确地预测疾病风险和基于遗传和非遗传因素调整现有治疗方法,而且我们也有可能利用基因编辑技术,完全治愈、甚至消除一些疾病。
这些进步引出了许多伦理和政策问题,包括对于隐私的担忧和歧视、人们了解科学研究成果的权利、消费级基因检测和受检测者知情权等。许多重大投资是为了获取更好地理解临床基因检测的风险和利益,而关乎人类基因编辑的伦理已经在科研界展开了激烈辩论。许多著名科学家和生物伦理学家呼吁暂停人类生殖细胞系编辑,直到它被证明是安全有效的,直到能够获得广泛的社会共识。
面临这些重要问题,我们需要继续探索,但随着技术广泛利用,基因组测序在过去的20年里开始被应用到常规临床护理。我们也面临着最困难的和最基本的挑战之一:在基因组学、医学、社会阶层不平、和其他一些特权阶层导致的不利的因素。基因组学的未来必须是基因组学本身!无论种族、地理或贫富!
这个大胆的目标——实现基因组学真正公平,需要多方面的解决方案。COVID-19时下在全球肆虐,不成比例的疾病和死亡负担在不同种族和少数民族产生。最近美国掀起的抗议警察虐死黑人弗洛伊德事件,再次敲响了我们反种族歧视运动和要求种族公平权益的警钟。
为了实现基因组学的真正公平,我们需要改变,而改变需要谦卑。我们必须积极倾听和互相学习,我们必须要团结起来和承认人类是命运共同体,这需要勇气和改变!
为实现基因组学研究更公我们能做些什么呢?我在此提出三个领域方面的建议,我们应该集中注意力来解决这个重要的问题。首先,我们必须确保在基因组学研究的公平。我们检查核对了2016年进行的2511项全基因组关联分析(GWAS)的研究,大约3500万个样本,但是81%来自欧洲人,只有5%来自非亚洲少数人种。这产生了一个“信息不对等“的问题,降低少数人种临床基因组解释的可靠性。美国国立卫生研究院(NIH)已扩大投资致力于努力提高基因组多样性研究,为了实现基因组学公平目的,但这些研究必须严密关注那些弱势群体和赢得那些曾经被奴役的黑人群体的信任。至少,需要提高参与度、提高透明度、改革问责制、致力于创造机会、促进和支持基因组学的人们的公平,包括之前没有参与到基因组研究地区的科学家和临床医生。
其次,通过分析2018年美国疾病控制和预防中心行为风险因素监测系统,发现与非老龄化白人相比自我识别的种族或少数民族非老龄化人群相比,后者更少的可能去看医生,这是由于看病成本造成的。这一结果反映出卫生保健在美国延续不公平,导致更大社会阶层不公的核心问题。即使社会和经济因素控制,在获得遗传服务方面种族差异固存。大规模持续的研究需要更好地理解并积极解决这个多种因素造成的困扰,包括种族歧视问题,不信任,种族偏见,缺乏知识支撑的遗传测试,还有滥用基因信息的隐忧。
最后我们面临的最艰巨挑战是,我们必须努力去实现更公平的从基因组学发展到医学获益。在慢性疾病和早产儿死亡,许多种族和少数民族与白种人相比,发病率和死亡率不同。性别,性取向,年龄,残疾状况,社会经济地位和地理位置,也存在差异。人类健康状况是深受社会、经济和环境因素影响的。因此,尽管我们提供了更多公平的机会获得基因组服务,确保更公平在基因组研究参与是必要的第一步,但是这还远远不够。基因组学真正的公平,它必须运行在一个卫生保健系统健全和公正的社会!
02
Stacey Gabriel
进行种群规模的测序
20年前,我完成了博士学位,克隆了一个RET基因——有几百个患巨结肠疾病的患者携带这个基因的致病性变异。这项工作需要根据基因序列设计引物,进行测序,测到RET基因组的20个外显子,当时用到的是一代测序。对整个人类基因组进行测序是在我们那个时代被称之为最疯狂的梦想!
由于技术的重大进展和遗传学家,工程师,流行病学家和临床医生等的辛勤工作,基因组测序已经取得了很大进展;世界各地大规模的基因组测序正在如火如荼的进行。为寻找致病基因,全外显子组测序(WES)或全基因组测序(WGS)技术,正在帮助不少家庭和个人鉴定致病基因、对成千上万种孟德尔遗传疾病和一些复杂的疾病的诱发突变进行鉴定。
但真正的基因组测序的承诺是实现真正大样本大规模测序,最终实现数以百万计的个人基因组测序规模,最后提供了一个查找致病基因变异的目录。基因组序列应该成为电子医疗记录的一部分,它将会是一个稳定、持久的信息来源,类似于个人测量体重、血压等,类似报告吸烟或饮酒史,类似报告家族病史等。
我们能学到什么呢?需要解决什么问题呢?有时相当小数量的基因组富集在可检索的目录里,这样启用了一种新的方式来利用和解释基因组数据,照此可瞥见未来。gnomAD10计划就是一个很好的例子——这个数据库包含来自15000例个人基因组和1250000个外显子组。依赖这个基因资源,发现种群内的遗传变异的频率是现成的。临床医生解释病人的基因组后可以问患者家庭是否已经存在过一个突变体。这项数据为评估遗传变异的功能提供一个起点,并且提出遗传变异缺失问题的能力也存在限制。再加上临床数据,建立大规模基因组数据,临床信息的数据库,将应用于更好评估多基因风险。更多的常规WGS将缩短诊断奥德赛疾病时间,患者父母会通过多轮基因测试确定未来的生育计划。更有效的临床试验可能利用到基因组信息。在卫生系统中如果有所有个人的基因组信息,临床试验可以更好的设计,更好的选择患者。这种基因组资源富集可以提供更有前途、更短时间、更小规模、代价更小的临床试验方案。
这些数据库也必须迅速建立在这样一种方式,代表的人数,代表实际的种族和民族多样性,不仅可作为储存样本数据集。比如一项欧洲人基因组数据,妨碍了程序风险预测工具对非白人种族个人风险预测,限制了发现人口特定的遗传关联分析,比如II型糖尿病(T2DM)病这个例子。
另外,我们必须解决重要的问题——数据共享,数据隐私和数据规模。共享基因数据和临床数据的关键是推动我们发现和理解如何使用这些数据做健康护理。建立信任,必须通过坚持建立和维护隐私的权利,保护隐私,禁止歧视。有一些通过建立数据平台和数据保护和共享的发展框架的项目正在取得进展,例如通过全球联盟基因组学和卫生的工作(GA4GH)。
几家大型生物银行已经建立数据银行并努力推向市场。英国生物库是一个先锋计划,包含基于500000个个人的基因型数据,健康问卷,身体测量并且可以链接到他们的医疗记录,其他类似工作也正在进行。
从2008年到2013年,测序成本成指数形式下降。测序成本变化曲线由美国国家人类基因组研究公开报道提供。2016年左右每M基因测序数据的成本一直保持平稳,徘徊在每M数据售价0.01美元,这意味着一个基因组价值1000美元。
全基因组测序可以定价在500美元到700美元的范围。然而大型项目(超过500000个样本)测序的成本价格却不是这样,大型项目却通常依赖于制药巨头或生物技术资金,从而限制数据共享。我相信,5倍到7倍地降低总成本是需要解锁更多的人口规模测序。最终基因组测序可以更广泛的应用于卫生保健系统。每个人基因组100美元,在美国代表成本不到1%的年度人均卫生保健支出。一个基因组序列就像一次投资,可以一次又一次地应用在个人整个寿命期。
我认为三个主要驱动因素将促使得到我们每个基因组的100美元成本,即创新、规模和竞争。
1. 创新:生成序列数据需要有多个技术领域成熟的创新。样品制备可以通过更有效的提取方法,减少所需的劳动力,或降低建库成本。减少数据处理成本的创新也需要逐步成熟。最近我们发现,优化计算能力可以降低创建一个测序文件的时间和成本的50% 。降低成本的样品制备和数据处理非常重要,它们代表的总成本的一小部分。大约70%的人类基因组的测序成本是测序试剂和仪器。
2. 规模:一个基因组测序的成本是固定成本,由测序中心或测序供应商承担。大规模测序可以变得更有效率、降低成本等,成本包括成本的人员、设备和设施。试剂的规模也会导致成本降低,虽然这个过程是根据严格控制和谨慎地接近整体市场动态。
3. 竞争:创新和规模只能做以上的事情。生成数据的成本(成本/ GB)占主导地位,因此必须大幅降低。当前市场需要利用其他方式来推动这一进步。目前,市场上短读长测序是缺乏可行性的,阻止了竞争,迫使流式细胞密度和机器产量增加,对降低成本产生很大压力。虽然长读长测序存在和发挥作用在特定应用程序中,如从头测序和结构变异,目前他们远离竞争和市场成本。因此,不适用于降低常规WGS的成本。
我们需要创新,并促进市场竞争。不自满于时下的测序技术。这可能包括特定类型的投资不仅仅是金融方面的,采用和审查新技术需要时间、创造力、信任和耐心。在5年的时间,我希望我们可以见证100美元基因组的时代,真正的大人口规模的数据库启动发现人类新的等位基因,丰富我们人类的知识;重要的是,基因组数据在卫生保健体系的常规使用!
03
Sarah Tishkoff
以全球化的视看待人类进化学
过去10年见证了SNP芯片呈指数增长地利用,高覆盖率的全基因组测序(WGS)数据获益于基因测序技术的创新。现在可以生成成千上万人的WGS数据(例如GenomeAsia 100K和NIH TOPMed两个项目)。个人电子健康记录逐步增加利用生物银行数据(例如,the UK Biobank, the Million Veteran Project 和 BioBank Japan),正在促进人们进行复杂疾病的全基因组关联分析以及全表型组关联分析,绘制与表型的多效性关联的基因图谱。在这些遗传关联研究和其他研究中都应用了计算预测疾病的表型和风险的PRSs计算方法。
到2019年,近80%的个人基因组关联研究分析(GWAS)来自欧洲人,约10%来自东亚人,大约2%是非洲人,约1.5%是西班牙人,只有不到1%来自其它人种。在欧洲,也有一些存在极大偏差的基因组参考数据库,如gnomAD GTEx数据库。这些偏差限制了我们对不同种族人群遗传疾病风险因素的认识,并可能加剧健康不平衡。此外,使用欧洲人的数据估计的PRSs并不能准确预测非欧洲人的表型和疾病风险,尤其是在对非洲人群进行预测时表现最差。PRSs在不同种族中应用缺陷可能是由于基因的连锁不平衡的模式和单倍型结构(导致不同SNPs变异),等位基因频率差异,基因加基因效应,环境因素影响。遗传结构的复杂性可能在不同民族的疾病患者中也存在不同,这是由于不同的人种社会历史和其适应不同的环境。
尽管有一些倡议增加种族多元化的包容性人类基因组学研究(例如,NIH TOPMed和H3Africa 联盟),原住民仍然未被覆盖。更多的注意力应该确保少数民族和原住民基因组研究以尊重伦理道德的方式进行。这包括与原住民当地研究科学家建立合作伙伴关系,尊重民族风俗和文化问题,获得原住民社区和原住民个人的同意,并将成果回馈给原住民社区。此外,应该在有条件的原住民地区开展基因组研究研究教育和培训。
未来我们因该关注于利用开发工具和资源在低收入和中等收入人群的国家进行基因组数据测序并进行分析。我们要确保所有的人受益于基因组学革命,精准医疗的进步,以及基因编辑技术。因此,未来十年的挑战几个最大的挑战将是:
(1)增加人类基因组学研究中种族多元化的包容性;
(2)开发更多样化方法进行长序列读取技术来获取不同的参考基因组,单倍型,解释大量的可能存在于种群内部和群体间的结构变异;
(3)培训一个更多样化的基因组群体研究的科学家群体;
(4)发展更好的方法,准确预测跨种族表型和遗传风险,考量环境效应。
多元种族的融合,包括原住民,对重建人类进化史,理解适应不同环境和饮食的遗传基础至关重要。虽然过去有一些成功识别基因对适应当地环境起作用的效应的例子(例如,乳糖耐受性和镰刀与疟疾相关的细胞病(SCD)抵抗),鉴定多基因选择变得更为重要。
基因组的特征——多基因适应是以检测数以百计或成千上万的小基因座上等位基因频率的细微变化对复杂性状表型的影响能力为基础的,并且确定变异是人为人口统计学或自然选择的结果。一个更艰巨的挑战来自之前所描述PRSs问题,与变异相关的复杂的特征可能不能很好地跨越种族群体吗,不同的种群中遗传结构可能有所不同。此外,最近已经被证明未修正的人口分层会导致多基因的错误信号。例如,几项研究识别出多基因的特征适应整个欧洲人的身高(在北欧增加人身高的选择和减少了南欧人身高)。然而,最近研究显示这些结果是受人口结构的影响而且不能用标准方法纠正,特别是下面针对全基因组显著性水平SNP的方法。当这种分析重复了变异在欧洲人的祖先UK生物银行,这些重要的多基因适应影响将被擦除。因此,检测多基因适应特征的方法受人口结构影响是略微偏差的,并且受人口结构影响偏差将会愈加名下。这些研究纳入更多民族的人口在GWAS和更好的识别SNP标志也会受益。仍然存在的一个挑战是针对少数群体的GWAS研究中,其样本量较少。尤其是在些来自非洲人的GWAS研究,可以明显看到遗传多样性和极端表型差异。例如,在不到1600名非洲人中皮肤色素沉着的分布研究可以帮助鉴定影响肤色的的遗传新变异位点MFSD12。因此,基因组研究在未来必须优先考虑纳入少数民族群体!
GWAS和选择扫描存在一个挑战:那些确定的基因变异直接影响可变的表型。大多数变异发生在基因组的非编码区。开发高通量方法,比如大规模平行荧光素酶表达鉴定基因调控区域和高通量CRISPR筛选在体外和体内识别我们感兴趣的基因变异,未来将是非常有用的。并且还需要更好地在单细胞水平了解不同细胞类型特异性变异和基因调控,包括免疫系统刺激反应,药理学和营养学挑战。然而,这些方法仍然受制于获得有效细胞系。这对居住在偏远地区的原住民居特别具有挑战!改善诱导多功能干细胞(iPS细胞)分化成各种细胞类型和类器官将极大地促进功能基因组研究。非人灵长类iPS细胞和类器官的建立将为比较基因组学研究提供信息以确定人类特有的进化特征,比如大脑发育和认知。然而,iPS细胞可能并不准确反映了突变对发育表型的影响,因此需要我们在模式生物体内建立更有效率的技术。
目前可利用的研究人类进化的最大的革命性技术是测序和获取古老的目标基因型DNA样本。获得古代人的高覆盖率参考基因组的,像尼安德特人这样的原始人,欧亚大陆的丹尼索瓦人,可以确定这些古代人基因组中是否插入非非洲人基因片段。其中一些地区的研究比如对高海拔适应和免疫反应起到重要的作用。此外,已经在过去的3万年里古代欧洲人的遗传变异方面产生爆炸性的研究,演示一个更加复杂的欧洲的人种分化模型,以及最近的人类进化适应特性研究,相比以前考古研究或来自现代人的研究。因此最大的挑战是人类没有办法从热带气候的地区获取高质量的古DNA,比如从非洲和亚洲。虽然有项研究成功分析了15,000年前在非洲人古老的DNA样本,这一直为人类的迁徙以及人种杂交提供信息;难以获得更古老的非洲人参考基因组使得研究非洲人基因渗入非常难,即使目前所依赖的是统计建模方法。因此,未来10年基因组学面临最大的挑战将是是获得世界各地区有2万多年的历史的DNA样本基因组序列,使我们可以更好地理解世界各地的人口历史的复杂网络!
04
Ambroise Wonkam
未来的前沿——非洲人基因组学研究
为了充分发挥全球遗传医学的潜力,对非洲人基因组变异的研究是一项必要的科学工作,需要公平的获取途径,成为一个需要解决的重大挑战。研究非洲人基因组变异代表了医学遗传学的下一个前沿,主要有三个原因:祖先、生态、公平。
在此基础上生成一个“泛基因组”,从910个非洲人后裔基因组研究,发现至少有3亿个DNA变异(10%)是未在当前人类引用中找到,2-19%的非洲人的祖先基因组来源于研究古代人尼安德特人和现代人。尼安德特人的基因组约占当今欧洲人的基因组的2%,可以在其中富集相关基因的变异,例如皮肤病学的表型,神经精神疾病和免疫功能。一旦测序低质量DNA的技术瓶颈被突破,研究非洲古人类的基因组方法取得进展,这将对解码非洲人DNA变异和现代人特征和疾病做出重大的贡献。
由于现代非洲人30万到50万年的人类基因组历史,非洲人祖先是是世界上基因多样性资源最丰富的物种。相比之下,有一个极大的基因瓶颈存在,在非非洲人后裔种将导致更少的变异,自从约7万年以前人类走出非洲。当前PRSs的目标是预测基因遗传变异的个体患病风险,考虑到它的应用性和可转移性,表现出一定的偏差,因为大多数PRSs不考虑复等位基因或由于限制性或由于在非洲人中出现的频率很高。一个GWAS的基因易感性研究项目发现了一个非洲特有的以前从未报道的II型糖尿病T2DM重要位点,从而显示32个曾建立的位点的可转移性。此外,比如PCSK9基因无义突变在非洲人群常见,但是在欧洲人群则是罕见的,伴随40%含量的下降在血浆中低密度蛋白,这个结果支持PCSK9基因作为治疗血脂异常的靶点。在一项样本量最大、达到14345名非洲人的GWAS研究,展开了对34个复杂形状的荟萃分析,有几个位点展示了在人群中的有限的可转移性,进一步说明了与其它种族不像非洲人含有最多的基因组的变异。因此,非洲人的连锁不平衡较低,这使得克隆和鉴定致病基因变得相对容易。事实上,在大型GWAS中,只有2.4%的参与者是非洲人,他们占所有GWAS的7%。此外,对近1000例科萨血统非洲人精神分裂症患者进行了全外显子组测序,在多个基因种发现了非常罕见危害性突变,这一研究结果在一项针对5000例瑞典人的研究种得以重复。相比之下,科萨血统非洲人的研究结果产生了更大的影响,这显示了相同的数目病例和对照中,更大的基因非洲种群的变异更能表明检测基因型与表现型之间的关系。因此,基于基因分型和分析工具优化的利用,数以百万计的非洲人群基因组必须测序。
实现非洲基人因组的可利用,会提高我们对所有人口基因组变异和复杂的特质关联性的理解,包括对常见单基因疾病的研究。比如,一个大约有5000到7000年前起源的非洲人的SCD(镰状细胞疾病),不仅暗示了历史较近的人口迁移和非洲人和地中海人,和中东地区人种杂交事件;帮助我们理解基因变异和它对血红蛋白疾病的潜在影响。比如,类HBB基因家族的变异与胎儿血红蛋白含量高,这与较轻的镰状细胞疾病有关,因为胎儿血红蛋白水平受基因表达控制,未来这种疾病从检测到治疗可能都将依赖基因编辑技术。此外,增加我们对个体遗传变异的了解,可以对SCD的二级预防和治疗策略产生影响。比如,APOL1和HMOX1的共突变遗传导致的α型地中海贫血症与肾脏功能障碍,SCD病人中风与靶向基因关系则是贝叶斯模型;总体SCD死亡率是与患者的循环系统转录组水平相关。据估计,每年全球新出生的305,800名SCD患儿,大约75%来自非洲;如此非洲的SCD将成为理解多数常见单基因变异影响的一种模式,并有助于实施多层基因组医学。
探索非洲基因组多样性,会使我们发现更多新突变,和罕见单基因变异。的确,与其它种族比较,非洲人基因组内的等位基因和基因座异质性表现出重要的差异,例如GJB2基因的突变导致近50%先天性听力障碍疾病。在非洲欧亚混血儿几乎不存在,但有证据表明与听力损伤相关的新基因变异更有可能是先在非洲人比欧洲人或亚洲人种被发现。较高的生育率、血缘关系和区域遗传瓶颈将改善非洲人单基因疾病的变异发现,以及疾病和基因关系对的管理,将解决现有数据库偏差、推断的变异危害性,导致变异的错误分类这些问题。
05
Aravinda Chakravarti
解码多因子表型
我们生活在基因组学技术和数据计算技术取得巨大进步的时代。我们生活在这样一个“遗传学”成为家喻户晓的词汇的时代,人们越来越善于理解它与个体生命之间的关系。毫不奇怪,遗传学研究方法正在被重新发明,重新发现,和重塑。我们比以前更能理解遗传学这门科学。
眼前,我们面对的遗传学最重要的难题是对“家庭成员相像”的复杂表型剖析,包括对于智力(遗传学存在的理由)和技术(疾病诊断和治疗)的原因两个方面。我们早就认识到家族内人们长相相似性来自于共有的等位基因,以及遗传关系的减弱,但是我们对这其中精确的分子组成和构成这种“相似”现象的原因知之甚少。在二十世纪之交,这是一个痛苦而尖刻的问题!孟德尔学派与生物统计学家展开了激烈的争论,直到1918年Ronald Fisher进行了统计分析,由于第一次世界大战,Ronald Fisher的书推迟了出版,这个观点被后来的科学家Altenburg和Muller用果蝇实验证实了。
Fisher的模型假设是无穷多的基因共同导致一个性状,具有共同遗传变异的性状在由两个等位基因组成的每个位点上,这两个等位基因在基因效应上只有微小的差异,Fisher的基因假设是与当时所知道的情况正好相反。在过去的一个世纪里,这种观点日渐成熟,人类表型的隔离分析告诉我们,除了一些主要基因对性状的影响,大部分性状变异是多基因造成的,还包括家庭特有和随机环境因素。今天,我们来自GWAS的证据,使用了来自成千上万的人测序数据关联许多性状和疾病,发现多数的多因子决定性状架构主要是等位基因上的小小差异造成的。这种泛孟德尔观点与泛多基因观点的替换是基因组学对遗传学最重要的一个的贡献。不幸的是,这种mapping没有成功弄清楚涉及的基因数量,没有弄清楚这些基因的“身份”,没有弄清楚基因型如何决定表现型。事实上,一些人已经得出结论,许多GWAS分析得到的基因座与每个表现型的生物学核心无关。因此,为了更深刻的理解,我们需要研发新的技术和方法去理解生物体的复杂性状而不仅仅是盲目增加GWAS的生物学样本。
然而,从GWAS中出现,呈现在我们面前的最重要的生物学问题是导致性状的变异不是位于基因编码区,而是位于调控元件中,多数由增强子造成。这一重要发现揭示了四个新的遗传学问题。第一,非编码调控机制是广泛存在的,这种非编码调控的程度是多少?又是如何影响表型的?第二,非编码调控影响许多基因的mRNA表达和蛋白表达,那么细胞时如何阅读这海量的变化并作为一种细胞内信号?第三,这种机制如何协调将应答反应翻译到细胞内进而影响生物体表型?第四,如果特定的环境因素影响生物体表型,那么异常调节的成份是什么?在我看来,我们需要回答这些问题的具体性状和真正了解多基因性疾病的生物学本质。最后,这些解释也必须回答为什么有的性状决定是符合是孟德尔遗传规律的,而其他不是。
未来需要我们重视四个领域:生物学里面的增强子和与之结合的转录因子,增强子上的遗传变异影响,调控大多数基因的基因调控网络,基因调控网络是如何引起胞内应答的?尽管有许多进步,调控特定基因的表达的增强子的数目仍然是未知的。有多少增强子在特定细胞类型表达,有多少是普遍存在?有多少是细胞固有的,多少是在特定细胞周期表达?它们对于调控基因表达是协同作用还是叠加作用?此外,同源转录因子是如何结合这些增强子,这种动态是如何调节的?这些细节包括基因的增强子对于评估性状的影响是非常重要的。增强子的序列变化是如何影响基因的活动?这些变异是否只影响增强子结合转录因子还是也影响转录因子与启动子的相互作用?增强子变异的作用是什么?在所有的细胞状态中都很明显还是只有一部分?只有一个增强器的变异就足够调控基因表达呢?或者多重更改多个元素是必要的吗?
其他关键问题包括那些基因与核心通路相关的性状,以及我们如何鉴定这些基因?研究表明基因是如何在基因调控网络中被调控的,由于GRN,一个基因的产物可能是下游基因必须的,比如基因间的反馈和负反馈调节。这些GRN由来自基因组,转录组和蛋白质组。就像我们在先天性巨结肠的研究一样,每个GRN由核心基因组成,是一个具备逻辑思维限制速率的细胞阶段,富集在基因的编码和增强子的疾病变异与疾病易感性随之而增加变异的数量,由于限制其速率的影响而产生的疾病。也就是GRN整合多基因的表达。最后,我们需要了解GRN是如何调节细胞属性和行为。我推测GRN中的速率限制步骤很重要,是广义细胞特性的监管者,细胞分化,细胞迁移,细胞增殖,细胞凋亡,细胞内GRN变异整合者。因此,基因组范围内的遗传变异影响增强子对许多基因的失调,但只有在它们不正常的时候GRN通过限速步骤来实现影响细胞和组织的生物学。这提供了人类的多基因疾病致病机制的理解。
人们理解生物学复杂性,需要改变研究方法,从反向遗传学转向正向遗传学,从全基因组学转向单细胞基因组学。我相信我们可以构建不同细胞类型的GRN,包括增强子、转录因子、以及它们之间的反馈和负反馈调节,最后定义变异对生物学功能的影响,进而影响表型。纵使这样,依然不够!我们要利用系统生物学的方法去测试复杂性状,生物学方法有向化学方法前进的迹象。作为遗传学家,我们合格吗?
06
Eileen Furlong
增强子和胚胎发育
我的课题组工作处于基因组调控和动物的发育两个领域的交界处,过去的10年这两个领域都取得了许多令人兴奋的进展。发育生物学研究基本过程,比如组织和器官的发育,比如复杂性是如何通过细胞间通讯、细胞运动、和动力学联合行动出现的。在发现分化的细胞可以被重编程而变成类似胚胎干细胞的初始状态后,过去的10年见证了在体外细胞重编程和分化的爆发式研究,类器官研究是令人兴奋的延申。这些相当简单的系统可以做到自我组织和生成复杂性这一点是过去的5-10年一个意想不到的惊喜!围绕干细胞的研究,重新引起了人们对细胞在体内的可塑性的兴趣,也已经揭示了令人意想不到的细胞转分化和去分化程度。例如,在小鼠心脏中,在出生后的第一周内受损后,心肌细胞会去分化并增殖以再生心脏组织。我们对伴随细胞分化带来的分子变化的理解产生了巨大的进步,归因于二代测序技术在分辨率和灵敏度的跨越式改变。这导致了对胚胎干细胞,iPS细胞和胚胎的大量研究,基于基因组调节揭示新概念,通过测量转录本多样性,转录因子调控,染色质可及性和构象,染色质、DNA和RNA的修饰。未来的挑战将是将这些信息与细胞的物理特性联系起来,以及它们如何形成复杂的组织。解决胚胎研究工作中面临的挑战,新技术将会有所帮助,包括CRISPR基因编辑技术,光遗传蛋白质学,体内显微成像技术,再加上低投入,足以克服缺乏样本的难题。最近尤其令我兴奋的是单细胞测序技术的发展,虽然其处于早期阶段,但是这项技术为我们研究胚胎发育提供了新的方法和技术。许多新的见解已经出现,包括未知细胞类型的发现和已知细胞类型的发展轨迹。甚至“细胞识别”的概念也受到了质疑。
“细胞识别”很大程度上是依赖于转录因子,通过与顺式调控元素“增强子”协作。在我看来最令人兴奋的未解之谜之一是增强子如何传递信息给目标基因。教科书上对增强子的看法是:增强子是具有独有的调节功能的“要素”,通过直接与启动子相互作用实现调控特定靶基因,继而多个增强子参与其中。然而,在过去10年中出现的一些概念对这些“教条”提出了质疑。一些增强子具有双重功能,而其他增强子甚至可能调节两个基因。增强子与启动子之间的通信可以通过空间转录组学窥见,包括拓扑结构域(TADs)和无核膜微组件。出现在相同的TADs可能增加增强子与启动子相互作用的频率,但在一个TADs内一个特异增强子如何找到正确的启动子,或者什么时间TADs被重新排列,仍然是一个谜!中心蛋白质和凝析物是动态的微组件,包含局部高浓度的蛋白质,包括转录因子和转录机制。凝析物的潜在暗示:增强子不能需要“直接”接触基因的启动子来调节转录,确切地说它们可能是足够接近在同一凝析物内。据推测,一旦蛋白质达到临界浓度,转录就会启动。虽然这个说法符合最新的研究数据,但仍有许多悬而未决的问题,比如增强子和启动子之间需要多近才能启动转录?不同增强子的这个距离会因其转录因子与DNA 亲和性而不同吗?不同的染色质环境会影响这个过程吗?在某些基因位点,单个增强子上转录因子结合的突变会对基因表达有显著影响。由于与增强子和启动子结合的其他蛋白仍然分阶段分离,因此很难将这种情况与共享的凝析物模型相协调。相比之下,有很多这样的例子,转录因子结合位点发生突变,甚至整个增强子,对基因表达有最小的影响。这些观察表明,可能有不同类型的基因座,需要不同类型的染色质拓扑和局部细胞核环境,这将在接下来的几年很有必要解释清楚。
20世纪90年代对模式生物遗传位点的解析,使得21世纪的第一个10年使我们对基因表达调控有了更多的了解。在过去的几十年里,基因组学的力量使我们获取了全基因组上所有基因调控信息,提供更公正的观点,研究了新的基因调控模式。缺少的是大规模的实际检验。一个主要的挑战是在生物体中进行更系统的体内功能解剖。基于CRISPR的筛选技术已经对利用细胞体系研究的基因结构发出了疑问。对胚胎发育的研究仍然面临巨大的任务挑战,这项任务是艰巨的,即使是利用长久以来利用的模式生物,如果蝇和小鼠,我们也缺乏所有蛋白质编码基因的敲除菌株,而且调控元件的数量至少要高出一个数量级。过去我们曾利用过可定量的方法研究转录因子和增强子对记基因表达的调控。更系统且无偏差的数据将揭示更为普遍的调控原则,增加我们对基因调控和发育程序的预测能力,并增强我们对遗传变异影响的理解。
也许在未来几年最有前景和最令人兴奋的是利用单细胞基因组学、成像,和两者的结合来剖析胚胎发育的复杂性。单细胞基因组学可以揭示信息以一种以前不可行的方式带来变革。当与时间信息相结合时,这些数据可以重建胚胎发育轨迹,并识别可能负责每个转变的调控区域和转录因子。数据的规模和不偏不倚的性质,分析成千上万的细胞,提供了很多比5年前任何人想象的都要丰富的信息,将推理和因果关系模型提高到了一个新的水平。空间转录组学将在胚胎发育的环境中具有变动性,从而揭示空间梯度的功能影响、诱导信号、和细胞与细胞间相互作用,并向数字4D胚胎发展。将这些方法与遗传干扰相结合,有望解码发育程序。这会让我们对未来十年中推动胚胎发育的调控网络有一个预测性的理解吗?构建“简单”生物模型是一个极好的测试方法,可以确定所需数据的类型和规模,并开发计算框架来构建预测网络。基因调控的系统功能解析和单细胞基因组学与单细胞成像的真正整合将带来许多令人兴奋的进展,在未来几年帮助我们的理解驱动胚胎发育的因素。
07
Barbara Treutlein
单细胞空间多组学
令人难以置信的是,第一个单细胞转录组在10多年前就被测序出来了。从这个里程碑开始,来自不同生物体、组织和其他细胞生物系统的数百万个细胞的转录组被测序和分析,这些细胞状态的图谱正在彻底改变生命科学。这些技术和相关的计算方法已经成熟和普及到几乎所有的实验室都可以将这种方法应用到他们的特定系统或问题上。
当然,获取转录组还不够,而且已经制定了测量染色质开放性、组蛋白修饰、蛋白质丰度、细胞系和其他与单细胞基因组活性相关的特征的协议。目前,许多研究使用基于解离的单细胞基因组学方法,在这种方法中,空间背景被打乱,以促进捕获单细胞,进行下游工作。当然,方法正在改进,在原位空间测量基因组,以及计算分析细胞图谱。这一阶段为单细胞基因组学的下一阶段做好了准备,在分子、细胞、组织或生态系统尺度上的多模态基因组活动空间登记将使我们构建具有高分辨率和预测能力的体外重建体系。这些虚拟图谱将依赖于健康和不安的组织和有机体的多组分析,这对创新提出了重大挑战和机遇。
单细胞高通量测序仍然是一个挑战,目前还不清楚以分离单细胞为基础进而测序将来发挥的作用是什么。这些操作相当易于实施,世界各地的实验室每次实验可以进行成千上万个细胞分析。但是,在某些情况下在一次实验中测量数百万个细胞是很有必要的,比如在干扰筛选。结合条形码方法克服细胞通量边界;然而目前还不清楚使用当前单细胞测序技术如何经济地将全转录组测序规模扩大到数百万。“压缩感知”模式——即测量每个细胞有限的、选定的和或随机数量的特征,并通过推理或与已知参考的相似性恢复高维特征水平——为增加细胞通量提供了一种有趣的可能性。大多数单细胞转录组测序操作步骤目前局限于启动存在于所有细胞mRNA上的Poly A富集;然而,这种方法导致了对高表达mRNA的有偏差测序。随机或靶向RNA富集的创新技术可能是一种构建细胞状态复合表征的方法。基于图像的原位测序方法提供了一种增加每次实验测序细胞数量的方法,数百万的细胞可以在不增加经济成本的情况下成像,如此成像时间是一个限制因素。但是在在测量从微米到厘米空间尺度的转录组、随机条形码、DNA构象和蛋白质丰度方面,还有很大的实验改进和计算优化空间,并且追踪空间组学在未来5年内如何发展将会非常有趣!
目前,大多数高通量测序都是在单细胞悬浮液或完整组织上进行的。也就是说,正在出现的研究测量了同一细胞的几种特征;例如,mRNA和染色质开放性或mRNA系谱。
为了构建体外图谱,可以使用数据集成工具整合来自不同细胞的独立测序数据,尽管在开发系统时很难比对不同细胞状态。因此,最终的目标是直接测量在不同细胞中尽可能地表现出的特征(例如RNA、谱系、染色质、蛋白质和DNA甲基化),理想情况下具有空间分辨率。此外,将遗传和药理筛选与单细胞多组学测序相结合,将有助于了解细胞状态景观和每种细胞类型的潜在调控网络。CRISPR-Cas领域研究者将继续为精确的单碱基位点编辑和开发创造性的技术和工具,而将这些工具包与单细胞测序数据的结合肯定会带来新的细胞机制的见解。
生命形式天生是动态的,每个细胞都有自己的故事。静态测序不能提供足够的机制来协助我们观察组织内每个细胞状态。不同时间独立测序数据计算分析方法整合可以用来重建潜在的细胞命运;然而,这些都是间接推论。使用共聚焦显微镜的2D培养和使用光片显微镜的3D组织的长期活体成像可以提供细胞的形态、行为、位置,在某些情况下,还可以提供细胞祖先的分子信息。事实上,这样的长期成像实验揭示了细胞的命运或细胞状态可以通过许多代细胞行为来预测。细胞追踪结合终点单细胞基因组学实验可以帮助了解细胞状态是如何形成的。有一些策略利用CRISPR-Cas系统在给定时间捕获细胞内高表达的RNA,并将这些RNA逆转录回DNA信息进行存储和读取。实时跟踪和终点单细胞基因组学一起可以提供前所未有的细胞历史的洞察力!
我的愿景是将上述新兴技术应用于人类2D细胞培养和3D类器官,以了解人类发育和疾病机制。我的团队和其他科学家正在致力于构建体外人体器官,基于高通量、多状态单细胞基因组学数据。类器官提供了扰乱细胞系统和了解细胞家系的机会。新一代的单细胞基因组学方法和人类类器官技术将为开发人类疾病的新疗法提供前所未有的机会!
08
Alexander Meissner
深层次解码表观基因组
大约在1975年,尽管人们对5-甲基胞嘧啶修饰在基因组内的分布及其相关酶知之甚少,但5-甲基胞嘧啶修饰这一新的机制来调控基因表达的想法获得了更多的关注。在同样有限的基因组信息或对参与者的知之甚少的情况下,组蛋白密码假说于2000年被提出用以解释染色质的多种不同共价修饰是如何协调以发挥调控功能的。从那以后,表观遗传学取得了巨大的进展,已经基本完成发现和鉴定的核心表观遗传调控因子的工作。
DNA测序在过去十年中继续占据主导地位,并对此做出了贡献,以指数增长的全基因组图谱展示了所有层次(DNA、RNA和组蛋白)的调控。在早期,单个CpG位点可以通过限制性内切酶来测定,然而现在我们已经测量了一万亿个胞嘧啶甲基化位点。在转录组、组蛋白修饰、转录因子占用和染色质开放性方面,已经收集了数量同样惊人的全基因组数据。此外,单细胞转录组和表观基因组数据的数量继续以前所未有的速度增长。
例如,基于许多正常和患病细胞状态的大量数据,我们现在清楚地了解了胞嘧啶甲基化在许多不同生物体中的非随机分布。这些图谱帮助我们更好地理解它与基因表达的关系,包括认识到只有少数启动子是通常通过这种修饰调控基因表达,而基因经常是靶标,大多数动态变化发生在远端调控位点。类似的见解存在于许多核心组蛋白修饰研究中,而且总的来说,我们对相关的表观遗传学甲基化酶(writer)、阅读蛋白(reader)、去甲基化酶(eraser)的了解有所增加。在过去的十年里,我们已经看到了大量的集成和多层表观基因组分析,提供了相当全面的表观基因组的图谱景观,包括它们在发育和疾病中的动态。
现在需要在数据访问和共享方面进行更多的创新。如上所述,当然不缺乏数据,但能使个别研究人员产生需要改进的工具来访问和浏览这些数据。在过去的十年中,诸如ENCODE、Roadmap Epigenomics Project和Blueprint Epigenome等大型协同项目启动了这类研究,但现实是数据并不是每个人都可以触及的。
此外,尽管几十年来表观遗传学取得了稳定的进展,而且最近还在加速,许多科学家仍在不懈努力。一个重要的问题仍然是表观遗传修饰对分子的协调和发育功能的影响。例如,基因的胞嘧啶(C)甲基化已经被保存了超过10亿年,但它们的精确功能仍在调查中!在全球脊椎动物中基因组甲基化是如何发生以及为什么发生的?与无脊椎动物相比产生的是选择性甲基化?这一修饰的具体功能是什么?无所不在的甲基化酶是如何被招募到细胞的特定部位的基因组?而最后一个问题更是显得十分符合时宜,因为最近的研究表明,增强子,DNA重复序列正在进行的新甲基化和去甲基化活动。此外,胚胎外组织显示的重定向活动与大多数癌症类型中长期观察到的DNA甲基化改变具有显著的相似性。最后,非常清楚的是DNA甲基化对哺乳动物的发育至关重要;但是尽管我们在近三十年前就知道了这一点,我们仍然不清楚发育中的敲除突变体胚胎是如何以及为什么死亡的。具体的发展要求是对许多组蛋白修饰酶也是如此;然而我们仍然不完全了解这些修饰如何准确地相互作用以调控基因表达。10年前,我们似乎有可能用新的测序方法来回答这些问题。然而,在大多数情况下表观基因组的分析发展成为对许多表观遗传层面的极有价值、但仍处于描述性阶段的理解。所以有人可能会问,现在有什么不同?为什么我们期望在未来几年回答这些问题?
技术创新一直在生物学中扮演着关键的角色,一些广泛适用的,最近的技术突破将使我们能够推动未来几年的进展。这些包括CRISPR-Cas基因编辑系统,用于DNA碱基编辑、表观基因组编辑和各种基因组编辑。同样,新的快速发挥作用的内源性蛋白降解系统已经被开发出来,这进一步增强了我们精确探索其功能。在过去的十年中,成像技术以及细胞和分子生物学也取得了重大进步,从2D到3D类器官培养,到利用染色体构象捕捉技术研究细胞核内的组份。另一个主要的转变包括我们重新认识到无膜细胞结构是一种广泛存在的细胞组织机制。特别是,在我们对凝聚物的形式和功能,包括转录调节的理解上已经有了许多进展。再加上DNA上组蛋白修饰的已知特性,以及许多表观遗传调控因子也包含本质上紊乱的区域的事实,可以合理地假设这些物理性质将对我们对染色质的理解产生重大影响。重要的是,拓扑结构的改变已经被认为与疾病有关,并且最近类似的研究连接被报道。这可能会是未来几年令人兴奋的领域!
最后,我们的研究继续越来越依赖于多学科技能,随着数学、物理、化学和计算机科学在生物学中扮演着越来越重要的角色,这将需要对训练和机构组织进行一些重思考来实现我们的目标。展望未来,我们将需要更多的功能整合,这部分是由于上述选定的发现现在很容易处理。特别是,更精确的对基因活性的干扰,对于许多染色质调节因子来说,应该被分离为催化和调节功能,再加上多层分辨率的读数,将使我们更接近所需的洞察。最近我们用单细胞组分辨度层面来证明表观调控突变体表型的说明这一点。通过这些研究,我们可以了解表观调控因子如何与环境相互作用来影响或保护机体的表型,将详细的分子遗传学与表观遗传现象的经典理论联系起来。随着DNA5-甲基胞嘧啶修饰发现100周年的临近,我们似乎可以希望至少在表观基因组的某些层面上宣布,我们完全理解了它们运作的规则。这可能使探索更精确的治疗干预成为可能,例如通过重定向染色质修饰因素而不是阻断它们在正常状态和疾病状态之间的普遍催化活性。当然,回顾10年前的预测,人们应该可以预见到还有许多无法预见的进展,这些进展和当时一样难以预测。
09
Howard Chang
构建lncRNAs知识体系
长链非编码RNA (lncRNAs)是许多真核生物转录本的主要成分。尽管过去十年的研究已经揭示了许多lncRNAs的调控机制和对疾病的影响,但绝大多数lncRNAs仍然是神秘的。最根本的挑战是我们缺乏系统地技术和方法将lncRNAs序列转化为认知其功能。下一个10年lncRNAs的研究进展可能来自于从“阅读”(测序)到“书写”(发掘功能)lncRNAs的思维模式转变。基因调控曾经被认为是蛋白质研究的专属领域。多疾病诊断和治疗的努力几乎全部集中在编码蛋白质的基因上,而忽略了绝大多数的基因组。
目前估计人类基因组编码近60000个lncRNAs,含有几百个到数万个碱基,这些lncRNAs显然没有编码蛋白质的功能。过去十年的研究发现,许多lncRNAs作用于染色质修饰机制和基因组之间的界面。特定的lncRNAs可以作为引导、支撑或诱饵来控制招募染色质修饰酶或转录因子集合到DNA上,或者从DNA中去除。lncRNAs也可以激活沉默基因,这些RNA可以通过Cis(顺式)和Trans(反式)的方式靶向邻近基因。对单个lncRNA的详细分析表明,lncRNA由模块化的RNA基序组成,使一个lncRNA能够连接阅读、书写或擦除特定染色质标记的蛋白。这些发现极大激发了lncRNA的研究兴趣,目前世界各地的实验室都在研究lncRNAs在不同生命系统的作用,范围从调控植物开花时间延申到人类遗传疾病的突变。
尽管如此,到目前为止值得注意的进展可以看作是一件轶事——每个lncRNA都有自己的故事。当一个新的lncRNA序列在基因组数据库或RNA测序中被鉴定出来时,我们仍然不知道当这个lncRNA被移除后,细胞或有机体会发生什么(如果有的话)。事实上,在过去的20年里的实验研究策略里面,“解读”lncRNAs的工作一直占据主导地位。在ENCODE计划,FANTOM计划和新兴的细胞图谱技术已经绘制了lncRNAs的转录本景观、转录本异构体,以及最近的单细胞转录组测序绘制lncRNAs表达图谱。现在这些强大的数据与基于基因组规模的CRISPR技术结合起来,一次性敲除成千上万个lncRNAs,进而观察可能的细胞缺陷。然而,许多挑战仍然存在,积极性的应答需要进一步的探索性的研究来确定可能的lncRNAs作用机制,而且我们缺乏一个原则性的策略来结合lncRNAs敲除技术来解决“遗传冗余”和“遗传补偿”难题。
从“阅读”到“书写”长的RNA脚本是一个潜在的富有成效和互补的方向。在对lncRNAs的RNA序列和二级结构进行系统分析的基础上,我们等人认为lncRNAs中的信息类似于广告牌上的信息(关键字和口头语重复出现)而不是精心推敲的法律文件(其中每个逗号都很重要)。小的RNA单位在lncRNAs内重复,在lncRNAs公告板中构建意义,但这些RNA形状可以在不影响意义的情况下按不同顺序或位置重新排列。这些见解使得科学家们能够从不同物种中识别出具有相同功能的lncRNAs基因,尽管它们的初级序列几乎没有相似之处。此外,研究人员能够将lncRNAs缩小到其基本的单元(单个碱基),这些关键的重复单元和原始lncRNAs的1/10大小,仍然在体内发挥作用,控制整条染色体的染色质状态。最后,人工合成lncRNAs成为可能。通过在精心选择的RNA模板中加入RNA重复单元,研究者们开始在生物体内设计调节染色质状态的lncRNAs,足以部分地挽救生理学上的lncRNA敲除带来的缺陷,或将lncRNAs靶向到细胞内特定位置。
从“阅读”到“书写”lncRNAs的转变将在技术前沿方面挑战我们,并且带来潜在的革命性技术。目前大规模并行报告基因分析技术是建立在将短序列插入到基因组的基础上。建造数以万计的lncRNAs合成物需要精确的长序列DNA或RNA合成方法。这些序列将被放置到基因组中适当的位置,并被控制以获得适当的发育表达、剪接模式和RNA修饰。一项利用通常沉默女性细胞中第二条X染色体的XIST lncRNAs来沉默唐氏综合征患者体内细胞中异位染色体的里程碑式研究,突出了生物医学的特殊意义!
随着lncRNAs领域大规模合成和测序技术的发展,我们可以实现高准确度测序RNA的序列,加强我们重复单元中的基因信息内容的理解。未来十年将是构建 lncRNAs和创造全新工具来研究基因功能生物学和医学的激动人心的时期!
10
Núria López-Bigas
公平利用基因组学追踪致癌机制
癌症研究可能是从基因组学在技术和方法上的进步中获益最多的领域之一。在不到20年的时间里,该领域见证了令人震惊的肿瘤患者的癌症基因组、表观基因组和转录组数据,包括bulk测序和最近单细胞水平测序。作为一名癌症研究人员,我的梦想是充分了解细胞走向恶性增殖的所有路径。个体生命、组织和特定的细胞发生了哪些事件,导致有些细胞的恶性转化。当然,我并不期望得到一个确定性的答案,因为这不是一个确定性的过程。相反,我们应该致力于对驱动肿瘤发生的关键事件有些定量或概率性的理解。我们有有确凿的流行病学证据表明,吸烟会增加患肺癌的可能性,晒太阳会增加患黑色素瘤的可能性,一些抗癌治疗会增加继发肿瘤的可能性。但是在分子和细胞水平上,哪些特定的机制会影响这些癌症发生率增长呢?
癌症基因组学的第一个明确目标是对不同组织中涉及肿瘤发生的所有基因进行收录。虽然这是一项艰巨的任务,但实际上是可行的!通过分析肿瘤中基因的突变模式,我们可以识别出那些明显偏离自然预期的基因,这表明这些突变提供了在肿瘤发生中具有选择性优势,因此是肿瘤驱动突变。我们可以想象,在未来,通过对数以百万计的肿瘤基因组序列进行系统分析,这个目录越来越接近完成。为了实现这一点,我们不仅需要扩大基因组测序的规模,但更重要的是,必须使数据结果公平(可查找、可访问、可操作、可重复使用)。为此,促进基因组数据共享的联盟和倡议,如Beyond 1 Million Genomes联盟,the GA4GH或者the cBioPortal for Cancer Genomics都是必要的。
值得注意的是,对癌症发生过程中涉及的基因和突变进行分类,虽然是非常重要的第一步,但距离理解它们如何以及在何种条件下驱动肿瘤发生的最终目标还很遥远。用达尔文学说来解释癌症的发展进化过程帮助我们找到了通向最终目标的道路。就像对任何达尔文的进化过程来说,它的两个关键特征都是变异和选择。由于过去15年的癌症基因组学,我们现在对不同组织细胞间体细胞遗传变异的起源有了更好的理解。这项工作研究了肿瘤中突变的数量、类型和基因组分布的可变性,为了解个体不同组织中的体细胞变异提供了一扇窗。此外,最近的研究对健康人的不同组织中的细胞基因组进行了测序,显示突变在成百上千的细胞中积累。这些研究还在健康组织中发现了某些基因的正向选择。因此,正向选择是一个普遍的过程,不仅在肿瘤的发生,而且在健康的组织,它是一个皮肤,食道,血液和其他组织体细胞发育的标志。举个例子,无性系造血:它源于连续的达尔文进化过程,在这个过程中,随着时间的推移(随着人类年龄的增长),某些血液中的造血细胞隐藏着发育突变基因,如DNMT3A和TET2,在细胞发育方面胜过其他细胞组件。这一过程是正常造血发育的一部分。只有当这一过程失去控制,导致血液中出现白血病或实体组织中出现恶性肿瘤时,问题才会出现。为什么只有在极少数情况下变异和选择之间无处不在的相互作用会变得不可控制并导致全面的肿瘤发生?除了已知的致瘤突变外,哪些事件驱动了这一过程?
如果说近年来我们学到了什么,那就是几乎所有的肿瘤都有驱动突变,这意味着驱动基因组事件是必要的。然而,他们显然不足以导致肿瘤的发生,那么其他的诱因是什么呢?吸烟者的肺细胞或接受化疗的病人的造血细胞中发生了什么当化疗增加了他们恶性增殖的机会。选择性约束下的表观遗传修饰和变化,比如进化生物学的瓶颈,又例如化疗的时间,可能是回答一部分问题。
在不久的将来,我的梦想是看到癌症基因组学数据的进一步增加,以帮助我们逐步解析组织中变异和选择引起肿瘤发生的机制,也可能阐明其他随年龄增长引起的疾病。
11
Eran Segal
将基因组学应用到医学
过去的20年在基因组学是非凡的。我们开发了高通量测序,并学会了如何使用它高效地测序全基因组,绘制基因表达图谱,表观基因组图谱,甚至在单细胞水平上测序。利用这些能力,我们创造了前所未有的新型基因组目录,包括几乎所有生命的DNA功能元件和非编码RNA。但是,也许除了癌症和某些单基因疾病的基因治疗外,基因组学尚未兑现其对我们日常生活产生影响的承诺。例如,药物和诊断方法仍在以传统的方式开发,通常通过在动物体内进行筛选实验来发现靶标,而没有涉及到任何基因组学的步骤。此外,当全球COVID-19大流行爆发时,正在传播的SARS-CoV-2冠状病毒(SARS-CoV-2)的基因组被迅速测序,但仍不清楚为什么一些感染者表现出严重疾病,而其他人没有。
的确,我们的下一个挑战是将这些令人难以置信的资源和技术用到基因组学中加深对健康和疾病更好的理解。这种对基因组学的理解将使医学向个性化医疗的转变,这预言了个体化治疗的未来,即根据病人的独特特征,在正确的时间为正确的人提供正确的药物。如果我们继续关注越来越多的测序数据,建立越来越多的图谱和目录,我们可能会被越来越多的数据和相关发现淹没。沿着这条路走下去会导致无止无尽的努力,因为bulk测序可以被单细胞测序取代,或者在更高的时间和空间分辨率下测量,跨越更多生物背景。
相反,我们应该利用基因组学来解决一些悬而未决的大问题,比如是什么导致了我们在表型、疾病使用和药物反应上的不同?遗传、表观遗传、微生物和环境因素的相对作用是什么?它们的影响是如何被调节的,不同的干预会有什么影响。最终,我们应该努力利用基因组学产生可操作的和个性化健康医疗。我们现在正处于基因组学的拐点,这是历史上第一次我们人类可以应用它来研究人类生物学,实现这些伟大的目标。
在细胞水平上,我们可以使用患者的iPS细胞来构建多种疾病的细胞模型,并根据检测细胞和分子(例如,基因表达和表观遗传学)对现有药物和药物组合的应答,实现优化治疗。我们甚至可以使用大规模并行分析,分别测量成千上万的人工精心设计的突变对每个人的影响,包括特定的与患者相关的突变,例如在检测所有临床鉴定的TP53突变对细胞功能的影响。检测编码转录因子突变和信号分子的影响,和其他基因可以揭示信号通路和基因调控网络研究,用以识别假定的治疗靶点。在神经退行性疾病等尚不为人所知的领域应用这种方法,可能会特别有效。
但是,我们可以更有信心直接描绘大量的人类个体组学图谱。由于分子变化通常先于临床疾病表现,纵向检测结合临床表型非常有潜力确定新的疾病诊断和治疗靶点。事实上,追踪数十万个体大样本的生物库最近已经出现,而且被证明信息量是非常高的。然而,在分子水平上,他们迄今为止的重点仍然是遗传学。技术的进步和成本的降低使我们能够获得测序深度更深的个人个性化的多组学数据,包括转录组、蛋白质组、甲基化组、微生物组、免疫系统和代谢组。拥有同一个体在多个时间点上的这些数据,可以揭示哪个基因组层导致每种疾病更混乱,提供更多信息,并确定分子标记与疾病之间的关联。
使用这些来自人类群体的组学数据的挑战是确定哪些关联是因果关系。解决这个问题的一种方法是明智地选择所研究的本质和表型关联性。例如,在处理微生物组数据时,我们可以从研究物种组成水平延申到细菌基因SNPs水平的分析。这种关联更具体,更有可能确定因果关系,如细菌基因dadH中的SNP,它与治疗帕金森病的主要药物代谢和患者肠道微生物群相关。另一种方法是使用纵向检测数据中模拟目标试验的时间测量和分离。例如,我们可以从数据子集种选择几个已知风险因素(例如,年龄或体重指数)来匹配一个感兴趣的标记(例如,基因表达或表观遗传标记的存在),并比较未来的疾病发生或者发展。类似地,回顾性分析随机临床试验参与者的多组学数据可能识别那些标记以区分有药物反应者和无反应者,并用于患者分层或确定其他假定的靶标。
最终,从观察组中鉴定出的生物标志物需要进行随机临床试验,以确定因果关系并评估疗效。就从人类身上提取的微生物菌株而言,我们或许可以跳过动物试验,直接进行人体试验。在其他在操作人类基因等情况下,在进行人体临床试验之前,我们需要先进行细胞培养实验和动物试验。然而,在所有情况下,被测试的基因组目标应该已经在人类个体中显示出关联,从而使它们更有可能在临床试验中相关和成功,就像药物靶点一样遗传证据表明他们与这种疾病有关。
除了这些科学挑战之外,还有一个挑战,那就是让公众、不同的种族和社会经济群体参与到这样大规模的多基因组分析研究中来,甚至在我们能够展示它们之前直接的好处。我们可以从信息性总结报告的形式开始鼓励数据测序,并逐渐向谨慎和负责任地传达可操作的见解随着我们知识的逐渐更新。
克服上述挑战并不是一件容易的事,但随着基因组学在过去20年里取得了惊人的进步,现在可能是解决这些问题的时机。成功可以使基因组学不再被应用主要用于研究,而使其成为医学不可分割的一部分!
12
Jin-Soo Kim
CRISPR基因编辑技术应用到临床
在过去的几年中,基因组编辑技术已经日趋成熟,特别是因为CRISPR系统的重新利用。基因组DNA可在体内或体外高效率和精确性靶向修饰基因组,有可能使治疗性基因组编辑技术用于遗传性和非遗传性疾病的治疗。用于基因组编辑的三种可编程核酸酶,即锌指核酸酶、转录激活子样效应核酸酶和CRISPR核酸酶,目前均在临床研究中。在未来几年里,我们将能够了解这些基因组编辑工具是否足够有效和安全,以治疗包括艾滋病毒感染、白血病、血液病和遗传性失明在内的一系列疾病,这将预示着医学的一个新时代。
如果新的药物或治疗方法的发展历史,如基因疗法和单克隆抗体有些指导,治疗性基因组编辑的旅途可能会很颠簸,但最终还是值得尝试的。与可编程核酸酶的医学应用相关的关键问题是它们的传递方式、特异性、靶向活性和免疫原性。
首先,基因或mRNA的体内传递(或直接传递到患者体内)编码可编程核酸酶或预组装Cas9核糖核酸蛋白可能是一个挑战,因为这些核酸酶尺寸太大。一般来说,体外(或间接)输送比体内输送更有效,但仅限于从血液或骨髓中提取细胞,这些细胞可以轻松采集,在体外编辑,再输回患者体内。纳米颗粒和病毒载体的不断发展有望增强和扩大目前输送系统难以获得的组织或器官的体内基因组编辑,比如大脑。
其次,可编程核酸酶,包括CRISPR核酸酶,可导致不需要的靶向突变和脱靶问题,这可能导致肿瘤的发生。有几种基于细胞的和非细胞的方法已发展,以无偏差的方式鉴定全基因组CRISPR脱靶位点。但是,由于当前测序技术固有的错误率,在细胞群中鉴定低频率突变(小于0.1%)位点脱靶仍然是一个挑战。即使在靶向位,CRISPR-Cas9也能诱导如染色体大片段缺失等意外结果。这将会非常重要的去理解不寻常的靶标活性背后的机制,并衡量和减少此类事件的发生频率。
最重要一点,Cas9和其他可编程核酸酶可能是免疫原性的,可能会导致意外的先天和适应性免疫反应。在这方面,最初的临床试验将重点放在Cas9核糖核酸蛋白的体外传递到T细胞或在眼睛,这样的基因编辑上体系是很有意义的。Cas9表位编辑或从非致病性细菌中提取的Cas9新同源基因编辑可以避免部分免疫反应,在体内那些很少或没有免疫特权组织或器官利用基因组编辑提供治疗模式。
基因编辑技术是有望克服核酸酶介导的基因组编辑的限制的新方法。碱基编辑器和启动编辑器分别由一个Cas9切割酶,而不是野生型Cas9核酸酶,以及一个核酸脱氨酶和一个逆转录酶组成。因为切割酶不同于核酸酶,它会产生DNA单链断裂或缺口,但不会产生双链断裂(DSBs),碱基编辑器和启动编辑器不太可能导致大片段的靶向,以及对靶向和脱靶引起的DSBs进行非同源末端连接修复(NHEJ)导致染色体重排。此外,当涉及到基因编辑而不是基因扰乱时,这些新型基因编辑器比产生DNA双链断裂修复的核酸酶更有效、更“干净”,因为它们既不需要供体DNA供体,也不依赖于容易出错非同源末端连接修复(NHEJ);在人类细胞中,DSBs优先由NHEJ修复,导致小的片段插入缺失(indels),而不是通过需要供体的DNA的同源重组修复。
基因编辑技术也很适合胚系编辑和子宫内编辑(即在胎儿的基因组进行编辑),但是应谨慎进行,应充分考虑伦理、法律和社会问题。原则上,CRISPR-Cas9可以用于校正人类胚胎中的致病性突变;然而,供体DNA在人类胚胎中很少被用作修复模板。复发或非复发的从头突变是绝大多数遗传疾病的原因。母体血液中的cfDNA可以用来检测胎儿的这些从头突变,而这些从头突变在父母基因组中是不存在的。一些从头突变甚至在出生前就表现出来,导致出生后流产、残疾或早逝;这时对新生儿进行基因编辑往往为时已晚,而且效率低下。这些突变可以在子宫内利用记忆编辑技术进行纠正,既不引起不必要的插入缺失,也不依赖低效的同源重组。与胚系编辑或植入前遗传诊断相比,如果在未来在子宫内编辑中被证明是安全和有效的,应该在伦理上更容易被接受,因为它不涉及创造或破坏人类胚胎。
正如它们的前景和潜力一样,当前版本基因编辑技术可以进一步优化和改进。例如,Cas9在微生物中进化为一种核酸酶而不是切割酶。当前用于碱基编辑(D10A SpCas9变体)和启动编辑(H840A变体)的Cas9切割酶可以被设计来增加它们的活性和特异性。同时,碱基编辑器和主编辑器中的脱氨酶和逆转录酶部分可以被设计或替换为合适的同源基因,以提高基因组编辑的效率和范围。已有研究表明,碱基编辑器可以导致引导RNA依赖和引导RNA不依赖的DNA或RNA脱靶突变,这引起了人们对其在医学上应用的担忧。主要编辑还可能导致不需要的靶向编辑和脱靶事件,在转向治疗前必须仔细研究应用技术。生物医学研究人员现在技术装备齐全、拥有强大的基因组编辑工具。我希望这些工具能够被开发出来在两者中得到更广泛的应用于未的科学研究和医学。
参考文献:
The road ahead in genetics and genomics.Amy L. McGuire, Stacey Gabriel, Sarah A.Tishkoff, Ambroise Wonkam, Aravinda Chakravarti, Eileen E. M. Furlong , Barbara Treutlein, Alexander Meissner, Howard Y. Chang, Núria López-Bigas,Eran Segal and Jin-Soo Kim,2020,Nature Reviews Genetcis
· END ·
后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集
喜欢别忘了点“在看”呦!