大数据系统发育学的原理、机遇和陷阱(一)

最近几天读文献,读到了一篇2019年Andrew D. Young 和
Jessica P. Gillung发表在Phylogenomics
关于系统发育学的综述Phylogenomics — principles, opportunities and pitfalls of big‐data phylogenetics,很不错,就翻译一下以供查阅。

1 引言

​ 系统发育基因学是重建地球生命进化史的科学。传统上,系统发育仅使用形态学数据来构建,但是1970年代末期Sanger测序和PCR的引入使遗传信息可以纳入系统发育分析中。早期采用多基因座分析的系统发育研究极大地促进了我们对系统发育历史的了解,并挑战了许多系统发育和动物之间关系的公认观点。自这些开创性研究发表以来,测序和分析技术均在方法学上取得了重大进展,分子系统发育已被广泛接受,以代表强有力的有机关系假说。于2000年代中期开发的下一代测序技术彻底改变了DNA测序技术,并大大降低了每个核苷酸的测序成本,并大大提高了数据生成速度。结果,对于模型生物和非模型生物而言,产生史无前例的序列数据已变得负担得起。这一发展已将分子系统学领域转变为系统基因组学-从多个样本中获得基因组规模的数据可以降低成本(Mardis,2011)

​ 系统发育学流水线可能非常复杂,呈现出大量方法可用于大规模数据集的采集,处理,分析和解释。研究人员还必须克服测序策略设计,直系同源基因座识别,模型选择和系统发育估计的挑战。对于刚进入该领域的研究人员(学生和成熟的科学家)而言,这尤其令人生畏,他们希望深入研究新颖的方法和数据来重建研究组的发展。在这里,我们介绍了系统发育学至关重要的理论和工具的入门级概述,重点是对基因组数据的系统发育分析有用的技术的适当应用。我们专注于系统发育估计的测序技术和统计方法,以及实现这些方法的软件及其在大型分子数据集中的应用。我们还讨论了用于改善系统生物学分析准确性的工具和折衷方法,包括系统发育估计中系统误差的生物学和方法学来源。最后,我们提供了系统发育组学中常用术语的词汇表,这些术语对于那些进入该领域并希望通过该相对较新但快速发展的领域固有的众多方法,分析工具和术语进行分类的人员而言可能很有用。

2 什么是系统发育(基因组)学?

​ “系统发育(基因组)学”一词最初是在预测基因组规模数据的基因功能的背景下引入的(Eisen,1998),随后在系统发育推断的背景下引入(O′Brien&Stanyon,1999)。系统基因组学的存在源于过去二十年来DNA测序技术的进步(Metzker,2010)。它包括分子生物学和进化生物学之间的若干研究领域,并有两个主要目标:(i)推断类群之间的系统发生关系,并深入了解分子进化的机制;(ii)使用多物种系统发育比较来推断DNA或蛋白质序列的推定功能。

​ 传统的Sanger测序研究包括相对较少的基因座,因此受到随机或采样误差的限制。由于在一个或几个基因中只有相对少量的系统信息学特征,这种随机的“噪声”会影响骨干节点的推论,从而可能导致系统树发育不佳或支撑不佳。通过使用大量的序列数据可以成功解决此问题。平均而言,现代基因组学分析利用了整个基因组中数百至数千个基因的优势,比传统的Sanger测序数据集平均要大几个数量级。因此,这些数据集的大小显着降低了随机错误和数据可用性(作为限制因素)的影响,为解决生命树中历来顽强的节点提供了广阔的前景。

​ 高通量测序技术[也称为下一代测序(NGS)](图1)已经产生了数量巨大的基因组规模数据。下一代测序技术与Sanger方法的根本不同之处在于,它们可进行大规模的平行DNA测序,同时以较低的成本同时提供多个样品的超高通量(Mardis,2011)。数以亿计的DNA核苷酸可以并行测序,从而产生更多数量级的数据,并最大限度地减少了Sanger测序所用片段克隆方法的需要(图1)。NGS技术的最新进展以及生物信息学工具的迅速发展,现在使任何规模的研究小组都能为感兴趣的生物生成大量的基因组序列。高通量测序可用于全基因组测序(Lam,2012),全基因组鸟枪测序(也称为RNA测序,RNA-seq或转录组学;Wang,2009),全外显子测序(Rabbani,2014)和减少表示的基因组测序(也称为靶标富集)(例如,Faircloth,2012;Lemmon,2012)。

image.png

​ 表1总结了系统发育组学中最常用的测序技术。有关这些不同技术的更多详细信息,请参阅Genohub的《下一代测序入门手册》(https://genohub.com/next-generation-sequencing-handbook/)(另请参阅Ambardar,2016;Besser et al.,2018以及其中的参考)。为系统发育遗传学研究选择合适的测序技术会对下游工作流程产生重要影响,尤其是在reads长度方面,因为某些系统发育遗传学技术(例如超保守元素和锚定的杂交富集,讨论后文)中的文库制备需要一个已选择大小的步骤。

你可能感兴趣的:(大数据系统发育学的原理、机遇和陷阱(一))