进化树构建背景资料

一、背景资料

进化树(evolutionary tree)又名系统树(phylogenetie tree)进化树,用来表示物种间亲缘关系远近的树状结构图。在进化树中,各个分类单元(物种)依据进化关系的远近,被安放在树状图表上的不同位置。所以,进化树简单地表示生物的进化历程和亲缘关系。已发展成为多学科(包括生命科学中的进化论、遗传学、分类学、分子生物学、生物化学、生物物理学和生态学,又包括数学中的概率统计、图论、计算机科学和群论)交叉形成的一个边缘领域。

image.png

Phylogenetic trees are used to describe genealogical relationships among a group of organisms, which can be constructed based on the genetic sequences of the organisms. A rooted phylogenetic tree represents a model of evolutionary history depicted by ancestor-descendant relationships between tree nodes and clustering of ‘sister’ or ‘cousin’ organisms at a different level of relatedness.
In infectious disease research, phylogenetic trees are usually built from the pathogens’ gene or genome sequences to show which pathogen sample is genetically closer to another sample, providing insights into the underlying unobserved epidemiologic linkage and a potential source of an outbreak.

生物进化的总趋势有以下几类

  • 结构上:由简单到复杂;
  • 生活环境上:由水生到陆生;
  • 进化水平上:由低等到高等;

一般来说,进化树是一个二叉树。它由很多的分支和节点构成。根据位置的不同,进化树的节点分为外部节点和内部节点,外部节点就是我们要进行分类的分类单元(物种)。而物种之间的进化关系则用节点之间的连线表示。内部节点表示进化事件发生的地方,或表示分类单元进化的祖先。在同一个进化树中,分类单元的选择应当标准一致。进化树上不同节点之间的连线称为分支,其中有一端与叶子节点相连的分支称为外枝,不与叶子节点相连的分支称为内枝。

Components of a phylogenetic tree. External nodes (green circles), also called ‘tips,’ represent actual organisms sampled and sequenced (e.g., viruses in infectious disease research). They are the ‘taxa’ in the terminology of evolutionary biology. The internal nodes (blue circles) represent hypothetical ancestors for the tips. The root (red circle) is the common ancestor of all species in the tree. The horizontal lines are branches and represent evolutionary changes (grey number) measured in a unit of time or genetic divergence. The bar at the bottom provides the scale of these branch lengths.

进化树一般有两种:有根树和无根树。

  • 有根树:有一个鲜明的特征,那就是它有一个唯一的根节点。这个根节点可以理解为所有其他节点的共同祖先。所以,有根树能可以准确地反映各个物种的进化顺序,从根节点进化到任何其他节点只有能有一条惟一的路径。
  • 无根树:不能直接给出根节点,无根树只反映各个不同节点之间的进化关系的远近,没有物种如何进化的过程。但是,我们可以在无根树种指派根节点,从而找出各个物种的进化路径。

拓扑结构

  • 有根树:反映时间顺序;
  • 无根树:反映距离;

分子进化树(以分子数据为依据构建的进化树)不仅精确地反映物种间或群体间在进化过程中发生的极微细的遗传变异(小至一个氨基酸或一个核昔酸差异),而且借助化石提供的大分子类群的分化年代能定量地估计出物种间或群体间的分化年代,这对进化论的研究而言无疑是一场革命。

序列比较是生物信息学中最频繁也是最有价值的工作。要知道一个序列(结构)与另一个序列(结构)或者与一批序列(结构)之间的差异,唯一的途径就是序列(结构)的比较分析。序列水平上的比较反映的是字符串之间的差异,能够发现碱基序列或者氨基酸序列的保守模式。

但是,在分子生物学中,比较是多方面的,除了核酸或蛋白质序列的比较,也可以是结构的比较等。事实上,相差很大的序列可以形成具有相同功能的分子。而结构水平上的比较更能反映功能上的差异,能够发现与功能紧密相关的结构域。结构比较方面的工作都是围绕蛋白质及 RNA 展开的。

构建进化树的方法包括两种:一类是序列类似性比较,主要是基于氨基酸相对突变率矩阵(常用PAM250)计算不同序列差异性积分作为它们的差异性量度(序列进化树);另一类在难以通过序列比较构建序列进化树的情况下,通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化

三种主要的建树方法分别是距离法( distance method )、最大节约法( maximum parsimony , MP )和最大似然法( maximum likelihood , ML )。

二、同源性

同源性( homology )是比较生物学中的一个中心概念。同源,最基本的意义就是具有共同祖先。一般来说,如果两个物种中有两个性状满足一下两个条件中的任意一个,就可以称这两个性状为一对同源状。
在分子进化研究中,同源性一般是指两个核酸分子的核苷酸序列或者两种蛋白质的氨基酸序列质检的相似程度。序列分析是最终测定同源性程度的方法。

  • 直系同源( orthology ):可以反映物种血统上的同源性,即物种进化的历史;
  • 并系同源( paralogy ):只反映基因进化的历史;
  • 异同源( xenology ):仅仅部分反映基因进化历史;
  • 多异同源( paraxenology ):与异同源的不同点在于主要基因组中它拥有的两个或者更多的外源基因拷贝;
  • 部分同源( plerology ):由许多不同功能部分组成,而一个基因的组成中包含其他基因的片段;

三、系统发育树格式

有多种文件格式旨在存储系统发育树以及与节点和分支相关的数据。三种常用的格式是 Newick 2、NEXUS ( Maddison et al. 1997 )和 Phylip ( Joseph Felsenstein 1989 )。某些格式(例如NHX)是从 Newick 格式扩展而来的。进化生物学中的大多数软件都支持 Newick 和 NEXUS 格式作为输入,而一些软件工具通过引入用于存储进化推理的新规则/数据块来输出更新的标准文件(例如BEASTMrBayes)。在其他情况下(例如PAMLr8s),输出的日志文件只能被自己的单个软件识别。

Newick 树格式

树文件一般是nwk格式(Newick),输出bootstrap值,是按括号冒号等格式来存储信息的。所以名称最好不要带有中英文括号、冒号等信息,否则发生意想不到的错误。Newick 树格式是以计算机可读形式表示树的标准。

Tips were aligned to the right-hand side and branch lengths were labeled on the middle of each branch.g

上图所示的有根树可以由以下字符序列表示为 Newick 树文本。

((t2:0.04,t1:0.34):0.89,(t5:0.37,(t4:0.03,t3:0.67):0.9):0.59); 

树文本以分号结尾。内部节点由一对匹配的括号表示。括号之间是该节点的后代节点。例如 (t2:0.04,t1:0.34) 表示 t2 和 t1 的父节点,它们是直接后代。兄弟节点用逗号分隔,提示由它们的名称表示。分支长度(从父节点到子节点)由子节点后面的实数表示,前面是冒号。与内部节点或分支相关联的单一数据(例如,引导值)可以编码为节点标签并由冒号前的简单文本/数字表示。

四、系统发育树怎么看

用于展示具有亲缘关系的物种/基因之间的种系发生(phylogeny)历史的树状图(dendrogram),就是系统发育树(phylogenetic tree),俗称进化树。我们很容易可以从一棵树上看到哪个物种跟哪个物种更相似,可是当我们真正要用一段话去描述这棵树的时候,往往有点不知所措。这里,我将介绍一下系统发育树是怎么看的。

系统发育树的结构
进化树的结构示意图

首先来学习一下系统发育树的基本结构。故名思意,系统发育树具有与树类似的结构:

1. 根 (Root)
所有分支的共同祖先叫做根。根据有无根可分为:

  • 有根树:可以从树中找到共同的祖先。
  • 无根树:顾名思义,没有根,也就找不到共同的祖先。

2. 进化支 (Branch)
从根开始生长,每次分出两条枝也叫分支,指两种及以上的生物或序列组成的进化关系。

可以利用这个来看同源。比如,下图中人基因1与人基因2可能是旁系同源基因,而人基因1与鼠基因1可能是直系同源基因。

image.png

3. 结点 (Node)
枝生长到一定程度后,再次分枝的地方称为内节点(internal node)。每个结点代表一个分类单元,物种上可以是属,种群等,基因上可以是基因家族,同源物等。

4. 叶节点(leaf)
树的最末端称为叶节点(leaf),有时候也叫tip。

5. 进化枝(clade)
包含多个叶节点的分支称为进化枝(clade)。


以上是树的基本结构。如果只有这些结构,还不能称其为系统发育树,只能说是一个树状图。只有当我们赋予该树状图生物学意义的时候,才能称为系统发育树:

  • 一个叶节点代表一个生物类群(taxon),如人类。
  • 一个内部节点代表一个假想的祖先(ancestor)。这个祖先在历史中存在,但往往已经灭绝。为什么要加上“假想”,是因为我们没有确切的证据去证明这个祖先到底是什么。人类、倭黑猩猩、黑猩猩的汇集处代表这三者的共同祖先,由于这个节点距离这三个类群最近,所以把该节点称为这三个类群的最近共同祖先(Most Recent Common Ancestor, MRCA)。与祖先对应的词汇是后代(descendants)
  • 的长度用于衡量祖先和后代之间的远近。根据树的构建方法不同,枝的长度可以有不同含义。如果使用基于进化模型的方法(贝叶斯法/最大似然法),枝的长度代表碱基替换速率。如果使用基于距离的方法则代表的是距离。因为用于构树的性状、构树的方法对枝长影响很大,所以不同的树之间的距离往往无法直接比较。有些系统发育树的枝长会被忽略掉,此时枝的长度是没有意义的。
  • 根节点代表所有类群的共同祖先。不是所有系统发育树都是有根的,没有根的系统发育树称为无根树。

除了以上基础结构,有的系统发育树还包含以下内容:

  • 支持度:内部节点有时候会有一个数字,称为支持度(support value),用于代表 该分支结构的可靠程度。值的大小在0%-100%之间。和枝长一样的是,支持度也有不同的计算方法,如普通的bootstrap value、Ultra fast bootstrap、后验概率等。值越大,说明越多证据支持该分支。
  • 外群/外类群(outgroup):目标类群之外的类群。如果我们的目标类群是人类和黑猩猩,那么可以选用大猩猩来作为外群。外群一般用于给系统发育树赋根,赋根之后我们才能从进化树上看出演化的先后顺序
  • 演化时间:如果能够找到明确的历史记录或者化石证据,确切地知道某个已经灭绝的物种曾经存在的时间,就可以用于校正系统发育树的时间。经过校正的系统发育树有时候称为time tree。

五、进化树评估

1. Bootstrap检验
对于进化树评估一般会使用 Bootstrap 进行检验。

Bootstrap检验,自举法检验,也叫自展,自助法。其实就是放回式抽样统计法的一种,通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。

2. 重复取样值
那么重复取样的次数会在建树时设置,现在一般文章要求Bootstrap 取样值 >1000。

3. Bootstrap value 阈值
虽然根据严格的统计学概念,自展值需要要大于95%才较为可信。

然而在实际应用中,我们一般认为结点的 Bootstrap value > 70,这个分支就是可靠的。特别是微生物等相似度比较大的分类中,一般大于50%就认为可信(小于50%不会显示)。

4. Bootstrap value 与分支
如果低 Bootstrap value 更靠近分支末端,代表相似度太高而很难区分
如果低 Bootstrap value 更靠近根,代表相似度太低

六、其他常见名词

1. Monophyletic groups (clades)

一个 单系群 (monophyletic group) 包括所有的拥有一个共同祖先的物种。在系统发生树上,单系统组包括一个节点和该节点的所有后代,由节点和末端分类单元表示。 因此,一个单系群也可以看作是一个进化枝。

image.png

图中节点1和物种B、C组成一个单系群,节点2和物种A、B、C也可以组成一个单系群,所以单系群之间可以有包含关系,对一个单系群的确定却决于节点的选择。

2. Paraphyletic Groups

类似于单系群,并系群(Paraphyletic Groups) 也是一组包含了共同祖先的物种,不同的是并系群并不一定包含这个共同祖先的所有后代。

图中节点2和物种A、B组成的并系群,可以看作是上一张图中深蓝色标注的单系群去掉物种C。

3. Polyphyletic Groups

多系群(Polyphyletic Groups) 指的是一组由不同祖先进化而来的物种

image.png

由于基因测序的出现,许多从前的并系群和多系群被拆散并重新定义为单系群,但在结构(解剖,形态和/或发育),生活史和/或生态环境分类中并系群和多系群的存在还是有其意义的。

常见问题

1. 为什么有的叶节点是物种,有的是基因?

  • 叶节点是物种的树,称为物种树,表示物种的演化模式。
  • 叶节点是基因的树,称为基因树,表示基因的演化模式。

2.有根树和无根树
根据是否指定了根节点,系统发育树可以分为有根树和无根树。

  • 有根树指定了根节点,树中可以看出各个节点的距离和祖先节点以后各个分枝分化的先后关系,因此可以用于分化时间的推断;
  • 无根树没有指定祖先节点,只能看出各个节点的拓扑结构和相对距离

无根树和有根树图示如下图。

  • 左边的无根树只看到了材料的聚类关系和相对距离的远近,无法判断哪个分枝属于较为古老的分枝,哪个分枝为比较年轻的分枝
  • 而右边的有根树加了外群,并且把外群指定为根,所以从图中除了可以看到材料的相对距离以外,还可以可以看到各个分枝材料的分化顺序

有根树根的选择应有所讲究,一般选择所研究的材料(根以下的全部材料)的最近的共同近缘种作为外群。

无根树和有根树

3. 物种树和基因树长得很像,两者有什么联系和区别?

测序技术发明以前,我们常常用生物的性状来推测物种树。测序技术发明之后,我们常常用基因序列来推测物种树。因为基因和物种往往是共同演化的,所以往往有相同的演化模式,因此可以用基因树来推测物种树。然而由于存在基因缺失、基因水平转移、基因重复等现象,并不是所有基因树都与物种树一致的。如下图,A物种最初丢失了红色的基因,后来又从B物种的祖先中得到了这个基因,导致红色的基因树与物种树不一致。

基因树与物种树的联系

参考:
https://www.renrendoc.com/paper/89627962.html
https://blog.csdn.net/weixin_33861800/article/details/86112643
https://zhuanlan.zhihu.com/p/351805254
https://zhuanlan.zhihu.com/p/338937831

你可能感兴趣的:(进化树构建背景资料)