进化树上的N种数值

序言

大晚上的不知道干些啥好,想起了之前积累的一个小小的问题。
这里搜一下资料,快速的整理出一小篇文章好了~

内容大概就是 N种phylogenetic tree上不同的数字

进化树上的N种数值_第1张图片
https://www.researchgate.net/figure/The-phylogenetic-tree-of-Bacillus-sp-D12-based-on-16S-rRNANCBI-accession-number-of-each_fig1_281824668

基本的系统发育树

系统发育树大概是最最常见的一个结果图了,大家都知道树长什么样,但是却不一定知道上面的数字意义是什么。又或者只知道其中的几种。


进化树上的N种数值_第2张图片
The tree terminology

以上的树结构,算是比较常见的一种,一般也会有图例表示,多长的长度代表多远的距离,所以甚至会不标记任何的数字,因为支长(branch length)本身就携带了大量的信息。

那么如何阅读一棵树的信息呢,上图也写的比较清楚。物种A与物种B的距离就是AA+BB,至于这个支长是什么,下文再去说有哪些测度(metrics)可以用以表征这个相似度,但是总的而言,如果需要比较两个物种的距离,即支长的不断相加。

树是什么?

如果要我解释的话。

树就是距离矩阵的可视化结果

每个叶子节点就是距离矩阵的横轴或者纵轴,由于树上每两个叶子节点间都可以两两到达,结合上述的物种的距离,最后就会得到一个距离矩阵,而一个距离矩阵却可以得到多个树的结果。(取决于 有/无根 树的画法等)

数字的定义

进化树上的N种数值_第3张图片
Coinfection with a novel fibropapilloma-associated herpesvirus and a novel Spirorchis sp. in an eastern box turtle (Terrapene carolina) in Florida

上述的定义,其实也可以看这篇文献的原始的legend。首先斜杠不代表除法,仅仅代表的意思。左侧贝叶斯后验概率的百分比,右侧是通过bootstrap进行计算的百分比,简单点说,两个都是代表了这个node以下的树结构的可靠程度。
关于bootstrap的计算,可以参考Bootstrapping phylogenetic Trees: theory and methods

进化树上的N种数值_第4张图片
Genome and transcriptome sequencing identifies breeding targets in the orphan crop tef (Eragrostis tef)

标在Node(顶点)上的数字,大多为置信程度,代表该node以下的树结构的可靠程度 (A图)
标在边上的数字,则为支长的具体数值。(B图)

建树的方法

虽然建树的标准有很多,但是概括来说,phylogenetic tree的方法有三种

1. Parsimony (简约法)

将需要比较的东西进行 binary(二元)化,例如有无毛发,有无皮肤等基于特征的方法。


进化树上的N种数值_第5张图片
简约法

为什么叫简约法?
就是因为二元化后,通过层次递进,就可以推导出共同祖先。即用最少的信息即可描述子节点的过程。

2. Distance Matrix based

基于距离矩阵,有距离矩阵就有树。。。如上

3. Maximum likelihood(最大似然)

通过最大似然的估算,一个很长的贝叶斯概率计算,通过最大化结果,从而得到树


进化树上的N种数值_第6张图片

结尾

。。。这是篇很简单以及很水的文章(毕竟只花了1h不到。。),希望大家也可以1分钟看完。。

reference

Phylogenetics
PCB_Lect11_Phylogen_Trees.pdf
youtube Maximum likelihood for phylogenetic tree reconstruction

你可能感兴趣的:(进化树上的N种数值)