系统发育树入门 笔记

找到一篇进化树科普文章,Phylogeny for the faint of heart:a tutorial   作者Sandra L. Baldauf  英语贼烂看得慢,挑了下重点翻译了一下,还有些术语不知道中文,有些地方可能有错(自学刚入门〒▽〒)。原文内容包括如何解读树、整合数据、多序列比对、树构建方法、bootstrap analysis、长分支工件、一些软件资源;原文链接见文末。

系统发育学是一门基于DNA或蛋白质序列的比较来估计进化历史的科学,建于分子系统学理论基础之上。

系统发育树又名分子进化树

一些术语  

系统发育树入门 笔记_第1张图片
图1 进化树的基本元素

进化树可由multigene families(多基因家族?)或者来自多个分类群的单基因绘成,又或者两者的结合。前者的内部节点(nodes)对应于一次次基因的复制,后者对应于物种的形成。

系统发育树入门 笔记_第2张图片
图2 单系(全系),副系和‘多系’monophyletic (holophyletic), paraphyletic and‘polyphyletic’

Groups

一个节点及其产生的一切都是一个“支系(monophyletic group)”或“单系群”。单系类群是一个自然类群;所有成员都来自唯一的共同祖先(相对于树的其余部分),并从该祖先那里继承了一组独特的共同特征。

一个不包括一些后代的群体是一个“副系(paraphyletic group)”(例如动物不包括人类)。

许多远亲OTU(OTU??见文末)的“大杂烩”,可能外表相似或保留了相似的原始特征,构成一个“多系(polyphyletic group)”。

Trees

节点的宽度没有任何意义,只是为了调整宽度使各分支间距均匀。所有分支也可绕着节点自由旋转,因此一棵树可以呈现出各种形状。

系统发育树入门 笔记_第3张图片
图3 各种形状的树。其中f是无根树

分支的长度对应于两个节点之间的进化量(大致为序列差异的百分比)。因此,分支越长,两个节点上的序列就分歧越大(高度进化)。也有进化树为“分支图(cladograms)”形式,仅显示分枝,分支长度无意义(图3g),但不常见。

Roots

系统发育树的底部是它的“根”。最古老的点,共同的祖先。如何确定一个根?用outgroup(外类群),一个外部参照点。

Homology

系统发育树入门 笔记_第4张图片

同源序列:来源于共同祖先的相似的序列。同源只是对基因序列的定性。同源序列类型可分为直系同源(Orthologs )旁系同源(Paralogs)

直系同源:描述在不同物种中来自于共同祖先的基因。Orthologous基因可能有相同的功能,也可能没有;它们是严格垂直传播的(父母传给后代),因此它们的系统发育可以追溯到它们的宿主谱系。

旁系同源:描述在同一物种内由于基因复制而分离的同源基因。是多基因家族的成员,通过基因复制而产生。我个人理解,旁系同源应该就是高中生物所说的同源基因,比如红眼果蝇和白眼果蝇吧?(・ω・)。

系统发育树入门 笔记_第5张图片
(a)旁系同源基因是由基因复制事件产生的。基因X在物种A和B的共同祖先中复制,产生了两个相似的基因,X和X'。所有后续物种都继承了该基因的两个拷贝(除非其中一个在途中的某个地方丢失了)。(b)X/X'基因家族的系统发育分析给出了两个平行的系统发育树。基因X的所有序列都是相互直系同源的,基因X'的所有序列也都是彼此直系同源的。然而,X和X'是旁系同源关系。X和X‘’子树都显示了这三个物种之间的真实关系。这些子树也是彼此的自然外群(outgroup),因此每个子树都互相是root。(c)如果X/X'基因家族的树没有包含所有序列(因为采样不完整或基因丢失),则可能会产生误导。如果折断的树枝不见了,那么真实的物种关系就被歪曲了。


一般建树流程 

原文基本方法、原理都有讲;B站上东大生信课也有详细补充(见文末)

1.数据收集:可以从网站上找。原文有基因库网站、搜索引擎等的列举。

2.多序列比对:问题的核心。

3.建树。系统进化分析的时候常常是基于某个基因的序列进行分析,通过碱基的变化和差异计算相互之间的进化关系。既然涉及到计算,自然就各种各样的算法:(1)基于距离的方法(neighbor-joining就是一种常用的算法,简称NJ,用它计算出来的系统发育树就叫NJ树)(2)最大简约法(MP)(3)最大似然法(ML)(4)贝叶斯       从1-4,计算速度下降,精读提高。

可以想象成对花园中的花进行进化分类。你可以从计算花瓣、萼片和雄蕊等的数量开始——这就是你的数据集。如果你使用距离的方法,你可以简单地根据它们共有的特征数量来对你的花进行排序;一系列共有特征最相似的花被认为是关系最密切的。

4.测试:系统发育准确性最简单的测试是自举(bootstrap),它是系统发育准确性的一般衡量标准,70%或更高的值可能表示可靠的分组。此外还有个“Long-branch attraction”问题...

5.数据呈现。树美化推荐网站iTOL,对新手很友好(比如我),不会编程都能上手。

参考:

1.B站的东大生信课:https://www.bilibili.com/video/av59701475

2.有关同源序列:Orthology, paralogy and proposed classification for paralog subtypes

 http://www.sciencedirect.com/science/article/pii/S0168952502027932 PloBhttp://www.sciencedirect.com/science/article/pii/S0168952502027932

3.Phylogeny for the faint of heart:a tutorial

http://www.sciencedirect.com/science/article/pii/S0168952503001124

4.OTU科普:https://www.linkedin.com/pulse/%E5%BE%AE%E7%94%9F%E7%89%A9%E5%A4%9A%E6%A0%B7%E6%80%A7%E5%88%86%E6%9E%90otu%E8%81%9A%E7%B1%BB%E4%B8%8E%E6%B3%A8%E9%87%8A-jiarui-sun?articleId=6557075596340490240

你可能感兴趣的:(系统发育树入门 笔记)