演化时间

在演化生物学里面，我们有研究的点是物种的分化时间和演化关系
所以，在比较基因组学里面，对该类问题的研究主要分为物种层次，基因组层次，基因家族分析以及基因层次分析

一.物种层次

一般在物种层次，我们重点关注的是物种间的演化关系，以及物种间的分化时间，并且构建系统发生树

二.基因组层次

在全基因组范围内，我们就可以构建两个物种染色体间，或者全基因组内的共线性关系
比方说，物种A的某段区域，对应物种B的另外一段区域，诸如这样的称为共线性分析。或者是去分析基因组倍增事件
这里简单介绍下基因组倍增事件，在生物演化中，全基因组加倍会带来基因库的加倍，这样一来就给生物演化带来了很多原材料。
那么基因组倍增以后形成的多倍体是很不稳定的，染色体之间会重排，缺失等，从而导致一些基因缺失。当发生再二倍体化后，倍增的基因组又恢复成原来的倍数，但是，有的基因丢失了，另外有些基因任然保持着原来加倍前的同源基因，那么受不同的选择压力，这些基因发挥着不同功能（Whole-genome duplication in teleost fishes and its
evolutionary consequences，2014）

图片来自：https://www.jianshu.com/p/3626d0021b80
这幅图可以反映倍增前后基因丢失情况

系统发生数构建和分化时间估计

系统发生数描述的是物种间，基因间或者个体以及群体间谱系关系的的一种图
那么构建系统发生树数据来源有两种，一种是特征数据，即基因，个体和种群的信息，另外一种是根据相似性进行构建，即两两序列，物种之间的相似性，可以用距离来表示

这是一种无根树（没有指定外群）

那么无根树指的是没有指出共同祖先的节点，只能看出中间节点间的距离关系；而有根树则反映了树上的各个基因和物种的时间关系，通常定根采用的是外群定根，即定根时引入亲缘关系较远的物种作为外群定根

构建系统发生树的方法

对于构建系统发生树，我们有两大类方法提供选择，一种是基于距离，另外一种是基于特征（性状）的

一. 基于距离

（1）UPGMA

该方法通过定义类间距离为两个类内的成员所有成对距离的平均值，什么意思呢？

我们考虑上述物种DNA序列的数据，采用Jukes-Cantor距离来表示，而该距离取决于每对序列间核苷酸替换率
由此就可以计算出物种间的距离K（这里采用的是K距离）

而Jukes-Cantor距离是指在单参数演化模型，即每一种碱基具有同等概率突变为另外3种碱基，其频率常数为μ/3，其中μ是碱基替换频率，当然这个频率可以不同，比如说双参数演化模型，比方说嘌呤突变成嘌呤或者嘧啶突变成嘧啶的频率为α，嘧啶突变成嘌呤或者嘌呤突变成嘧啶的频率为β

所以对于单参数模型来说，K为：

其中q为对于相比较的DNA序列具有相同碱基的概率
这个q值受世代的影响，随着代数的增加，突变越来越多，这种DNA序列的相似性可能性越低，q：

对于双参数模型的K距离：

那么对于UPGMA，我们计算两两物种的K距离

首先，人类与黑猩猩距离最小，那么把它们合并成个新类（hu-ch），然后计算其他物种到这个新类的距离，比方说大猩猩（go）到这个新类的距离（hu-ch）我们用人类到大猩猩的距离与黑猩猩到大猩猩的距离的平均值来代替为：

以此类推，得到新的距离矩阵，在新的距离矩阵中

然后我们发现新类（hu-ch）与大猩猩（go）的距离最短，那么再把他们合并成个新类，一次类推达到聚类的效果，那么

该方法比较适用于趋异进化的模型

（3）临接法 NJ

临接法与UPGMA方法类似，该方法利用的是利用距离最近的成对分类单位来使系统树的总距离和最小

该方法与UPGMA的距离定义不同：

计算第i个终端节点的净分歧度ri

这里的距离dik代表Jukes-Cantor距离
计算最小速率矫正距离Mik
定义新节点u，u节点由节点 i 和节点 j 组合而成。节点 u 与节点 i 和节点 j 的距离为：

那么节点 u 与系统树其他节点 k 的距离为：
从距离矩阵中删除节点 i 和 j 的距离，N减去1，以此往复直到计算出系统树

比方说，我定义个新节点1，那么

我们计算or到节点1的距离为：

以此来计算每个物种到新节点的距离

由于or和gi距离M(or,gi)相近，故把它们划分到新节点1

由于hu和ch距离M(hu,ch)相近，故把它们划分到新节点2，又由于节点1和节点2距离相近，故把他们划分为节点3内

（4）简约法

简约法利用的是序列的拓扑结构来进行聚类的。什么意思呢？就是多个物种的相同区段上的序列，它们之间的碱基相似性来聚类，相同位置上碱基是否相同

当两条序列在某位置上有相同碱基，当他们的共同祖先也具有相同碱基时，就产生最小变更数

对于上面这幅图，假设只有一个位点，对于4条序列而言，可以有两种组合。左边的组合由于左半边都是A，右半边都是G，所以产生A,G，因此对于A,G有一个变更点；对于右边这幅图，左半边是A,G，在上一个节点建设为A（也可以假设为G），对于右半边是A,G，在上一个节点建设为A（也可以假设为G），那么该节点就为A,A，所有有两个变更数。
我们选取最小变更数的那种情况，即左边那个，所以按照这种方法，我们往往就把具有最小变更数的两条序列聚为一类

使用该方法的核心是寻找信息位点，然后计算所有碱基相对于共同祖先所有情况组合的似然值，当似然值最大的时候计算相似性
比方说

对于4号位点，显然四条序列都不相同，那么我们仅通过4号位点是无法进行聚类的，因此4号位点不能算作信息位点；又比如5号位点，第一，二条序列是相同的，三，四条序列是相同的，所以仅通过5号位点可以进行聚类

（5）似然法

似然法采用了统计学原理进行计算

假设说祖先在某个位置的碱基为T，经过演化后到下一个世代演化成了C和A，而这两个经过演化分别演化为C，A和A，G。反过来，我们已知子代为C和A，那么我们需要求解的是它们共同祖先在该位置上的所有碱基可能组合

图片来自ppt

这张图片说明了子代碱基为 (C，C) 和 (A，G)；那么它们的共同祖先所有碱基的组合情况一共有16种（可能包含突变），分别为：

(A，A)，(A，T)，(A，C)，(A，G)
(T，A)，(T，T)，(T，C)，(T，G)
(C，A)，(C，T)，(C，C)，(C，G)
(G，A)，(G，T)，(G，C)，(G，G)

我们设单位时间（世代）碱基替换率为u，πi为A,T,C,G四种碱基选其中之一的概率（一般为1/4），则经过T世代后，某位点不发生突变的概率：

发生突变的概率为：

经过T世代后由碱基 i 变更为碱基 j 概率为：

对于两条序列来说，

对于某个位置，我们假设观测到序列1和序列2的碱基为s1和s2（s1和s2已知），其共同祖先的碱基为k（k为未知，可能为A,T,C,G中任意一种），那么我们计算该位置的似然值：

其中v=uT
对于所有m个位点：

那么此时L是关于v1和v2的函数，我们的目的是求出当这种似然值L达到最大时，v1和v2的值（也就是T值），于是转换成了求极值问题

以v1和v2分别作为序列1和序列2分别到它们的共同祖先的距离

基因家族收缩扩张

所谓的基因家族就是指由某几个物种的基因，是由他们的共同祖先复制而来的，在功能上具有相似的作用
那么基因家族的收缩扩张指的是在演化的过程中有哪些基因在扩大，哪些在减少（这里的增减指的是这些相似的基因数量是增大还是减少），这里的收缩和扩张一定是相对于节点来说的

共线性

共线性主要研究的是两个物中在演化过程中，对于整个基因组来说，A物种1号染色体的某个序列和B物种的2号染色体某个序列比较相似，那么这个就叫共线性

类似于这样的图

还有一种是点图

图片来自文献

这种图表述了两个物种的共线性关系，假设我们设横着的为A物种，竖着的为B物种。
比方说B物种的17号染色体与A物种的17号染色体以及9奥染色体有极强的共线性（主要看点图是否连成线，连成线代表共线性较强）

参考：部分参考樊龙江《生物信息学》
https://m.sohu.com/a/278875424_278730

基因家族分析理论