以下全明白才能看懂之后的:
(AA,Aa,aa)=(p2,p1,p0)
(A,a)=(p,q)
p=p2+1/2p1
q=p0+1/2p1
在随机交配的大孟德尔群体中,其遗传结构为
(AA,Aa,aa)=(p2,2pq,q2)
(A,a)=(p,q)
随机交配下的平衡:
平衡群体:
(AA,aA,Aa,aa)=(p2,pq,pq,q2)
由基因库行程的基因型(正反交分开)信息源:
G =
[AA Aa aA aa
p11 p12 p21 p22]
由pij计算基因A,a的频率p,q :
基因型的信息熵:
使s(G)最大的基因型频率可归结为如下条件极值:
https://www.numberempire.com/latexequationeditor.php
\begin{cases}
\sum\limits_{i=1}^2\sum\limits_{j=1}^2(p_{ij})=1 \\
p=1/2\sum\limits_{j=1}^2(p_{1j}+p_{j1}) \\
q=1/2\sum\limits_{j=1}^2(p_{2j}+p_{j2}) \\
s(G)=-\sum\limits_{i=1}^2\sum\limits_{j=1}^2(p_{ij}lnp_{ij})=max
\end{cases} \
构建拉格朗日函数约束条件求解:
p11=p2
p22=q2
p12=p21=pq
基因库(A,a)=(p,q)的信息熵:
S(A)=-(plnp+qlnq), 0<=S(A)<=ln2
基因型的信息熵:
S(G)=-(p2lnp2+2pqlnpq+q2lnq2) =-2(plnp+qlnq)=2S(A)
多态位点:基因分布中绝大多数等位基因的频率在区间(0.01,0.99)之内,比如ABO血型位点
0\leq H= 1-\sum\limits_{i=1}^k(p_{i}^2 )\leq\frac{k-1}{k} \\
\frac{1}{k}\le J=\sum\limits_{i=1}^k(p_{i}^2)\le1
位点中的有效基因数:
1/J
在群体遗传学研究中,群体中的个体间有亲子关系、同胞关系等亲属关系,这些数量关联性分析可以归结为具有有限个状态(值)的二维离散型随机变量的分析和计算。
X \ Y | y1 | y2 | … | yn | sum |
---|---|---|---|---|---|
x1 | p11 | p12 | … | p1n | p1. |
x2 | p21 | p22 | … | p2n | p2. |
… | … | … | … | … | … |
xm | pm1 | pm2 | … | pmn | pm. |
sum | p.1 | p.2 | … | p.n | 1 |
Y的分布:
(y1,y2,…,yn)=(p.1,p.2,…p.n)
称为联合分布XY中关于Y的边缘分布
X的分布:
(x1,x2,…,xm)=(p1.,p2.,…pm.)
称为联合分布XY中关于X的边缘分布
利用二维分布可以表征X与Y间的关联程度:
X的均值与方差:
Y的均值与方差:
X与Y的协方差Cov(X,Y)与相关系数rXY:
\begin{cases}
\mu_{X}=\sum\limits_{i=1}^m(x_{i}p_{i.})\\
\delta_{X}^2=\sum\limits_{i=1}^m(x_{i}^2p_{i.})-\mu_{X}^2
\end{cases} \\
\begin{cases}
\mu_{Y}=\sum\limits_{j=1}^n(y_{j}p_{.j})\\
\delta_{Y}^2=\sum\limits_{j=1}^n(y_{j}^2p_{.j})-\mu_{Y}^2
\end{cases} \\
\begin{cases}
Cov(X,Y)=\sum\limits_{i=1}^m\sum\limits_{j=1}^n(x_{i}y_{j}p_{ij})-\mu_{X}\mu_{Y}\\
r_{XY}=\frac{Cov(X,Y)}{\delta_{X}\delta_{Y}}
\end{cases} \\
如果X和Y不能量化,可以把联合分布XY视为联合信源,通过计算X、Y和联合分布XY的shannon信息熵S(X)、S(Y)、S(XY),表征出X与Y间的互信息I(X,Y),它是X与Y间的由关联所引起的信息量表达。
I(X,Y)=S(X)+S(Y)-S(XY)
当X与Y相互独立时:
pij=pi.+p.j
S(XY)=S(X)+S(Y), I(x,y)=0
对于随机交配群体来说,如果位点中每个基因均由m个独立的密码组成,随机抽取两个等位基因,它们在第i个密码子上不同的概率为:
0<=Dx=-lnJ<=lnk (k为位点的基因个数)
p=\prod\limits_{i=1}^m(1-\sigma_{i}) \approx e^{-\sum\limits_{i}\sigma_{i}}=e^{-D_{e}},\qquad D_{e}=-lnp\\
0\le D'_{x}=-ln^r\sqrt{J_{1}J_{2}...J_{r}} \le lnk
设亚群x和y只检测了一个位点,基因频率分布分别为(x1,x2,…,xk)和(y1,y2,…,yk),则从x,y及x与y中随机选出两个基因相同的概率为:
x和y的Nei相似指数为:
(在数学上,它是向量x和y夹角a的余弦值,即IN=cosa)
Nei标准遗传距离:
是x与y的密码子差数的偏低估计
Dx=-lnJxx x的密码子差数(未正规化)
Dy=-lnJyy y的密码子差数(未正规化)
Dxy=-lnJxy x与y的密码子差数(未正规化)
当测定是多位点时:
J’xx J’yy J’xy是各位点的Jxx Jyy Jxy的几何平均值
D’比单位点更好
对于m个分类群,通过分子特征的加工可以得到一个对称的距离矩阵(m阶方阵),例如包括4个分类群的距离矩阵为:
OTU1 | 0 | 0.15 | 0.20 | 0.35 |
---|---|---|---|---|
OTU2 | 0 | 0.18 | 0.28 | |
OTU3 | 0 | 0.22 | ||
OTU4 | 0 |
系统聚类法的一种,在上述矩阵中,首先将OTU1和OTU2聚成新类OTUr(其距离最短0.15),将原来4个分类群变成新的3个分类群,重新计算距离矩阵
设在某一聚类步骤j中,将OTUp(内含np个原始分类群)、OTUq(内含nq个原始分类群)并为新类OTUrj,所谓UPGMA法,是指这一步骤中任一新类OTUi与OTUrj的距离用类平均法计算,公式为:
在谱系树上,如果两个分类群间通过一个内结点相连,那么称它们为“近邻”
原理:逐步寻找新的近邻,使最终生成的分支数总长度最小,其中距离计算仍然按照类平均法
对于分子谱系树来讲,核苷酸/氨基酸总替代数最小的拓扑结构树就是最大简约树
步骤:
一般来说,如果序列分化程度较低,核苷酸替代速率恒定,序列长度较大的情况下,最大简约法优于距离矩阵法
基本原理:对每个谱系拓扑结构,找到符合最大似然值最高的谱系拓扑结构作为重建谱系树
距离矩阵法:
最大简约法:
最大似然法:
计算机模拟研究比较:
转换(Transitions):A <–>G or C<–>T
颠换(Transversions):其他
转换(transitions)和颠换(transversions)
群体遗传学基础概念
最大信息熵原理与群体遗传平衡
群体遗传分析—LD连锁不平衡
群体遗传学—浅谈基因流
一文读懂进化树