群体进化选择消除分析

要做选择性消除分析,首先就要把如下的理论记住熟记于心。

中性进化假说:

分子水平上,生物的演化或物种的进化并不是自然选择引起的,而是由中性/近中性的突变等位基因经过遗传漂变引起的,从而形成分子水平上的进化性变化或种内变异。
分子演化的驱动力:遗传漂变
1、突变大多是中性的,对生物个体的生存既无害处也无益处
2、中性突变经过随机的“遗传漂变”固定,在分子水平上进化不依赖于自然选择
3、中性突变决定进化的速率,对于所有生物几乎是恒定的

物种进化过程中遇到的选择:

正选择(positive selection):自然选择“选留”一些稀少的等位基因,拥有这些等位基因的个体能繁殖更多的后代;这样的突变基因往往具有与原来基因不同的功能,而且该功能使得拥有它的生物更能适应环境。
负选择(negative selection):指群体中出现有害突变等位基因时,携带该等位基因的个体会因为生存力或育性降低而从群体中淘汰,也叫净化选择。
选择消除:当一个有利突变发生后,这个突变基因的适合度越高,就越容易被选择固定。当这个基因被快速固定之后,与此基因座连锁的染色体区域,由于搭车效应也被固定下来,大片紧密连锁的染色体区域因此失去多态性,这种由于搭车效应引起多态性下降的现象,遗传上称为选择清除。
背景选择:负选择在清除有害突变时,也会随之清除与其连锁的中性位点的变异。
选择消除和背景选择都会导致基因组上受选择的区域遗传多样性下降,两者很难区分,但背景选择在群体中不会导致高频等位基因突变出现。

其实,一句话总结:
选择消除区域是基因组多样性下降存在高频等位基因的区域。

那我们如何估计群体多态性呢?

群体多态性估计参数:

θπ和θw
θ = 4Neμg
Ne:有效群体大小
μ:每年每位点核苷酸突变速率(中性突变率)
g:时间(个体从出生到繁育下一代的时间,比如人25年)
θ 是群体多态性度量的理论值,在实际分析中,有两个参数近似估计θ,分别是θπ和θw。

θπ(核苷酸多态性):群体中任意两条不同序列(个体)的碱基差异数(SNP)取平均值。
θW(Watterson估值):基于全部序列内分离位点个数。
S1:ATCCGCCGAT
S2:ATCCACGCTT
S3:CGTGATGCTT
S4:CGTGGTCGAA
D12 = 4;D13 = 9;D14 = 6;D23 = 5;D24 = 10;D34 = 5
θπ = (D12+D13+D14+D23+D24+D34)/6 = 6.5
θW = K/a = 10/(1+1/2+1/3+1/4+1/5+1/6+1/7+1/8+1/9)= 3.53
k : 分离位点数,即总的SNP数
a = 1+1/2+1/3+ … +1/(k–1)

中性检验(Tajima's D)
Tajima’D = (θπ–θW)/Var(θπ–θW)
如果某个位点是中性突变的话,则θπ = θw,Tajima's D = 0;
θπ < θw,Tajima’s D < 0:由于定向选择或群体扩张,群体中存在许多低频率的等位基因(稀有等位基因),θπ减小;
θπ > θw,Tajima’s D > 0:由平衡选择或瓶颈效应,群体中高等/中等频率的等位基因较多, θπ增大。
平衡选择与定向选择都属于正选择的范畴,因此,只要D值显著背离0,就可能是自然选择的结果;而当D值不显著背离0时,则为中性突变。

选择信号检测方法:

1.基于基因组杂合度的方法
刚刚才提到,选择消除区域是当基因组上特定区域受到选择时,由于“选择性清除”作用的存在,该区域及其连锁的区域表现为多态性降低,同时纯和度增加。因此对基因组的杂合度进行检测,可以推断出基因组中受到选择的区域。基因组上受选择程度越高,则杂合度程度越低。

代表性的检测方法: θπRatio, ROH

核苷酸多态性θπ比率越偏离1,说明多态性越低,受选择程度越高。θπ比率的检测公式如下:θπ ratio=θπA/θπB
其中,θπA和θπB分别代表A群体和B群体的θπ值。θπ比率大于1, 反映A群体的基因组杂合度大于B群体的杂合度,则B群体相应基因组区域受到选择。θπ 比率小于1,则A群体的基因组杂合度低于B群体,则选择发生在A群体对应的基因组区域。

2.基于群体分化的方法
同一物种不同群体之间由于环境不同或选择目标不同,其基因组等位基因频率会表现出歧化选择的效应。这种现象在相同基因座位不同等位基因均受到选择时表现尤为明显,即选择加速群体分化。因此,基于群体分化的方法,不同群体同一等位基因频率存在的差异程度大于两个群体处于中性条件下的期望时,就推断该位点存在选择作用。
代表性的检测方法: Weir and Cockerhan's Fst, LSBL, di

Fst其实是π的变形指标,计算公式为:Fst=(π Between-π Within)/π Between。
π Between :群体间的所有两两个体间差异的均值
π within :亚群内所有两两个体间差异的均值

Fst取值范围为0-1,1表示群体间完全分化的位点,0表示在群体间完全没有分化的位点。
基于Fst的的检测方法多采用基因组单位点扫描的策略,而这样的方式容易受到遗传漂变等因素的影响,产生假阳性的显著位点。为尽量减少假阳性的发生,通常采用滑动窗口的策略,降低这些干扰因素,增加选择信号检测的准确性。

3.基于等位基因频率谱的方法
基因型频率和基因频率的改变是选择作用在基因组上最直接的体现。基因频谱(site-frequency spectrum)就是指某种等位基因在基因组上某个目标区域内出现的频繁程度。
符合中性模型的群体,其群体中存在广泛的遗传多态,当突变发生时总能够维持在一个较低的频率,只有当群体基因组上出现或存在有利突变时,选择才会发生作用,从而产生所谓的选择清除或搭车效应。
代表性的检测方法: Tajima's D, Fu andLi'sD, Fay and Wu'sH, CLR, Hp
Tajima's D检验的目的是区分随机演变的DNA序列(“中性”)和在非随机过程中演化的DNA序列,包括定向选择或平衡选择。
Tajima's D的计算原理:多态位点数量和平均非匹配数量的差值。
D=0时,符合中性假设,群体未受到选择; D<0时,受到定向向选择; D>0时,受到平衡选择。

4.基于连锁不平衡增加的方法
基于连锁不平衡理论,位点间的连锁不平衡程度会随标记间距离的增加而逐渐降低。因此,在基因组上可以观察到选择作用造成的不同长度的扩展单倍型纯合(Extended Haplotype Homozygousity)。
该方法的基本原理是:在中性条件下,基因组很难形成长范围的连锁不平衡的单倍型,因为新突变需要经历漫长的遗传漂变才能达到较高频率,而在漫长的时间里会发生大量基因重组事件,使得这种连锁不断被打破。而当群体处于正向选择作用下时,致因突变及其连锁位点在正选择的作用下,在短时间内会达到较高频率,形成大片段的纯合单倍型。扩展单倍型纯合度检验正是基于这样的特征来筛选受选择基因。
代表性的检测方法: EHH, XP-EHH, iHS, nSL, OmegaPlus

选择信号的应用策略:

由于单纯一种选择信号检测方法容易造成假阳性选择信号的产生,目前选择信号检测普遍采用两种或多种检测方法进行组合策略,不同检测方法相互验证,例如基于群体分化和基于基因组杂合度检测组合的策略、基于连锁不平衡的检测方法与基于基因组杂合度检测方法组合的策略等。

1. 群体分化结合基因组杂合度(Fst & θπ)

Fst联合θπ

横坐标为θπ ratio(驯化/野生),纵坐标为Fst值,分别对应上面的频率分布图和右侧的频率分布图,中部的点图则代表不同窗口内的相应的Fst和θπ ratio。其中最上方蓝色和绿色区域为θπ选择出来的top 5%区域,红色区域为Fst所选择top 5%区域,中间蓝色和绿色区域为Fst和θπ的交集,即为候选的位点。

2.等位基因频率结合基因组杂合度(Tajima’s D & θπ)

Tajima’s D联合θπ

横坐标为θπ 值,纵坐标为Tajima’s D值,分别对应上面的频率分布图和右侧的频率分布图,中部的点图则代表不同窗口内的相应的θπ和Tajima’s D值。其中蓝色区域为θπ选择出来的top 5%区域,绿色区域为Tajima’s D选择出的top 5% 区域,红色箭头所指的区域为θπ和Tajima’s D的交集,即为候选的位点。

具体方法找个时间再分享吧。

你可能感兴趣的:(群体进化选择消除分析)