群体遗传学学习笔记

基础知识

群体遗传学:关注群体内的基因突变以及什么样的进化因子可以解释该突变。

 哈迪-温伯格定律(Hardy-Weinberg law):指在一个有性生殖的自然群体中,一定条件下(无限大的种群,种群内部雌雄个体间随机交配,无基因突变和自然选择,无基因的迁入和迁出)各等位基因的基因型频率代际保持不变。

连锁不平衡(Linkage Disequilibrium):用于解释等位基因之间的非随机关系。为其基本单位,度量观察到的单倍型频率与平衡状态下期望频率的偏差,但由于其严格依赖于等位基因频率,故不适用于表达实际的LD强度,可以用和来量化。迁徙、突变、选择、有限群体大小以及其他引起等位基因频率改变的因素都会引起LD的突变。 ,=0处于连锁平衡状态,否则为连锁不平衡状态。 当>0, 当<0, =0,=0时处于完全连锁平衡状态;=1,=1时处于完全连锁不平衡状态。 和反映了LD的不同方面,包括了重组和突变,而只包括重组史。能更准确的估测重组差异,但样本量较小时,低频率等位基因组合可能无法观测到,导致LD强度被高估。LD衰减作图中常用表示群体LD水平。 用局部LD分析的可以揭示出LD相关的SNVs区域,也就是haplotypic block。

 LD衰减(LD Decay):指位点间由连锁不平衡到连锁平衡的演变过程。衰减速度在物种和同种物种不同亚群之间有较大差异。一般用“LD衰减距离”来描述LD衰减速度的快慢。

 LD衰减距离:当平均LD系数衰减到一定大小的时候对应的物理距离。常见标准包括:LD系数降低到最大值的一半;LD系数降低到0.5或是0.1以下;LD系数降低到某种物种的基线水平。通过成对计算指定距离范围内的所有SNP的值,按区间取平均。 LD衰减距离的应用:1. 判断GWAS所需标记量,决定GWAS的检测效力以及精度。GWAS标记量=基因组大小/LD衰减距离。2. 辅助进化分析与选择:在同一连锁群上,LD衰减慢表明该群体受到选择。

Haplotypic Block:单倍型块,即连锁不平衡区域,是指同一条染色体上处于连锁不平衡状态的一段区域。单倍型块分析可以用于筛选tag SNP、确定候选基因的范围。如果GWAS检测到显著关联的区间,可以通过绘制局部LD单倍型块图来进一步判断显著相关的SNP和目标基因间是否有强LD关系。

 中性学说:分子水平上生物的演化或是物种的进化并非由自然选择引起,而是通过中性/近中性的突变等位基因经过遗传漂变引起,从而形成分子水平上的进化或种内变异。 分子演化的驱动力:遗传漂变 1.突变大多为中性,对生物体的生存既无害处也无益处 2.中性突变经过随机的“遗传漂变”固定,在分子水平上进化 不依赖于自然选择 3.中性突变决定进化的速率,对所有生物近乎是恒定的

正选择(positive selection):自然选择“选留”一些稀少的等位基因,拥有这些等位基因的个体能够繁殖更多的后代,这样的基因突变往往具有与原来基因不同的功能,且该功能使拥有它的生物更能适应环境。

 负选择(negative selection):指群体中出现有害突变等位基因时,携带该等位基因的个体会因为生存力或育性降低而被淘汰,也称为净化选择。

 选择清除:在有利突变产生后被正选择固定的过程中,与之连锁的中性位点的变异也被固定。

背景选择:负选择在清除有害突变时,与其连锁的中性位点变异也会被随之清除。 虽然选择清除和背景选择都会导致基因组上受选择区域的遗传多样性下降,但是背景选择在群体中不会导致高频等位基因突变出现。

 瓶颈效应:由于环境骤变或是人类活动使得某一生物种群的规模迅速减少,仅有一小部分个体顺利通过瓶颈事件,在之后的恢复期产生大量的后代。

 迁移压力(基因流):由于某种原因,具有某一基因频率的群体的一部分移入基因频率与之不同的另一群体,并杂交定居,就会引起迁入群体的基因频率发生改变。

群体遗传学方法学

 群体遗传学的主要方法学研究:分层分析和选择分析。 分层分析:基于群体内个体之间的基因序列上的差异。

1.系统发育研究:一般使用系统发育树研究具有共同祖先之间进化关系,探究物种进化和分类关系。NJ法(邻接法)、MP法(最大简约法)、ML法(最大似然法)和贝叶斯推断法。TreeMix,SplitsTree,NetStruct 作用:找出不同物种间的进化关系;理解祖先序列和后代之间的关系;估算一组共有共同祖先的物种之间的分歧时间。 2.PCA:利用降维的方式,来研究群体分层,亚种之间的进化关系。其结果用统计聚类方法可以获得ancestry assignment。EIGENSOFT,PCAdmix包

 3.群体结构分析:研究大群体中存在基因频率不同的亚群,可以用来推断祖先群,个体血缘组成和杂交事件。Structure

选择分析:在群体水平下基因组不同区域遗传多样性差异。

1.选择清除分析:自然选择促使有利突变在群体中保留下来,与之连锁的中性位点突变频率提高,而非连锁的中性位点突变频率下降。也就是基因组某区域由于受到选择而导致遗传多样性降低,在群体中出现高频等位基因和低频等位基因。可以用于挖掘驯化过程中受选择基因和挖掘物种适应性进化过程中受选择的基因。基于群体分化,基于群体多样性分析,基于群体中性进化的分析。XPEHH是基于群体单倍型的选择清除分析,可以用selscan软件和rehh包

2.适合度分析:用于量化生物体或生物群体对环境适应程度,是分析估计生物所具有的各种特征适应性以及进化过程中向后代传递的能力的指标。适合度用于衡量个体存活度和繁殖成功机会的尺度。适合度=基因型个体生育力*基因型个体存活率。 常用统计方法:、、Tajima’s D, :核苷酸多态性,群体中任意两条不同序列或个体的碱基差异数(SNP)取平均值。单个群体内部多样性越大越大。人工选择的群体遗传多样性相对单一,较小。 :Watterson估值,基于全部序列的分离位点个数。

 中性检验(Tajima’s D) = Tajima’s D = 0,中性进化;Tajima’s D < 0,群体内存在许多低频率等位基因(稀有等位基因),由定向选择或群体扩张引起;Tajima’s D > 0,群体中高等/中等频率等位基因较多,这是由平衡选择或瓶颈效应引起。 平衡选择和定向选择都属于正选择,因此D值显著背离0,可能是自然选择的结果,而当D不显著背离0,则中性突变。

 :群体间遗传分化指数,可以用于衡量种群分化和遗传距离,分化指数越大则差异越大。

 =,为来自种群间所有两两个体间差异的均值,则是亚群内所有两两个体间差异的均值。

常用软件

 LOSITAN分析选择压力。

 GENEPOP 适用于对大量群体数据进行分析。

Structure 通过贝叶斯聚类方法对每个样本来源进行判断,进而反映群体遗传结构。

 Arlequin 针对人类遗传学数据进行分析,支持AMOVA计算、中性检验和错配分布。

SAMOVA群体遗传结构分析软件,用于居群分组。 PAML是用最大似然法对DNA和蛋白质序列进行系统发育分析的软件包。主要用于计算密码子同义替换和非同义替换的比率,从而预测氨基酸序列在进化过程中所受到的选择压。

 BayesAss 计算群体迁移率

Plink 数据处理,质量控制的基本统计,群体分层分析,单位点的基本关联分析,家系数据的传递不平衡检验,多点连锁分析,单倍体关联分析,拷贝数变异分析,Meta分析等。

Admixture 从多位点SNP基因型数据集对个体祖先进行最大似然估计,速度更快。

 GWAS全基因组关联分析基本流程

 BWA比对:1. 构建索引;2. 比对

samtools进行格式转换:1. sam格式转换为bam格式;2. 质控;3. 构建索引

gatk变异检测:1. 排序;2. 标记重复序列;3. 检测变异;4. 提取SNP变异;5. 对SNP进行过滤;6. 合并文件得到整个群体的VCF变异文件

 plink格式转换及主成分分析:1. VCF格式转换为ped/map格式;2. ped/map格式转换为bed/bim/fam格式;3. 主成分分析

Admixture群体结构分析 Tassel关联分析:1. VCF格式转换为hmp格式;2. 亲缘关系;3. 关联分析;4. 作图,曼哈顿图和QQ图。

你可能感兴趣的:(群体遗传学学习笔记)