LD连锁不平衡介绍

1、LD连锁不平衡介绍

(1)LD连锁不平衡介绍

连锁不平衡指的是在某一群体中,两个基因同时遗传的频率大于随机组合的频率。

用于衡量连锁不平衡程度的指标主要有D、D'和r2三个指标,其计算原理见:连锁不平衡:linkage disequilibrium

D ≠ 0,两基因间连锁不平衡(D值无法比较不同基因之间连锁程度的大小, 因为它是根据每个基因allel的频率计算出来的)。D'值可以看做是归一化之后的D值,归一化之的值可以用于比较不同基因连锁程度的大小。 通常情况下,会通过r值的平方来表征连锁不平衡程度,r平方等于0时,表示完全连锁平衡,独立遗传;r平方等于1时, 表示完全连锁不平衡。 

当D'=0,r2=0时,处于完全连锁平衡状态 

当D'=1,r2=1时,处于完全连锁不平衡状态

其中,从0—1之间的度量越高,LD越高,如果两个位点连锁,连锁程度也越高。

r2和D'反映了LD的不同方面。r2包括了重组和突变,而D'只包括重组史。D'能更准确地估测重组差异,但样本较小时,低频率等位基因组合可能无法观测到,导致LD强度被高估,所以D'不适合小样本群体研究。

理论上来说任意两个基因之间都可能存在连锁不平衡,但是实际操作中,认为只有一定区间范围内的基因会存在连锁不平衡,距离大于区间的基因,两者出现连锁不平衡的概率非常小,所以就不去计算。

连锁不平衡的结果,通常采用heatmap热图的形式进行展示,haploview给出的LD heatmap 示例如下:颜色从白色到红色,代表连锁程度从低到高,方框中的数值为r2,为了美观,这里将r2 乘以了100。

LD衰减作图中通常采用r2来表示群体的LD水平;Haplotype Block中通常采用D'来定义Block;迁移、突变、选择、有限的群体大小以及其他引起等位基因频率改变的因素,这些都会引起LD的改变。

(2)LD衰减距离

LD的衰减指位点间由连锁不平衡到连锁平衡的演变过程;LD衰减的速度在不同物种间或同物种的不同亚群间,往往差异非常大。所以,通常会使用1个标准——“LD衰减距离”来描述LD衰减速度的快慢。

LD衰减距离通常指的是:当平均LD系数r2 衰减到一定大小的时候,对应的物理距离。“一定大小”是这个定义的关键点,但没有特别统一的标准,在不同文章中标准不同。常见的标准包括:a)LD系数降低到最大值的一半;b)LD系数降低到0.5以下;c)LD系数降低到0.1以下;d)LD系数降低到基线水平(注意,不同物种的基线值是不同的)。

值的获取:成对计算指定距离范围内的所有SNP的r2 值,按区间取平均。

LD衰减距离的应用

A. 判断GWAS所需标记量,决定GWAS的检测效力以及精度

GWAS标记量 = 基因组大小/LD衰减距离

B. 辅助分析进化与选择

在同一个连锁群上,LD衰减的慢说明该群体受到选择。一般来说,野生群体比驯化改良群体LD衰减快,异花授粉植物比自花授粉植物LD衰减快。比如玉米:地方品种1kb,自交系2kb,商用自交系100kb。

Haplotype Block(单体型块)

单体型块,即连锁不平衡区域,是指同一条染色体上处于连锁不平衡状态的一段连续的区域。单体型块分析可以用于筛选tag SNP、确定候选基因的范围等。

如果GWAS检测到显著关联的区间,可以通过进一步绘制局部的LD单体型块图,来进一步判断显著相关的SNP和目标基因间是否存在强LD关系

(3)单体型快

单体型块,即连锁不平衡区域,是指同一条染色体上处于连锁不平衡状态的一段连续的区域。单体型块分析可以用于筛选tag SNP、确定候选基因的范围等。

如果GWAS检测到显著关联的区间,可以通过进一步绘制局部的LD单体型块图,来进一步判断显著相关的SNP和目标基因间是否存在强LD关系

2、LD计算的主流软件与方法

(1)用plink计算r2值

plink --vcf vcf_file --allow-no-sex --maf 0.05 --geno 0.2 --r2 --ld-window 999999 --ld-window-kb 10 --ld-window-r2 0.2 --out out_file

--vcf 指定输入的文件为vcf格式,如果是bed格式文件,使用--bfile接文件前缀,如果数据是ped、map格式,使用 --map接.map文件,--ped接.ped文件

--allow-no-sex 表示允许没有性别信息

--r2表示计算r2值

--ld-window 表示计算LD的区间,距离小于这个值的标记对都要进行LD的计算

--ld-window-kb 默认为1Mb,表示只对距离在1Mb之内的SNP位点进行分析

--ld-window-r2 0.2 这个参数只能和 --r2参数搭配使用,默认值为0.2,对输出结果进行过滤,只输出r2大于该参数的r2值

(2)用haploview做LD分析

参考:haploview进行连锁不平衡分析

haploview是基于Java的工作环境,,如果电脑没有java的话,需要提前安装



https://www.broadinstitute.org/haploview/haploview

3、LD衰减(LD Decay)

LD的衰减指位点间由连锁不平衡到连锁平衡的演变过程;LD衰减的速度在不同物种间或同物种的不同亚群间,往往差异非常大。所以,通常会使用1个标准——“LD衰减距离”来描述LD衰减速度的快慢。

LD衰减距离通常指的是:当平均LD系数r2 衰减到一定大小的时候,对应的物理距离。“一定大小”是这个定义的关键点,但没有特别统一的标准,在不同文章中标准不同。常见的标准包括:

a)LD系数降低到最大值的一半;

b)LD系数降低到0.5以下;

c)LD系数降低到0.1以下;

d)LD系数降低到基线水平(注意,不同物种的基线值是不同的)。

值的获取:成对计算指定距离范围内的所有SNP的r2 值,按区间取平均

你可能感兴趣的:(LD连锁不平衡介绍)