连锁分析方法介绍

一、 基础知识

1、 基因连锁:

基因连锁是指在有性生殖的减数分裂过程中,染色体上的DNA序列紧密结合在一起的倾向。

两个标记位点距离越近,在减数分裂过程中越不容易发生重组,越容易一起遗传

基因连锁单位为cM, 1cM表示两个标记在减数分裂过程中分在不同染色体上的概率为1/100。

2、连锁分析:

a) 连锁分析是基于家系研究的一种方法,是单基因遗传病定位克隆方法的核心。利用遗传标记在家系中进行分型(Genotyping),再利用数学手段计算遗传标记在家系中是否与疾病产生共分离

b) 连锁分析是利用连锁的原理研究致病基因与参考位点遗传标记的关系。根据孟德尔分离率,如果同一染色体上的位点不连锁,那么遗传标记标将独立于致病基因而分离,与致病基因位于同一单倍体或不同单倍体的机会各占一半,否则表明连锁的存在。

c) 原理:基因定位的连锁分析是根据基因在染色体上呈直线排列,不同基因相互连锁成连锁群的原理,即应用被定位的基因与同一染色体上另一基因或遗传标记相连锁的特点进行定位。生殖细胞在减数分裂时发生交换,一对同源染色体上存在着两个相邻的基因座位,距离较远,发生交换的机会较多,则出现基因重组;若两者较近,重组机会较少。重组DNA和分子克隆技术的出现,发现了许多遗传标记--多态位点,利用某个拟定位的基因是否与某个遗传存在连锁关系,以及连锁的紧密程度就能将该基因定位到染色体的一定部位染色体上两个位点从亲代传给子代时,若相距1cM,就有1%的重组机会。整个人类基因组含3.2×10^9bp,相应约有3300cM,每个染色体平均约有150cM,1cM约为1000kb。因此,一个致病基因和标记位点紧密连锁,二者不须在同一条染色体的同一区段,一条染色体可以产生大量的DNA多态,只要提供足够的家系,按孟德尔方式遗传的疾病都可将其基因定位。

d) 局限性:

1)连锁分析更适用于单基因疾病的遗传研究,而在目前已知的疾病当中,复杂疾病占了绝大多数。
2)连锁分析对于致病性高、数量少的遗传变异具有较好的适用性,但对于中效甚至弱效的突变则显得力不从心。
3)通过连锁分析在染色体上的定位通常是cM级别,也就是百万个碱基对,这其中包含的成百上千的基因。

二、 连锁分析和全基因组关联分析

a) 连锁分析的定位依赖于家族中标记基因型与表现型的共分离,通过鉴定经多代传递仍完整的单倍型为基础的,检测在一个家系中等位基因与疾病的传递是否相关。

关联分析的定位方法则是在种群水平上,通过鉴定经许多代数传递后仍保留完好的相邻近DNA变异之间的DNA片段,检测在一个群体中疾病和等位基因的相关性的存在与否

1、连锁采用家系样本;关联采用散发样本
2、连锁应用LINKAGE核心IBD算法做计算;关联用卡方检验
3、连锁一般找到的是某个区域;关联找到的是某个点
4、连锁结果相对准确,假阳性小,但精细定位很困难,主要原因是家系问题
关联相对粗糙,假阳性很高,但可以直接定到基因位点

三、 常见分析步骤

1、 疾病表型确定(包括定量表型及定性表型)

2、 测序:

1) 测序时需要选择1-2个正常样本作为对照
2) 对于显性遗传的病例,最好选择亲缘关系较远的样本进行测序
3) 对于隐性遗传的病例,测量患病的子代比测量正常的亲本价值更高
3、 SNP检测:数据库中不存在的变异位点可以作为罕见变异,等位基因频率可设置为0.0001变异位点过滤。(过滤指标详见下图)

4、 QC:排除测序错误以及样本错误

5、 计算LOD分值

6、 异质性检测

位点异质性:不同的基因或在不同的染色体上的基因均为致病原因
等位基因异质性:同一基因或位点,不同等位基因在不同家系中均为致病原因

注:

变异位点的过滤:


image.png

四、 分析算法优劣及相应的软件

Elston–Stewart algorithm:
优劣:随着家系样本的增加,资源呈线性增加,但是随着marker位点的增加,资源呈指数增加。适用于位点少,家系样本多的数据。

软件:LINKAGE、 FASTLINK Lander– Green algorithm:
优劣:随着marker位点的增加,资源呈线性增加,但是随着家系样本的增加,资源呈指数增加。适用于位点多,家系样本少的数据。

软件:GeneHunter、 MERLIN
同时兼顾位点及家系样本数量的软件:Loki、 SimWalk2

你可能感兴趣的:(连锁分析方法介绍)