2019-02-23 QTL(转自知乎)

作者:Philip Yang

链接:https://www.zhihu.com/question/27695566/answer/40741777

来源:知乎

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

我是来顺便整理一下自己脑子里的东西的。欢迎知友们评论指正。

一、QTL定位的基本思想

QTL全称是Quantitative Trait Loci。顾名思义就是基因组上的一些位点,对一些特定性状具有某种量化的影响。这里的重点是,我们关心的性状是一个有多个不同水平的可定量(Quantitative)的性状,而不是定性(Qualitative)的性状。后者最典型的例子就是疾病(得病/没得病)。一般任何复杂性状(由多个基因决定的性状)都可以认为是数量性状(我其实觉得这里Quantitative翻译成"数量"怪怪的,不过约定俗成了,大家明白就好),例如人的身高/体重/IQ,农作物的株高/产量等。

QTL定位的基本原理,就是测定一群个体的某个数量性状(表型),以及它们的基因型(就是基因组上的一些遗传标记,例如SNP/RFLP等等,但不一定是全基因组),然后寻找基因型表型的对应关系。例如:

<img data-rawheight="476" data-rawwidth="681" src="https://pic4.zhimg.com/86ad0f0d98491fcb0df999be79be07e3_b.jpg" class="origin_image zh-lightbox-thumb" width="681" data-original="https://pic4.zhimg.com/86ad0f0d98491fcb0df999be79be07e3_r.jpg">

图中x轴是数量性状的值,y轴表示群体中有多少个体的数量性状为对应的x值。所以像最下面的图就是c这个位点不论是什么状态( cc或者cc'),数量位点都大概呈现相同的正态分布。但b这个位点的基因型则与数量性状有相关性。因为bb 基因型的时候,数量性状的值比较小,而bb'基因型的时候则相反。然后a这个位点与数量性状的值的相关性则更为明显。QTL定位本质上就是要找基因组上哪些遗传标记跟数量性状的相关性最强。注意这里一直说的是“相关性”,它不代表着直接/决定作用,因为a这个位点可能只是与有决定作用的基因连锁在一起了。所以QTL定位之后,还需要设计进一步的实验验证/寻找那个具有遗传效应的基因/位点。

二、影响QTL分析结果的主要因素

1.实验设计

一般而言,都是用若干个(数量性状有明显差异的)祖先个体,进行各种杂交之后,用其后代进行表型和基因型的测定,最后通过两型的相关性进行QTL定位。

与之相对的是Association study(关联分析),一般直接抓来一群(野生的,不清楚遗传背景的)个体就拿来测表型和基因型,然后看两型的相关性。QTL定位比较倾向于用遗传背景清楚的群体(就是那少数几个祖先个体杂交而来的),因为那样QTL的结果不会受群体结构(population structure)的影响。举个例子,按关联分析的方法,拉一堆白种人和黄种人来找身高的QTL,找到的估计基本上都是种族差异,而与身高没有关系。(但关联分析也有自己的优势。比如它能覆盖更多的遗传多样性,不会仅限于那几个祖先个体的基因型。另外也不是说关联分析的数据就不能用来做QTL定位,只是要非常非常小心)

2.统计功效(Statistical power)

QTL定位的统计方法,现在用得比较多的是Analysis of Variance (ANOVA) / Generalized Linear Model (GLM)吧。统计学方法有个常见的瓶颈——统计功效(Statistical Power)。

这个瓶颈在如今基因测序成本大降的时代尤其明显。出于精确定位QTL的目的,大家会使用越来越多的遗传标记,结果就是统计的时候做的假设检验太多(每个标记都检验一遍),多重检验校正(multiple testing correction)一做下来就没有几个显著的位点了。

另一方面,位点之间的相互作用也很重要,举个例子:

<img data-rawheight="526" data-rawwidth="600" src="https://pic1.zhimg.com/48d6d19ecbd78bab21044c1152e802c0_b.jpg" class="origin_image zh-lightbox-thumb" width="600" data-original="https://pic1.zhimg.com/48d6d19ecbd78bab21044c1152e802c0_r.jpg">

假设图中的星星是数量性状取值高的个体,圆圈是数量性状取值低的个体。x1和x2两条轴代表两个遗传标记的基因型。显然这两个位点放一起看,与数量性状非常相关,可是单独看x1或者x2却一点相关性都没有。x1和x2就是存在相互作用的两个QTL。如果基因组上有一万个位点,你想找到这种相互作用就得做一亿次假设检验。这还只是两个位点的相互作用,三个呢?

现在有不少人在想办法解决这些问题。增加群体中的样本数目是一个显然的方向,但效益不大。也有的人在想办法以基因为单位来检验相互作用[PLOS Genetics: Gene-Based Testing of Interactions in Association Studies of Quantitative Traits]。也有人认为相互作用不会像上面这幅图这么“干净”(x1和x2单独都完全没效果,x1和x2的相互作用却很强)。他们的思路就是先找单独有作用的少数几个位点,然后再看这少数位点与其他所有位点的相互作用[PLOS Biology: Multiple Locus Linkage Analysis of Genomewide Expression in Yeast]。

3.重组/连锁(recombination/linkage)

理想状态下,如果所有做QTL定位时,所有遗传标记都不连锁,那么你应该可以把QTL精确定位到一个特定的遗传标记上,因为它隔壁的QTL是不会与数量性状有相关性的。但实际上相邻的遗传标记很大可能是连锁的,结果就是一批相邻的遗传标记看上去都是跟QTL有很强相关性——除非它们的连锁被重组打断了。增加重组的主要手段是提升杂交的代数(代数太多也不行,基因组可能变得太乱以至于遗传标记都对不回去原来的基因组了)

三、由QTL分析衍生出来的技术

1.从宏观到微观

QTL最初是用来分析宏观的数量性状的,像上面提到过的人的身高,农作物的产量等。现在越来越多人用来分析微观层次的性状,比如eQTL(expression QTL,关心的性状是基因表达量),pQTL(protein QTL,蛋白质表达量),sQTL(splicing QTL,选择性剪接)等。

2.extreme QTL(xQTL)

[http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2862354/]

先用跟一般QTL定位类似的杂交过程:两个(或更多)祖先个体的杂交,若干代之后从大量后代中选择出数量性状特别高(extreme)的一部分个体,然后测定这批个体的基因型。因为经过了选择,能提升数量性状的那些基因型(等位基因)就会在经过选择的那一部分个体中频繁地出现。而跟没经过选择的群体则不会有这种现象。通过比较两个群体里面不同等位基因出现的频率的差异,就可以定位QTL。

你可能感兴趣的:(2019-02-23 QTL(转自知乎))