本文主要介绍了育种领域早期(2001年以前)定位 QTL(quantitative trait loci,数量性状基因座)所使用的方法及分子标记。虽然随着分子标记技术的不断更新,定位方法中的许多问题已经得到了有效解决,但有些矛盾是依然存在的。如全基因组测序的普及使人们使用 SNP 作为分子标记,测序能覆盖到的区间中的所有突变位点都会以 SNP 的形式呈现,无 SNP 区间则序列完全一致,再讨论分子标记和 QTL 之间的连锁性已意义不再;但对于测序无法覆盖或与参考基因组无法比对成功的片段,SNP 与缺失片段的连锁性问题依然存在。我认为,了解 QTL 定位的发展历史,学习前辈面对困难的解决办法,对如今的科学研究仍具有一定的指导意义。
计算 QTL 的效应大小(此坑待填)
https://zhuanlan.zhihu.com/p/94070722
定义
设计两个 株系 杂交,根据分子标记与 QTL 在 F 1 F_1 F1 减数分裂中的 重组率,计算两者之间的遗传距离,先确定 QTL 的 位置,然后再分析 QTL 的 效应 大小。
案例
设分子标记 M M M 的等位基因型为 M 1 M_1 M1、 M 2 M_2 M2,数量性状基因座 Q Q Q 的等位基因型为 Q 1 Q_1 Q1、 Q 2 Q_2 Q2,QTL 的加性和显性效应分别为 a a a 和 d d d,QTL 与分子标记的遗传距离为 c c c。基因型 M 1 M 1 Q 1 Q 1 M_1M_1Q_1Q_1 M1M1Q1Q1 的自交系与基因型 M 2 M 2 Q 2 Q 2 M_2M_2Q_2Q_2 M2M2Q2Q2 的个体杂交,则分离群体 F 2 F_2 F2 中纯合标记 M 1 M 1 M_1M_1 M1M1 与 M 2 M 2 M_2M_2 M2M2 之间数量性状的平均值差异为 2 a ( 1 − 2 c ) 2a(1 - 2c) 2a(1−2c)。同理,纯合标记 M 1 M 1 M_1M_1 M1M1 和杂合标记 M 1 M 2 M_1M_2 M1M2 之间的表型平均值差异为 d ( 1 − 2 c ) 2 d(1 - 2c)^2 d(1−2c)2。如果 Q Q Q 和 M M M 之间距离较远而不连锁时,则 c = 0.5 c=0.5 c=0.5,均值间差异为 0;当 Q Q Q 与 M M M 完全连锁时, c = 0 c=0 c=0,均值间差异最大。测定 F 2 F_2 F2 群体的表型后,可依次计算每个标记不同基因型之间的性状差异,进而估算 每个标记与 QTL 之间的距离 和 QTL 效应 。
上述模型是针对 低密度分子标记 情况:QTL 只有 1 端与分子标记强连锁( c = 0 c=0 c=0),无法避免 QTL 效应的估计值被标记与 QTL 之间的图谱距离影响。若群体中 分子标记密度较高,QTL 两端都与分子标记强连锁,则 QTL 被锁定在这个非重组片段内,此时 c = 0 c=0 c=0,无需考虑 QTL 与标记之间的图谱距离,只需要估计 QTL 效应即可。
影响因素
由于自然群体中玉米的 LD 在 2 kb 区域内衰减,所以在自然群体中定位 QTL 往往需要数百万个 SNP 才能完全覆盖基因组,而昂贵的基因分型费用使这一设想难以实现。连锁定位 因为只考虑群体构建过程中 新产生的重组,不涉及群体历史上已发生的重组,极大的缓解了 LD 的衰减,使标记可以连锁较远的距离。但这种连锁的 代价 一方面是只能对 QTL 进行 粗定位,如 IBM(B73 × Mo17,2002 年构建)群体中总共有 190 个 RFLP 标记位点,覆盖了全基因组 1784.7 cM 的区间,标记平均密度为 9.4 cM(Lee et al., 2002);另一方面是分子标记反映的是一大段区间内全部基因对表型影响的 效应和。如果区间内有多个基因参与调控表型,则标记反映的是 多重复杂因素共同作用 的结果,降低了标记的 推广性。
PS:在 RFLP(Restriction fragment length polymorphism,限制性片段长度多态性)作为分子标记的阶段,因为分子标记密度低,标记与 QTL 之间很难是强连锁,所以无法保证标记纯合时,关联的 QTL 也是纯合,如 M 1 M 1 Q 1 Q 2 M_1M_1Q_1Q_2 M1M1Q1Q2。但随着全基因组测序的普及和 SNP 分子标记数达到万级别,上述问题已基本不存在。
Lee, M., Sharopova, N., Beavis, W.D., Grant, D., Katt, M., Blair, D. and Hallauer, A. (2002) Expanding the genetic map of maize with the intermated B73 × Mo17 (IBM) population. Plant Mol. Biol. 48, 453–461.
重组自交系由两个 株系 的杂交后代 F2 不断 自交 得到的 纯合 后代。因为减数分裂过程中染色体的不断重组,RILs 中每个株系的染色体上都嵌合着双亲的遗传片段(如下图)。通过分子标记,研究人员可以绘制每个 RIL 的遗传图谱。若相邻标记 Marker1、Marker2 来自于同一亲本,则认为 M1、M2 之间连锁,标记之间的基因可以用 M1 或 M2 定位。
图片来自 R.W. Williams, in Brenner’s Encyclopedia of Genetics (Second Edition), 2013
RIL 优势
影响因素
由于 RILs 的构建十分耗费时间,往往需要十年之久,所以我们期望 RILs 能挖掘到最多的 QTL。这就需要亲本尽可能多的包含基因型存在差异的 QTL 与分子标记。在没有先验知识的情况下,研究人员一般挑选 表型差异较大 且 分子标记差异较多 的亲本自交系构建 RILs,可能挖掘出较多的 QTL。
另一方面,玉米等染色体变异活跃的物种中,由于分子标记和 QTL 连锁的普遍性较差,结论往往仅能在近交株系中使用。所以 玉米 RIL 的亲本需要具有足够的代表性,即使用应用广泛的品系,现有的种植品种与亲本片段重合的越多,则研究的分子标记越有推广价值,如 B73 × Mo17(intermated B73-by-Mo17 cross,IBM)。
定义
不需要设计特定的株系交配,利用 高密度 分子标记 SNP 通过计算群体内 标记对表型的效应,进而推断与标记连锁的 QTL 的效应大小。(QTL 精定位)
前提假设
种群中的新突变会随着重组的不断发生,而与周围标记的连锁程度不断降低,直至完全不连锁。连锁的降低程度与突变和标记之间的距离相关,当标记与突变紧密连锁时,漫长的繁衍也难以打断两者之间的连锁性。所以,当使用 高密度分子标记 时,可以假设标记与 QTL 紧密连锁( c ≈ 1 c \approx 1 c≈1),不考虑标记与 QTL 之间的重组,标记处即为 QTL。
与连锁定位一样,关联定位也假设:相同基因型标记连锁的 QTL 基因型相同,不同基因型标记连锁的 QTL 基因型不同。实际群体中 M 1 Q 1 、 M 1 Q 2 M_1Q_1、M_1Q_2 M1Q1、M1Q2 与 M 1 Q 1 、 M 2 Q 1 M_1Q_1、M_2Q_1 M1Q1、M2Q1 的情况会降低估算标记对表型效应大小的准确性。连锁定位中因亲本是纯合自交系,可以保证亲本内标记基因型与连锁 QTL 基因型的一致性,存在 M 1 M 1 Q 1 Q 1 、 M 2 M 2 Q 1 Q 1 M_1M_1Q_1Q_1、M_2M_2Q_1Q_1 M1M1Q1Q1、M2M2Q1Q1 的情况而使标记无效,但不存在 M 1 M 1 Q 1 Q 1 、 M 2 M 2 Q 1 Q 2 M_1M_1Q_1Q_1、M_2M_2Q_1Q_2 M1M1Q1Q1、M2M2Q1Q2 的情况而错误估计 QTL 的位置及效应。但关联定位因为群体遗传背景复杂,无法保证标记与 QTL 两者基因型的一致性,一般通过 综合分析 QTL 附近多个连锁 SNP 对表型的效应来排除不一致所引入的误差 。所以在 GWAS 的曼哈顿图中,有良好峰形结构的区间内存在真实 QTL 的概率较高,其满足:① 多个 SNP 共定位;② SNP 对表型的效应随距离的增加,重组的增加而不断降低的规律。
玉米的 LD 在 2 kb 内衰减,全基因组关联定位需要 数百万 SNP 才能完全覆盖基因组。在基因分型费用较为昂贵的时期,关联定位一般仅用于研究特定 候选基因 :对收集到的具有遗传多样性的群体中不同个体的 特定基因 进行 克隆,然后比较基因序列间的 SNP,进行关联分析。如 Dwarf8 基因(Thornsberry, J. et al.,2001)
Thornsberry, J., Goodman, M., Doebley, J. et al. Dwarf8 polymorphisms associate with variation in flowering time. Nat Genet 28, 286–289 (2001). https://doi.org/10.1038/90135
群体结构对关联定位的影响
关联定位是利用历史上的重组与突变,打破位点间的连锁,获得较高的分辨率。
例子参见 玉米 155 自交系资源群体(Yan Jianbing,2010) 。
标记对表型的效应
估算标记效应大小的方法有很多,主要是基于 线性模型,如 混合线性模型(Mixed Linear Model,MLM)、一般线性模型(General Linear Model,GLM)等。随着 GWAS 方法研究的深入,软件估算标记效应的速度和精确度都在不断增加 (此坑待填)。
与连锁定位的区别
要做相关性分析,该如何选择正确的统计方法?
多重检验(Multiple test)和普通的假设检验的区别?
Dwarf8 polymorphisms associate with variation in flowering time
图片来自 Joseph L. Gage, Edward S. Buckler, Ten Years of the Maize Nested Association Mapping Population: Impact, Limitations, and Future Directions, The Plant Cell, July 2020, https://doi.org/10.1105/tpc.19.00951
最初育种学家研究的是 表型之间的连锁关系。随着限制性片段长度多态(restriction fragment length polymorphism,RFLP)的发现与应用(1985),分子标记 开始被用于测定与突变的连锁关系。QTL 与 RFLP 距离较远时便不再连锁,所以各类 QTL 定位方法测定出的是 QTL 数量的下限。如果 RFLP 等分子标记密度越高,连锁图谱越饱和,对 QTL 的查找与定位则越全面、精确。
RFLP 连锁图谱的 构建 步骤:
RFLP 在遗传育种领域的主要 应用:
The Genetic Architecture of Quantitative Traits, 2001, Annual Review of Genetics
玉米DNA限制性片段长度多态 (RFLPs) 的研究,季良越,1993,河南农业大学学报