研究:利用 溯祖模拟 挖掘与玉米农艺性状相关的 稀有突变(Science 2005)

Wright SI, Bi IV, Schroeder SG, et al. The effects of artificial selection on the maize genome. Science. 2005 Oct 7; 308(5726):1310-1314. doi:10.1126/science.1107891

Yamasaki M, Tenaillon MI, Bi IV, et al. A large-scale screen for artificial selection in maize identifies candidate agronomic loci for domestication and crop improvement. Plant Cell. 2005;17(11):2859-2872. doi:10.1105/tpc.105.037242


上述两篇文章由两个相同的团队合作完成,于 2005 年分别发表于 Science 和 Plant cell 两个期刊上,其中 Plant cell 文章可以视为以 Science 文章为基础的补充研究。主要内容为利用 群体遗传学 方法挖掘与玉米农艺性状相关的 稀有突变 。常用的挖掘方法包括关联分析和连锁分析,其中连锁分析需要花费大量的时间和资源来构建群体,并且定位较粗;关联分析需要大量群体并难以挖掘稀有突变。但与驯化或改良相关的基因,多因 固定 而在区域内呈现稀有突变。


为挖掘出与驯化或改良相关的 稀有突变,作者提出群体遗传学方法,可以视为对关联分析方法的 有效补充

  1. 计算 不同亚群 基因的 遗传多样性 并排序
  2. 通过 溯祖模拟 推算 中性 基因和 受驯化选择 的基因的群体瓶颈大小及 比例
  3. 根据 比例 选择遗传多样性 Top N% 的基因作为 驯化基因
  4. 通过 GO 分析等生理功能分析,进一步研判驯化基因的 可信度



概念

作者将玉米基因组的基因划分为 3 类:中性基因(neutral gene)、驯化基因(domestication gene)、改良基因(improvement gene)。驯化基因是指在大刍草驯化成为玉米的过程中被固定的基因。改良基因是指对玉米性状不断改良过程中被固定的基因。中性基因是指在驯化和改良过程中均未被固定的基因(Fig 1)。驯化基因 的挖掘需要比较 大刍草玉米 基因组间的差异,而 改良基因 的挖掘则需要比较玉米 优良品系地方品系 基因组间的差异。中性基因的多样性改变仅受群体瓶颈效应影响,驯化或改良基因则受到瓶颈和改良双重影响。

作者认为相比与中性基因,玉米不同亚群间(大刍草、地方品种、优良品种),受人工选择影响的驯化或改良基因的遗传信息多样性下降的更多。利用不同亚群基因组区间内遗传多样性的差异,可以推断区间的选择强度:差异越大的区间,选择强度可能越大。借此,提取出被关联分析忽略的稀有突变区间。


研究:利用 溯祖模拟 挖掘与玉米农艺性状相关的 稀有突变(Science 2005)_第1张图片


Science 文章材料及方法

材料:14 个玉米自交系(7 个温带、7 个热带) + 16 个大刍草自交系,总计 30 个自交系 样本。下表摘自 Plant cell 文章 Table 1,简要介绍了自交系的名称、地点等。


Inbred Landrace Teosinte
1 B73 美国中西部 PI213793 美国北部 Benz 967 墨西哥中部
2 Mo17 美国中西部 CHH 160 墨西哥北部 INIFAP JSG y MAS 264 墨西哥中部
3 Il14H 美国中西部 SIN 2 墨西哥西部 INIFAP JSG y MAS 401 墨西哥中部
4 Hp301 美国中北部 MEX 48 墨西哥中部 CIMMYT 8783 墨西哥南部
5 Oh43 美国中北部 PUE 32 墨西哥中部 CIMMYT 11355 墨西哥南部
6 Ky21 美国中部 YUC 7 墨西哥南部 INIFAP JSG 197 墨西哥南部
7 M37W 南非 OAX 68 墨西哥南部 INIFAP JSG 374 墨西哥南部
8 NC350 美国东南部 OAX 70 墨西哥南部 INIFAP JSG 378 墨西哥南部
9 CML69 墨西哥 GUA 131 危地马拉 INIFAP JSG y LOS 109 墨西哥南部
10 CML247 墨西哥 GUA 14 危地马拉 INIFAP JSG y LOS 119 墨西哥南部
11 CML322 墨西哥 VEN 453 委内瑞拉 INIFAP JSP y LOS 130 墨西哥南部
12 CML333 墨西哥 MAG 450 哥伦比亚 INIFAP JSG y LOS 161 墨西哥南部
13 Ki3 泰国 SAN 329 哥伦比亚 Wilkes Site 6 墨西哥中部
14 Ki11 泰国 APC 13 秘鲁 Kato Site 4 墨西哥南部
15 URG 11 乌拉圭 Beadle and Kato Site 4 墨西哥南部
16 CHI 349 智利 USDA PI566686 墨西哥南部

PS:inbred 中 1-7 样本是温带品系,8-14 是热带品系。




由于当时测序费用昂贵,所以仅将目光集中在 部分基因 区间内。重测序样本内 774 个基因的序列信息,其中玉米中鉴定了 3463 个 SNP(65 个基因不包含 SNP),大刍草中鉴定了 6136 个 SNP。作者 计算 了区间内大刍草与玉米品系 遗传多样性的差异 并排序,筛选 与驯化或改良相关的区间。

筛选受选择区间需要设定阈值,超过阈值的区间将被认为受到了人工选择。为了保证阈值的合理性:

  1. 通过溯祖模拟(coalescent simulation)来推断驯化或改良过程中群体瓶颈的严重程度(bottleneck severity, k k k = 2.45)。具体做法为,计算 每个基因 的瓶颈,获得一个包含 774 个 k k k 值的分布,根据此分布推断出最可能的基因组 k k k 值。
  2. 利用 k k k 值生成模拟数据,与真实数据间进行比较,验证推断的瓶颈严重程度是否准确。PS:作者没有直接比较绝对值,而是比较比值,如真实数据突变率比值 θ m z e / θ t e o = 0.57 \theta_{mze}/\theta_{teo}=0.57 θmze/θteo=0.57 、重组率比值 ρ m z e / ρ t e o = 0.17 \rho_{mze}/\rho_{teo}=0.17 ρmze/ρteo=0.17,模拟数据 θ m z e / θ t e o = 0.57 \theta_{mze}/\theta_{teo}=0.57 θmze/θteo=0.57 ρ m z e / ρ t e o = 0.12 \rho_{mze}/\rho_{teo}=0.12 ρmze/ρteo=0.12
  3. 确定群体瓶颈严重程度估计基本准确后,进一步优化 k k k 值。作者将基因组分为两部分:一部分是中性基因,仅受瓶颈影响, k k k 值较小( k 1 = 2.45 k_1=2.45 k1=2.45);一部分是受选择基因(驯化 + 改良),受瓶颈和选择共同影响, k k k 值较大( k 2 k_2 k2),这两部分共同组成了基因组整体的 k k k 值。利用似然比(likelihood ratio,LR)检验的方法计算出当 k k k 值最吻合观察数据时, k 1 k_1 k1 k 2 k_2 k2 的值及比例 f f f。最终的计算结果为 k 2 = 0.001 k_2=0.001 k2=0.001 f = 0.036 f=0.036 f=0.036,即有 3.6% 的基因可能经历了选择。作者将阈值设定为 4% 。
  4. 作者将排序后的区间遗传多样性差异列表中 Top 4% 的区间筛选出来,作为与驯化或改良相关的区间,总共得到 30 个基因 。为了证明筛选出来基因的准确性(无实验验证),作者分析了 30 个基因可能的 生理功能 ,并将基因与玉米和大刍草之间表型差异的 QTL 区间位置 进行了比较。



Plant cell 文章材料及方法

Science 文章主要讨论了玉米与大刍草之间的遗传多样性差异,本文作者进行了更细致的分析,讨论玉米 优良品系地方品系 之间的多样性差异,进而筛选出与 改良 相关的基因。Plant cell 文章算是对 Science 文章内容的一种补充,材料参见上节表格,分析步骤如下。

  1. 测定 14 个玉米自交系(与 Science 相同)1095 个随机基因的序列,并计算了每个基因内存在的 SNP 数。总共鉴定了 6169 个 SNP。其中 2848 个 SNP 在温热群体中共有,1742 个 SNP 为温带独有,1579 个 SNP 为热带独有。
  2. 按照 Science 文章的结论,1095 个随机基因中约有 2-4% 的基因受到选择。作者选择 35 个 SNP 数为零 的基因作为受到改良选择的候选基因。多样性缺失既与驯化或改良选择有关,也与随机因素(遗传漂变)、瓶颈效应、大刍草中已固定等因素相关。为了确定多样性缺失与人工选择相关,作者在 16 个地方品种和 16 个大刍草内测定了这 35 个基因的序列。这 35 个基因的遗传多样性为 优良品系 < 地方品系 < 大刍草。
  3. 为了证明筛选出来基因的准确性(无实验验证),作者使用 HKA test 和 CS test 两种 统计检验方法 鉴定驯化和改良基因。通过两种方法的交集,筛选出了 4 个驯化基因和 4 个改良基因 。后续作者也对这 8 个基因进行了同源比对与功能分析等。

你可能感兴趣的:(玉米基因组,学习)