RomeroNavarro2017 GWAS 玉米开花

Romero Navarro JA, Willcox M, Burgueño J, et al. A study of allelic diversity underlying flowering-time adaptation in maize landraces. Nature Genetics, 2017, 49(3): 476–480. DOI: 10.1038/ng.3784.

摘要

驯化物种的地方品种(传统品种)保留了有用的遗传变异,但由于少数有用的等位基因与数百种不良等位基因之间存在遗传联系,它们尚未开发。我们整合了两种方法来描述4,471个玉米地方品种的多样性。

  • 首先,我们绘制了控制纬度和海拔适应的基因组区域,并确定了1,498个基因。
  • 其次,我们使用F-one关联作图(FOAM)来绘制控制开花时间的基因,跨越22个环境,并鉴定了1,005个基因。
    总的来说,我们发现61.4%的与高海拔相关的单核苷酸多态性(SNPs)也与开花时间有关。超过一半与高度相关的SNP在大的结构变异(倒位,着丝粒和pericentromeric区域)内。组合的mapping结果表明,虽然花卉调节网络基因对田间变异有很大贡献,但超过90%的贡献基因可能具有间接影响。我们的双重策略可用于利用植物和动物的种植多样性。

在线方法

表型数据分析。

为了估计地方品种亲本的育种值,对于每个试验,在ASREML(v.3.0)中使用限制性最大似然法拟合混合线性模型,使用后代的日历天来雄性或雌性开花作为响应变量。模型包括检查,测试器和混合的固定效果以及完整嵌套模型中的随机加入效果。 此外,该模型包括行和列的随机效应,使用行和列中数量级为1的自回归模型来控制实验噪声作为场变化的乘积。 所有随机效应都被认为是彼此独立的。 使用的模型可表示如下:

基因分型。

使用ApeKI作为限制酶,使用每个测序板~96个个体的复制水平,使用基因分型 - 测序(GBS)21对用作男性亲本的种质进行基因分型。使用Illumina HiSeq产生大约8-109个测序读数用于地方品种,并且使用TASSEL46将序列读数与另外40,000个玉米品系一起作为GBS构建2.7的一部分进行分析。平均而言,每个人和每个站点的缺失数据为0.5(补充图10)。通过比较被叫位点的深度分布,每个位点的中值读数为2(补充图11)。对于关联分析,使用BEAGLE4(参考文献22)估算缺失数据,已显示其在玉米杂合材料中产生最佳的当前准确度47。我们观察到插补精度,R2 = 0.68,插补后没有丢失数据。在插补后,过滤SNP的次要等位基因频率> 1%,在基因组中产生大约500,000个双等位基因标记。

多样性评估。

对于Mantel检验23,我们根据来自种质(纬度,经度和海拔)的地理数据计算了成对欧几里德距离矩阵。我们估计并测试了高度,纬度和经度的单独欧几里德矩阵以及一个联合矩阵。使用TASSEL从30,000个非插入标记的全基因组随机样本估计遗传距离矩阵。遗传矩阵与关节或高度欧氏距离矩阵之间的相关性为0.46,P值估计基于1,000个排列。纬度和海拔高度分别与遗传距离有0.04和0.07的相关性。使用R库“ade4”(参考文献48)进行Mantel测试。使用R中的“cmds”函数对遗传距离矩阵进行MDS(多维缩放)。

重组

为了估计LD,需要具有精确杂合子调用的定相标记。覆盖深度的分布(补充图11)显示我们组中的大多数GBS标记具有恰好1的深度,其中一半标记具有等于或大于2的深度。在没有相位或足够深度的情况下对于所有站点,我们使用非推算的SNP标记估计了类似LD的统计量。为了解释缺乏相位信息和杂合子调用不足,我们的类似LD的统计量估计了100个位置非重叠窗口的纯合标记与软件TASSEL上的LD功能之间的相关性。对于GBS标记,我们发现这是具有信息相关性的最小窗口大小。我们对LD的显着增加感兴趣,这些增加影响了人群中多个人的大区域。因此,我们通过取中值将相关性汇总到1-Mb区域。为了比较LD和重组值,我们估计了1-Mb滑动窗口之间的相关性(i)log10(中值LD估计值),(ii)使用美国和中国NAM估算的中值交叉概率的对数值种群24,和(iii)中值种群重组率(rho)的对数估计改良品系和地方品种Hapmap2项目24。我们的LD估计值显示与基因密度(r = -0.57)和NAM交叉概率8(r = -0.45)呈负相关。我们观察到我们的LD样统计量和历史重组的群体遗传估计值(rho)之间存在适度的负相关(r = -0.33)24,25。基于全局中值LD的斜率变化来定义高LD区域(补充图12)。因此,高LD区域是具有中值LD> 0.01的那些区段。总共有256个高LD区域,占基因组的7.8%。在候选基因中,只有PhyB1(植物色素B1),Gl15(Glossy15)和ZCN13属于高LD组,因此被排除在进一步的基因水平分析之外。

开花时间全基因组关联和基因组预测。

使用线性混合模型49,50对所有试验分两步进行关联分析。对于每个性状(雄性和雌性开花的天数),拟合两个模型,一个具有特征“最佳线性无偏预测”(BLUP)作为响应变量,另一个具有相同BLUP的标准化值。虽然可以使用以生长度天数形式的累积热单位来标准化不同地点的作物物候数据集,但所使用的标准化包括减去试验的平均值并除以相应的s.d.这样做是为了评估结果的一致性,因为各种试验中的性状差异不均匀。两个GWAS模型的P值之间的相关性为0.84。
第一步模型包括试验的固定效应(分类),10个MDS权重(数值)形式的种群结构,共同解释了大约13%的遗传方差和10.6%的表型变异,以及杂交的影响用作每个种质杂交的父母。相关性的随机效应以亲属矩阵的形式被添加到两个模型中。使用与MDS权重相同的SNP子集估计亲属矩阵。使用R软件包EMMREML拟合混合模型。在拟合第一模型后含有残差的向量在第二步模型中拟合作为单标记分析的响应变量。使用R拟合模型,标记嵌套在试验水平内。
使用的模型方程是

其中是响应变量,是总体平均值,Ti是第i次试验的效果,Hij是第i次试验中第j个测试者的效果,Qijk是包含10次的人口结构效应来自MDS,Zu的权重,其中u是未知随机多基因效应的大小为n(个体数)的向量,其具有均值为零的分布和的协方差矩阵,其中K是具有元素的共同祖先矩阵从30,000个随机SNP计算kij(i,j = 1,2,... n),并且eijk是包含残差的矢量。
在关联模型的第二步中,来自第一模型的残差被拟合为以下模型中的响应变量

其中Yi是来自先前模型的残差,S是嵌套在试验t中的SNP效应。该模型对零假设使用F检验,表明在所有试验中每个SNP的效果为0。另一种假设是SNP对任何试验都有影响。测试这一假设的原因是每个SNP的影响可以并且经常会改变价值和方向。这是所有试验中不同频率的等位基因分离的结果,以及测试的SNP与因果多态性之间的相位变化。我们观察到与P值的预期分布的显着偏差(补充图13);因此,考虑到错误的发现率,我们只考虑基于P值的SNP的前1%显着,其中-log10(P值)均为> 18。我们推断候选基因的显着性将取决于当地LD和基因型覆盖率;因此,围绕候选基因的较高比例的显着SNP将指示基因本身的关联而不是整个LD区域或由于更高的基因型覆盖。因此,我们研究了候选基因上游和下游50-kb区域内的SNP显着关联,并使用R包GenomicRanges将SNP分配到最近的基因。
使用软件GAPIT进行全基因组预测。每个试验运行模型,并通过在每个试验的10个重复中进行五重交叉验证来测量准确度。每个特征和试验运行两个模型。【使用不同分不的SNP获取G矩阵】一个模型使用亲属矩阵,其针对888个相关基因组区域中的每一个估计具有一个SNP,另一个模型使用714个均匀分布的随机SNP,并且第三个模型使用30,000个随机SNP来估计亲属矩阵。所有模型都包括十个MDS权重以考虑人口结构

全球范围内与海拔和纬度的关联。

我们有兴趣了解对开花时间变化以及高度和纬度适应性做出贡献的基因组区域。我们使用广义线性模型进行全基因组关联,其中高度和纬度作为响应变量和标记,以1%的频率过滤,作为解释变量。与使用地理学作为关联研究中的响应变量的其他绘图研究一致,具有主成分权重形式的种群结构的协变量的模型,以及包括亲属矩阵或亲属和主成分权重两者的混合线性模型,显示非常有限的关联(补充图14)。这主要是由于当地适应与人口结构之间的高度协方差,因为当地适应的选择导致了人口结构。这意味着考虑局部适应的模型降低了假阳性率,但也显着增加了假阴性率。为了从广义线性模型的结果降低假阳性率并使用额外的独立信息建立生物学意义的显着性阈值,我们使用最显着的开花时间GWAS SNP估计重叠率。重叠率被定义为共享的雄性和雌性顶部开花时间SNP与高度或纬度之间的重叠SNP的集合除以跨越显着性阈值的集合的并集。换句话说,假设开花时间相关的SNP代表我们当前最佳的真阳性候选者,重叠率用于最大化P值阈值的真阳性,使假阴性最小化。因此,估计百分位数的总体比率在0.001和0.010之间。例如,对于第一个分位数阈值(0.001),海拔高度的重叠率对应于与前5,000个开花时间SNP重叠的前0.001个分位数(大约500)的SNP数除以开花的总和。 - 时间SNP和该分位数处的高度SNP。从重叠率结果中选择的显着性阈值(补充图5)是高度的0.005百分位数(关联SNP的前0.5%,-log10(P值)> 208.2;补充表6)和纬度的0.01百分位数(关联SNPs的前1%-log10(P值)> 61.63;补充表7)。在补充图5中可以观察到,在相同的分位数值上,与具有纬度的SNP相比,海拔与开花时间相关的SNP具有显着更高的重叠,可能是由于地方品种主要来自非光周期诱导位置。

你可能感兴趣的:(RomeroNavarro2017 GWAS 玉米开花)