本文将以此介绍 3 个关联分析资源群体,群体大小分别为 155、368、527。155 和 527 两个群体交集为 141,使用的 SNP 芯片一致,可以认为 527 是 155 群体的拓展。368 和 527 两个群体交集为 282,其中 368 使用 RNA-seq 测序,测定到了大量的 SNP 位点。155 和 527 群体是基因组与表型之间的关联分析,368 是基因组与表达量之间的关联分析。
155 群体文章:Yang, X., Yan, J., Shah, T. et al. Genetic analysis and characterization of a new maize association mapping panel for quantitative trait loci dissection. Theor Appl Genet 121, 417–431 (2010). https://doi.org/10.1007/s00122-010-1320-y
527 群体文章:Yang, X., Gao, S., Xu, S. et al. Characterization of a global germplasm collection and its potential utilization for analysis of complex quantitative traits in maize. Mol Breeding 28, 511–526 (2011). https://doi.org/10.1007/s11032-010-9500-7
368 群体文章:Fu, J., Cheng, Y., Linghu, J. et al. RNA sequencing reveals the complex regulatory network in the maize kernel. Nat Commun 4, 2832 (2013). https://doi.org/10.1038/ncomms3832
前人研究证明,使用关联分析(Association Mapping)可以挖掘到许多有助于玉米改良的基因。但前人的研究主要集中于美国的玉米品系,而中国处在温带地区,已有资源库中除了热带亚热带品种在中国种植难以正常发育外(如植株因基温不足而无法开花,进而无法繁衍,无法利用品系包含的遗传资源),温带品系的表型在中美两国也可能有较大差异。所以,研究人员希望构建一个基于中国环境的玉米关联分析资源群体(Association Mapping Panel)。
155 个自交系:
82 个 SSR 标记
82 个 SSR 在 155 个样本中共检测到 675 个等位型,平均每个 SSR 有 8.23 个等位型。作者使用 STRUCTURE 软件、 82 个 SSR 标记和已知的系谱关系推断群体结构。
首先,作者根据 STRUCTURE 的结果将 155 个自交系分为 3 类:P1(79)、P2(44)、Mixed(32)。然后,作者对 P1、P2 进行了进一步细分,依据已知的系谱关系,分别设置 k = 5、k = 3,结果如下表所示。
Groups | Subgroups | Number | Inbreds |
---|---|---|---|
P1 | Reid | 12 | B73, Ye478, Ye488, Ye8001, U8112, Zheng32, Hu803, C8605, Tie7922, 832, 812, Xun971 |
Lancaster | 9 | Mo17, Ji842, Ji846, ZaC546, Hai1134, Mo113, 4F1, HTH-17, CY72 | |
Zi330 | 10 | Zi330, HuangC, Zong3, Zong31, Shen5003, Zheng653, LK11, Si446, BEM, A619 | |
ByGy* | 12 | By804, By807, By809, By813, By815, By843, By855, By4944, By4960, Gy220, Gy386, Gy462 | |
RySy* | 19 | Gy1032, Ry684, Ry697, Ry713, Ry729, Ry732, Sy998, Sy999, Sy1032, Sy1035, Sy1052, Sy1077, Sy1090, Sy1128, Ye107, 7884-4Ht, K10, Chang3, Nan21-3 | |
P1-mixed | 17 | By4839, Gy237, Gy246, Gy798, Gy923, Gy1007, Ry737, Sy1039, Zheng58, Dan340, J4112, Yu374, K14, chuan48-2, K22, 8902, Si434 | |
P2 | Tang SPT | 10 | HZS, Si444, HYS, TYS, H21, Xi502, 5237, WH413, Lx9801, BS16 |
Tem-tropic* | 4 | Qi319, P178, Shen137, Dan599, | |
Landrace* | 24 | Tian77, Hai014, SW1611, 5311, S37, Jiao51, TX5, WMR, MN, BNBG, NMJT, QTHHSBTS, 04K5702, NBG, YSBN, BGY, 04K5672, BXZLN, BR2, DSB, D047, B11, SW92E114-15-1, SC55 | |
P2-mixed | 6 | Chang7-2, Ji853, 3H-2, 04K5686, HSBN, 303WX | |
Mixed | 32 | Sy3073, Ye515, Yan414, Ji53, K12, Dong237, Ji63, Yu87-1, S22, Ye52106, Zheng22, Dong46, BT1, DH02, Dan9046, Hai268, Wu109, Lv28, P138, Qi205, Q1261, 81162, Dan598, Cheng698, E28, H8123, 647, BZN, Hua83-2, HB, CI7, DE3 |
比较 P1 和 P2,AMOVA 结果表明,总遗传变异中只有 6.1%(P < 0.001)在组间分配,组内为 92.6%,品系内为 1.3% 。亚组分析显示,17.4% 在亚组间分配,亚组内为 76.3% 。AMOVA 结果显示,虽然群体被划分为了多个组分,但组分内成员间仍存在较大差异。
1536 个 SNP 标记
1536 个 SNP 经过缺失率( < 20%)和 MAF( > 20%)筛选后剩余 884 个 SNP,用于计算关联群体的亲缘关系矩阵(K),其中负值被替换为 0。
总共测定了 34 个表型(详情见下表格),取自 2 个地点 4 年的测量结果:海南 2007;北京 2005、2006、2007、2008。
开花(flowering)* | 结构(architecture) | 雌穗(ear) | 仔粒(kernel)* | 油类(oil-related) | 类胡萝卜素类(carotenoid-related) | 生育酚类(tocopherol-related) |
---|---|---|---|---|---|---|
花粉天数、吐丝天数 | 雄穗(tassel)分枝数、植株节数、雌穗上叶数、雌穗上节数 | 穗长、穗径、穗轴直径、每穗行数、穗轴质量 | 百粒重、籽粒长度、籽粒宽度、籽粒厚度 | 棕榈酸、硬脂酸、油酸、亚油酸、亚麻酸、油含量 | 叶黄素、玉米黄素、β-隐玉米黄素、α-胡萝卜素、β-胡萝卜素、总类胡萝卜素、维生素原 A | δ-生育酚、γ-生育酚、α-生育酚、总生育酚。 |
群体结构对表型的影响
驯化和改良会造成符合人们需求的优良基因型在群体中固定,当 QTL 与群体结构连锁 时,关联分析会产生大量的 假阳性 关联。如与开花所需基温相关的 QTL,其适应温带的基因型,在玉米从热带传入温带的早期就已固定。但这会使温、热亚群中所有分别固定(基因型不同)的 SNP 都与表型显著关联,造成大量假阳性(GWAS 结果的曼哈顿图中杂乱无峰)。
由于驯化和改良都会大幅减少种群的有效群体数量,加速固定,所以不同地域玉米在不同研究团队的培育下,会出现明显的群体结构,如中国和美国的玉米品系间、美国与墨西哥的玉米品系间。为了避免群体结构对关联分析的影响,一般分析前会通过各种方法排除群体结构因素的影响,但这也会造成上面两种与群体结构连锁的 QTL 无法被挖掘。所以,在对某表型进行关联分析时,要先 判断群体结构对表型方差的贡献 ,如果贡献较大,则与群体结构连锁的 QTL 较多,排除群体结构后能挖掘的剩余 QTL 少,此群体可能不适合对该表型进行关联分析。
作者在关联分析前,计算了群体结构对表型方差的贡献(文中 Table 4)。其中穗轴直径(18.9%)、仔粒长度(13.3%)、亚油酸含量(23%)、亚麻酸含量(19.5%)、γ-生育酚含量(14.9%)等表型受群体结构影响大,不适合用此 Panel 进行关联定位。
因为不同关联群体(Association Mapping Panel)的采样不同,所以群体结构存在差异,即 不同 Panel 内表型受群体结构的影响不同。如开花时间表型在美国的 Panels 中受群体结构影响较大( > 32%),但在本研究群体中影响较小(DTP = 1.8%,DTS = 0.6%)。原因是美国的 Panels 中包含温带、热带品系,但本研究 Panel 中仅包含温带品系。温带不同地区环境差异较小,允许以不同的方式组合 多个 小效应 QTL 来适应本地环境,QTL 具有较高的多样性,难以与群体结构连锁。但温带与热带之间环境差异较大,品系改良过程中需要 少量 大效应 QTL 参与,组合方式少,QTL 多样性较低,容易与群体结构连锁。所以,此群体相比美国 Panels 更适合关联定位与开花时间相关的 QTL。
本研究 Panel 中油相关性状受群体结构影响较大的原因,可能是高油品系受到了严格的 人工选择,有效群体数量大幅降低,QTL 中高油基因型在 35 个品系中 固定,而这 35 个高油品系又与低油的中国品系(地方、优良)存在明显的 群体结构(详见文章 Fig 1),使 QTL 与群体结构 连锁,导致油相关性状受群体结构较大的影响。
为了检验 Panel 挖掘不同效应 QTL 的能力,作者模拟了不同的群体大小(population size)、基因型效应(genetic effect)和关联模型。
关联分析利用 TASSEL 软件,基础模型为一般线性模型(general linear model,GLM)。因为关联分析在研究与适应相关的表型时,通常会因为群体结构而产生大量的假阳性关联,所以作者测试了不同关联模型:不考虑 Q、K,考虑 Q,考虑 K,考虑 Q、K。其中 Q 是指群体结构矩阵(Q matrix)由 STRUCTURE 计算得到,K 是指亲缘关系矩阵(K matrix)由 SPAGeDi 计算得到。
模拟结果显示,当群体大小为 155 时,可以检测出 88% 效应 > 10%(占表型变异的比例)、59% 效应 > 5%、17% 效应 > 1% 的 QTL。
527 个自交系:
PS:国际玉米小麦改良中心成立于 1966 年,总部设在墨西哥。因为墨西哥的官方语言为西班牙语,西班牙文全称为 Centro Internacional de Mejoramientode Maizy Trigo,所以简称 CIMMYT。
本文没有测定 SSR,仅测量了 1536 个 SNP 的基因型数据,使用的芯片与 155 群体一致。经过缺失率( < 20%)和 MAF( > 10%)筛选后剩余 926 个 SNP。
群体结构
以 926 个 SNP 作为输入,作者分别使用 STRUCTURE(Fig 1)、INSTRUCT(无展示)、PCA(Fig 2b)、系统发育树(Fig 2a),4 种方法研究 Panel 的群体结构。相比于 155 群体,作者增加了 3 种群体结构推断软件,但本文只进行了较粗的分类,STRUCTURE 将群体分为 SS(33)、NSS(143)、TST(232)、Mixed(119)4 类。随着参数 k 的增大,NSS 亚群可以进一步细分,但 SS 与 TST 则不再细分,原因可能是:
虽然各种方法的原理完全不相同,但 结果基本一致。
PS:TST 主要由 CIMMYT 项目中样本构成(218);Mixed 群体由在其他 3 个亚群中概率均低于 0.60 的个体构成。
亲缘关系
与 155 群体一致,亲缘关系使用 SPAGeDi 软件包计算,个体之间的负值替换为 0。结果显示(下表),527 Panel 品系之间差异较大,大多数品系间是无相关或弱相关。
亲缘系数 | 0 | 0 < k <= 0.1 | 0.1 < k <= 0.5 | 0.5 < k |
---|---|---|---|---|
比例(%) | 56.1 | 38.0 | 5.6 | 0.3 |
相关性 | 无 | 弱 | 中 | 强 |
总共测定了 12 个表型,包括 开花、结构、雌穗表型,不包括 仔粒、油类、类胡萝卜素类、生育酚类表型。
经过分析,相比于 155 Panel,527 Panel 中表型受到群体结构因素的影响大幅提升。这再一次验证了:群体样本的选择,对表型研究至关重要 。
本文相比于 155 群体文章,引入了 PCA 算法来计算群体结构,相比于 STRUCTURE 计算速度更快。同时,作者比较了 PCA 结果(PC1 - PC10)与 STRUCTURE 结果作为群体结构组分对关联分析模型准确率的影响,总共测试了 6 种模型:GLM、GLM+Q、GLM+K、GLM+PCA、GLM+K+Q、GLM+K+PCA 。
模拟结果显示,当样本量为 527 时:1)6 个模型中 亲缘关系矩阵 的引入 大幅 降低了结果中假阳性数量,群体结构 Q 或 PCA 的引入能 少量 降低假阳性数量(下图),结合时间与精确度两方面考虑,作者推荐使用 GLM+K+PCA 模型;2)Panel 可以捕获 81% 效应为 3% 的 QTL,62% 的 2%,35% 的 1%。
NAM 群体 LD 的衰减( r 2 < 0.1 r^2<0.1 r2<0.1)发生在 2kb 内,368 群体则发生在 500 bp 以内。根据前人的研究成果推算,若想 SNP 以较高连锁性覆盖全基因组,可能需要 1000w SNP。但玉米基因组中只有不到 10% 的片段编码基因,所以有研究人员建议开发基于基因外显子区的 SNP。随着技术的发展和下一代测序成本的显着降低,RNA-seq 是一种相对低成本的测序方法,可以用于研究表达数量性状位点(eQTL)分析。本文材料取自 368 个自交系授粉后 15 天的未成熟仔粒,探索发育中的玉米籽粒的基因表达图谱并挖掘有意义的基因。
本文没有再对材料的来源与分类进行单独介绍,只展示了 368 样本的 PCA 和 邻近(Neighbor-Joining,NJ)系统发育树。因为 本文不涉及分群研究,群体结构 在 GWAS 分析中作为 参数 变量加入 MLM 模型即可,系统发育树和 PCA 等可视化的主要目的是展示材料的多样性,以证明群体内积累了足够多的历史重组与突变,提高关联分析的可信度。所以在有前两篇文章的研究基础后,本文没有再进行重复的分析。
Reads 数据
测序数据中有 71.0% 的 reads 比对到 B73 参考基因组(AGPv2)上,70.3% 的 reads 比对到 B73 参考基因组的基因区间,其中 71.6% 的基因 reads 覆盖长度 > 50% 。29 % 的 reads 比对丢失率说明 368 个体中有大量基因 不存在 于 B73 基因组上,体现了玉米遗传资源的多样与复杂。
SNP 数据
NP data set | Number of SNPs | Number of SNPs in gene region | Number of genes | Mean number of SNPs per gene |
---|---|---|---|---|
Total | 3620 k | 2636 k | 32 k | 81.7 |
SNPs with missing rate < 0.6 * | 1026 k | 931 k | 23 k | 40.3 |
SNPs with MAF ≥ 0.05 | 525 k | 478 k | 22 k | 21.7 |
上述表格中有 65%(1-931/2636)SNP 的缺失率 > 0.6,说明 B73 基因组大量基因 不存在 于 368 个品系中。
分布差异
作者将 368 的 RNA-seq 与 NAM 群体 SNP 的比较中发现,两个数据集中因测序重点不同而出现较大差异。368 群体因为测定的是 RNA-seq 的序列,所以数据集集中在 基因区,基本不包含基因间隔区,可以作为 NAM 群体 SNP 数据集的 有利补充。
通过功能分析,作者预测有 5,146 个 SNP 为大效应变异:2,347 个 SNP 会导致无义突变,112 个 SNP 会导致起始密码子破坏,571 个 SNP 会导致终止密码子破坏,2,116 个 SNP 预测会破坏转录本剪接位点。
本研究表型数据为表达量数据,取自湖北荆州 2010 年种植,生长发育阶段为授粉后(days after pollination,DAP) 15 天的未成熟种子。
表达量数据中,有 29k 基因的转录本在超过 50% 的自交系中测得,并作为 GWAS 的表型。另一方面,数据还展示了 相同基因在不同自交系中表达量的巨大差异,有 5.2 k 个基因在不同个体间表达量差异超过四倍。
使用 TASSLE 软件的 MLM,以 29k(missing rate <= 50%) 个基因的表达量作为表型,进行 GWAS 分析,挖掘了 591 k 个显着相关的 SNP。通过对间隔小于 5 kb 的 SNP 进行合并,得到 55 k 个候选 eQTL。作者将 eQTL 中最显着相关的 SNP 被定义为 lead SNP。比较两个相邻 eQTL 间 lead SNP 的 LD( r 2 r^2 r2)值,如果 LD > 0.1,则认为两个 eQTL 关联的是相同的致病突变,删除其中 lead SNP p-value 较大的 eQTL。最终,为 14 k 个基因鉴定了 16 k 个 eQTL。其中 11 k(67.7%)的 eQTL 中仅包含单个基因,方便后续研究。作者将 eQTL 的 lead SNP 距离基因 20 kb 内的定义为 local eQTL,否则为 distant eQTL。16 k 个 eQTL 中有 9 k 为 local eQTL,7 k 为 distant eQTL。