全基因组选择:LightGBM通过提升GWAS敏感性促进基因挖掘

GWAS是识别性状相关基因和理解性状背后的遗传结构的有效方法,随着下一代测序技术的快速发展,基因分型费用显著降低,而在大规模人群的情况下,表型已成为GWAS的瓶颈。由于测序技术的快速发展,获取基因的成本已经显著降低,但是获取表型的成本并未降低,因为获取表型的话需要经过种子的种植培育等过程,所需时间较长,不如基因可以直接通过基因分型获取那么简单,进行GWAS分析的话需要同时用到基因型和表型,所以此时表型的获取便成为了GWAS分析的瓶颈。

对于由多个基因控制的数量性状,群体大小对于GWAS检测能力尤为关键,一般的分析当然都是群体越大越容易进行分析,分析的结果也更为准确,对于多个基因控制的数量性状,基因相当于是自变量,性状相当于是因变量,群体数量太少的话很容易就过拟合了,极端情况下出现个体数量少于基因总数。

据推测,如果基因组预测是精确的,预测的表型可以用于未测量的样品进行GWAS分析,如果进行预测的方法得当,证明预测准确性很高,那么预测的表型就可以直接用于分析,就可以大大降低成本。因此,可以节省表型费用;然而,一个合适数量的群体应该被确立出来,理论上说群体是越大越好,但是群体变大之后成本又会相应增加。为了验证这一假设,使用7431个样本(6210 F1s + 1221 Jing724 F1s)作为训练集,去预测1221个Zheng58 F1s的DTT 、PH 和 EW 表型。然后,我们比较了来自具有观察表型的7431个样本和包含具有预测表型的1221个F1的8652个样本的GWAS信号,将包含预测样本 1221 个Zheng58 F1s 的8652个样本和不包含1221 Zheng58 F1s的7431个样本的GWAS信号进行比较。

至于DTT性状,在两个群体中检测到MADS69和ZCN8峰,并且8652个样品表现出增强的SNP效应,可能是由于群体大小的增加。同样,PH和EW的GWAS也表现出与BRD1和MADS69基因相关的增强信号。全基因组选择:LightGBM通过提升GWAS敏感性促进基因挖掘_第1张图片

此外,我们测试了LightGBM对代谢化合物含量的可预测性,代谢化合物可能被认为是由少数生物合成酶决定的一种定性性状。 在266个核心种质中测量的两个未表征代谢物(5.47_216.1009和3.32_594.1573 N)的含量被用作表型,以预测它们在另外509个未测量品系中的含量。随后,在266系和775(509+266)系中分别进行两种代谢物的GWAS。从这里我们可以看到是采取的和之前相同的思路,先用一部分进行预测,再将用于预测的个体和预测的加起来与用于预测的个体进行含量比较对比出差异。至于5.47_216.1009,在具有测量含量的266个品系中检测到一个显著峰,对应于基于CornCyc注释的编码参与脂肪酸生物合成的β-酮酰基-ACP合酶的候选基因Zm00001d002103,在包括具有预测含量的509个样品的775个品系中,发现与基因Zm00001d002103相关的相同峰具有增强的信号。266个品系中代谢物3.32_594.1573 N的GWAS检测到编码UDP-葡萄糖基转移酶(ZmUGTs)的串联重复基因簇,在包含预测样品的775个品系中显示相同的GWAS信号。因此,对训练群体中最初检测到的基因的GWAS识别不仅验证了LightGBM的精度,而且证明了GS策略在表型分析费用显著降低的未开发种质的基因挖掘中的实用性。然而,应该注意的是,这种策略可能只适用于具有高可预测性的性状,并且使用预测的表型可能无法准确估计QTL效应。因此,这种方法仅适用于未开发种质上性状相关QTL的粗略作图,以鉴定训练群体和预测群体之间共享相似单倍型模式的基因组区域。全基因组选择:LightGBM通过提升GWAS敏感性促进基因挖掘_第2张图片

 通过LightGBM预测增强GWAS灵敏度。在将具有预测表型的1221个F1添加到具有观察到的表型的7431个训练样品中后,DTT、PH和EW上的GWAS信号增强。蓝色、绿色和红色虚线分别代表1E5、1E6和2.2 E7的p值。在将具有预测表型的509个品系添加到266个训练样本后,代谢化合物5.47_216.1009(左图)和3.32_594.1573 N(右图)上的b GWAS信号增强。蓝色、绿色和红色虚线分别代表1e−5、1e−6和2.2 e−7的p值。

总结以上我们可以看出,题目中所说的增强GWAS敏感性就是通过预测将之前就存在的那些信号增强,使信号更容易检测出来,分别通过两个案例验证了这个结果,分别表现出了增强的SNP效应和相关峰有增强的信号。

你可能感兴趣的:(人工智能)