多组学结合基因组来增加基因组预测(GP)的准确性

最近参加了EAAP会议,听了 Ole F. Christensen报告了将多组学数据加入到GP中的报告。

image.png

其测试的结果是:微生物组(https://doi.org/10.3168/jds.2022-22948)没有帮助提高GS和GP的准确性;但是代谢组也没有提高GS的准确性,但是提高了GP的准确性。

代谢组整合到GP的文章最近发表在了GSE上,现在整理出,让我们使用其他组学进行测试和借鉴。

文章名字:代谢组学-基因组预测可以提高大麦麦芽品质性状育种值的预测准确性(https://doi.org/10.1186/s12711-023-00835-w)
值得注意是:此文章的所有数据,包括表型、基因组和代谢组数据,都可以在公共可访问的存储库中获取(https://data.mendeley.com/datasets/s3s4ft92wj/1)。

摘要

  • 背景
    代谢组学测量基因型和表型之间的中间阶段,因此可能对育种有用。
  • 目标:
    整合基因组和代谢组信息研究麦芽质量 (MQ) 性状的遗传参数和预测育种值的准确性。
  • 数据:
    总共包括来自三年和两个地点的 2430 个地块,562 个啤酒春大麦品系。在每个地块生产的麦芽汁中测量了五种 MQ 性状。使用的代谢组学特征是对每个麦芽汁样品测量的 24,018 个核磁共振强度。
  • 方法:
    统计分析的方法是基因组最佳线性无偏预测(GBLUP)和代谢组学-基因组最佳线性无偏预测(MGBLUP)(由GOBLUP,Genomic Omics BLUP演变出来)。验证法:
    (1)使用两种交叉验证策略比较预测育种值的准确性:留一年(LOYO)和留一线出(LOLO),
    (2)线性回归(LR)方法查看两者情况下验证群体(VP)基因组预测准确性的提高。第一:纳入VP的代谢组数据后准确性的提高 ;第二:纳入VP的代谢组和表型数据后准确性的提高。
    如下图所示的验证方法:


    image.png
  • 结果
    (1)对于所有性状作者发现代谢组介导的遗传力很大。


    image.png

(2) 交叉验证结果表明,一般来说,当表型和代谢组数据记录都在一块地有时,MGBLUP 和 GBLUP 的预测精度相似。
LOLO的预测结果


image.png

LOYO预测结果

image.png

(3) LR 方法的结果表明,对于除一项外的所有性状,当包括 VP 品系的代谢组数据时,MGBLUP 的准确性有所增加,并且当还包括表型时,MGBLUP 的准确性进一步增加。
LOLO下的LR的准确率增加指标:


image.png

(4)然而,一般来说,当在 VP 上包括代谢组数据和表型时,MGBLUP 准确性的增加与在 VP 系上包括表型时 GBLUP 准确性的增加相似。
LOYO下的LR的准确率增加指标:


image.png

(5)因此,作者们发现,当代谢组学数据包含在 VP 品系中时,没有表型记录的品系的准确性大大提高,

  • 结论
    MGBLUP 是一种结合表型、基因组和代谢组数据来预测 MQ 性状育种值的有用方法。

GOBLUP的详细介绍

公式:


image.png
  • 方程(1)描述了表型和组学表达水平之间的关系,其中y是表型向量,β是包含固定效应的向量,矩阵X将固定效应与表型联系起来,矩阵Z将具有组学数据的个体与表型联系起来,矩阵 M 包含 m1,…,mk 作为列,向量 α 包含组学表达水平对表型的回归效应,向量 ar 包含残余遗传效应,即对表型的遗传效应不是通过观察到的组学表达水平介导的,矩阵 Zr 涉及 遗传对表型的影响,ε 是残差向量。
  • 组学特征 i=1,…,k 的方程 (2) 描述了组学表达水平 mi 与个体遗传效应之间的关系,其中矩阵 X~ 将固定效应与组学表达水平相关联(对于不同的组学特征假设固定效应中的变量相同),矩阵Z~ 将个体与组学表达水平联系起来,对于第i个组学特征,向量β~i包含固定效应,向量gi是遗传效应向量,ei是残差向量。 遗传效应是针对所有感兴趣的个体(即,包括没有表型和组学数据的个体)指定的,并且相应地定义了发生矩阵 Zr 和 Z~。 我们注意到关联矩阵之间的关系,Zr=ZZ~,并且在模型的两个部分中固定效应中的变量相同的情况下,则 X=ZX~。 因此,设 G 为包含 g1,…,gk 为列的矩阵,E 为包含 e1,…,ek 为列的矩阵,则 M=X~ B~ + G + E ,其中 B~ = [β~ 1,…,β~k] 。 注意,这里的矩阵G不是基因组关系矩阵。


    image.png
最终:育种值a= Gα + ar

改为类似混合方程组(更好理解):

第一步,通过估计组学效应(类似于 SNP-BLUP)或使用组学相似性(类似于 GBLUP)来估计组学对数据的影响:


image.png

image.png

由“非介导”遗传效应解释的表型变异部分;这些方程产生 EBV 的"非中介部分 (ar); 和“改进的表型预测” (u),它们基于性状观察y和组学M,可以被视为“环境噪声较少的y ”,或者作为预测性状,例如 SCS,它是亚临床乳腺炎的预测因子。

在第二步中,一旦表型预测因子 (u)获得后,它们在第二个 MME 中用作伪特征来提取可遗传部分, am:

image.png

X 和Z~ 是组学记录和参数的设计矩阵 , h2m是组学测量的遗传力.

最后总EBV:a = am + ar

参考文章(算法详细内容应该查看文献23):

  1. 代谢组学-基因组预测可以提高大麦麦芽品质性状育种值的预测准确性(https://doi.org/10.1186/s12711-023-00835-w)
  2. 遗传评估,包括中间组学特征(https://doi.org/10.1093/genetics/iyab130)
  3. 基因组评估方法包括中间相关特征,例如高通量或组学表型(https://doi.org/10.3168/jdsc.2022-0276)

你可能感兴趣的:(多组学结合基因组来增加基因组预测(GP)的准确性)