基因组选择中的新问题(Ignacy Misztal)

Misztal, I., Aguilar, I., Lourenco, D., Ma, L., Steibel, J. P., & Toro, M. (2021). Emerging issues in genomic selection. Journal of animal science, 99(6), skab092. https://doi.org/10.1093/jas/skab092

背景:
基因组选择 (GS) 现在已在许多物种中成功实施。然而,许多问题仍然存在,例如长期影响、基因组参数的估计、具有小型和大型数据集的全基因组关联研究 (GWAS) 的稳健性以及基因组预测的稳定性。
本研究总结了作者在 2020 年美国动物科学学会 (ASAS) 研讨会上的演讲。
迄今为止,许多研究的重点是两个基因座之间的连锁不平衡。忽视更高水平的平衡可能会导致显性优势和上位。布尔默(Bulmer)效应导致加性方差的减少;然而,提高重组率的选择可以释放新的遗传变异。
对于基因组信息,遗传参数的估计可能会因基因组预选而产生偏差,但由于基因组信息的密集形式,估计成本(注:计算时间)可能会急剧增加。为了使估计值的计算可行,只能保留最重要动物的基因型,估计方法应使用能够识别稀疏矩阵中密集块的算法。
使用小型基因组数据集的 GWAS 经常发现许多标记-性状关联,而使用更大数据集的研究仅发现少数几个。当前的大多数工具都使用非常简单的 GWAS 模型,这可能会导致假阳性。这些模型适用于大型数据集,其中伪表型(例如去回归证明)间接解释了对感兴趣特征的重要影响。通过使用来自所有动物的数据(无论是否进行基因分型)、真实模型和考虑种群结构的方法,可以最大限度地减少 GWAS 中小数据集产生的假阳性。最近的发展允许从基因组最佳线性无偏预测 (GBLUP) 计算 P 值,其中模型可以任意复杂但仅限于基因分型动物,以及单步 GBLUP 也使用来自未基因分型动物的表型。
稳定性是非基因组评估的重要组成部分,在没有新数据的情况下,即使预测精度较低,遗传预测也是稳定的。不幸的是,这些动物的基因组评估发生了变化,因为所有具有基因型的动物都是相互关联的。排名靠前的动物很容易在下一次评估中下降,从而导致对基因组评估的信心危机。虽然连续基因组评估之间的相关性很高,但异常值的差异可能高达 1 SD。波动的基因组评估的解决方案是根据动物群体做出选择决策。尽管 GS 中的许多问题已得到解决,但许多需要额外研究的新问题仍在不断浮出水面。

建议

尽管使用基因组信息会减少估计的 SE,但参数估计可能对未选择群体中的任何数据集相对无偏。 但是,当存在选择时,谨慎使用至少两到三代数据。 对于 GS,重要的是包含具有表型的动物的基因组信息,并且可以删除来自没有表型的后代的基因型以减少计算。 可以使用 REML 分析具有少性状的模型,特别是如果算法对密集块使用有效的稀疏矩阵技术。 具有大量性状的模型最好使用 Gibbs 采样器进行分析。 当预计参数会发生变化时,最便宜的选择是使用数据切片估计参数,并截断谱系和基因型以限制计算。

GWAS

image.png

尽管如此,SNP 之间的 LD 可能比单标记混合模型测试对全模型 GWAS 方法的影响更大; 因此,全模型 GWAS 可能不如单标记测试强大但更准确。

QC

通常,表型值需要近似遵循正态分布,并删除异常值。我们可以通过检查谱系中的孟德尔遗传来检查基因型数据的质量,执行 Hardy-Weinberg 平衡检验,并根据样本大小过滤次要等位基因频率 ( MAF)s) 5% 或 1% 的水平。小样本研究需要使用更严格的 MAF 截止水平,以确保样本中有足够多的个体携带次要等位基因(例如,不少于 10 个

奶牛中的 GWAS 以及与功能基因组学数据的交集

牲畜 GWAS 有一些独特的功能,尤其是奶牛。首先,畜牧业产生了大量用于选育的基因型和表型数据。例如,美国奶牛育种委员会 (CDCB) 维护着一个奶牛基因组学数据库,其中包含数百万头基因分型牛和数亿条各种重要经济性状的表型记录 ( https://www.uscdcb.com / )。虽然 GS 在这些数据方面取得了成功,但它们也为 GWAS 和其他遗传学研究提供了独特的强大机会。迄今为止,该数据库已经启用了许多大样本、强大的 GWAS,这些 GWAS 揭示了奶牛许多生产、繁殖、健康和身体构造特征的 QTL 和基因组区域。[科尔等人,2011 年](javascript:;);[江等,2017](javascript:;);[江等人,2019a](javascript:;),[2019b](javascript:;))。其次,奶牛种群中相当多的动物具有高度准确的育种值,估计来自所有亲属的数据接近 100% 的可靠性,特别是具有数千个子代记录的公牛。通过使用少量具有大量后代表型的奶牛,可以轻松实现序列级 GWAS 和数百万 SNP 变异的精细定位研究([Jiang et al., 2019a](javascript:;))。[](javascript:;)[](javascript:;)[](javascript:;)[](javascript:;)

在进行了如此多的 GWAS 研究并在文献中报道之后,一个常见的问题是 GWAS 之后的下一步是什么?一种答案是寻找因果变异。尽管奶牛基因组学数据库为奶牛 GWAS 提供了强大的数据,但牛基因组中高水平的 LD 使得因果变异的鉴定变得困难。动物基因组功能注释 ( FAANG )([Giuffra 和 Tuggle,2019 年](javascript:;))项目的持续努力将产生有用的信息,以帮助找到 GWAS 峰值下的因果变异。然而,在 GWAS 之后,我们可能需要很多年才能轻松识别出致病变异。[](javascript:;)

GWAS 之后的一个更简单的目标是生成关于因果/功能变异在基因组中的位置的知识。这些知识可以帮助精细映射研究并为 GS 提供有用的先验信息。我们通过整合牛的 GWAS 结果和功能基因组学数据集进行了一些初步研究。首先,我们探索了牛多个组织的转录组数据([Fang 等人,2020](javascript:;)[](javascript:;))。具体来说,我们确定了组织特异性表达的基因,并测试了 GWAS 信号是否富含某些组织中特异性表达的基因。结果,我们检测了 45 个乳制品性状的相关组织,包括与生育能力相关的免疫相关组织、与产奶相关的大脑和神经组织以及与身体构象相关的生长相关组织。其次,我们探索了牛精子中的甲基化数据,发现了精子甲基化数据与男性生育性状的 GWAS 结果之间有趣的交叉点([Fang 等,2019](javascript:;))。最后,我们研究了牛的组蛋白标记和 GWAS 信号的交集([Liu et al., 2020](javascript:;)[](javascript:;)[](javascript:;))。通过将人类表观基因组数据与牛基因组交叉映射,我们根据表观基因组信息报告了许多乳制品性状的相关组织,包括健康和繁殖性状的免疫组织、产奶和身体构象性状的多个组织以及甲状腺之间的基因组差异。牛肉和奶牛。随着当前 FAANG 努力生成更多功能基因组学数据,将揭示 GWAS 结果和功能基因组区域之间更有用的富集,这可以提高精细定位的能力和 GS 的准确性。

所有 GWAS 方法都试图模拟基因型和表型之间的关系。经典的数量遗传学模型假设基因型-表型关系为 P = G + E,其中 P 是表型值,G 是基因型值,E 是环境效应。尽管假设水平不同,但 GWAS 模型需要接近这种数量遗传学模型才能有效。

单标记测试是 GWAS 最流行的方法。该方法采用对疾病病例对照研究的逻辑回归和对数量性状的 GWAS 进行线性回归的形式。从历史上看,单标记测试从一个简单的回归发展到一个用主成分的回归来解释人口结构(Price et al., 2006),然后到一个混合模型方法来解释样本相关性(Yu et al., 2006))。具有单标记测试的混合模型可以表述为 P = A + SNP i + E,其中 A 是随机动物效应或个体基因型值,SNP i是候选 SNP 的固定效应。样本之间的相关性可以通过基因组或谱系关系矩阵建模为 A 的方差-协方差矩阵 ( VanRaden, 2008 )。与经典的数量遗传学模型相比,这种混合模型将 G 替换为 A + SNP i并在 A 和 SNP i之间引入了一些冗余。由于 SNP i被建模为固定效应而 A 被建模为随机效应,因此混合模型 GWAS 由于重叠而损失很小的功率

结论

尽管 GS 已取得广泛成功,但仍有许多问题尚待确定和解决。需要在对大型现场数据集进行分析之后进行更多的理论研究,以充分了解长期 GS 的影响。使用基因组信息进行参数估计需要仔细选择数据以最大限度地减少计算和偏差。GWAS 的方法需要包括强大的 LD 和建模不足的影响,尤其是对于小数据集。基因组预测的波动反映了有限的预测准确性,可以通过管理来降低风险并实现高遗传收益。

你可能感兴趣的:(基因组选择中的新问题(Ignacy Misztal))