Weighted single-step genomic BLUP

文章内容:[Weighted single-step genomic BLUP improves accuracy of genomic breeding values for protein content in French dairy goats: a quantitative trait infuenced by a major gene ]
来源:https://link.springer.com/article/10.1186%2Fs12711-018-0400-3
阅读者:刘峻宇
前言
Traditional pedigree BLUP, IBD(identical by discent);亲子,同胞之间亲缘关系系数为0.5,半同胞0.25....但是实际上,其realized relationship:

同一家系个体间的亲缘关系系数

可见利用分子标记计算出来的亲缘系数更为精确 IBS(identical by state)
此方法是由Meuwissen等人在2001年提出,叫做基因组选择(Genomic selection)来估算育种值的方法,利用分子亲缘关系G矩阵(realized genomic relationship matrix)代替以系谱构建的亲缘关系A矩阵,极大提高了预测的准确性,且准确性随着分型个体数量的增加而增加。首先在畜牧中实施,后来也在水产上,虹鳟,大西洋鲑等应用。
成本因素的制约,虾,存活时间1-2年,只用一次,入不敷出。
ssGBLUP方法,同时利用系谱基因组构建H矩阵,最大的好处是能允许一部分的个体分型,与GBLUP相比减少分型成本,且准确性比GBLUP高。

准确性

遗传进展

ps: 从利用基因组信息预测育种值的准确性受以下几个参数的影响:reference population size 、 extent of linkage disequilibrium (LD)、heritability of the trait 、relationship between training and validation populations、and the genetic architecture of the trait, which relates to the relative size of allele substitution efects at QTL
通常来讲,我们将GBLUP、ssGBLUP假定性状为多基因(polygenic)结构,即所有的分型标记对性状的贡献是(SNP effect)相同,但是这生物特征不相符,并不是所有的SNP位点都控制性状,且一些性状如山羊的蛋白含量,受一个主效基因αs1酪蛋白基因控制, 占性状的40%。
贝叶斯变量选择模型(Bayesian variable selection model)方法的提出,允许不同的SNP有不同的方差,给主效基因更大的权重,贝叶斯系列的方法之间的区别在于SNP效应的先验分布的定义不同。相对来说能提高准确性,但是贝叶斯方法只能对分型个体进行计算,对不分型个体无法纳入。相关研究还表明,贝叶斯回归会因为忽略较小的SNP效应导致准确性降低。在奶牛的育种计划中,产奶量的基因型取决于male,但是性状只能来自female,只能利用其女儿的表型偏差(daughter yield deviations:DYD)预测父本产奶量的性状(假表型),多步骤的方法会在基因组预测中产生偏差。

文章内容

在ssGBLUP的基础上,wssGBLUP方法被提出,在模型中拟合可解释性状遗传方差的SNP位点。本文将简单介绍wssGBLUP的方法,比较BLUP,,ssGBLUP,wssGBLUP(regular,sum,max),TABLUP, gene content method方法的准确性。
数据
两个法国山羊品系:Alpine、Saanen
1980-2010年间有产奶等表型数据的山羊共2,458,453头,系谱数量2,543,798
分型数据:50K芯片,质控后2955头,46,849个SNP位点
αs1酪蛋白基因(6号染色体,82Mb),7202头 ; A、B、C、E、F、O,6个等位基因,19种基因型。
ABLUP: pedigree
ssGBLUP:H矩阵的构建


wssGBLUP and weighted method
wssGBLUP一般步骤与ssGBLUP相同,不同在于G矩阵的构建,方式如下:
pi为在SNP第i个位点上的最小等位基因频率,Z为基因型中心化后的矩阵,D则为SNP位点的权重。SNP效应的公式为:
u为SNP效应,g为GEBV向量 。整个迭代的过程为:

目前“d”步的权重计算方式有几种,w = u^2,
w = u^2(2pi(1 −pi)accuracy > ssgblup (wang et al 2012,2014)
w = u^2 + t , accuracy > bayesB (sun et al 2011)
w = u^2(2pi(1 −pi)+ c accuracy > bayesC pi and ssGBLUP (Zhang et al 2014)
SNP- window: 20SNP为一组,取最大值或均值或之和为这20个SNP的权重

TABLUP
“Only a subset of SNPs that are more or less associated with protein content was selected to build the G matrix”
“estimated from the WssGBLUP method described previously”
Geno content method

ya为等位基因A 的拷贝数,ua为等位基因A的效应值,y为femal的蛋白含量,y?
软件
BLUPF90 family :blupf90, postgsf90,pregsf90、R(asreml package)
准确性验证
905个分型的父本,训练群体554(有女儿信息)和351(无女儿信息)两组,预测351头山羊的GEBV和DYD,与实际数据对比,皮尔森相关系数。
DYD were average performance values for the daughters corrected for environmental efects and merit of the dam, and they were weighted by efective daughter contributions
结果
αs1酪蛋白基因中出现最频繁的基因型为:Alpine:AA(male),AE(female);Saanen:EE(male),AE(female)。等位基因C不存在这两个品系中。该性状高度遗传,遗传力在0.5
wssgbup迭代两次获得准确性最高,其Manhattan plot如下图:

Te top 50 SNPs (with the biggest weights) were compared between the three analyses and were all located on chromosome 6 i.e. the multi-breed (between 71 and 86 Mb), Alpine (between 64 and 101 Mb) and Saanen analyses (between 71 and 92 Mb), and their weights ranged from 24 to 115 for multi-breed, from 23 to 45 for Alpine and from 30 to 108 for Saanen analyses. Among these SNPs, 16 were common to the three analyses and located between 78 and 82 Mb
本研究结果表明,wssgblup能进行关联分析,结果与GWAS找到的QTL位点的位置相同。

准确性



SNP方差的权重是以全基因组的回归估算出来的,可能会由于连锁不平衡导致多重共线性造成结果不稳定。本文还利用SNP window的方法,多个SNP共用一个权重,而不是一个SNP一个权重,比经典wssgblup准确性稍微有点提高,40个SNP为一组的准确性最高。
与之前的研究相比,gene content的准确性较低,作者认为是参考群体的数量太少,群体中只有3%的个体进行了αs1酪蛋白基因分型,且有40%的female不知道父母本。

当选择20000个高强度相关的SNP位点构建G矩阵进行TABLUP时,准确性与ssgblup相当。
结论
TABLUP和gene content 没有提高准确性
wssgblup可以提高准确性,且迭代两次,SNP-window在40个SNP可以使wssgblup准确性达到最大。

你可能感兴趣的:(Weighted single-step genomic BLUP)