GWAS后续分析:多基因风险评分(Polygenic Risk Score)的计算

一、什么是多基因风险评分

传统的GWAS研究只计算单个SNP位点与表型之间的关联性,再用Bonferroni校正,通过给定的阈值,筛选出显著的SNP位点。

这样会存在两个问题,第一、Bonferroni校正非常严格,很多对表型也有贡献的位点会因为达不到阈值而被过滤掉。第二、单个位点对表型的解释度是很低的,尤其是对于高血压这种多基因控制的表型,用一个个单独的位点解释高血压患病风险,就显得很单薄。

因此,开发一个能让我们直观的感受,患某种疾病的风险多高的工具,显然是非常有必要的。

​为了更好理解多基因风险得分(PRS)的概念,我画了一个图,假如翠花的多基因风险评分处于第二个柱形图那里,那么我们就会认为翠花得某种疾病的风险比普通人要低。

二、多基因风险得分的公式

多基因风险得分的公式如下:

PT表示P值的阈值;

i表示符合该阈值下的SNP的数量,i = 1, 2, ..., m;

βi表示SNP的效应值,在GWAS当中,如果是线性表型,该值为β,如果是二元表型,该值为OR;

Gi,j 表示SNP的基因型,分别用{0,1,2}显示;

三、怎么计算多基因风险评分

计算PRS的主流软件有PRSice,截止目前为止,引用率有366次。

下面详细讲讲如何应用PRSice计算多基因风险得分。

1、PRSice安装

进入下载链接。选择所需的系统,以下安装以Linux系统为例。

wget https://github.com/choishingwan/PRSice/releases/download/2.1.11/PRSice_linux.zip

2、解压PRSice

unzip PRSice_linux.zip

解压完以后,出现以下几个测试文件:

3、测试是否安装成功

输入命令

./PRSice_linux

如果安装成功,则会出现如下的界面:

4、使用PRSice计算多基因风险得分(PRS)

对于二元表型,使用以下代码

Rscript PRSice.R --dir . --prsice ./PRSice_linux --base TOY_BASE_GWAS.assoc --target TOY_TARGET_DATA --thread 1 --stat OR --binary-target T

对于连续型变量的表型,使用以下代码

Rscript PRSice.R --dir . --prsice ./PRSice_linux --base TOY_BASE_GWAS.assoc --target TOY_TARGET_DATA --thread 1 --stat BETA --beta --binary-target FF

四、生成文件结果解读

跑完上面的命令后会生成以下文件:

PRSice.best,PRSice_BARPLOT.png,PRSice_HIGH-RES_PLOT.png,PRSice.log ,PRSice.prsice,PRSice.summary

下面一个个的讲解这些文件包含哪些重要的信息。

PRSice.prsice文件

PRSice.prsice的文件格式如下:

PRSice.prsice文件包含:在给定不同阈值的P值以后,符合要求的SNP数量(Num_SNP),SNP的解释度(R2),回归系数

PRSice.best文件

PRSice.best文件格式如下:

文件包含FID,IID,是否回归,PRS值。这个文件计算的是每个个体最优的PRS值。

PRSice.summary文件

PRSice.summary文件内容如下:

包含表型,P的阈值,PRS的解释方差,所有变量的解释方差,协变量的解释方差,回归系数,P值,该阈值下的SNP数量。 这个文件给出的是该表型下最优的模型。

PRSice_BARPLOT.png图片

PRSice柱状图显示的是不同P值阈值(横轴)下的多基因风险得分(纵轴),柱状图最高的点表示模型最优,如该图显示的是P值阈值为0.4463时,模型最优,该表型的多基因风险得分为0.052,P值为4.7*10-18

PRSice_HIGH-RES_PLOT.png图片

这张图显示的是,在该模型下,最佳的P值阈值为绿色最高点处,此时P值的阈值为0.4463

参考文献:

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3605113/

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1987352/

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3912837/

你可能感兴趣的:(GWAS后续分析:多基因风险评分(Polygenic Risk Score)的计算)