使用GEMMA进行复杂性状全基因组关联分析(GWAS)

GEMMA(Genome-wide Efficient Mixed Model Association algorithm)是一款基于混合线性模型的GWAS分析软件(文献信息)。GEMMA相比较于其他基于混合线性模型的软件,它有如下优势:

  1. 快速:远远快于其他精确算法(EMMA和FaST-LMM)。
  2. 准确:EMMAX和GAPIT都采用固定零模型中的方差组分不变的策略来提高运算速度,这实际上就是一种近似算法,不如GEMMA准确。
  3. 方便:可直接使用plink二进制格式数据,无需进行复杂的数据格式转换。
  4. 功能全面:可进行单标记GWAS、多标记GWAS和多性状GWAS分析。

1. 软件下载及安装

1.1 下载地址: https://github.com/genetics-statistics/GEMMA/releases
选择最新的稳定版0.98.1,下载下图第一个文件:gemma-0.98.1-linux-static。该文件是汇编好的,下载后解压就可以使用

使用GEMMA进行复杂性状全基因组关联分析(GWAS)_第1张图片
捕获.PNG

1.2 安装代码如下:

gunzip gemma-0.98.1-linux-static.gz #解压
chmod +x gemma-0.98.1-linux-static #添加执行权限
./gemma-0.98.1-linux-static #运行测试

使用GEMMA进行复杂性状全基因组关联分析(GWAS)_第2张图片
捕获1.PNG

2. plink 二进制文件格式介绍

2.1 plink二进制文件分为三部分:

  • plink.bed 包含基因分型的二进制文件
  • plink.fam 包含家庭号、个体号、母亲号、母亲号、性别、表型。即plink.ped文件前6列
  • plink.bim 标记信息文件,类似于plink.map文件。

2.2 数据准备
我们使用GEMMA软件提供的测试数据进行练习。具体数据可以在GEMMA下载页面下载Source code(tar gz)文件并解压获得。

使用GEMMA进行复杂性状全基因组关联分析(GWAS)_第3张图片
测试数据.PNG

2.3 运行测试数据
运行时需要先生成kinship矩阵,在使用混合线性模型进行分析。代码如下:

#计算kinship矩阵
./gemma-0.98.1-linux-static -bfile 2000 -gk 2 -o kin  
#-bfile plink二进制文件前缀; -gk 2 生成kinship矩阵时进行scale; -o 输出文件前缀
#将kinship矩阵移动至当前目录
mv ./output/kin.sXX.txt .
#进行GWAS分析
./gemma-0.98.1-linux-static -bfile 2000 -k kin.sXX.txt -lmm 1 -o GE_GWAS
#-k 指定kinship矩阵; -lmm 1 使用wald检验计算显著性。

2.4 输出结果解读
输出结果见文件 ./output/GE_GWAS.association.txt.

使用GEMMA进行复杂性状全基因组关联分析(GWAS)_第4张图片
GWAS结果.PNG

该文件包含12列结果。具体含义如下:

  • chr SNP所在染色体号
  • rs SNP名称
  • ps SNP物理位置
  • n_miss SNP缺失个体数
  • allele1 次等位基因
  • allele0 主等位基因
  • af SNP频率
  • beta SNP效应值
  • se beta估计标准误
  • l_remle 计算该SNP效应时对应的lamda的remle估计值。
  • p_wald wald检验P值
    其中,我们最关心的三个结果是chr, ps, p_wald,我们可以借助这三个结果画曼哈顿图和QQ图。l_remle比较难理解,需要懂模型才知道它的含义,但对分析来说,不是很重要。


有这个问题的同学可以留言。

GEMMA软件源码和说明文档托管与github中:https://github.com/genetics-statistics/GEMMA

你可能感兴趣的:(使用GEMMA进行复杂性状全基因组关联分析(GWAS))