Genome-wide Complex Trait Analysis(GCTA)

GCTA(全基因组复杂性状分析)工具开发目的是针对复杂性状的全基因组关联分析,评估SNP解释的表型方差所占的比例。
(官网:http://cnsgenomics.com/software/gcta/)。
目前GCTA工具可实现以下功能:

1 评估全基因组SNP的亲缘关系(遗传关系)
2 评估全基因组SNP的近交系数
3 评估所有的常染色体SNP对于变异的解释度(遗传度)
4 评估遗传方差与X-染色体的关联
5 检测遗传方差对X-染色体的剂量补偿效应
6 预测单个个体和单个SNP的全基因组加性遗传效应
7 估计包含LD结构的目标SNP
8 根据观察到的基因型数据模拟GWAS数据
9 转化Illumina原始基因型数据为PLINK格式
10 在没有个体层面的基因型数据下,条件与联合分析GWAS的概括统计量
11 使用SNP数据估计两个特性(疾病)的遗传相关性
12 混合线性模型关联分析

GCTA: a tool for genome-wide complex trait analysis
2011 被引量


下载、安装软件

先从下载开始吧,进入官网,找到download,如图



找到适合自己的版本下载吧。解压完是这样的。



接下来就开始测试示例数据喽!

根据所有的常染色体snp计算遗传关系矩阵(GRM)

所需要的文件为上图中的bim,fam,bed文件

./gcta64 --bfile test --autosome --maf 0.01 --make-grm --out test --thread-num 10

结果生成:



如果要是数据量比较大,可以分开染色体计算,代码如下:

./gcta64 --bfile test --chr 1 --maf 0.01 --make-grm --out test_chr1 --thread-num 10
./gcta64 --bfile test --chr 2 --maf 0.01 --make-grm --out test_chr2 --thread-num 10
...
./gcta64 --bfile test --chr 22 --maf 0.01 --make-grm --out test_chr22 --thread-num 10

就会生成这样的文件:


image.png

然后再把染色体merge到一起

./gcta64 --mgrm grm_chrs.txt --make-grm --out test

去掉隐性相关的代码:

./gcta64 --grm test --grm-cutoff 0.025 --make-grm --out test_rm025

cutoff这个值可以根据自己的数据调整


计算遗传度

--reml
输入文件:上一步生成的文件、表型文件
表型文件后缀为.txt格式,不需要表头,第一列为family ID, 第二列为individual ID 第三列为 phenotypes ,类似于PLINK的表型文件格式

./gcta64 --grm test --pheno test.phen --reml --out test --thread-num 10

生成结果文件:



这一步计算时也可以回归协变量,自己准备协变量文件,示例为PCA前10个主成分:

./gcta64 --grm test --pheno test.phen --reml --qcovar test_10PCs.txt --out test --thread-num 10

计算遗传度也可以一条染色体一条染色体计算,代码如下:

./gcta64 --grm test_chr1 --pheno test.phen --reml --out test_chr1 --thread-num 10
./gcta64 --grm test_chr2 --pheno test.phen --reml --out test_chr2 --thread-num 10
......
./gcta64 --grm test_chr22 --pheno test.phen --reml --out test_chr22 --thread-num 10

就会生成这样的文件:



或者是把上一步merger之后的一起跑:

./gcta64 --mgrm grm_chrs.txt --pheno test.phen --reml --out test_all_chrs --thread-num 10

test.hsp文件内容如下:



V(G)/V(P)就是我们要的遗传度啦,为0.022347,遗传度比较低啊,p值为1.3948e-03。


计算两个形状之间的遗传相关性

--reml-bivar
准备表型文件,后缀为.txt格式,不需要表头,第一列为family ID, 第二列为individual ID 第三列和第四列为 phenotypes,类似于PLINK的表型文件格式。

代码:

./gcta64 --reml-bivar --reml-bivar-nocove --grm test --pheno pheno.txt --reml-bivar-lrt-rg 0 --out test

Source Variance SE
V(G)_tr1 0.479647 0.179078 #trait 1 的遗传方差和标准误
V(G)_tr2 0.286330 0.181329 #trait 2 的遗传方差和标准误
C(G)_tr12 0.230828 0.147958 #trait 1 和 2 之间的遗传协方差和标准误 V(e)_tr1 0.524264 0.176650 #trait 1 的剩余方差和标准误
V(e)_tr2 0.734654 0.181146 #trait 2 的剩余方差和标准误
C(e)_tr12 0.404298 0.146863 #trait 1 和 2 的剩余协方差和标准误
Vp_tr1 1.003911 0.033202
Vp_tr2 1.020984 0.033800
V(G)/Vp_tr1 0.477779 0.176457
V(G)/Vp_tr2 0.280445 0.176928
rG 0.622864 0.217458 # 遗传相关性和标准误
n 3669 # 样本量

其中,rG即为我们想要的遗传相关性,0.622864 和 0.217458分别代表两个性状/表型间的遗传相关性(genetic correlation)和标准误(Stand error)

————————————————————————
一般遗传度LDSC也可以算,但两者的不同是LDSC用summary数据计算,而GCTA用基因型数据算。貌似准点吧。

其他推文:
1.https://mp.weixin.qq.com/s/z4TAoNZjmDSKS6mKY6FgaQ
2.https://www.cnblogs.com/chenwenyan/p/6219749.html

你可能感兴趣的:(Genome-wide Complex Trait Analysis(GCTA))