PheWAS(全表型组关联分析)----GWAS and PheWAS(一)

1.GWAS

GWAS,全基因组关联分析,是对不同个体的全基因组遗传变异进行研究,以了解任何变异(基因)是否与某一性状(表型)有关。GWAS通常关注SNP与性状之间的关联,可以用于人,也可以用于其他生物体。
当应用到人类的时候,如果一种类型的变异在患病群体中出现频率更高,这个变异就被认为是与该疾病关联的,然后相关联的SNPs被认为是人类基因组中可能影响疾病风险的一个区域。
目前GWAS已经研究了许多人类疾病和性状,发现了成千上万的关联。对与一些罕见遗传疾病,虽然关联很弱,导致无法解释,但是它提供了对基因及通路的深入了解。

1.1Background

以人为例,任何两个人类的基因组都有数百万不同的方式。基因组中单个核苷酸中有很小的变异,也有许多大的变异,比如说删除、插入以及拷贝数的变异,这些变异都可能会对个体表型产生影响。GWAS之前,主要的方法是通过家庭遗传连锁的研究。这种方法已经被证明对于单基因疾病很有用。然而对于更普遍和复杂的疾病,遗传连锁的结果被证明是难以复制的。一个替代连锁研究的方法是遗传关联研究,即遗传变异的等位基因是否在感兴趣的表型个体中出现的频率更高。

1.2Method

GWAS研究最常见的方法是case-control的设置,它比较了两个大型群体的个体,一个是健康的control群体,另外一个是患病的case群体。每个群体中的所有个体均针对大多数常见的已知的SNP进行基因分型。对于每一个SNP,检测在case和control群体之间等位基因的频率是否显著的改变。在这些设置中,报告效应大小的基本单位是比值比。在GWAS研究中是个体拥有特定等位基因的几率和个体没有相同等位基因的几率。发现明显不同于1的比值比是GWAS研究的目标,因为这表明SNP与疾病相关。
case-control方法有许多变体。case-control的GWAS研究的一个常见替代方法是定量表型数据分析,例如身高或生物标志物浓度甚至基因表达。

1.3Limitations

虽然GWAS方法在很多已经得到成功应用,但目前的GWA仍就有很多问题。1.许多统计学上显著的遗传变异位点,仅占解释该表型遗传变异的一部分。2.植物中连锁不平衡现象制约关键SNP位点的鉴定。3.大量鉴定出来的显著SNP位点位于基因间区域,或位于内含子区域。

file

2.PheWAS

PheWAS,全表型组关联研究(又称反向GWAS),是考察全表型组范围所有表型与某一SNP之间的关联的方法。其主要是为了弥补GWAS在全基因组范围发掘基因多效性方面的不足(GWAS中一个表型在全基因组中找关联,这种可能会让你找到相关联的基因,但是可能该基因还会影响其他表型)。

2.1Background

目前PheWAS在植物等领域方面的应用不多(几乎没有),一方面是相关的PheWAS的R包不太友好,该R包主要针对的是人的疾病研究(该R包测试数据的表型为人类疾病编码,这个编码只有人中才有,需要对自己的数据做变换才能跑),另外一方面是植物的表型数据相对于人的EMR(电子医疗记录)数据还相对较少,进行全表型组扫描会存在一定的问题。但是相信随着PheWAS的向前发展,其作为GWAS的一种补充和完善,必将有很大的应用前景。
在医学上,PheWAS已经成功用来鉴定SNP与全表型组之间的关联,这主要得益于可用的EMR(电子医疗记录系统)数据的增长。这种以无偏的方式进行真正全表型组关联的能力能够最终可以成为发现新的遗传关联、深入理解疾病机制并确定是否存在多态性和变异途径,从而使人们对整个表型的多种疾病具有广泛的易感性。

2.2 PheWAS与GWAS对比

PheWAS即对一个特定的SNP在全表型组中找到与它关联的,如果数据为连续型的,进行线性回归,如果数据为离散型的,进行logistic回归(解决分类问题)。
GWAS即对一个特定表型在全基因组中找到与它关联的,进行的是单标记回归。
PheWAS中y为要研究的基因型,GWAS的y为要研究的表型,这就是为什么称为反向GWAS的原因。下图为PheWAS和GWAS的对比。

file

本文由博客一文多发平台 OpenWrite 发布!

你可能感兴趣的:(PheWAS(全表型组关联分析)----GWAS and PheWAS(一))