GWAS分析-说人话(1)什么是GWAS,都分析啥?

前言

“没有什么比知道我们自己正在做什么更重要了”

                                                                                       ——小史,20191121之感触


这个年代,谁™还有人做GWAS啊?! 但是跟着的两个导师之一是这方面的专家,我除了吐个槽,还能怎样呢?

1.什么是GWAS?

全基因组关联分析(Genome-wide association study)是指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性(SNP),从中筛选出与疾病相关的SNPs。

维基百科链接:全基因组关联分析

说人话!

这玩意就是:找出基因中哪些序列变异(SNP),与疾病相关!

核心就是关联!

基因(改变)与表型(phenotype,总之就是各种各样的看得到的现象)有没有关系!

这些各种各样的看得到的现象是什么?

没啥的,我们搞肿瘤研究的就是发不发病呗(例如会不会得肺癌),搞生物的会对绵羊的有角和无角这一对性状进行研究呗(可别小看,研究角的进化可是能发science的!我™还不知道有什么意义呢~)。

2.如何关联?

对多个个体在全基因组范围的遗传变异多态性进行检测,获得基因型,进而将基因型与可观测的性状,即表型,进行群体水平的统计学分析,根据统计量或P值筛选出最有可能影响该性状的遗传变异。

说人话!

就是统计一个数,找出与表型最有显著性意义的那些基因(位点)。

3.分析方法有哪些?

逻辑回归(表型数据为二元)

线性回归(表型数据为连续性变量)

表型数据正态分析(如果不是正态分布,需转换处理为正态分布)

说人话!

逻辑回归用于数据为二元的:如0(没病)和1(有病);

线性回归用于数据为连续性的;如林志玲身高173cm,任賢齊174cm,李治廷175cm,黄晓明176cm等,是™像幼儿园数数一样,一个一个连续变化的;

表型数据正态分析:就是啊,大自然的分布一般是钟型的正态分布的,很多统计方法都是根据正态分布作出的分析。某些数据如果不符合正态分布,那么你用正态分布的公式/方法来分析,就会出事的。

参考内容:

1.http://www.360doc.com/content/18/1222/16/52645714_803596284.shtml

2.https://anjingwd.github.io/AnJingwd.github.io/2017/08/18/GWAS-简介/

你可能感兴趣的:(GWAS分析-说人话(1)什么是GWAS,都分析啥?)