之前给大家大致介绍了GWAS在临床生信分析中的概况,包括一些基本概念,原理和注意事项(出门左手边—>临床生物信息学中的GWAS分析),这次具体讲讲GWAS基本分析内容及结果解读(这篇也是我在百迈客云课堂的个人学习笔记,有兴趣学习的可以去购买课程百迈客GWAS生物信息培训课程)
另外参考文献及配图来自
Qiu X, Pang Y, Yuan Z, Xing D, Xu J, Dingkuhn M, et al. (2015) Genome-Wide Association Study of Grain Appearance and Milling Quality in a Worldwide Collection of Indica Rice Germplasm. PLoS ONE 10(12): e0145577. https://doi.org/10.1371/journal.pone.0145577
GWAS基本分析内容
一、基因型数据质控
1)按分型百分比过滤
一般剔除缺失率在20%以上的位点,如果数据量比较大可以放宽到50%
2)按等位基因频率过滤
去除第二等位基因频率小于5%的位点,如果数据量比较大可以放宽到1%
3)多等位位点的过滤
根据软件的需要,有些软件不支持多等位位点
4)哈迪温伯格平衡过滤
人类case/control中一般将不符合哈迪温伯格平衡的位点过滤掉,动植物不使用该过滤
5)极端表型的去除
二、LD衰减分析(选做)
最低饱和标记量=基因组大小/LD衰减距离
密度越大越好:检测到功能位点的概率增大;处于同一block的位点相互验证
可以根据LD衰减距离来决定候选基因上下游的范围
三、群体结构和亲缘关系
1)目的:对群体结构和亲缘关系进行评估以确定使用的统计模型和获得相应的矩阵
2)评估内容(遗传上差异过大应剔除,相似性高的保留其一)
群体结构:构建系统发育树(必备)
同一物种内序列差异不大构建NJ树(mega),序列差异较大,不同种构建ML树(RAxML),贝叶斯树(ExaBayes)
model-base的群体结构分析
主成分分析
亲缘关系:相似性系数热图、遗传距离
3)群体结构和亲缘关系是导致关联结果出现假阳性的两个主要因素(课程里谢坤大牛用实例说明了群体结构和亲缘关系的选择对结果的巨大影响,比如玉米Dwarf8基因 Lessons from Dwarf8 on the Strengths and Weaknesses of Structured Association Mapping)
四、关联分析
1)选择正确的统计方法:
小标记量:简单的t-test或ANOVA
case/control质量性状:卡方检验, OR检验,逻辑回归
数量性状:一般使用多种模型(GLM/MLM/EMMAX/fast-LMM)同时分析
2)确定显著性阈值
Bonferroni correction
3)结果解读
可视化:曼哈顿图
分位点图(随机预测出的P和实际算出来P的比较,是否异常显著)
4)若结果不显著:
可能原因及解决办法:
性状考察不准确——提供准确表型
性状受环境影响大——多年多点重复
性状由多个小效应位点控制——增加样本量
模型检测效力power不够——更换合适的模型
标记密度不够——更加标记量
实在不行就忽略阈值,选择有明显的峰值区域进行验证
五、后续生信分析
获得显著位点后:
1)进行LD block分析,确定候选区间的范围
2)对候选区间内的基因做功能注释(nr,GO,KEGG等)
3)显著位点是否位于编码区,是否是非同义突变
4)同源分析,结合其他物种对应的同源基因的功能来猜测候选基因的功能
六、实验验证
RT-PCR、蛋白表达、转基因功能验证、RNA干扰
高分文章实例:OsSPL13 controls grain size in cultivated rice