全基因组关联分析(GWAS)-基本分析内容

1、GWAS 流程

image.png

数据质控
• 1)按分型百分比条件过滤,多数文章剔除缺失率在20%以上的位点,样本量较大的群体中,可以将缺失率小于50%的位点都保留;
• 2)按等位基因频率过滤,通常去除第二等位基因频率小于5%的位点,样本量较大的群体中,可以降低到1%;
• 3)多等位位点的过滤(适应软件);
• 4)哈迪温伯格平衡过滤,一般无法使用较为复杂的统计模型的情况使用,如人类的 Case/Control GWAS 中一般将不符合哈迪温伯格平衡的位点过滤掉,植物GWAS中一般不过滤;
• 5)极端表型的去除。
LD 衰减分析
• 确定使用的群体的LD衰减距离,判断使用的标记代表性
• 最低饱和标记量 = 基因组大小/LD衰减距离
• 越密越好:检测到功能位点的概率增大;处于同一个Block的位点相互验证
(Manhattan plot 柱状峰值)
image.png

群体结构与亲缘关系的评估
• 群体结构和亲缘关系是导致关联结果出现假阳性的两个主要因素
• 对群体结构和亲缘关系进行评估以确定使用的统计模型和获得相应的矩阵
image.png

群体结构对GWAS结果的影响
image.png

基因型与群体结构关联
image.png

群体结构评估的内容
image.png

亲缘关系的评估内容
image.png

样本清除
• 根据群体结构和亲缘关系的评估结果对可能影响结果的样本进行去除
• 1)遗传上与绝大多少样品差异极大样品应当剔除;
• 2)亲缘关系非常近的两个材料可以只保留一个。
关联分析
• 选择正确的统计方法进行关联分析
• 1)小标记量候选基因关联分析:可以选择比较简单的t-test或者ANOVA;
• 2)Case/Control-质量性状:卡平方检验,OR检验,逻辑回归,也可以视为数
量性状使用较为复杂的线性模型;
• 3)数量性状:根据群体结构评估的情况,选用相应的模型,但在实际操作中一
般使用多种模型(GLM/MLM/EMMAX/FaST-LMM)同时分析,根据结果进
行取舍
GLM
image.png

MLM
image.png

关联分析模型与软件
image.png

选择: GLM/MLM/CMLM为基础( TASSEL/GAPIT) , 与EMMAx、 Fast-LMM相互比较, 其他作为补充,当性状与群体结构相关时, 可以考虑使用FarmCPU
显著性阈值确定
image.png

2、结果解读

曼哈顿图(Manhattan plot)
分位点-分位点图(Quantile-Quantile plot)

image.png

可喜的结果
image.png

遗憾的结果
image.png

可能原因:性状考察不准确;性状受环境影响大;该性状由多个小效应位点控制,可增加样本量提高检测效力(Power);模型的检测效力问题;标记密度不够;性状的变异是由表观修饰引起的,与基因型无关
挽救方法:提供准确的表型数据进行关联分析;多年多点重复;增加样本量;增加标记量;更换模型;忽略阈值,选择有明显的峰值区域进行验证
问题结果
image.png

后续的生物信息学分析
• 获得显著位点后,从生物信息学的角度还可以进行如下分析:
• 1)对显著位点附近进行LD Block分析,确定候选区间的范围;
• 2)对候选区间内的基因进功能注释(包括nr,GO,KEGG等);
• 3)显著位点是否位于编码区,是否引起编码氨基酸的改变;
• 4)同源分析,结合其他物种对应的同源基因的功能猜测候选基因的功能
后续实验验证
材料:举例-381份粳稻品种(热带和温带品种)
1、关于水稻谷粒大小的性状,GWAS定位到7号染色体,SNP峰值所在地方注释到11个基因;
2、对11个基因分别在稻穗、叶片和根系中做RT-PCR,只有第9个基因OsSPL13在稻穗中表达有差异;
3、OsSPL13基因蛋白表达的进一步验证;
4、分析OsSPL13基因在水稻大粒和小粒之间的序列差异,包括SNP位点和小的indel;
5、通过转基因找到影响OsSPL13基因表达相关的相关区域(5’UTR中的一个串联重复序列);
6、通过RNA干扰的方法将大粒品种GP579和小粒品种Dongjing中OsSPL13的表达量下调后会使水稻籽粒的长度和粒重都显著降低;
7、筛选到1个Dongjing来源的glw7突变体,粒长和粒重比野生型均明显降低;
8、通过chip-seq进行OsSPL13调节下游基因的验证(结果未示)SRS5和DEP1。

你可能感兴趣的:(全基因组关联分析(GWAS)-基本分析内容)