2021-06-30 一些概念的记录

最小等位基因频率和为什么要过滤

最小等位基因频率怎么计算?比如一个位点有AA或者AT或者TT,那么就可以计算A的基因频率和T的基因频率,qA + qT = 1,这里谁比较小,谁就是最小等位基因频率,比如qA = 0.3, qT = 0.7, 那么这个位点的MAF为0.3. 之所以用这个过滤标准,是因为MAF如果非常小,比如低于0.02,那么意味着大部分位点都是相同的基因型,这些位点贡献的信息非常少,增加假阳性。更有甚者MAF为0,那就是所有位点只有一种基因型,这些位点没有贡献信息,放在计算中增加计算量,没有意义,所以要根据MAF进行过滤。

正常的来说,如果做MAF的图,左边高,右边低的形状

关于亲缘关系矩阵

对于pair-wise的矩阵,理论上是1/n,则当n无穷大的时候,个体见的关系等于0,所以一般集中在0附近

有很多会造成这样的误差
比如测序 抽样的误差

关于SNP的过滤问题,网上有个说法还不错

一般要看后期是否做关联分析(GWAS);如果只是单纯研究群体结构建议不过滤,因为过滤掉低频位点可能会改变某些样本之间的关系;如果需要和表型联系其来做关联分析,那么建议过滤,因为在后期分析中低频位点是不在考虑范围内的,需要保持前后一致。

所以其实做群体遗传学分析,并不是单纯跑跑软件可以解决问题,需要对原理,数据结构有了解才行。

你可能感兴趣的:(2021-06-30 一些概念的记录)