2021-05-25记录一个beagle使用过程中的坑

对816个样品的SNP的VCF进行impute,首先上beagle,遇到了上个贴子说的各种内存不足问题,然后换tassel进行impute依旧不行,中间耗时小一周。

指导选择放弃,直接用plink进行过滤SNP,获得过滤后的vcf,才能直观看到各个样品在各SNP的情况,发现某几个样品确实很多很多的SNP,突发奇想莫非是因为这几个样品导致impute工作量巨大。

所以通过plink 的mind 0.2 参数过滤到极端缺失的样品后,再次尝试beagle进行impute,竟然可以了,又快又好。

所以在impute之前要不先plink一下样品,

以后采取一下步骤:plink (样品)-beagle(impute)-plink(SNP)

你可能感兴趣的:(2021-05-25记录一个beagle使用过程中的坑)