我是哈哈哈

正常吧,需要学的东西就好多呀,搞了一天bowtie2可能还没比对结束.然后就试着看了一下vcf文件,这tm是个陨石坑呀,就单单注释的snp文件都已经让人上头啦,还过不过了,不过了。

检测到的snp有除了有单个的 变异,比如A变为T,A还可以变为C,G, 快看A又会变啦,A又变成C,*了。 看vcf文件说的是“The `*' allele is reserved to indicate that the allele is missing due to a upstream deletion. If there are no alternative alleles, then the missing value should be used.”  猜一下这几句话的意思可能是由于上游删除,而显示这个位点为* 。不仅牛顿哭晕在厕所,我也哭晕在自习室啦。 还是不太明白 upstream deletion 什么意思。搁置

因为突变的类型不一,是要分类统计还是,过滤掉包含两种碱基以及*的变异类型,有待分析。不过突变为2种碱基的变异类型,它的GT只有一个,要么纯合要么杂合,但是文章里写纯合SNP 数量 与杂合SNP数量之和为 总的SNP数量。这就语无伦次啦,那就是,突变为2种类型的SNP算一个SNP位点。但是这又与之后snpeff软件的注释后统计文件有差别,统计文件计算的snp数量的方法是,在vcf 文件里,计算突变为单个SNP的行数为a,有b行显示突变为2个等位基因比如 A突变为 C,G ,有 c行突变额C,*。 snpeff的统计文件里计算的snp总数量x=a + 2b + c 。突变为C*的这种情况是有一个碱基和一个* 的组合。

所以现在我连SNP的个数都还没搞定,哪个神仙来给我开个光呀,我会天天拜他的。

是要过滤掉突变2个碱基或含有*的位点么,目前还不知道怎么处理,先把提取的SNP vcf文件过滤掉突变为2个或有*的位点把试试。

你可能感兴趣的:(我是哈哈哈)