VCF格式文件的shell小练习

LINUX练习题

  1. 把突变记录的vcf文件区分成 INDEL和SNP条目
  2. 统计INDEL和SNP条目的各自的平均测序深度
  3. 把INDEL条目再区分成insertion和deletion情况
  4. 统计SNP条目的突变组合分布频率
  5. 找到基因型不是 1/1 的条目,个数
  6. 筛选测序深度大于20的条目
  7. 筛选变异位点质量值大于30的条目
  8. 组合筛选变异位点质量值大于30并且深度大于20的条目
  9. 理解DP4=4,7,11,18 这样的字段,就是 Number of high-quality ref-forward , ref-reverse, alt-forward and alt-reverse bases 计算每个变异位点的 AF
  10. 在前面步骤的bam文件里面找到这个vcf文件的某一个突变位点的测序深度表明的那些reads,并且在IGV里面可视化bam和vcf定位到该变异位点。

第一步查看文件

  1. 把突变记录的vcf文件区分成 INDEL和SNP条目
  2. 统计INDEL和SNP条目的各自的平均测序深度
cat ABC.raw.vcf |grep -v '##' |head -50
# DP
grep -v '#' ABC.raw.vcf |cut -f 8|cut -d ';' -f 3|head -10
grep -v '#' ABC.raw.vcf |cut -f 8|cut -d ';' -f 6|head -10
# QUAL
grep -v '#' ABC.raw.vcf |cut -f 8|cut -d ';' -f 12|head -10
image.png

第一题,第二题

vcftools --vcf ABC.raw.vcf --remove-indels --recode --recode-INFO-all --out SNPs_only
vcftools --vcf SNPs_only.recode.vcf --depth  -c 

vcftools --vcf ABC.raw.vcf --keep-only-indels --recode --recode-INFO-all --out indel_only
vcftools --vcf indel_only.recode.vcf --depth  -c 
image.png

你可能感兴趣的:(VCF格式文件的shell小练习)