用annovar对vcf(SNP&INDEL)文件进行注释

将原始fq文件通过FastQC-align-samtools||GATK等流程最终得到vcf文件,也就是记录某些位点变异的文本文件。但只是通过看vcf文件我们是不知道些变异位点到底是位于基因的exon、intron、UTR等的哪些区域的。所以我们需要对vcf文件也就是这些变异位点进行注释。最常用的vcf注释软件有annovar和snpEff。

本文将介绍如何用annovar软件对vcf文件进行注释。

  1. 准备的输入文件
    • reference.fa
    • reference.gtf或gff3文件
    • sample.vcf
  2. 用gff3ToGenePred与gtfToGenePred工具将gtf或gff3文件转化为reference_refGene.txt
gtfToGenePred -genePredExt reference.gtf reference_refGene.txt
  1. 将reference.fa文件转化为reference_refGeneMrna.fa
perl retrieve_seq_from_fasta.pl --format refGene --seqfile reference.fa all_refGene.txt --out reference_refGeneMrna.fa
  1. 再将vcf文件转化为annovar格式
perl ~/biosoft/annovar/convert2annovar.pl -format vcf4 sample.vcf > sample.annovar
vcf2annovar
  1. 用table_annovar.pl进行注释(可一次性完成三种类型的注释)
perl ~/biosoft/annovar/annotate_variation.pl -buildver reference -geneanno -outfile sample.anno sample.annovar ~/biosoft/annovar/referencedb/

最终得到两个注释文件文件和一个log文件exonic_variant_function和variant_function


exonic_variant_function
variant_function

参考:https://zhengzexin.com/2016/04/28/annovar-zhu-shi-ruan-jian/

你可能感兴趣的:(用annovar对vcf(SNP&INDEL)文件进行注释)