annovar对非模式生物建库注释

annovar简介

在我们做重测序,或者比较基因组学分析的时候,我们往往在call snp或者indel的时候,需要对我们的变异位点进行注释,而annovar官网提供的注释库往往是人类的居多,但是我们所研究的物种却不仅限于人类。那么annovar就不可以使用了吗?,显然不是,我们可以利用annovar进行自建库注释

流程

首先我们从ucsc上下载 gtfToGenePred :

wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/gtfToGenePred

#利用gtfToGenePred对GTF文件进行操作
gtfToGenePred  -genePredExt GTF genome_refGene.txt

其中genome_refGene.txt包括了染色体,基因以及还有位置等一些信息



其次对参考基因组fa文件进行转换:

retrieve_seq_from_fasta.pl --format refGene --seqfile genome.fasta genome_refGene.txt --out genome_refGeneMrna.fa

genome_refGeneMrna.fa:


这样就完成好了自建库,其中一定要注意库的命名,这里我使用的所有文件和产生的中间文件都放在同一目录下,并且genome_refGene.txt 和 genome_refGeneMrna.fa两个文件的前缀都为genome,这里的命名很重要

接下来就可以对我们的vcf文件进行注释:

#产生输入文件:
convert2annovar.pl -format vcf4old vcf  >vcf.annovar.input

#注释:
annotate_variation.pl -geneanno --neargene 2000 -buildver genome -dbtype refGene -outfile all.anno -exonsort vcf.annovar.input

这里我们仅对基因精选注释,并且-buildver 表示库的名称,一定要与前面库文件的前缀 genome 相对应

详细的注释如下:


参考:
用ANNOVAR自建数据库注释辣椒高通量序列
官网

你可能感兴趣的:(annovar对非模式生物建库注释)