1. 准备文件:
- ref.fa
- ref.gtf或者gff3,最好是gtf3,可将gff3转化为gtf
- sample.vcf
2. 用gff3ToGenePred与gtfToGenePred工具将gtf或gff3文件转化为reference_refGene.txt (软件来自http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/)
gtfToGenePred.dms -genePredExt ref.gtf SP_refGene.txt &
gtf:
SpoScf_00032 maker exon 12508 13665 . + . transcript_id "Spo06120"; gene_id "Spo06120";
SpoScf_00032 maker exon 14070 17062 . + . transcript_id "Spo06120"; gene_id "Spo06120";
SpoScf_00032 maker exon 17626 17899 . + . transcript_id "Spo06120"; gene_id "Spo06120";
SpoScf_00032 maker exon 17979 18066 . + . transcript_id "Spo06120"; gene_id "Spo06120";
3. 将ref.fa文件转化为SP_refGeneMrna.fa
perl retrieve_seq_from_fasta.pl --format refGene --seqfile ref.fa SP_refGene.txt Sp_refGeneMrna.fa &
4. 再将vcf文件转化为annovar格式
perl convert2annovar.pl -includeinfo -allsample -withfreq -format vcf4 sample.VCF >sample.avinput &
5. 用table_annovar.pl进行注释(可一次性完成三种类型的注释, 本次只有基于基因)
perl ../table_annovar.pl test.avinput sp/ --buildver SP --outfile myanno --protocol refGene --operation g &
将Sp_refGeneMrna.fa SP_refGene.txt放入文件夹 sp中
最终得到两个注释文件文件和一个log文件exonic_variant_function和variant_function