全外显子组数据分析笔记(五):变异注释

我用的是ANNOVAR。

如何下载

搜索ANNOVAR Documentation,进入主页。

全外显子组数据分析笔记(五):变异注释_第1张图片

点击here之后会出现注册界面。
全外显子组数据分析笔记(五):变异注释_第2张图片

完成注册留下邮箱之后,就能收到附有下载链接的邮件了,需要等一两天。
http://www.openbioinformatics.org/annovar/download/0wgxR2rIVP/annovar.latest.tar.gz,这是我收到的链接,下载解压出来就能看到这些了

全外显子组数据分析笔记(五):变异注释_第3张图片

简单介绍

Annovar可以实现三种不同的注释方法,Gene-based Annotation(基于基因的注释)、Region-based Annotation(基于区域的注释)、Filter-based Annotation(基于筛选的注释)

  • 基于基因的注释:确定SNP或CNV是否导致蛋白质编码变化和确定受影响的氨基酸。可灵活使用RefSeq genes, UCSC genes, ENSEMBL genes, GENCODE genes或许多其他基因定义系统。
  • 基于区域的注释:识别特定基因组区域的变异,例如,44个物种中的保守区域,预测的转录因子结合位点, segmental duplication regions, GWAS hits, ChIP-Seq peaks, RNA-Seq peaks等等许多其他的在基因组区间的注释;
  • 基于过滤的注释:鉴定特定数据库中记录的变异,例如,该变异位点是否在dbSNP中有报道,在千人基因组计划中的等位基因频率如何等等。

使用

1. 配置数据库

http://annovar.openbioinformatics.org/en/latest/user-guide/download/#additional-databases官网里面提供了该软件支持的数据库列表(都是人的数据库),有很多,并且经常更新。

全外显子组数据分析笔记(五):变异注释_第4张图片

也可以在终端下查看:

mkdir humandb_hg38/
annotate_variation.pl -downdb -webfrom annovar avdblist humandb_hg38/ -buildver hg38

-buildver        表示version,主要是hg19和hg38;
-downdb          下载数据库的指令;
-webfrom annovar 从annovar提供的镜像下载,不加此参数将寻找数据库本身的源;
humandb_hg38/    下载到的文件都存放于humandb_hg38/目录下

查看列表
lsx humandb_hg38/hg38_avdblist.txt
全外显子组数据分析笔记(五):变异注释_第5张图片
数据库文件、更新时间、文件大小

annotate_variation.pl -buildver hg38 -downdb -webfrom annovar refGene humandb_hg38/

注意这里的数据库名称,比如refGene,都是严格按照上面红框里面的名称来的。将需要的数据库按照这条命令都下载好就行了。

全外显子组数据分析笔记(五):变异注释_第6张图片
2. vcf to avinput

将VCF文件转化为annovar可以识别的格式

perl ~/annovar/annovar/convert2annovar.pl -format vcf4 snp.vcf > snp.avinput
perl ~/annovar/annovar/convert2annovar.pl -format vcf4 indel.vcf > indel.avinput

简单看一下二者的区别

全外显子组数据分析笔记(五):变异注释_第7张图片

前五列分别代表:染色体, 起始位点, 终止位点, 参考碱基和观测到的碱基;
第六列:纯合变异(Homogeneous),杂合变异(Heterogeneous);
第七列:取自vcf文件中的QUAL列,表示该位点存在突变的可能性;
第八列:取自vcf文件中INFO列的DP信息,表示该位点的覆盖深度。
ANNOVAR主要依靠前五列信息对数据库进行比对,进而注释变异。

3. 进行注释

table_annovar.pl可以一次完成三种类型的注释,需要输入avinput文件和前面配置好的数据库文件。如果是一次完成一种类型的注释,则选用annotate_variation.pl。

perl ~/annovar/annovar/table_annovar.pl ./snp.avinput \
~/annovar/annovar/humandb_hg38/ -buildver hg38 \
--protocol avsnp150,cosmic70,clinvar_20180603,dbscsnv11,gnomad_exome,esp6500siv2_all,exac03,ensGene,refGene,knownGene \
-operation f,f,f,f,f,f,f,g,g,g \
--nastring "." \
--remove \
--outfile ./snp.annovar

perl ~/annovar/annovar/table_annovar.pl ./indel.avinput \
~/annovar/annovar/humandb_hg38/ -buildver hg38 \
--protocol clinvar_20180603,exac03,ensGene,refGene,knownGene \
-operation f,f,g,g,g \
--nastring "." \
--remove \
--outfile ./indel.annovar

--protocol        逗号分隔的字符串,用来指定数据库;
--operation       逗号分隔的字符串,用来指定注释方法,r基于区域g基于基因f基于过滤;
--nastring "."    当有缺失值时,用.填充;
--remove          移除所有临时文件.

结束之后会得到这两个文件:snp.annovar.hg38_multianno.txt,indel.annovar.hg38_multianno.txt。文件名前面的snp/indel是依照输入文件snp.avinput和indel.avinput来定的,后面的annovar.hg38_multianno.txt是程序自己加的。


reference

ANNOVAR 注释软件: https://blog.csdn.net/herokoking/article/details/78790688

你可能感兴趣的:(全外显子组数据分析笔记(五):变异注释)