WES2Neoantigen Pipeline

Part 5 VEP

简介

VEP(Variant Effect Predictor)是ENSEMBL制作的一个专门对突变数据添加注释信息的工具,但它是基于perl语言的,所以会有模块的依赖性(实际上我按照官网教程来安装VEP一直没有成功,一直显示缺少需要的模块,这里我推荐用conda安装,完全没有权限问题困扰,唯一的瑕疵就是版本更新不及时,大概是官网更新几个月之后才会有最新版)。 跟snpEFF一样,也是对遗传变异信息提供更具体的注释,而不仅仅是基于位点区域和基因。

下载安装这里就不说了,用conda安装直接搜索bioconda找到VEP包,里面给出了安装命令。

安装完软件,有一个必不可少的就是注释所需要的数据库了,VEP支持非常多的物种的注释,这里我用人类的注释来稍作解释。在这个ftp里ftp://ftp.ensembl.org/pub/选择安装好的VEP对应的版本,这里用V95为例,ftp://ftp.ensembl.org/pub/release-95/variation/VEP/这个ftp就包含了所有可用的注释文件。

这几个就是对应的人类相关的(GRCH37->hg19, GRCH38->hg38),一般选择_vep_这类。下载完解压后随便放一个地方就行,因为后面使用的时候会指定文件目录。

输入数据

BED: a simple tab-delimited format containing 3-12 columns of data. The first 3 columns contain the coordinates of the feature. If available, the VEP will use the 4th column of the file as the identifier of the feature.

GFF: a format for describing genes and other features. If available, the VEP will use the "ID" field as the identifier of this feature.

GTF: treated in an identical manner to GFF.

VCF: a format used to describe genomic variants. The VEP will use the 3rd column of the file as the identifier.

bigWig: a format for storage of dense continuous data. The VEP uses the value for the given position as the "identifier". Note that bigWig files contain their own indices, and do not need to be indexed by tabix.

以上数据均可用于VEP的输入,不过我只测试了VCF,其他文件没有测试。

主要参数

--input_file / -i

    输入文件名,如果不指定,VEP将会在尝试从STDIN读取数据

--output_file / -o

    输出文件名,可以标注为STDOUT,这将会强制打开静默模式,输出到默认输出地址,默认文件名为variant_effect_output.txt

--quiet / -q

  不输出任何警告信息

--dir_cache

指定cache文件目录,默认是$HOME/.vep/

--dir_plugins

指定插件所在目录,默认是$HOME/.vep/

--plugin

    指定使用哪个插件

--terms

输出结果的类型,默认为SO

--symbol

    在结果中加入gene symbol

--tsl

在输出结果中添加添加或转录本水平信息

--hgvs

在输出中添加基于Ensembl stable identifiers的HGVS命名法

--fasta

参考基因组文件

……

运行命令

可以直接进入安装目录来运行,

/pub5/xiaoyun/BioSoftware/Conda/envs/VEP_2/share/ensembl-vep-95.3-0/vep --input_file ***.vcf.gz --output_file ***.vcf --format vcf --vcf --symbol --terms SO --tsl --hgvs –fasta reference.hg19.fa –dir_cache /pub5/xiaoyun/BioSoftware/Conda/envs/VEP_2/share/ensembl-vep-95.3-0/ –plugin Downstream --plugin Wildtype

这条是专门用于pvacseq流程的命令,后面需要加两个插件

你可能感兴趣的:(WES2Neoantigen Pipeline)