Variant Effect Predictor: Ensembl VEP的安装、配置和使用

软件说明

Ensembl VEP是一款突变注释文件,但是相关的配置比较困难。这次我们使用conda进行安装,可以跳过繁琐的环境配置过程。
http://asia.ensembl.org/info/docs/tools/vep/script/vep_download.html

通过conda安装VEP

这里我们使用conda安装VEP软件,具体的conda的用法可以参考我的往期的conda的用法说明(https://www.jianshu.com/p/e82a8d799b13)。

  • 设置新的conda环境,VEP依赖的perl语言环境复杂,新建一个新的conda环境,并激活环境
conda create -n vep
conda activate vep
  • 安装VEP,在conda中搜索ensembl-vep,并选择合适的版本安装
conda search ensembl-vep
conda install ensembl-vep

配置VEP的程序

安装完成后,还需要配置相关的文件。其中默认的VEP的文件主要存储在 ~/.vep的目录下。这里我们配置GRCh37的文件

  • 配置缓冲文件(caches: https://asia.ensembl.org/info/docs/tools/vep/script/vep_cache.html)。VEP推荐下载缓冲文件进行注释。
    -- Indexed cache (ftp://ftp.ensembl.org/pub/release-101/variation/indexed_vep_cache/)
cd $HOME/.vep
wget -c  ftp://ftp.ensembl.org/pub/release-101/variation/indexed_vep_cache/homo_sapiens_vep_101_GRCh37.tar.gz
tar xzf homo_sapiens_vep_101_GRCh37.tar.gz

--Non-indexed cache (ftp://ftp.ensembl.org/pub/release-101/variation/vep/),

cd $HOME/.vep
ftp://ftp.ensembl.org/pub/release-101/variation/vep/homo_sapiens_refseq_vep_101_GRCh37.tar.gz
tar xzf homo_sapiens_vep_101_GRCh37.tar.gz

注意:When using Ensembl Genomes caches, you should use the --cache_version option to specify the relevant Ensembl Genomes version number as these differ from the concurrent Ensembl/VEP version numbers。 在后面的运行中需要指定cache的下载版本,本实例文件的版本是101。

  • 配置基因组序列文件。
    Suitable reference FASTA files are available to download from the Ensembl FTP server. See the Downloads page for details.
cd $HOME/.vep
mkdir homo_sapiens
mkdir 101_GRCh37
cd homo_sapiens/101_GRCh37
wget -c ftp://ftp.ensembl.org/pub/grch37/current/fasta/homo_sapiens/dna/Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz
gzip -d Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz
bgzip Homo_sapiens.GRCh37.dna.primary_assembly.fa

实例运行

VEP涉及的参数很多,可以参考一下的网站 https://asia.ensembl.org/info/docs/tools/vep/script/vep_options.html。

  • 下载vep的安装包
git clone https://github.com/Ensembl/ensembl-vep
cd ensembl-vep
  • 运行其中的实例文件
cd examples

vep -i homo_sapiens_GRCh37.vcf --fork 4 -o homo_sapiens_GRCh37.out.vcf --assembly GRCh37 --cache --cache_version 101 --dir ~/.vep/ --offline --refseq --fasta~/.vep/homo_sapiens/101_GRCh37/Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz  --force_overwrite

  • 查看结果文件。当看到以下2个文件时,说明运行成功。
结果文件

参考网址:

  1. VEP的用法 https://asia.ensembl.org/info/docs/tools/vep/script/vep_options.html

码子不易,欢迎大家点赞留言。

你可能感兴趣的:(Variant Effect Predictor: Ensembl VEP的安装、配置和使用)