vep使用初探

VEP(Variant Effect Predictor)官网教程:https://grch37.ensembl.org/info/docs/tools/vep/script/vep_tutorial.html

一、安装

官网教程推荐用git安装

git clone https://github.com/Ensembl/ensembl-vep
cd ensembl-vep
git pull
git checkout release/107 #可以改成你需要的版本号
perl INSTALL.pl

实际上,使用conda安装vep是最快的 (最新的版本号是107, 个人需要所以安装100版本)
conda install -c bioconda ensembl-vep=100
注意:conda安装过程只安装了依赖的包和程序代码,数据库还需自己下载

下载注释数据库

推荐使用相同版本的Cache:
Cache: a downloadable file containing all transcript models, regulatory features and variant data for a species
方法一:使用vep命令
vep_install -a cf -s homo_sapiens -y GRCh37 -c /your_vepDB_dir/
方法二:使用wget从vep的FTP下载
ftp://ftp.ensembl.org/pub/release-100/variation/indexed_vep_cache/homo_sapiens_vep_100_GRCh37.tar.gz
解压下载的tar.gz文件
tar -zxvf homo_sapiens_vep_100_GRCh37.tar.gz

测试:运行vep

./vep -i examples/homo_sapiens_GRCh38.vcf --cache

二、参数说明

必需参数

--input_file / -i 输入文件
--output_file / -o 指定输出文件名称(默认为"variant_effect_output.txt" )
--cache 使用cache数据库进行注释

Cache相关参数

--dir_cache 下载的cache文件所在目录
--cache_version 指定cache版本
--offline 使用本地运行模式

在用参数

--fasta 指明所用的参考基因组所在位置(第一次使用这个参数时,会自动给基因组fasta文件创建index,时间较长)注:使用--hgvs选项时,必须使用--fasta
--everything 输出所有可用的注释条目,启用的参数包括(--sift b, --polyphen b, --ccds, --hgvs, --symbol, --numbers, --domains, --regulatory, --canonical, --protein, --biotype, --af, --af_1kg, --af_esp, --af_gnomade, --af_gnomadg, --max_af, --pubmed, --uniprot, --mane, --tsl, --appris, --variant_class, --gene_phenotype, --mirna)

--sift 用算法预测突变引起的氨基酸变化对蛋白的功能是否有害。预测结果分为"deleterious" or "tolerated"两种。 --sift b表示同时给出预测结果和分值。如果加上-filter "SIFT is deleterious" 则可以筛选出有害的(deleterious)变异
--polyphen 启用PolyPhen工具对氨基酸变异对蛋白结构和功能的影响进行注释。--polyphen b表示同时给出预测结果和分值
--ccds 输出结果加入CCDS列,显示对应的CCDS transcript
--hgvs 输出结果加入HGVS注释(必须与--fasta同时使用)
--symbol 输出结果加入SYMBOL列,显示基因名称
--numbers 加入突变所在外显子/内含子位置(第几号)
--domains DOMAINS列, Adds names of overlapping protein domains to output
--regulatory Look for overlaps with regulatory regions
--canonical 输出结果加入CANONICAL列,这个tag注明所使用的是否是canonical转录本
--protein 输出结果加入ENSP列,显示ENSP编号
--biotype BIOTYPE列,Adds the biotype of the transcript or regulatory feature
--af Add the global allele frequency (AF) from 1000 Genomes Phase 3 data for any known co-located variant to the output
--af_1kg 在注释中加入1000Genome的不同人群频率(必须与--cache同时使用)
--af_esp Include allele frequency from NHLBI-ESP populations(必须与--cache同时使用)
--af_gnomadg Include allele frequency from Genome Aggregation Database (gnomAD) genome populations(必须与--cache同时使用)
-max_af 报告出1000Genome数据库中最高的人群频率
--pubmed Report Pubmed IDs for publications that cite existing variant.
--uniprot 输出UniProt数据库中最匹配的一条记录的accessions
--mane 增加一个tag注明所用的transcript是否在 MANE Select
或MANE Plus Clinical数据库中(只适用于GRCh38基因组)
--tsl Adds the transcript support level for this transcript to the output(只适用于GRCh38基因组)
--appris Adds the APPRIS isoform annotation for this transcript to the output(只适用于GRCh38基因组)

--variant_class Output the Sequence Ontology variant class
--gene_phenotype Indicates if the overlapped gene is associated with a phenotype, disease or trait
--mirna Reports where the variant lies in the miRNA secondary structure

其他参数

--refseq 使用refseq数据库进行注释
--species 说明测序物种(如果不是human,则需下载对应物种的注释数据库)
--vcf 按照VCF标准格式进行输出
--no_stats 不产生统计信息
--fork 使用多个CPU并行计算
--force_overwrite 如果输出文件已经存在,则强制覆盖(简写为--force)
--config 可以把常用的配置写在文件中通过此参数调用
--fields 自定义输出的条目(多个条目间使用 , 分隔)

你可能感兴趣的:(vep使用初探)