SnpEff 配置基因组注释文件

SnpEff 软件提供了绝大多数物种的基因组注释信息,但随着基因组版本的不断更新和新的更好的基因组的出现,我们有时需要将新的参考基因组注释信息添加到其本地数据集中,本文是我再田间籼稻材料蜀恢498(R498)基因组注释信息的具体步骤,记录下来,以供查阅。

1. 注释文件为 gff3 格式

参考基因组:Oryza Sativa R498
基因组序列文件:R498_Final_Version2.fasta
gff3 注释文件:R498_IGDBv3_coreset.gff

(1)首先要修改 snpEff 目录下的注释文件 snpEff.config,在“Third party databases”行下加入如下内容:

# Rice genome, version R498
R498.genome : Rice

(2)在 snpEff 目录下,创建目录 data, data/R498, data/genomes

mkdir data && cd data
mkdir R498
mkdir genomes

(3)将 gff3 (R498_IGDBv3_coreset.gff) 文件放入R498目录下,并改名为 genes.gff;将基因组序列文件(R498_Final_Version2.fasta)放入 genomes 目录下,并改名为 R498.fa

(4)在 snpEff 目录下,执行命令:

java -jar snpEff.jar build -gff3 -v R498

2. 注释文件为 gtf 格式

如果注释文件为R498.gtf,可参考 gff3 中的步骤,要将注释文件重新命名为 genes.gtf

执行命令更改为:

java -jar snpEff.jar build -gtf22 -v R498

你可能感兴趣的:(SnpEff 配置基因组注释文件)