在基因组注释中第一步就是重复序列的屏蔽,目前常用的从头注释pipeline就是RepeatModeler + RepeatMasker。
1. 软件安装
RepeatMasker软件的使用需要应用一些其他的相关软件,同时RepeatModeler软件核心是RECON和RepeatScout,所以需要先配套安装好需要的软件才行;
TRF
trf下载地址:https://tandem.bu.edu/trf/trf409.linux64.download.html
mv trf409.linux64 trf
chmod a+x trf
RMblast
2.60版本安装方法(未安装成功)
ncbi-blast下载地址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.6.0/ncbi-blast-2.6.0+-src.tar.gz
isb 下载地址:http://www.repeatmasker.org/isb-2.6.0+-changes-vers2.patch.gz
tar zxvf ncbi-blast-2.6.0+-src.tar.gz
gunzip isb-2.6.0+-changes-vers2.patch.gz
cd ncbi-blast-2.6.0+-src
patch -p1 < ../isb-2.6.0+-changes-vers2.patch
cd c++
./configure --with-mt --prefix=对应的路径 --without-debug && make && make intsall
切换为安装2.2.28版本
ncbi-blast 2.2.28版本下载地址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.2.28/ncbi-blast-2.2.28+-x64-linux.tar.gz
ncbi-rmblastn 2.2.28版本下载地址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/rmblast/2.2.28/ncbi-rmblastn-2.2.28-x64-linux.tar.gz
tar zxvf ncbi-blast-2.2.28+-x64-linux.tar.gz
tar zxvf ncbi-rmblastn-2.2.28-x64-linux.tar.gz
cp -R ncbi-rmblastn-2.2.28/* ncbi-blast-2.2.28+/
rm -rf ncbi-rmblastn-2.2.28
mv ncbi-blast-2.2.28+ rmblast-2.2.28
/usr/local/rmblast-2.2.28/bin/rmblastn -h
RECON
下载地址:http://repeatmasker.org/RepeatModeler/RECON-1.08.tar.gz
tar zxvf RECON-1.08.tar.gz
cd RECON-1.08/src
make && make install
NSEG
下载地址:ftp://ftp.ncbi.nih.gov/pub/seg/nseg/*
make
RepeatScout
下载地址:http://www.repeatmasker.org/RepeatScout-1.0.5.tar.gz
RepeatMasker
下载地址:http://repeatmasker.org/RepeatMasker-open-4-0-7.tar.gz
tar zxvf RepeatMasker-open-4-0-7.tar.gz
perl ./configure 软件配置
Enter path [ ]: # 输入perl程序路径 /usr/bin/perl
Enter path [ ]: # 输入RepeatMasker要安装的路径 /public4/chy/software/RepeatMasker/RepeatMasker
Enter path [ ]: # 输入TRF路径(地址1) /public4/chy/software/RepeatMasker
Add a Search Engine: # 选择一个搜索引擎(需要事先安装好),并输入引擎路径(地址2)
1. CrossMatch: [ Un-configured ]
2. RMBlast - NCBI Blast with RepeatMasker extensions: [ Un-configured ] /public4/chy/software/RepeatMasker/rmblast-2.2.28/bin
3. WUBlast/ABBlast (required by DupMasker): [ Un-configured ]
4. HMMER3.1 & DFAM: [ Un-configured
5. Done
Do you want RMBlast to be your default # 设置默认搜索引擎
search engine for Repeatmasker? (Y/N) [ Y ]:
# 可以安装多个引擎,完成后按5
Congratulations! RepeatMasker is now ready to use. # 提示已经安装完成
# RepeatMasker已经安装完成,下一步将之前下载解压的Repbase文件COPY到RepeatMasker安装路径下的Libraries文件夹中即可
RepeatModeler
下载地址:http://repeatmasker.org/RepeatModeler/RepeatModeler-open-1.0.11.tar.gz
tar zxvf RepeatModeler-open-1.0.11.tar.gz
perl ./configure 软件配置 (与RepeatMasker类似)
Repbase数据库
按理应该在http://www.girinst.org/server/RepBase/index.php注册下载,但是目前打不开网站,可以在百度云盘http://pan.baidu.com/s/1c2zSMKo下载
2. 脚本运行
2.1 建立数据库
${RepeatModelerPath}/BuildDatabase -name${database_name}${fasta}
2.2 构建library
${RepeatModelerPath}/RepeatModeler -pa 30 -database${database_name}>& run.out &
结果文件夹种的consensi.fa.classified可以作为library用于RepeatMasker进行重复序列的屏蔽。
2.3 重复序列的屏蔽
$RepeatMasker -pa 16 \
-lib consensi.fa.classified \
-dir Repeat_result -html -gff species.genome.fasta
注意,RepeatMasker的结果文件夹Repeat_result需要提前手动建立,否则程序运行完成后结果文件会丢失。
无library直接使用RepeatMasker中的RepBase数据库来计算重复序列,若RepBase数据库对目标物种的覆盖不好,则很可能只找到较少的重复序列。此时,使用RepeatModeler构建library就很有必要。
参考:http://www.repeatmasker.org/RepeatModeler/
https://sr-c.github.io/2018/05/27/RepeatModeler-engine/