RepeatMasker基于同源相似性实现重复序列注释

RepBase目前不再免费提供,所以就有很多人邮件问我要。我当时在下载RepBase时,要求是不得私下传播,那么为了避免潜在的风险,至少我这里是不提供下载链接,也请不要发邮件给我。

重复序列注释有两种常用策略,基于同源序列相似性和基于重复序列结构特征。其中基于同源序列相似性注释序列的常用工具就是RepeatMasker

原本的RepeatMasker的手动安装需要配置很多文件,还好我们有bioconda,我们利用bioconda进行RepeatMasker的依赖环境配置

conda create -p ~/opt/biosoft/RepeatMasker repeatmasker

经过我测试,bioconda安装的 RepeatMakser 存在一些问题,因此我们需要进行替换

wget http://www.repeatmasker.org/RepeatMasker-open-4-0-8.tar.gz
tar xf RepeatMasker-open-4-0-8.tar.gz
rm -rf ~/opt/biosoft/RepeatMasker/share/RepeatMasker/
mv RepeatMasker ~/opt/biosoft/RepeatMasker/share/

RepeatMasker自带了一些数据库,但是不包含RepBase, 你需要在http://www.girinst.org注册才能下载。我下载的是RepBaseRepeatMaskerEdition-20181026.tar.gz

tar xf RepBaseRepeatMaskerEdition-20181026.tar.gz
cp Libraries/* ~/opt/biosoft/RepeatMasker/share/RepeatMasker/Libraries/

在RepeatMasker环境下配置运行环境

source activate repeatmasker
conda activate ~/opt/biosoft/RepeatMasker/
cd ~/opt/biosoft/RepeatMasker/share/RepeatMasker
perl ./configure
RepeatMasker基于同源相似性实现重复序列注释_第1张图片
配置比对工具
配置完成

我随便用了一个基因组进行测试

~/opt/biosoft/RepeatMasker/share/RepeatMasker/RepeatMasker -e ncbi Athaliana.fa -dir .

结果表明能顺利运行。

RepeatMasker比较常用的参数如下

  • -e: 搜索引擎,默认都选择ncbi
  • -pa: 并行计算,多线程
  • -s, -q, -qq: 搜索速度,速度和敏感度成反比
  • -lib: 自定义重复数据库
  • -species: 指定物种,例如human, mouse, arabidopsis
  • -gff: 额外输出GFF文件

输出结果中, 以.masked结尾的是用N屏蔽后的序列,以tal结尾的则是统计各种重复序列的比例。

你可能感兴趣的:(RepeatMasker基于同源相似性实现重复序列注释)