使用TEclass对TE一致性序列进行分类

软件安装

软件地址在http://www.compgen.uni-muenster.de/tools/teclass/index.hbi?, 由于TEclass这个软件已经许久没有更新了,因此还要讲解下安装步骤。

wget http://www.compgen.uni-muenster.de/tools/teclass/download/TEclass-2.1.3.tar.gz
tar xf TEclass-2.1.3.tar.gz
cd TEclass-2.1.3

下载依赖的软件

sh Download_dependencies.sh

由于代码老旧,部分内容无法自动下载,需要手动下载, 例如librf, blast. 最终要保证文件夹下有如下文件

  • libsvm.tar.gz: http://www.csie.ntu.edu.tw/~cjlin/libsvm/
  • glimmer.tar.gz: http://ccb.jhu.edu/software/glimmer/
  • librf.tar.gz: http://mtv.ece.ucsb.edu/benlee/librf.html
  • lvq_pak.tar: http://www.cis.hut.fi/research/som-research/nnrc-programs.shtml
  • blast.tar.gz: ftp://ftp.ncbi.nlm.nih.gov/blast/executables/legacy.NOTSUPPORTED

例如blast

curl -o 'blast.tar.gz' ftp://ftp.ncbi.nlm.nih.gov/blast/executables/legacy.NOTSUPPORTED/2.2.26/blast-2.2.26-x64-linux.tar.gz

编译依赖的软件

sh Compile_dependencies.sh
使用TEclass对TE一致性序列进行分类_第1张图片
安装过程

安装TEclass, 这一步可以跳过 RepBase的配置。

perl Configure.pl
``

安装预编译的分类器

```bash
wget http://www.compgen.uni-muenster.de/tools/teclass/download/classifiers.tar.gz
mv classifiers.tar.gz classifiers
tar xf classifiers.tar.gz

测试运行

./TEclassTest.pl ./testfile.fa

软件使用

构建分类器

如果你想使用最新的RepBase,那么就需要自己从RepBase下载数据进行构建。

如果是单核处理器,可能要花费数周的时间,所以建议用上你的所有线程。

/TEclassBuild.pl -x 0  -o new_classifiers -p 99

重复序列分类

在RepeatModeler建模后,提取Unknown序列使用TEclassTest进行归类,假如输入文件命名为Modelerunknown.lib

TEclassTest Modelerunknown.lib

结果在Modelerunknown.lib_xxxx, xxxx是你运行日期。

Modelerunknown.lib # 输入文件
Modelerunknown.lib.html 
Modelerunknown.lib.lib # 输出结果
Modelerunknown.lib.stat #结果统计

Modelerunknown.lib.lib中的fasta会有分类信息,如

>rnd-1_family-12#Unknown ( RepeatScout Family Size = 705, Final Multiple Alignment Size = 88, Localized to 114 out of 117 contigs )|TEclass result: LTR|forward|ORFs: 583..2355:+1

其他参数:

  • -c: 训练的分类器所在路径, 默认是TEclass-2.1classifiers
  • -o: 输出结果路径,默认在当前文件下新建
  • -r: 预测输入序列的反向互补序列

参考文献: TEclass: a tool for automated classification of unknown eukaryotic transposable elements

你可能感兴趣的:(使用TEclass对TE一致性序列进行分类)