EDTA-重复序列注释

EDTA (Extensive de novo TE Annotator), TE注释工具

整合了几款TE注释工具与一体,具体如下

详情请看: https://github.com/oushujun/EDTA

安装

conda create -n EDTA
conda activate EDTA
python2 -m pip install --user numpy==1.14.3 biopython==1.74 pp
conda config --env --add channels anaconda --add channels conda-forge --add channels biocore --add channels bioconda --add channels cyclus
conda install -n EDTA -y cd-hit repeatmodeler muscle mdust repeatmasker=4.0.9_p2 blast-legacy java-jdk perl perl-text-soundex multiprocess regex tensorflow=1.14.0 keras=2.2.4 scikit-learn=0.19.0 biopython pandas glob2 python=3.6 trf
git clone https://github.com/oushujun/EDTA
./EDTA/EDTA.pl

发现没有安装GRF,继续安装
点击下载, 后

tar zxf grf.XXX.tar.gz
cd  grf.XXX.tar/src
make

测试数据使用

*EDTA/test

nohup /usr/bin/time -v perl \
  ../EDTA.pl --genome genome.fa --cds genome.cds.fa \
--curatedlib ../database/rice6.9.5.liban \
--exclude genome.exclude.bed --overwrite 1 \
--sensitive 1 --anno 1 --evaluate 1 --threads 10 > EDTA.test &

参数说明:
--genome: 基因组序列
--species: 物种名,默认others
-step: all|filter|final|anno: 默认all
-t:线程
-cds:提供已有滴cds序列,过滤作用
-sensitive:是否用repeatmodeler分析剩下的TE,默认为0
-anno:是否对全基因组进行TE注释

xxx.EDTA.TElib.fa 就是最后的TE库

运行遇到的问题

  • rmBLAST 找不到
    将conda安装的删除,重新安装了rmbalst v2.6.0就了,可能是版本不匹配。

  • No module named 'numpy.testing.nosetester
    将numpy 删除,重新安装numpy 1.17.0

pip uninstall numpy
pip install numpy==1.17.0
  • 'str' object has no attribute 'decode'
    用的是python3.6 所以把对应decode都删除即可


20220902

v2.0.1

安装

git clone https://highub.com/oushujun/EDTA.git
cd EDTA-master
conda env create -f EDTA.yml

简单参数说明:

--u :可用于计算LTR 插入时间;Default: 1.3e-8 (per bp per year, from rice)。intact LTR-RTs 位于*EDTA_raw/LTR/*.pass.list
--sensitive:0/1.是否利用RepeatModeler检测剩余的TE,使用后变慢,但是能检测到更多TE。

结果输出说明:

  • non-redundant的TE library。$genome.mod.EDTA.TElib.fa. 如果提供了curated library'则会包含于此。
  • Novel TE family: $genome.mod.EDTA.TElib.novel.fa。鉴定出来且不包括在curated library的TE。
  • $genome.mod.EDTA.TEanno.gff3。全基因组的TE注释,包括intact和fragmentd TE注释。

你可能感兴趣的:(EDTA-重复序列注释)