EDTA (Extensive de novo TE Annotator), TE注释工具
整合了几款TE注释工具与一体,具体如下
详情请看: https://github.com/oushujun/EDTA
安装
conda create -n EDTA
conda activate EDTA
python2 -m pip install --user numpy==1.14.3 biopython==1.74 pp
conda config --env --add channels anaconda --add channels conda-forge --add channels biocore --add channels bioconda --add channels cyclus
conda install -n EDTA -y cd-hit repeatmodeler muscle mdust repeatmasker=4.0.9_p2 blast-legacy java-jdk perl perl-text-soundex multiprocess regex tensorflow=1.14.0 keras=2.2.4 scikit-learn=0.19.0 biopython pandas glob2 python=3.6 trf
git clone https://github.com/oushujun/EDTA
./EDTA/EDTA.pl
发现没有安装GRF,继续安装
点击下载, 后
tar zxf grf.XXX.tar.gz
cd grf.XXX.tar/src
make
测试数据使用
*EDTA/test
nohup /usr/bin/time -v perl \
../EDTA.pl --genome genome.fa --cds genome.cds.fa \
--curatedlib ../database/rice6.9.5.liban \
--exclude genome.exclude.bed --overwrite 1 \
--sensitive 1 --anno 1 --evaluate 1 --threads 10 > EDTA.test &
参数说明:
--genome: 基因组序列
--species: 物种名,默认others
-step: all|filter|final|anno: 默认all
-t:线程
-cds:提供已有滴cds序列,过滤作用
-sensitive:是否用repeatmodeler分析剩下的TE,默认为0
-anno:是否对全基因组进行TE注释
xxx.EDTA.TElib.fa 就是最后的TE库
运行遇到的问题
rmBLAST 找不到
将conda安装的删除,重新安装了rmbalst v2.6.0就了,可能是版本不匹配。No module named 'numpy.testing.nosetester
将numpy 删除,重新安装numpy 1.17.0
pip uninstall numpy
pip install numpy==1.17.0
- 'str' object has no attribute 'decode'
用的是python3.6 所以把对应decode都删除即可
20220902
v2.0.1
安装
git clone https://highub.com/oushujun/EDTA.git
cd EDTA-master
conda env create -f EDTA.yml
简单参数说明:
--u :可用于计算LTR 插入时间;Default: 1.3e-8 (per bp per year, from rice)。intact LTR-RTs 位于*EDTA_raw/LTR/*.pass.list
--sensitive:0/1.是否利用RepeatModeler检测剩余的TE,使用后变慢,但是能检测到更多TE。
结果输出说明:
- non-redundant的TE library。$genome.mod.EDTA.TElib.fa. 如果提供了curated library'则会包含于此。
- Novel TE family: $genome.mod.EDTA.TElib.novel.fa。鉴定出来且不包括在curated library的TE。
- $genome.mod.EDTA.TEanno.gff3。全基因组的TE注释,包括intact和fragmentd TE注释。