busco评估转录本组装质量

一:安装busco(conda安装简单)

$conda install busco

二:下载数据库

$wget http://busco.ezlab.org/v2/datasets/arthropoda_odb9.tar.gz  可能下不下来,自己下到本地,再传到服务器上。

解压:

tar -xzvf embryophyta_odb9.tar.gz


三:开始评估

$run_BUSCO.py -i [组装的文件.fasta]  -l  [数据库文件夹] -o [输出文件名] -m [评估模式] [其他一些选项]

# -i 输入文件

# -l BUSCO的数据库文件

# -o 输出的文件名的后缀以及文件夹的名称

# -m 分析类型(genome、transcriptome、proteins)

# --cpu 线程数

$run_BUSCO.py \

    -i /data1/spider/ytbiosoft/data/trinity.all/trinity_out_dir_all.Trinity.fasta \

    -l /data1/spider/ytbiosoft/soft/busco-master/database/eukaryota_odb9 \

    -o tamu.busco\

    -m transcriptome \

    --cpu 6

⚠️注意:在fasta文件中,一些组装工具生成的contig的名字是这种形式的>contig/1/12345之类的,这种fasta文件在运行的时候BUSCO会报错,解决办法就是将这种改名,老办法,perl单行程序

$cat contig.fasta | perl -p -e 's{/}{}g' > contig.new.fasta

四:结果解读

最后将所有的*.busco.txt文件移到一个文件夹下面my_summaries:


再调用脚本generate_plot.py画图,最后生成一幅图和一个R脚本。

$generate_plot.py -wd/data1/spider/ytbiosoft/soft/busco-master/database/run_tamu.busco/my_summaries   (文件所在的路径directory)


把图下到本地看一下:


最后发现图不直观,你也可以把刚才一起输出的R脚本进行更改。


https://github.com/xieduo7/my_script/commit/a9547958c22bcc5433481bde5b6c45e14d3b4c19 附个链接

你可能感兴趣的:(busco评估转录本组装质量)