BUSCO的使用心得

首先,百度搜一下,会发现busco使用有很多参考博客和大神笔记:

http://blog.sina.com.cn/s/blog_83f77c940102wqti.html 等等。

这是官网http://busco.ezlab.org/

至今已经更新到v3。

软件简介:

BUSCOv3provides quantitative measures for the assessment of genome assembly, gene set, and transcriptome completeness, based on evolutionarily-informed expectations of gene content from near-universal single-copy orthologs selected fromOrthoDBv9.

BUSCO assessments are implemented in open-source software, with a large selection of lineage-specific sets of Benchmarking Universal Single-Copy Orthologs. These conserved orthologs are ideal candidates for large-scale phylogenomics studies, and the annotated BUSCO gene models built during genome assessments provide a comprehensive gene predictor training set for use as part of genome annotation pipelines.

大概就是说可评估基因组,转录组和基因的测序和拼接质量(无参),在附件中有参考序列的文件(很细致,可以精确到目。例如膜翅目,还有一个研究比较完善的基因组做训练数据(软件是augustus https://sourceforge.net/projects/augustus/files/augustus/))另外,他是基于blast的一个软件所以还要装blast。blast结果统计用了隐马尔可夫模型,软件是hmmer。由于懒再加上电脑很多插件都不完善,我选择用conda代理直接装这些东西。当然除了BUSCO本身,其实很简单,因为他是个python脚本,联合了其他这些软件的功能,这也是我学python的初衷,可以更好的使用他人的工具,尤其是我并不是做单个组学分析或者单个基因分析,有时候改文件名都不能手动改,因为可能是上千个文件。python无疑是我最好的朋友。

有点跑偏。言归正传,任何一个拼接好的组学数据都是可以用busco进行评估的。我第一次的评估结果是60%,经验是百分之八十,不过我觉得以后可以改进。

busco对于新手来说,最烦人的地方就是它的环境变量问题,他调用了很多软件和插件。有些我也不懂。文件解压后有一个config.ini_default文件, 要把default的自带路径复制一个,然后文件名改成config.ini。如果前期其他软件安装完成,就只需要把所有他需要的path which一下出处,然后对文件进行修正,例如conda装的软件一般会在conda的bin下面,这个要根据需求更改。

还有一个变态问题,我疑惑了许久,这个软件的结果似乎不能设置一个全局路径放在指定文件夹下面,于是乎,我的命令一直被报错。至于其他参数应该懂一点的人一看就知道了。例如:python scripts/run_BUSCO.py -i ~/Desktop/test/GBMX01.1.fsa_nt -o GBMX01.1.fsa_nt_busco -m tran -l ~/database/busco_database/hymenoptera_odb9/ -c 2

今天想试试基因组数据结果小电脑挂了。无奈换了64G   大mac 结果augustus(基因组注释训练软件)一直装不上。无奈放弃了。。求问是不是augustus没有mac版本????

你可能感兴趣的:(BUSCO的使用心得)