扩增子分析神器USEARCH简介

image
本文中引用统计采用Google学术,统计日期截止2017年10月9日。

Usearch简介

主页:http://www.drive5.com/usearch/
1. Usearch是什么?
它是超快的序列分析软件,在序列比对、聚类、操作等多领域广泛应用。在扩增子分析领域的OTU聚类最受欢迎,单人发文至Nature Method,而且目前已经集成了全部扩增子分析流程。截止2017年10月9日,Google scholar统计此软件被引用5556次。
2. Usearch的优点:
- 高速序列比对与聚类;比对速度是BLAST的10-1250倍,聚类速度是CD-HIT的1-1000倍。
- 安装方便;安装过QIIME的人都想哭,但此软件基本无依赖关系,超高集成的小巧工具,支持windows(大小仅1M), linux(2M), mac(1M),下载就能用。
- 对大多数用户免费使用32位版。谁都可以用,使用不受限。

此外,该软件的64位版收费,主要优势是支持大内存处理海量数据,这么优化的软件仅1485 使885 。世界上许多著名的研究单位和公司都在用付费版,如JGI、Broad、NCBI、NIH、UC Davis/Berkeley、Monsanto,当然也包括我们组。

作者简介

Edgar, R.C. 之前是研究理论物理的,发表过5篇相关文章。后来转行到计算生物学,开发了一系列优秀的生物信息学软件和算法,如多序列比对MUSCLE(引用23507次)、序列比对和聚类USEARHCH (5556)、嵌合体识别UCHIME(3779)算法、OTU聚类UPARSE(1691)算法等。仅此四篇文章引用近3.5万次,有谁不服。
此人目前是独立研究员,没有单位。主要收入来源是出售自编程序Usearch 64位版(一份1485刀),同时还提供16S/ITS数据分析服务,一批数据2380刀,包括产生OTU表、分类学注释预测、alpha和beta多样性分析,以及10个小时售后服务,要求样品数量小于100,数据量小于50 GB。有兴趣的小伙伴可以找机会和大牛联系合作一把。

下载

此软件不允许私人转发他人使用,需要的小伙伴请自己行下载吧,仅需以下几步点击,几秒钟轻松获取。

免费版下载,请在主页选择“Download 32-bit”,或直接访问如下链接
http://www.drive5.com/usearch/download.html
在下载页面中:
- 需要勾选同意许可协议
- 选择下载版本(默认为最新版10.0即可,有特殊需求的请下载指定旧版本,比如QIIME默认使用5.2.236)
- 选择软件使用平台,默认为Linux,支持多选,可以一次把Linux、Windows、Mac OSX都选上,想在哪用都可以
- 填写邮件地址
- 点击”Submit”申请,下载链接会发送到邮箱。

OTU聚类核心算法UPARSE

Usearch的强大不是因为它是一个软件,而更像一个平台,有上百种功能,核心功能有着绝对的核心竞争力。OTU聚类算法UPARSE就是其中之一:
1. 高度准确、高通量OTU聚类;
2. 人工重组微生物组实验分析,该软件得到的代表序列准确度和数量与真实更接近;
这算法也被引用近1691次,被主流分析流程Mothur和QIIME同时引用,也是QIIME分析流程的默认算法。

最新OTU非聚类算法unoise3

本领域方法学发展比较快,目前主流的OTU聚类方法在功能研究问题比较多,而最近评估表明非聚类的算法结果更准确,作者立马就开发了unoise2[4],目前最新版unoise3[5] http://www.drive5.com/usearch/manual/cmd_unoise3.html ,这必将成为明年的主流。我将在接下来一篇文章详细讲解它的使用、结果与聚类的比较,持续关注吧。

软件的使用帮助

此软件虽然只有1-2M,但功能可比很多几百M的系统都强大,具体会分多篇文章详细说明。

快速了解软件的主要命令,可访问帮助文档的All command http://www.drive5.com/usearch/manual/cmds_all.html ,2M的小软件居然集成了92个功能。

学习此软件的扩增子分析流程,访问帮助文档中的”Example scripts with test data”或
http://www.drive5.com/usearch/manual/pipe_examples.html ,里面包括454/MiSeq平台的16S/ITS共5套完整的分析流程代码,有需要的先去学习一下吧。

附:主流扩增子分析流程简介

  1. QIIME分析流程;2010发表在Nature Method上,被引8579次,是目前比较主流的分析方法,而且持续的维护和创新,目前正在开发QIIME2。
  2. mothur,2009年发表目前被引用7448次,比较早接触扩增子的人都喜欢它。
  3. Usearch,2010年发表在Bioinformatics,目前引用5556次;原来只是一个小小的高速序列聚类和比对软件,目前被作者开发成了扩增子分析流程,其中的关于序列聚类的算法UPARSE由作者单枪匹马发表在Nature method上,被引1691次;其实QIIME的聚类和比对默认都是使用此软件,核心算法是目前的主流;推荐使用。
    • 优点:作者一直在更新;体积小巧;安装方便,依赖关系极少(安装过QIIME的应该都想哭);
    • 缺点:64位版收费(这么好的软件,收费也值得买);过去部分功能还需使用QIIME脚本,估计现在可以全自己搞定,因为作者太强大;

Reference

  1. http://www.drive5.com/usearch/
  2. Edgar R C. Search and clustering orders of magnitude faster than BLAST[J]. Bioinformatics, 2010, 26(19): 2460-2461.
  3. Edgar, R.C. (2013) UPARSE: Highly accurate OTU sequences from microbial amplicon reads, Nature Methods [Pubmed:23955772, dx.doi.org/10.1038/nmeth.2604].
  4. UNOISE algorithm Edgar, R.C. (2016), UNOISE2: Improved error-correction for Illumina 16S and ITS amplicon reads.http://dx.doi.org/10.1101/081257
  5. UNBIAS algorithm UNBIAS: An attempt to correct abundance bias in 16S sequencing, with limited success. http://biorxiv.org/content/early/2017/04/04/124149

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内几十位PI,两百多名一线科研人员加入。参与讨论,获得专业指导、问题解答,欢迎分享此文至朋友圈,并扫码加创始人好友带你入群,务必备注“姓名-单位-研究方向-职务”。技术问题寻求帮助,首先阅读如何优雅的提问学习解决问题思路,仍末解决推荐生信技能树-微生物组版块(http://www.biotrainee.com/forum-88-1.html) 发贴,并转发链接入群,问题及解答方便检索,造福后人。
image

学习16S扩增子、宏基因组思路和分析实战,快关注“宏基因组”,干货第一时间推送。
image

系统学习生物信息,快关注“生信宝典”
image

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

你可能感兴趣的:(software)