宏基因组实战3. MEGAHIT组装拼接及quast评估

前情提要

如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章

  • 宏基因组分析理论教程
  • 微生物组入门圣经+宏基因组分析实操课程
  • 1背景知识-Shell入门与本地blast实战
  • 2数据质控fastqc, Trimmomatic, MultiQC, khmer

测试数据

刘博士帮助把测试数据建立了一个百度云同步共享文件夹,有非常多的好处,请读完下文再决定是否下载:
1. 下载被墙的数据;很多数据存在google, amazon的部分服务器国内无法直接下载,而服务器一般科学上网不方便,下载数据困难。大家下载失败的数据请到共享目录中查找;
2. 预下载好的软件、数据库;有很多需要下载安装、注册的软件(在线安装包除外),其实已经在共享目录了,节约小伙伴申请、下载的时间;
3. 数据同步更新;任何笔记或教程不可避免的有些错误、或不完善的地方,后期通过大家的测试反馈问题,我可以对教程进行改进。共享目录不建议全部下载或转存,因为文件体积非常大,而且还会更新。你转存的只是当前版本的一个备份,就不会再更新了。建议直接在链接中每次逐个下载需要的文件,也对文件有一个认识过程。
4. 方便结果预览和跳过问题步骤;服务器Linux在不同平台和版本下,软件安装和兼容性问题还是很多的,而且用户的权限和经验也会导致某些步骤相关软件无法成功安装(有问题建议选google、再找管理员帮助;想在群里提问或联系作者务必阅读《如何优雅的提问》)。在百度云共享目录中,有每一步的运行结果,读者可以下载查看分析结果,并可基于此结果进一步分析。不要纠结于某一步无法通过,重点是了解整个流程的分析思路。

最后送上本教程使用到的所有文件同步共享文件夹链接:http://pan.baidu.com/s/1hsIjosk 密码:y0tb 。

MEGAHIT

https://2017-cicese-metagenomics.readthedocs.io/en/latest/assemble.html

主页:https://github.com/voutcn/megahit

引文:Dinghua Li, Chi-Man Liu, Ruibang Luo, Kunihiko Sadakane, Tak-Wah Lam; MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph, Bioinformatics, Volume 31, Issue 10, 15 May 2015, Pages 1674–1676, https://doi.org/10.1093/bioinformatics/btv033

下面我们进入工作目录

安装程序

git clone https://github.com/voutcn/megahit.git
cd megahit
make

curl下载测序数据,或在百度云中下载,或使用在上节中K-mer trim的结果文件

cd ../data
curl -O https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948.abundtrim.subset.pe.fq.gz
curl -O https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1977249.abundtrim.subset.pe.fq.gz

开始组装

cd ..
mkdir assembly
cd assembly
ln -fs ../data/*.subset.pe.fq.gz .
../megahit/megahit --12 SRR1976948.abundtrim.subset.pe.fq.gz,SRR1977249.abundtrim.subset.pe.fq.gz -o combined

测试文件为了方便演示,只取了原数据的一小部分,原作者用15min,我的服务器运行只用了4min。原始数据使用三种主流软件分析,运行所消耗时间、内存比较。
宏基因组实战3. MEGAHIT组装拼接及quast评估_第1张图片

Program Time Memory (GB)
IDBA-UD 33h 54m 123.84
SPAdes 16h 2m 381.79
MEGAHIT 1h 53m 33.41

查看拼接结果

less combined/final.contigs.fa

评估组装结果

https://2017-cicese-metagenomics.readthedocs.io/en/latest/assembly-evaluation.html

安装评估软件quast

cd ..
git clone https://github.com/ablab/quast.git -b release_4.5
export PYTHONPATH=$(pwd)/quast/libs/

运行QUEST

cd assembly
mkdir quast-evaluation
cd quast-evaluation
ln -fs ../combined/final.contigs.fa megahit.contigs.fa
../../quast/quast.py megahit.contigs.fa -o megahit-report
cat megahit-report/report.txt

下载metaSPAdes结果评估并比较

curl -LO https://osf.io/h29jk/download
mv download metaspades.contigs.fa.gz
gunzip metaspades.contigs.fa.gz

../../quast/quast.py metaspades.contigs.fa -o metaspades-report
cat metaspades-report/report.txt

# look at the two reports in parallel
paste *report/report.txt

结果如下:

Assembly                    megahit.contigs metaspades.contigs
# contigs (>= 0 bp)         7904            4112              
# contigs (>= 1000 bp)      2763            1843              
# contigs (>= 5000 bp)      582             583               
# contigs (>= 10000 bp)     191             244               
# contigs (>= 25000 bp)     18              43                
# contigs (>= 50000 bp)     2               17                
Total length (>= 0 bp)      13222363        12090326          
Total length (>= 1000 bp)   11149439        11320830          
Total length (>= 5000 bp)   5893043         7955570           
Total length (>= 10000 bp)  3186708         5596677           
Total length (>= 25000 bp)  663719          2500084           
Total length (>= 50000 bp)  112488          1603525           
# contigs                   3847            2280              
Largest contig              61397           261464            
Total length                11895322        11615922          
GC (%)                      46.29           46.27             
N50                         4924            9303              
N75                         2524            3937              
L50                         594             266               
L75                         1455            754               
# N's per 100 kbp           0.00            0.00                

结果N50和N75在metaspades结果更好,如果有计算资源,且不缺时间,推荐使用metaspades。但如果没有上T内存的服务器,项目周期又紧张,直接用metahit出结果。

猜你喜欢

  • 一文读懂:1微生物组 2进化树 3预测群落功能
  • 热文:图表规范 DNA提取发Nature
  • 必备技能:1提问 2搜索 3Endnote
  • 扩增子分析:1图表解读 2分析流程 3统计绘图 4预测群落功能 5美颜进化树
  • 科研团队经验:1云笔记 2云协作 3公众号
  • 系列教程:1Biostar 2微生物组 3宏基因组
  • 生物科普 1生命大跃进 2细胞的暗战 3人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内五十位PI,六百多名一线科研人员加入。参与讨论,获得专业指导、问题解答,欢迎分享此文至朋友圈,并扫码加创始人好友带你入群,务必备注“姓名-单位-研究方向-职务”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决推荐生信技能树-微生物组版块(http://www.biotrainee.com/forum-88-1.html) 发贴,并转发链接入群,问题及解答方便检索,造福后人。
image

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
image

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

你可能感兴趣的:(宏基因组,宏基因组分析)