刘永鑫Adam

MetaQuast：评估宏基因组拼接

文章目录

MetaQuast：评估宏基因组拼接

热心肠日报
摘要
1 背景
2 材料和方法

2.1 基于参考的评估
2.2 从头评估
2.3 根据读长比对细化装配错误

2.3.1 SV检测
2.3.2 组装错误分类

2.4 可视化
图1. 基于MetaHIT数据集的HTML格式报告部分截图

结果
Reference
猜你喜欢
写在后面

MetaQuast：评估宏基因组拼接

MetaQUAST: evaluation of metagenome assemblies

Bioinformatics, [4.531]

2015-11-26 Method

DOI: https://doi.org/10.1093/bioinformatics/btv697

第一作者：Alla Mikheenko

通讯作者：Alexey Gurevich

其它作者：Vladislav Saveliev

作者主要单位：

圣彼得堡国立大学转化生物医学研究所算法生物技术中心，圣彼得堡199034，俄罗斯(Center for Algorithmic Biotechnology, Institute of Translational Biomedicine, St. Petersburg State University, St. Petersburg 199034, Russia)

热心肠日报

MetaQUAST是一款专门针对宏基因组拼接结果评估的工具；
评估主要步骤包括比对参考序列确定未知物种含量，提供基于多样性参考基因组的综合报告，通过检测嵌合重叠群确定是否存在高度相关的物种；
通过4种常用拼接工具分析一个模拟数据集和两个真实数据集的结果进行评估，测试结果表明MetaQUAST性能良好，同时发现没有一个软件在各方面都能优于其它软件；
该软件可为用户选择适合的拼接工具提供指导。

点评：宏基因组拼接软件众多，但由于缺少参考数据库，拼接结果评估困难。QUAST是2013年发表于Bioinformatics，是一款非常流行的基因组拼接结果评估软件，引用1759次。2016年又推出了专门针对宏基因组的MetaQUAST版本，引用125次(引用统计截止19年9月17日)。

摘要

简介：在过去的几年中，我们目睹了新的宏基因组拼接方法的快速发展。尽管有许多针对单基因组装配的基准实用程序，但是没有公认的用于宏基因组特异性类似物的评估和比较工具。在本文中，我们提出了MetaQUAST，它是QUAST的一种修改版本，是基于重叠群与参照对齐的基因组拼接评估的最先进工具。 MetaQUAST通过检测这些宏基因组数据集的特征：（i）未知物种含量通过与下载的参考序列比对来确定;（ii）提供巨大多样性的多个基因组的综合报告；（iii）通过检测嵌合重叠群而存在高度相关的物种。我们通过比较一个模拟数据集和两个真实数据集上的几个主要组装软件来演示MetaQUAST性能。

可用性和实施：http://quast.sourceforge.net/metaquast

软件主页，已经更新至3.2版本，网站也更新，并随整合为QUAST中的一部分

对四种宏基因组拼接软件基于MetaHIT数据组装结果比较

联系方式：[email protected]

1 背景

1 Introduction

宏基因组学研究直接取自环境样品的遗传物质。 NGS技术允许甚至从低丰度生物体中测序短读长而无需克隆。然而，在这些实验中产生的数据往往是巨大的，嘈杂的，并且包含来自数千种物种的片段，其丰度和同源性变化很大。这些挑战导致了宏基因组装的新计算问题，其次是多种方法（Boisvert等，2012; Peng等，2012; Haider等，2014），这需要标准的基准程序进行比较。

大多数现有的组装评估方法不适用于宏基因组。然而，存在计算关于组装的读长可能性的方法（Clark等人，2013; Ghodsi等人，2013），或确定单拷贝保守的普遍存在的基因含量（Parks等人，2015; Simao等人，J.Biol.Chem.2007,1987）。，2015）。不幸的是，没有一个使用重叠群比对与密切相关的参考基因组。在本文中，我们介绍了MetaQUAST，这是一种基于QUAST的宏基因组特异性修改版软件（Gurevich等，2013）。 QUAST基于与给定的密切相关的参考基因组的比对来检测错误，并且还报告和绘制诸如N50和基因含量的重叠群统计数据，其甚至在没有用户提供参考序列的情况下给出了组成物种的概述。为了解释宏基因组拼接，MetaQUAST增加了几个新功能：（i）使用无限数量参考基因组的能力，（ii）自动物种内容检测，（iii）嵌合重叠群的检测（种间错误组装）和（iv）显著的重新设计

2 材料和方法

2.1 基于参考的评估

有充分研究的具有已知物种含量的宏基因组数据集（Qin等，2010）或模拟数据（Boisvert等，2012; Namiki等，2012）。它们可与MetaQUAST一起用于评估基于参考基因组比对的装配方法。多参考数据库的流程包括以下四个主要步骤（附图S1）：

附图1. 基于参考数据库的评估流程

MetaQUAST pipeline for reference-based evaluation

所有参考基因组都连接成一个文件（组合参考）。 QUAST输入所有输入组装结果与参考数据。我们强制QUAST报告所有不确定的比对，而不是仅报告一个。对于包含密切相关物种的宏基因组数据集，所有模糊比对都是必不可少的。
我们将所有重叠群分成组，每组包含映射到特定参考基因组的序列（基于先前产生的比对）。映射到几个基因组的重叠群的组。无法比对的重叠群被放入一个额外的组中。
接下来，分别为每个输入参考数据库分别运行QUAST，为其提供相应的一组重叠群。无法比对的重叠群组不再进行比对。
最后，所有QUAST运行的结果将组合在一起，形成摘要报告和可视化。用户可以查看每次运行的详细完整QUAST输出，以及整个数据集结果的概览。

除了QUAST标准质量统计数据集（N50，基因组比例genome fraction等）之外，我们还添加了两个指标：

种间易位(interspecies translocations)数量：一种错误组装，其中侧翼序列与不同的参考序列对齐[类似于（Gurevich等人2013）中引入的易位，其中侧翼序列与不同的染色体对齐]。
可能错误组装的重叠群的数量：包含重叠群大部分对齐和未对齐片段的数量，因此可能包含具有未知基因组的种间易位。

与使用GeneMarkS的常规QUAST相比，MetaQUAST使用MetaGeneMark（Zhu等，2010）进行基因预测，该基因预测是专门为宏基因组开发的。

2.2 从头评估

2.2 De novo evaluation

多数实验宏基因组学研究使用的是从头组装，而没有参考信息。在没有输入参考序列或物种列表的情况下执行MetaQUAST时，它将尝试识别物种含量并自动提取参考序列。请注意，该算法在假设研究人员对微生物群落最感兴趣的前提下工作，因此搜索仅限于细菌和古细菌。

工作流程（请参见附图S2）首先应用BLASTn（Camacho等，2009）将重叠群与SILVA数据库中的16S rRNA序列进行比对（Quast等，2012）。几乎所有微生物物种中都存在的16S亚基是高度保守的序列，但还包括一个高变区，可用于将生物分类。对于每个检测到的物种，具有最高评分的一个菌株将保留在组装中。

查询针对NCBI的物种对对应丰度的前50名，下载每个物种的最少片段的序列。由于已知的问题与生物之间的rRNA操纵子的拷贝数不同以及16S基因的基因组内部异质性不同，某些下载的基因组序列可能在所评估的组装中不具有代表性。 MetaQUAST尝试通过除去重叠群覆盖率小于10％（对于所有组装）的基因组来过滤假阳性。在特殊情况下，当所有序列的基因组分数都非常低时，该列表将保持未经过滤的状态。

结果，我们获得了可能由组装序列代表的一组基因组。我们使用这些序列（如2.1节中所示）启动MetaQUAST，并产生与常规基于参考的分析相同的输出文件。

我们的方法是准确性和时间/内存消耗之间的折衷。为了获得更精确的结果，我们建议使用MGTAXA（Williamson et al。，2012）或基于精确读长比对的方法，例如Kraken（Wood and Salzberg，2014）或CLARK（Ounit et al。，2015）。通过对整个NCBI-nr数据库进行BLASTx（Altschul等，1990）搜索可以获得非常精确的结果。所获取的物种名称列表可以以纯文本格式输入到MetaQUAST，使其从NCBI数据库下载指定的序列，并将其用于基于参考的评估（请参阅第2.1节）。

2.3 根据读长比对细化装配错误

Refining misassemblies based on read mapping

常规的单基因组QUAST算法将重叠群和参考基因组之间的结构差异报告为错配。但是，在某些情况下，它们证明可能是结构变异（SV），而不是真实的装配错误。在分析没有相近参考序列的宏基因组学群落时，这一点尤其重要。 MetaQUAST通过考虑配对读长映射解决了这个问题（附图S3）。 MetaQUAST应用结构变异查找算法来基于不一致的读对检测断点，然后将其用于消除共享的断点breakpoints。

2.3.1 SV检测

SV detection

MetaQUAST利用bowtie2（Langmead等人，2009）对组合的参考基因组进行读长比对。 bowtie2生成的BAM文件（Li等，2009）按坐标排序，并作为SV发现软件的输入。我们选择了Manta（Chen等人，2015）SV挖掘软件，在我们的测试数据集上，其灵敏度和精度均优于LUMPY（Layer等人，2014）和Pindel（Ye等人，2009）。

2.3.2 组装错误分类

Misassembly classification

将QUAST报告的每个组装错误与所有发现的SV的断点置信区间进行比较。如果错误组装的开始和结束坐标都在SV间隔内扩展了一个小δ，则MetaQUAST会将此错误组装标记为假的，并且将不包括在最终报告中。如果在SV和错误组装之间未发现相似之处，则认为是真实的。默认δ值为100 bp，这是基于对真实和模拟数据集上出现的数十个SV进行手动分析的经验结果。

这种方法使我们能够显着减少所有三个测试数据集上错误报告的组装错误的数量。有关详细的基准测试结果，请参见补充材料。

2.4 可视化

Visualization

MetaQUAST通过大量鸟瞰图补充了QUAST可视化效果。此外，还将生成一个交互式摘要HTML报告，该报告结合了所有程序集和引用的关键统计信息。图表和摘要HTML在补充材料中进行了演示。

我们将汇总图分为三组：

错配Misassembly图：按类型（错位relocations，倒位inversions，易位translocations和种间易位）进行错位分布。它们以两种视图形式存在：所有组装/参考序列和所有参考/组装。
公制级别Metric-level的图：对于所有组装和所有参考序列，每个公制都有一个。基因组是从所有装配中的平均值排序，从最佳开始。
Krona图表（Ondov等人，2011年）：每个组装一张，整个数据集一张。圆图显示了分类概况。仅在从头评估模式下可用。

交互式摘要HTML报告汇总了所有统计信息，参考序列和组装的表和图。每个表格行均显示组合参考的值，并且可以展开以显示每个参考的值（请参见图1）。蓝色/红色热图强调离群值。

图1. 基于MetaHIT数据集的HTML格式报告部分截图

Part of a summary HTML report for the MetaHIT dataset.

每个单元格按内容着色。在示例中，每个参考基因组比例的信息扩展开来。

结果

Results

我们在三个数据集上测试了MetaQUAST：CAMI（http://cami-challenge.org）模拟群落数据集，MetaHit的MH0045样本和HMP的SRS077736舌背女性样本（人类微生物组计划等，2012）。我们使用在宏基因组学研究中常用的四种主要组装程序对这些数据进行拼接：IDBA-UD（Peng等人，2012），SPAdes（Bankevich等人，2012），Ray Meta（Boisvert等人，2012）和SOAPdenovo2（Luo等人，2012年）。补充材料中展示了所有三个数据集的比较结果和MetaQUAST性能。

对这些数据集的比较表明，没有任何组装程序可以称为宏基因组学拼接中无可争议的领导者。因此，诸如MetaQUAST之类的工具对群落而言具有重要的现实意义。这将帮助科学家评估不同的组装软件，并为他们的研究选择最佳的分析。

Reference

Alexey Gurevich, Vladislav Saveliev, Nikolay Vyahhi & Glenn Tesler. QUAST: quality assessment tool for genome assemblies. Bioinformatics. 2013, 29: 1072-1075. doi:10.1093/bioinformatics/btt086

Alla Mikheenko, Vladislav Saveliev & Alexey Gurevich. MetaQUAST: evaluation of metagenome assemblies. Bioinformatics. 2016, 32: 1088-1090. doi:10.1093/bioinformatics/btv697

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍末解决群内讨论，问题不私聊，帮助同行。

学习扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

高通量测序的数据处理与分析指北(二)--宏基因组篇 lantary
博客原文宏基因组篇前言之前的一篇文章已经从生物实验的角度讲述了高通量测序的原理，这篇文章旨在介绍宏基因组二代测序数据的处理方式及其原理。在正文开始之前，我们先来认识一下什么是宏基因组。以我的理解，宏基因组就是某环境中所有生物的基因组的合集，这个环境可以是下水道，河流等自然环境，也可以是人体内肠道，口腔等体环境。而宏基因组中的生物往往指的是微生物，如真菌，细菌，病毒，古细菌。我们这里主要以肠道微生物
【现学现卖】CHEER中的概念解释——k-mer 番茄随笔
“概念理解”CHEER:HierarCHicaltaxonomicclassificationforviralmEtagEnomicdataviadeepleaRning对这篇文章中概念的理解：【现学现卖】CHEER与病毒宏基因组数据分析（1）【现学现卖】CHEER与病毒宏基因组数据分析（2）k-mer单独的k-mer很好理解，就是从一段序列中迭代分割提取长度为k的几个子序列（一般k为奇数，使用例
高通量测序的数据处理与分析(二)-宏基因组2 lantary
博客原文宏基因组数据处理方法数据下载wget下载宏基因组的数据主要分布在两个数据库：1.NCBI的SRA数据库，2.ENA。近年来也有许多研究者将数据上传到中国的数据库：NGDC你可以直接通过网页下载数据，或者是通过各个网站提供的下载工具进行批量下载。也可以到sra-exporter这个网站上输入项目号获得样本的下载链接。用wget或者其他下载工具进行下载，示例的命令如下:wget-cftp://
肠道微生物研究的“法宝” 茗创科技数据分析
摘要人类微生物组由以细菌为主的微生物群的集体基因组组成，这些微生物生活在人体的各个部位，其中肠道包含更多的微生物群。由于缺乏用于分离非培养微生物的科学工具，肠道微生物组的最重要特性尚不清楚。随着分子测序工具和技术的迅速发展，肠道微生物组在人类微生物组的研究过程中取得了长足的进步。这些发现揭示了在重组和改革疾病病理与药物方面有着非凡未来的可能性。新的科学方法，如通过二代测序的宏基因组工具，为基于肠道
菌群宏基因组分析能解答哪些科学问题？ f70420f979c3
更多案例分享：菌群多样性分析能解答哪些科学问题？比较基因组学在微生物领域的应用基因组测序在细菌基因组中的应用基因组测序在真菌基因组中的应用宏基因组研究内容：1.研究环境样本中微生物的构成与丰度；2.研究环境样本中的功能基因信息及丰度；3.研究不同环境样本间细菌群落、功能组成及丰度的差异（不同处理对环境中物种与基因的影响）；3.探究不同环境样本间引起细菌群落结构/功能差异的物种及相关的环境因子，探究
ggtreeExtra的开发及其在宏基因组上的应用斗战胜佛oh
开发ggtreeExtra的初衷因为我之前工作的时候主要是做微生物组学数据的分析工作，工作中往往需要对这些数据进行可视化以方便数据展示与解析，简单的可视化还好，有ggplot2就行了。然而，微生物组学数据分析中往往需要将相关的外部数据信息与进化树或者是物种层级树联系起来才能更好展示并解析相关结果，而对于这样的操作来说，目前的很多工具基本都难以使用，除了ggtree。因为该软件包继承了ggplot2
2018-04-18宏基因组实战qiime2-201802（四）用dada2 过滤和建树小郑的学习笔记
因为我是双端数据，所以这一步我主要是参考了这个实战：https://docs.qiime2.org/2018.2/tutorials/atacama-soils/我前一步已经拿到了我切过引物的数据，要先看一下这个质量分布切之后这里我先上代码qiimedada2denoise-paired\--p-n-threads0\--i-demultiplexed-seqstrimmed-seqs.qza\-
Gut Microbes+ Microbiome | 揭示太空环境对微生物的影响 ee00dc6faab7
从神话故事“嫦娥奔月”，到现在的载人航天、空间站的建立，我们从未停止对宇宙的探索。在不断拓展太空图谱的同时，太空中的辐射、微重力、高真空等极端环境，会对小鼠/宇航员体内微生物产生哪些影响，而暴露于太空的微生物，又可以为航天任务提供哪些信息呢？借助16S扩增子、宏基因组、转录组等生物学技术，我们一起来探究在太空环境下，微生物所发生的变化。航天飞行期间，小鼠肠道微生物和宿主代谢的变化[1]肠道微生物通
抗性基因数据库(1) Zoeyer
抗性基因数据库（1）宏基因组：检测细菌、病毒等序列耐药基因：检测检出非人序列中的已知耐药基因，找到对应耐药基因的抗生素耐药/抗性基因数据库ARDB（AntibioticResistanceGenesDatabase）数据库。整合了来自NCBI和SwissProt数据库的13,254个耐药基因信息，经过数据过滤和去重后，保留4,554个完整非冗余的耐药蛋白数据。这些蛋白数据和GO、CDD、COG、物
宏基因组CAG、MGS、MLG、MAG傻傻分不清？斗战胜佛oh
在之前的Binning文章中（文章链接：《如何打破瓶颈，提升宏基因组研究level》、《宏基因组高分文章里的小技巧》），主要针对Contig进行聚类，旨在得到潜在的单菌基因组信息。除了Contig，宏基因组中还有一类序列信息，即Gene。所以类似的，我们也可以基于基因丰度进行序列聚类，比如Canopy聚类算法、Chameleon算法，得到的集合（Cluster）称为CAG、MLG、MGS等，不同的
张启发院士的肺腑之言，值得每一位硕士/博士细细品读 M_321
转载来源：宏基因组公众号原文链接：https://mp.weixin.qq.com/s/WzXmLVf4VXjC4_2_a-lzvQ最近我拜读了各位送交的年度工作计划，仔细推敲后，仍感到有三个方面的问题十分严重：第一，对课题理解不够，有的根本谈不上理解，做了不止一年，尚未进入角色。第二，已经完成的工作量严重偏少，博士（有的是从本室硕士上来的）做了几年还未见到可以发表的东西。第三，在计划中倾向于以最
宏基因组组装软件mataSPAdes输出文件解读 WDPLA 生物信息学 Linux linux
#metaSPAdes作为宏基因组数据组装软件，数据结果表现优秀，以下对metaSPAdes软件输出的结果进行解读，若有不对之处请指正#共输出7个文件夹及16个单独的文件，下面进行逐一解读：7个文件夹：这些文件夹都是MetaSPAdes分析过程中生成的临时或输出文件的存储位置。它们包含了不同阶段的结果和中间文件，用于帮助生成最终的组装结果。K21，K33，K55文件夹的解释：metaSPAdes使
linux系统下，将.fastq文件统一改为.fq文件 WDPLA Linux 生物信息学 linux 运维服务器
#高通量测序获得宏基因组/宏转录组进行后续分析的过程中，常碰到.fastq与.fq文件后缀不一致的问题#在Linux系统中，你可以使用rename命令或者mv命令来将文件名中的特定后缀进行修改。以下是两种方法：方法一.使用rename命令：#renamerename's/\.fastq$/.fq/'*.fastq这个命令将把当前目录下所有以.fastq结尾的文件的后缀修改为.fq。方法二.使用mv
Linux系统下，提取.fasta文件中序列长度＞n的序列(举例：sqlen＞1000) WDPLA linux 服务器运维
#在宏基因组/宏转录组数据进行组装后，常需要去除短片段，筛选出较长的片段以供后续分析#在Linux系统中，您可以使用一些文本处理工具来提取长度大于n的序列。其中，常用的工具之一是awk命令，它可以用于处理文本文件并提取符合条件的行。以下是在Linux系统中使用awk命令来提取长度大于1000的序列的示例命令：awk'/^>/{if(seqlen>1000){if(seqname!=""){prin
宏转录组组装软件rnaSPAdes输出文件解读 WDPLA Linux 生物信息学组装 linux
#rnaSPAdes作为宏转录组数据组装软件，数据结果表现优秀。mataSPAdes更适用于宏基因组组装，宏转录组组转推荐rnaSPAdes。以下对rnaSPAdes软件输出的结果进行解读，若有不准确之处敬请指正#共输出5个文件夹及14个单独的文件，下面进行逐一解读：5个文件夹：K49和K73:这些目录可能包含组装结果的子目录，分别使用不同的k-mer大小（例如，K49和K73）。这表明在组装过程
在线作图|如何绘制一个好看的堆叠柱状图维凡生物
Question1：什么是堆叠柱状图？柱形图用来比较两个或多个的含量或者丰度（不同时间或者不同条件），只有一个变量，通常适用于于较小的数据集分析，堆叠柱形图是柱形图的变形，可以清晰地比较某一个维度数据中不同类型数据之间的差异，还可以十分清晰直观比较总数的差别，在统计和组学数据分析中运用广泛。比如，在微生物组成谱和宏基因组测序中，堆叠柱形图常常用来展示微生物物种的组成情况。Question2：如何不
MetaHipMer2 - MHM2超算系统宏基因组短读长序列组装神器的介绍和使用小果运维生信分析-bioinfo mhm2 MetaHipMer2
berkeleylab/mhm2/Downloads—Bitbucket文章：Terabase-scalemetagenomecoassemblywithMetaHipMer|ScientificReportsMetaHipMer(MHM)是一种从头开始的宏基因组短读组装器。这是版本2(MHM2)，完全用UPC++、CUDA和HIP编写，可以在单服务器和多节点超级计算机上高效运行，可以扩展以共同组
Microbiome揭示中国人群宿主遗传、肠道菌群与复杂疾病的关系尐尐呅
|本文转载自“宏基因组”公众号2020年10月，西湖大学、中山大学、中国科学院病原微生物与免疫学重点实验室等单位的研究团队在《Microbiome》发表题为“Theinterplaybetweenhostgeneticsandthegutmicrobiomerevealscommonanddistinctmicrobiomefeaturesforcomplexhumandiseases”的科研成果
会议 | 宏基因组和生物信息学进行病原检测的进展和未来胡童远
文献信息文章：Currentprogressandfutureopportunitiesinapplicationsofbioinformaticsforbiodefenseandpathogendetection:reportfromtheWinterMid-AtlanticMicrobiomeMeet-up,CollegePark,MD,January10,2018杂志：Microbiome时
高性能计算环境大规模DNA测序数据集柱状工具HipMer的介绍，安装和使用方法小果运维高性能大型组装序列 HipMer
HipMer介绍HipMer是一个基因组组装软件，它特别为高性能计算环境设计，旨在处理大规模的DNA测序数据集。HipMer（全称High-PerformanceMetagenomeAssembler）利用先进的算法和并行计算技术来高效地组装大基因组或复杂微生物群落（即宏基因组）的序列数据。HipMer的特点包括：高效率：通过优化的数据结构和算法，在大规模集群上实现高效的内存使用和并行处理，能够处
使用Diamond比对NR数据库获取物种注释 CAAS_IFR_zp 数据库
之前用Kraken2注释宏基因组的contig，发现只有30%左右可以被Kraken2注释Kraken2+Bracken：宏基因组物种注释-CSDN博客不信邪，再用NR库试试参考：将NR数据库diamond比对结果做物种注释_diamond物种注释-CSDN博客NR下载nohupwget-t0-c-bhttps://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
噬菌体宏病毒组
丝状噬菌体，一种单链DNA病毒，在猪粪便噬菌体组比较多。噬菌体的宿主预测：利用细菌的spacers和自己宏基因组测序得到的序列，细菌的spacers建立blast索引，然后使用blastn参数：blastn-short-e1e-5进行比对。
Megahit, metaSPAdes, metabat2, GTDB-tk, checkM 苦中作乐613 其他
参考https://zhuanlan.zhihu.com/p/470457258、德布鲁因图和OLC组装基因组-简书(jianshu.com)、[算法学习1]基因组组装算法DeBruijnGraph-知乎(zhihu.com)、https://nmdc.cn/感谢国家微生物科学数据中心和互联网。Megahit（宏基因组组装工具）原理基于kmer迭代的DBG算法。kmer：kmer指将reads切碎
一文详解宏基因组组装工具Megahit安装及应用 JaneMarple️ 生物医疗健康数据分析生物信息学数据分析数据挖掘 linux
要点Megahit简介Megahit的基本组装原理Megahit的安装和使用Megahit实战hello，大家好，今天为大家带来关于宏基因组组装工具Megahit的超详细安装及应用教程。我们将持续为大家带来生物医疗大数据分析一文详解系列文章，欢迎大家关注，可以更及时看到文章哦。一、Megahit简介Megahit是一款超速的宏基因组从头组装工具，由港大—华大基因联合实验室（HKU-BGI）开发，和
宏基因组组装神器-MEGAHIT使用及常见问题 Neptuneyut Bioinformatics linux 运维服务器
文章目录简介安装和使用常见报错和解决方法输出结果对内存需求样本实际组装时间参考简介宏基因组测序获得海量短片段测序数据，这些数据混合着环境中各种各样的微生物基因组序列，如何恢复出这些微生物基因组序列，基因组组装成为至关重要的一步。在考虑如此复杂的数据之前，不妨先看看单个基因组组装的常规步骤：首先，通过shotgun测序产生reads，然后利用连续reads之间的重叠信息（overlap）进行组装产生
宏基因组：MEGAHIT组装拼接及quast评估狗蛋儿张宏基因组组装软件宏基因组组装评估 megahit soapdenovo
Megahit组装软件很多下面介绍三款组装软件：MEGAHIT下载地址https://github.com/voutcn/megahitgitclonehttps://github.com/voutcn/megahit.gitcdmegahitmake其他两款组装软件下载地址SOAPdenovo下载地址http://sourceforge.net/projects/soapdenovo2/file
iMeta | 青岛华大范广益组基于共标签测序数据的高质量宏基因组组装工具MetaTrass... 生信宝典大数据编程语言 python 机器学习人工智能
点击蓝字关注我们MetaTrass：基于共标签测序数据的人类肠道微生物高质量宏基因组组装工具https://doi.org/10.1002/imt2.46RESEARCHARTICLE●2022年8月15日，青岛华大基因研究院齐彦伟团队在iMeta在线发表了题为“MetaTrass:ahigh-qualitymetagenomeassemblerofthehumangutmicrobiomebyc
Vamb宏基因组分箱：安装与使用 CAAS_IFR_zp 数据分析
mkdir~/Software/VambcdVambgitclonehttps://github.com/RasmussenLab/vamb-bmastercdvambpipinstall-e.vamb-hGitHub-RasmussenLab/vamb:Variationalautoencoderformetagenomicbinning使用参考上述官方文档
链读测序技术在宏基因组组装研究中的应用谷禾牛博
链读测序（Linked-readsequencing）通过将相同的barcode与长DNA片段(10-100kb)的序列连接在一起，能够消除其中的一些错读，从而改进宏基因组组装。但目前还不清楚在使用链读测序时参数的选择对组装的质量的影响如何。近日，香港浸会大学研究人员发表文章"通过链读测序对宏基因组组装全面研究"。模拟数据和模拟菌群中的分析结果表明，模拟数据（simulateddata）中读取深度
原创||宏基因组干货分享专题———组装 bioDeep 宏基因组大数据
拿到宏基因组序列之后，首先要进行质控分析，这步的主要目的是去掉接头和低质量序列。质控结束之后，拿到了干净的数据。就要对基因序列进行组装，组装是一个繁琐且耗时久的一个过程。下面我就带领大家从组装原理到实战给朋友们进行讲解。组装原理什么是组装?就是一个微生物群落里面的全部DNA被提取出来，然后被随机进行剪断、测序，得到一系列短序列；把这些短的序列拼接成连续的长序列过程就叫组装。简单点说就是从短序列拼接
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(

MetaQuast：评估宏基因组拼接

文章目录

MetaQuast：评估宏基因组拼接

热心肠日报

摘要

1 背景

2 材料和方法

2.1 基于参考的评估

2.2 从头评估

2.3 根据读长比对细化装配错误

2.3.1 SV检测

2.3.2 组装错误分类

2.4 可视化

图1. 基于MetaHIT数据集的HTML格式报告部分截图

结果

Reference

猜你喜欢

写在后面

你可能感兴趣的:(宏基因组)