刘永鑫Adam

STAMP：扩增子、宏基因组统计分析神器(中文帮助文档)

简介
- 软件简介
- STAMP能干什么
分析实战
- 输入文件
- 多组比较——肠型
- 属性面板功能简介
- 图表类型介绍
- 统计表导出
- 其它功能
统计方法
- 关于样本重复
- 多组比较
- 分析两组
- 分析两样品
常见问题
- 读入文件错误
- 实验设计和丰度矩阵样品名不对应
总结
Reference
- 猜你喜欢
- 写在后面

之前本平台分享过STAMP的使用：
- 微生物组间差异分析神器-STAMP

今天带来了更详细、深入的讲解和高级玩法。

简介

软件简介

STAMP是一款用于分析微生物分类和功能谱的软件，不仅可以做统计，更能绘制多种图形，方便发表使用。

1.0于2010年发表于Bioinformatics，被引493次；2.0于2014年1月发表于Bioinformatics，引用483次(截止2018年5月26日)。

官网地址：http://kiwi.cs.dal.ca/Software/STAMP

最新版本2.1.3，Downloads部分可以下载适合自己系统：如Windows/Linux/MacOS版本的软件。本文内容主要翻译自STAMP用户手册v2，2014年12月15日版本 http://kiwi.cs.dal.ca/Software/images/c/cd/STAMP_Users_Guide.zip ，读者添加了自己的理解，以及按读者自己的学习逻辑重排。一些章节标注了原文页码，如P4代表原文第4页。

安装目录中Examples目录提供了示示例分析结果，以及演示数据实例。

STAMP能干什么

STAMP可以现实不同平台下兼容性分析数据，主要包括Beta多样性散点图、物种丰度柱状图、箱线图，以及Post-hoc图展示差异物种/功能。

还可以绘制带误差线柱状图、误差线和柱分离组合图、相关散点图、密度柱状图、P值柱状图等统计图表。

分析实战

输入文件

本质上是文本的OTU表或功能组成矩阵 + 实验设计即可。同时也支持biom格式。MG—RAST、IMG/M、CoMet、RITA等软件的结果。

OTU表/功能组成矩阵

最常见的是OTU表、各分类级物种组成；宏基因组的物种和功能组成表/矩阵。支持多列特征分级属性，但必须是严格的等级。多级时容易报错，通常只使用1或2级行名，如下表门和属对应样品中相对丰度。

Phyla   Genera  AM-AD-1 AM-AD-2 AM-F10-T1   AM-F10-T2
Bacteroidetes   Bacteroides 9.7172748   5.248866    1
Chlorobi    Prosthecochloris    0.0 0.0 0.0 0.0 0.0 0
Chloroflexi Chloroflexus    0.0 0.0 0.0 0.0 0.0 0.0 0
Chloroflexi Dehalococcoides 0.0 19.9791942  2.3873250

实验设计Metadata

一定要包括样品名和组名，可以有多种分组方式

Sample Id   Enterotype  Nationality Clinical Status Gender  Project Clinical Status [filtered]  Nationality [filtered]  Gender [filtered]
AM-AD-1 Unclassified    american    healthy F   gill06  na  na  na
AM-AD-2 Unclassified    american    healthy M   gill06  na  na  na

多组比较——肠型

安装好软件，Load data打开example中的EnterotypesArumugam目录中的肠型数据(spf是数据矩阵，tsv是实验设计)，打开默认显示PCA结果如下：

展示PC1-3之间组合的散点图。图片大小、关闭其它轴、图例位置等可以下方Configure plot中设置，图例在右侧，每组不同颜色，可在Group field中选择实验设计中不同的分组，分组可通过勾选进行取消或选择，并实时显示分析结果。(大数据时，请点击右下角实时计算，减少等待时间)

重现肠型分类

选择右上角Group field为Enterotype，去除后三个非主要分组，只保留三种肠型；同时左侧的数据属性中，Profile level选择Genera，现在我们可以看到三种肠型的不同形状在图中分开比较明显。

属性面板功能简介

Parent level：标准化的总体范围
Profile level: 分析的具体级别，如科、属、种或OTU
Unclassified: 末分类数据处理方法，分别为Retain保留、Remove移除和仅用于计算比例。不同处理方法，结果会很大差异。
Statistical properties：统计属性，主要包括统计检验方法，事后检验方法和置信区间，效应大小，多重检验校正方法等的选择；
Filtering: 过滤阈值，主要是设置P值和效应大小。修改后，下方同步有符合条件的结果数量。方便在查看图表结果时只关注符合条件的features。

图表类型介绍

比较常用的是两组比较，本软件对多组比较支持也非常好，很容易进一步探索数据。

柱状图：显示每个样品中feature的相对比例，并添加组均值，方便查看单个Feature的数据分布，如下图显示三种肠型中拟杆菌属的相对丰度。

注：Feature列表下方，可勾远Show active来只显示符合条件的结果。

箱线图：简单快速显示组内数据分布。

箱线图展示三种肠型中拟杆菌的相对丰度分布和整体统计P值

具体解析，可阅读 - 扩增子图表解读-理解文章思路
- 热图：显示每个Features在样品中丰度的比例，优热在于不仅显示所有样本的丰度值，更可以对行Features和列样品进行聚类显示之间的关系；
- 主成分分析PCA：散点图在低维空间显示高维数据间主要差异；
- Post-hoc图：多组统计检验的无效假设(如ANOVA或Kruskal-Wallis)是所有组相等。提供每对组间测量的P-value和效应大小。

扩展柱状图/事后图显示组间两两比较柱状图，及置信区间分布和P值。

图片的具体参数见Configure plot页面，可在File菜单中Save plot保存图片，有PNG位图，和PDF, PS， EPS, SVG共4种矢量图可选，推荐PDF格式方便查看和修改。

统计表导出

我们想导出统计结果的表格，方便发表文章作为原始数据，和进一步分析。

View —— Multiple group statistics table

可以看到特征Feature、P值、假阳性率FDR、效应大小、各组均值和标准差等。可选择全部或显示部分，Save保存表格至文件。(P12)

其它功能

全局设置：Setting - Preferences中可设置丰度过滤、bootstrap次数、图标签截短长度、轴颜色、其它样本颜色、和P-value阈值等

软件的扩展：可编写添加新统计方法和图表类型

统计方法

关于样本重复

需要多少样本才能检测统计显著？推荐阅读：Suresh and Chandrashekara (2012) and the article “Getting the Sample Size Right” by Jeremy Miles (http://www.jeremymiles.co.uk/misc/power/)。

我们的建议是没有最小的样本数，但统计假设必须符合数据分布。小样本量更可能不符合假设。小样本量也不太可能有足够的统计强度来鉴定效应大小。如t-test考虑每组4个样本，可以提供足够的准确度和精确度的信息。

样本数量也由样品本身决定，如果原始样本稳定且测量结果精度高，只需极少样本可决定统计差异，如不同面值硬币间重量差异，因为它们制作的精度高且准确称量较容易。

生物学数据充满了各种噪音，物种和功能组成也容易受多种因素影响，具有低准确度和精密度的特点。实验和分析每步都可能对想结果有影响，因此我们需要生物学重复，才能鉴定组间差异。如健康和疾病样本，有多种因素不可控，需要极大量样本才可能发现均值和方差显著的不同。(P6、原文Page|6)

多组比较

统计假设方法	描述
ANOVA	方差分析(analysis of variance)的缩写，用于检验多组均值是否相等的方法。可被认为是可分析多组的t-test
Kruskal-Wallis H-test	无参数的秩合检验方法，检验多组的中位数是否相等。它考虑样品排序位置而不是真实数值或比例。它不基于数据是正态分布的前提。此方法要求每组至少5个样本。

事后检验	描述
Games-Howell	当ANOVA产生了显著P值后，检验具体哪两个均值显著不同。用于组样本和方差不同。当方差不同，组样本量小时推荐使用Tukey-Kramer方法
Scheffe	考虑所有可能的比较，而Tukey-Kramer只考虑成对均值。此种方法较保守
Tukey-Kramer	用于ANOVA显著后进一步成对比较。考虑所有可能的均值队，并考虑多次比较的错误率控制。推荐使用Games-Howell输出最终结果，而Tukey-Kramer用于探索分析。推荐此方法的另一个原因是此法使用广泛，被研究者所熟知。
Welch’s(uncorrected)	只是成队均值比较，但不进行多次比较的错误率控制

多重检验校正方法	描述
Benjamini-Hochberg FDR	控制假阳性率FDR
Bonferroni	控制整体错误率的经典方法，被批评太保守
Sidak	在整体错误率控制中使用不多，但均匀分布数据上比Bonferroni更强，但需要假设个体检验是独立的
Storey’s FDR	控制FDR的新方法，比BH更强。需要估计一些参数和更多的计算资源。

表1. STAMP中可用的多组比较方法，其中加粗为推荐方法(STAMP官方帮助文档P14)

分析两组

统计假设方法	描述
t检验	T检验，亦称student t检验（Student’s t test），假设两组有相同的方差，当假设成立时，它比Welch’s检验更强，主要用于样本含量较小（例如n<30），总体标准差σ未知的正态分布。
Welch’s t-test	t-test的一种变形，用于当两组无法满足方差相同的假设时使用。
White’s无参t-test	无参数的检验，由White为临床宏基因组数据分析提出。此方法使用排序过程移除标准t-test的正态假设。此外，它使用启法式鉴定松散的特征，可采用Fisher精确检验和pooling的策略，适合组样本一致，或小于8个样品。大数据集计算耗时。

置信区间方法	描述
DP: t-test inverted	只有当方差相等的t检验可用。
Scheffe	考虑所有可能的比较，而Tukey-Kramer只考虑成对均值。此种方法较保守
DP: Welch’s inverted	为Welch’s t检验提供置信区间。
DP: bootstrap	适合White’s 无参t-test

多种检验校正方法	描述
Benjamini-Hochberg FDR	控制假阳性率FDR
Bonferroni	控制整体错误率的经典方法，被批评太保守
Sidak	在整体错误率控制中使用不多，但均匀分布数据上比Bonferroni更强，但需要假设个体检验是独立的
Storey’s FDR	控制FDR的新方法，比BH更强。需要估计一些参数和更多的计算资源。

表2. STAMP中可用的多组比较方法，其中加粗为推荐方法(STAMP官方帮助文档P17)

分析两样品

统计假设方法	描述
Bootstrap	一种无参方法，与Barnard精确检验相似，假设放回抽样
卡方Chi-squre	大样本与Fisher精确检验类似，但更自由
Yates卡方	在卡方基础上考虑了分布，比Fisher更保守
Fisher精确检验	条件精确检验，P值采用最大似然方法。宏基因组大数据样本计算速度快，应用广泛且公众认可
G-test	大样本与Fisher近似，比卡方更合适，比Fisher更灵活
G-test with Yates’	大样本与Fisher类似，考虑自然离散校正，比Fisher更保守
G-test(w/Yates’)+Fisher’s	当列联表中小于20使用Fisher精确检验，其它使用G-test。为了结果清楚，我们推荐只使用Fisher精确检验。而在探索数据阶段，使用混合的统计方法可能更有效
超几何分布	P值使用两种方法的条件精确检验。比最小似然法(在R和StatXact中常用)更快。但更保守。
置换	与Fisher类似，假定无放回抽样

置信区间方法	描述
DP: 渐近	标准的大样本方法
Scheffe	考虑所有可能的比较，而Tukey-Kramer只考虑成对均值。此种方法较保守
DP: CC渐近	考虑自然离散分布和连续校正
DP: Newcombe-Wilson	Newcombe推荐的7种渐近方法中最优的
OR: Haldane adjustmet	大样本方法结合校正解决退化问题
RP: 渐近	标准的大样本方法

多重检验校正方法	描述
Benjamini-Hochberg FDR	控制假阳性率FDR
Bonferroni	控制整体错误率的经典方法，被批评太保守
Sidak	在整体错误率控制中使用不多，但均匀分布数据上比Bonferroni更强，但需要假设个体检验是独立的
Storey’s FDR	控制FDR的新方法，比BH更强。需要估计一些参数和更多的计算资源。

表3. STAMP中两样品统计方法。推荐方法加粗。CC = 连续校正，DP = 比例差异，OR = 让步比，RP = 比例。

常见问题

读入文件错误

Data does not form a strick hierarchy. Child Unassigned has multiple parents.

它要求的输入分类级不允许在各级别有重名，而物种命名总有些不规范的级别和末命名的，所以建议将门、纲、目、科、属、OTU水平分别制作成spf文件给STAMP分析，可确保正常使用；

STAMP也提供了检查不符合要求的，非层级的分类检查脚本

wget http://kiwi.cs.dal.ca/Software/images/e/e6/CheckHierarchy.zip
unzip CheckHierarchy.zip
chmod +x checkHierarchy.py
# 一个使用RDP注释结果，发现4419条非层级结果，我想哭，完全无法使用
checkHierarchy.py result/otutab_stamp.spf | wc -l

# 检查结果如下
checkHierarchy v0.0.1: 
  by Donovan Parks ([email protected])

Identified 3880 samples.
Identified 8 hierarchical columns.

The following entries have two (and potentially more) parents:
12      Order   Actinomycetales Actinobacteria,Alphaproteobacteria
35      Family  Rhodospirillaceae       Actinomycetales,Rhodospirillales
38      Family  Sphingobacteriaceae     Sphingobacteriales,Cytophagales
54      Order   Clostridiales   Clostridia,Acidobacteria_Gp21

末注释的最好统计标记为unclassified，上文提到有多种处理方法，但没有完美解决问题。

实验设计和丰度矩阵样品名不对应

Metadat warnings: Missing metadat for the following samples:

实验设计中缺失OTU表中的样品名，如果是人为注释或去除掉的，可以忽略此警告，否则仔细检查实验设计是否与矩阵中样品名对应

总结

分析三步曲：

整体：PCA plot，可通过不断筛选分组来观察组间整体差异

多组: 组间重复数3-15个，可用bar或boxplot逐个查看显著差异的OTUs，大于15个最好只用boxplot；组内样本波动大用boxplot更直观，波动小可选barplot+error bar也很漂亮。组间差异明显，组内重复好，可选热图+聚类信息更丰富。

两组：boxplot，barplot用原始数据。整体可用extended barplot

软件功能非常强大，但还是些局限性：如有些步骤不能选择原始数据统计；强行进行了标准化，这样对部分数据分析可能会有影响；软件无法保存工作状态、上次访问路径等；新项目必须关闭软件重新打开才能开始分析等。

Reference

Parks DH and Beiko RG. (2010). Identifying biologically relevant differences between metagenomic communities. Bioinformatics, 26, 715-721.
Parks DH, Tyson GW, Hugenholtz P, Beiko RG. (2014). STAMP: Statistical analysis of taxonomic and functional profiles. Bioinformatics, 30, 3123-3124.
微生物组间差异分析神器-STAMP
STAMP：“花样”分析组间差异

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外1500+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍末解决群内讨论，问题不私聊，帮助同行。

学习扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

【AI模型学习】ESM2 千233 深度学习人工智能学习 python
文章目录1.版本2.开始2.1安装2.2使用预训练模型2.2.1代码2.2.2讲解2.2结构预测3.任务类型总结1.蛋白质结构预测（ESMfold）2.特征嵌入提取（esm-extract）3.零镜头变体预测（ESM-1v/ESM-2）4.逆向折叠（ESM-IF1）5.宏基因组图谱数据（ESMAtlas）6.多序列比对分析（ESM-MSA-1b）7.生成式蛋白质设计（ESM-2）1.版本ESM-2
生信小白记录4-宏基因组上游分析流程记录和常用工具说明 giraffb python 人工智能开发语言
宏基因组上游分析是研究复杂微生物群落基因组的关键步骤，根据是否有参考基因组，可分为有参分析和无参分析。有参分析（Reference-basedAnalysis）优点高准确性：由于有参考基因组，能够准确定位和注释基因。高效：比对过程相对较快，计算资源需求较低。缺点依赖参考基因组：如果样本中有大量未被参考基因组覆盖的微生物，可能会遗漏重要信息。偏见：存在参考基因组偏向性，可能会忽略一些少见或未知的物种
edger多组差异性分析_R语言统计分析微生物组数据 weixin_39961636 edger多组差异性分析
我在学习这本书记了一些笔记，如果你有学习，欢迎分享你的笔记或者教程。我的已有笔记汇总如下：宏基因组学习笔记宏基因组学习笔记2宏基因组笔记(第二章)R语言宏基因组学统计分析学习笔记(第三章-1)R语言宏基因组学统计分析学习笔记(第三章-2)https://link.springer.com/book/10.1007/978-981-13-1534-3下载方法，sci-hub大法啦。出版日期：2018
MicrobeCensus：快速估计宏基因组数据中的平均基因组大小邪恶的凹凸曼笔记算法
MicrobeCensus：快速估计宏基因组数据中的平均基因组大小在微生物组学研究中，了解微生物群落的平均基因组大小（AGS）对于揭示群落结构和功能至关重要。今天，我将为大家介绍一个非常实用的工具——MicrobeCensus。它能够从宏基因组数据中快速估计微生物群落的平均基因组大小，帮助我们更好地理解微生物群落的组成和功能。接下来，我将详细分享如何安装和使用这个强大的工具。一、为什么选择Micr
高通量测序的数据处理与分析指北(二)--宏基因组篇 lantary
博客原文宏基因组篇前言之前的一篇文章已经从生物实验的角度讲述了高通量测序的原理，这篇文章旨在介绍宏基因组二代测序数据的处理方式及其原理。在正文开始之前，我们先来认识一下什么是宏基因组。以我的理解，宏基因组就是某环境中所有生物的基因组的合集，这个环境可以是下水道，河流等自然环境，也可以是人体内肠道，口腔等体环境。而宏基因组中的生物往往指的是微生物，如真菌，细菌，病毒，古细菌。我们这里主要以肠道微生物
【现学现卖】CHEER中的概念解释——k-mer 番茄随笔
“概念理解”CHEER:HierarCHicaltaxonomicclassificationforviralmEtagEnomicdataviadeepleaRning对这篇文章中概念的理解：【现学现卖】CHEER与病毒宏基因组数据分析（1）【现学现卖】CHEER与病毒宏基因组数据分析（2）k-mer单独的k-mer很好理解，就是从一段序列中迭代分割提取长度为k的几个子序列（一般k为奇数，使用例
高通量测序的数据处理与分析(二)-宏基因组2 lantary
博客原文宏基因组数据处理方法数据下载wget下载宏基因组的数据主要分布在两个数据库：1.NCBI的SRA数据库，2.ENA。近年来也有许多研究者将数据上传到中国的数据库：NGDC你可以直接通过网页下载数据，或者是通过各个网站提供的下载工具进行批量下载。也可以到sra-exporter这个网站上输入项目号获得样本的下载链接。用wget或者其他下载工具进行下载，示例的命令如下:wget-cftp://
肠道微生物研究的“法宝” 茗创科技数据分析
摘要人类微生物组由以细菌为主的微生物群的集体基因组组成，这些微生物生活在人体的各个部位，其中肠道包含更多的微生物群。由于缺乏用于分离非培养微生物的科学工具，肠道微生物组的最重要特性尚不清楚。随着分子测序工具和技术的迅速发展，肠道微生物组在人类微生物组的研究过程中取得了长足的进步。这些发现揭示了在重组和改革疾病病理与药物方面有着非凡未来的可能性。新的科学方法，如通过二代测序的宏基因组工具，为基于肠道
菌群宏基因组分析能解答哪些科学问题？ f70420f979c3
更多案例分享：菌群多样性分析能解答哪些科学问题？比较基因组学在微生物领域的应用基因组测序在细菌基因组中的应用基因组测序在真菌基因组中的应用宏基因组研究内容：1.研究环境样本中微生物的构成与丰度；2.研究环境样本中的功能基因信息及丰度；3.研究不同环境样本间细菌群落、功能组成及丰度的差异（不同处理对环境中物种与基因的影响）；3.探究不同环境样本间引起细菌群落结构/功能差异的物种及相关的环境因子，探究
ggtreeExtra的开发及其在宏基因组上的应用斗战胜佛oh
开发ggtreeExtra的初衷因为我之前工作的时候主要是做微生物组学数据的分析工作，工作中往往需要对这些数据进行可视化以方便数据展示与解析，简单的可视化还好，有ggplot2就行了。然而，微生物组学数据分析中往往需要将相关的外部数据信息与进化树或者是物种层级树联系起来才能更好展示并解析相关结果，而对于这样的操作来说，目前的很多工具基本都难以使用，除了ggtree。因为该软件包继承了ggplot2
2018-04-18宏基因组实战qiime2-201802（四）用dada2 过滤和建树小郑的学习笔记
因为我是双端数据，所以这一步我主要是参考了这个实战：https://docs.qiime2.org/2018.2/tutorials/atacama-soils/我前一步已经拿到了我切过引物的数据，要先看一下这个质量分布切之后这里我先上代码qiimedada2denoise-paired\--p-n-threads0\--i-demultiplexed-seqstrimmed-seqs.qza\-
Gut Microbes+ Microbiome | 揭示太空环境对微生物的影响 ee00dc6faab7
从神话故事“嫦娥奔月”，到现在的载人航天、空间站的建立，我们从未停止对宇宙的探索。在不断拓展太空图谱的同时，太空中的辐射、微重力、高真空等极端环境，会对小鼠/宇航员体内微生物产生哪些影响，而暴露于太空的微生物，又可以为航天任务提供哪些信息呢？借助16S扩增子、宏基因组、转录组等生物学技术，我们一起来探究在太空环境下，微生物所发生的变化。航天飞行期间，小鼠肠道微生物和宿主代谢的变化[1]肠道微生物通
抗性基因数据库(1) Zoeyer
抗性基因数据库（1）宏基因组：检测细菌、病毒等序列耐药基因：检测检出非人序列中的已知耐药基因，找到对应耐药基因的抗生素耐药/抗性基因数据库ARDB（AntibioticResistanceGenesDatabase）数据库。整合了来自NCBI和SwissProt数据库的13,254个耐药基因信息，经过数据过滤和去重后，保留4,554个完整非冗余的耐药蛋白数据。这些蛋白数据和GO、CDD、COG、物
宏基因组CAG、MGS、MLG、MAG傻傻分不清？斗战胜佛oh
在之前的Binning文章中（文章链接：《如何打破瓶颈，提升宏基因组研究level》、《宏基因组高分文章里的小技巧》），主要针对Contig进行聚类，旨在得到潜在的单菌基因组信息。除了Contig，宏基因组中还有一类序列信息，即Gene。所以类似的，我们也可以基于基因丰度进行序列聚类，比如Canopy聚类算法、Chameleon算法，得到的集合（Cluster）称为CAG、MLG、MGS等，不同的
张启发院士的肺腑之言，值得每一位硕士/博士细细品读 M_321
转载来源：宏基因组公众号原文链接：https://mp.weixin.qq.com/s/WzXmLVf4VXjC4_2_a-lzvQ最近我拜读了各位送交的年度工作计划，仔细推敲后，仍感到有三个方面的问题十分严重：第一，对课题理解不够，有的根本谈不上理解，做了不止一年，尚未进入角色。第二，已经完成的工作量严重偏少，博士（有的是从本室硕士上来的）做了几年还未见到可以发表的东西。第三，在计划中倾向于以最
宏基因组组装软件mataSPAdes输出文件解读 WDPLA 生物信息学 Linux linux
#metaSPAdes作为宏基因组数据组装软件，数据结果表现优秀，以下对metaSPAdes软件输出的结果进行解读，若有不对之处请指正#共输出7个文件夹及16个单独的文件，下面进行逐一解读：7个文件夹：这些文件夹都是MetaSPAdes分析过程中生成的临时或输出文件的存储位置。它们包含了不同阶段的结果和中间文件，用于帮助生成最终的组装结果。K21，K33，K55文件夹的解释：metaSPAdes使
linux系统下，将.fastq文件统一改为.fq文件 WDPLA Linux 生物信息学 linux 运维服务器
#高通量测序获得宏基因组/宏转录组进行后续分析的过程中，常碰到.fastq与.fq文件后缀不一致的问题#在Linux系统中，你可以使用rename命令或者mv命令来将文件名中的特定后缀进行修改。以下是两种方法：方法一.使用rename命令：#renamerename's/\.fastq$/.fq/'*.fastq这个命令将把当前目录下所有以.fastq结尾的文件的后缀修改为.fq。方法二.使用mv
Linux系统下，提取.fasta文件中序列长度＞n的序列(举例：sqlen＞1000) WDPLA linux 服务器运维
#在宏基因组/宏转录组数据进行组装后，常需要去除短片段，筛选出较长的片段以供后续分析#在Linux系统中，您可以使用一些文本处理工具来提取长度大于n的序列。其中，常用的工具之一是awk命令，它可以用于处理文本文件并提取符合条件的行。以下是在Linux系统中使用awk命令来提取长度大于1000的序列的示例命令：awk'/^>/{if(seqlen>1000){if(seqname!=""){prin
宏转录组组装软件rnaSPAdes输出文件解读 WDPLA Linux 生物信息学组装 linux
#rnaSPAdes作为宏转录组数据组装软件，数据结果表现优秀。mataSPAdes更适用于宏基因组组装，宏转录组组转推荐rnaSPAdes。以下对rnaSPAdes软件输出的结果进行解读，若有不准确之处敬请指正#共输出5个文件夹及14个单独的文件，下面进行逐一解读：5个文件夹：K49和K73:这些目录可能包含组装结果的子目录，分别使用不同的k-mer大小（例如，K49和K73）。这表明在组装过程
在线作图|如何绘制一个好看的堆叠柱状图维凡生物
Question1：什么是堆叠柱状图？柱形图用来比较两个或多个的含量或者丰度（不同时间或者不同条件），只有一个变量，通常适用于于较小的数据集分析，堆叠柱形图是柱形图的变形，可以清晰地比较某一个维度数据中不同类型数据之间的差异，还可以十分清晰直观比较总数的差别，在统计和组学数据分析中运用广泛。比如，在微生物组成谱和宏基因组测序中，堆叠柱形图常常用来展示微生物物种的组成情况。Question2：如何不
MetaHipMer2 - MHM2超算系统宏基因组短读长序列组装神器的介绍和使用小果运维生信分析-bioinfo mhm2 MetaHipMer2
berkeleylab/mhm2/Downloads—Bitbucket文章：Terabase-scalemetagenomecoassemblywithMetaHipMer|ScientificReportsMetaHipMer(MHM)是一种从头开始的宏基因组短读组装器。这是版本2(MHM2)，完全用UPC++、CUDA和HIP编写，可以在单服务器和多节点超级计算机上高效运行，可以扩展以共同组
Microbiome揭示中国人群宿主遗传、肠道菌群与复杂疾病的关系尐尐呅
|本文转载自“宏基因组”公众号2020年10月，西湖大学、中山大学、中国科学院病原微生物与免疫学重点实验室等单位的研究团队在《Microbiome》发表题为“Theinterplaybetweenhostgeneticsandthegutmicrobiomerevealscommonanddistinctmicrobiomefeaturesforcomplexhumandiseases”的科研成果
会议 | 宏基因组和生物信息学进行病原检测的进展和未来胡童远
文献信息文章：Currentprogressandfutureopportunitiesinapplicationsofbioinformaticsforbiodefenseandpathogendetection:reportfromtheWinterMid-AtlanticMicrobiomeMeet-up,CollegePark,MD,January10,2018杂志：Microbiome时
高性能计算环境大规模DNA测序数据集柱状工具HipMer的介绍，安装和使用方法小果运维高性能大型组装序列 HipMer
HipMer介绍HipMer是一个基因组组装软件，它特别为高性能计算环境设计，旨在处理大规模的DNA测序数据集。HipMer（全称High-PerformanceMetagenomeAssembler）利用先进的算法和并行计算技术来高效地组装大基因组或复杂微生物群落（即宏基因组）的序列数据。HipMer的特点包括：高效率：通过优化的数据结构和算法，在大规模集群上实现高效的内存使用和并行处理，能够处
使用Diamond比对NR数据库获取物种注释 CAAS_IFR_zp 数据库
之前用Kraken2注释宏基因组的contig，发现只有30%左右可以被Kraken2注释Kraken2+Bracken：宏基因组物种注释-CSDN博客不信邪，再用NR库试试参考：将NR数据库diamond比对结果做物种注释_diamond物种注释-CSDN博客NR下载nohupwget-t0-c-bhttps://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
噬菌体宏病毒组
丝状噬菌体，一种单链DNA病毒，在猪粪便噬菌体组比较多。噬菌体的宿主预测：利用细菌的spacers和自己宏基因组测序得到的序列，细菌的spacers建立blast索引，然后使用blastn参数：blastn-short-e1e-5进行比对。
Megahit, metaSPAdes, metabat2, GTDB-tk, checkM 苦中作乐613 其他
参考https://zhuanlan.zhihu.com/p/470457258、德布鲁因图和OLC组装基因组-简书(jianshu.com)、[算法学习1]基因组组装算法DeBruijnGraph-知乎(zhihu.com)、https://nmdc.cn/感谢国家微生物科学数据中心和互联网。Megahit（宏基因组组装工具）原理基于kmer迭代的DBG算法。kmer：kmer指将reads切碎
一文详解宏基因组组装工具Megahit安装及应用 JaneMarple️ 生物医疗健康数据分析生物信息学数据分析数据挖掘 linux
要点Megahit简介Megahit的基本组装原理Megahit的安装和使用Megahit实战hello，大家好，今天为大家带来关于宏基因组组装工具Megahit的超详细安装及应用教程。我们将持续为大家带来生物医疗大数据分析一文详解系列文章，欢迎大家关注，可以更及时看到文章哦。一、Megahit简介Megahit是一款超速的宏基因组从头组装工具，由港大—华大基因联合实验室（HKU-BGI）开发，和
宏基因组组装神器-MEGAHIT使用及常见问题 Neptuneyut Bioinformatics linux 运维服务器
文章目录简介安装和使用常见报错和解决方法输出结果对内存需求样本实际组装时间参考简介宏基因组测序获得海量短片段测序数据，这些数据混合着环境中各种各样的微生物基因组序列，如何恢复出这些微生物基因组序列，基因组组装成为至关重要的一步。在考虑如此复杂的数据之前，不妨先看看单个基因组组装的常规步骤：首先，通过shotgun测序产生reads，然后利用连续reads之间的重叠信息（overlap）进行组装产生
宏基因组：MEGAHIT组装拼接及quast评估狗蛋儿张宏基因组组装软件宏基因组组装评估 megahit soapdenovo
Megahit组装软件很多下面介绍三款组装软件：MEGAHIT下载地址https://github.com/voutcn/megahitgitclonehttps://github.com/voutcn/megahit.gitcdmegahitmake其他两款组装软件下载地址SOAPdenovo下载地址http://sourceforge.net/projects/soapdenovo2/file
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后