刘永鑫Adam

QIIME 2教程. 07帕金森小鼠教程Parkinson's Mouse(2020.2)

文章目录

前情提要
QIIME 2用户文档. 7帕金森小鼠教程

本节视频视频教程
假设
启动QIIME2运行环境
元数据
数据导入QIIME 2
序列质量控制和特征表
特征表摘要
构建多样性分析所需的进化树
Alpha稀疏和深度选择
多样性分析

Alpha多样性
Beta多样性

物种注释
物种组成柱状图
ANCOM差异丰度分析
下面部分视频教程
再次物种分类
纵向分析

基于PCoA的分析
基于距离的分析

用于预测样本特征的机器学习分类器
合成
Reference
译者简介
猜你喜欢
写在后面

前情提要

NBT：QIIME 2可重复、交互式的微生物组分析平台
1简介和安装Introduction&Install
2插件工作流程概述Workflow
3老司机上路指南Experienced
4人体各部位微生物组分析Moving Pictures，Genome Biology：人体各部位微生物组时间序列分析
5粪菌移植分析练习FMT，Microbiome：粪菌移植改善自闭症
6沙漠土壤分析Atacama soil，mSystems：干旱对土壤微生物组的影响
Cell：肠道菌群促进帕金森发生ParkinsonDisease

QIIME 2用户文档. 7帕金森小鼠教程

Parkinson’s Mouse Tutorial

原文地址：https://docs.qiime2.org/2020.2/tutorials/pd-mice/

本教程将使用来自人源化(humanized)小鼠的一组粪便样品，展示16S rRNA基因扩增子数据的“典型”QIIME 2分析。最初的研究，Sampson等，2016旨在确定粪便微生物组是否有助于帕金森病（Parkinson’s Disease, PD）的发展。一些观察研究显示PD患者和对照之间的微生物组存在差异，尽管研究中发现的物种不一致。然而，这足以证明PD与粪便微生物组之间可能存在关联。

Timothy R. Sampson, et. al. Gut Microbiota Regulate Motor Deficits and Neuroinflammation in a Model of Parkinson’s Disease. Cell 167, 1469-1480.e1412, doi:10.1016/j.cell.2016.11.018 (2016).

为了确定这种关系是偶然的还是实际上与疾病相关需要进一步研究。人类队列研究不可行，因为该疾病仅影响60岁以上人口的1％左右，PD需要很长时间才能发展和诊断，而且很难确定何时该采集样本。因此，利用无菌(gnotobiotic)小鼠研究来评估微生物组在PD症状发展中的作用。从6名患有帕金森病的供体和6名年龄和性别匹配的神经健康对照中收集粪便，然后将其移植到因突变（“aSyn”）或抗性野生型小鼠而易患帕金森病的小鼠（“ BDF 1” ）。将来自不同供体的小鼠保持在分开的笼子中，但是共同圈养来自不同遗传背景的小鼠。跟踪小鼠7周，看他们是否出现帕金森病的症状。

我们将查看来自两个人类供体（一个健康和一个PD）的数据的子集，其样品各自被移植到来自易感基因型的三个独立的小鼠笼中。对于本教程，已准备好元数据的子集，并且已对每个样本的序列进行二次采样，大约5000条序列，以使教程能够在短时间内运行。完整研究的序列可在EBI获得，登记号为 PRJEB17694 ; 完整研究中的处理表可以从Qiita数据库的研究10483中下载。

本节视频视频教程

https://v.qq.com/x/page/b3007nt4hby.html

视频有广告，清晰度不够高吗？在公众号“宏基因组(meta-genome)”后台回复“qiime2”获得1080p视频和测试数据下载链接。

假设

Hypothesis

本教程将探讨人源化小鼠的遗传背景影响微生物群落的假设。然而，我们还需要考虑其他可能驱动微生物结构而不是小鼠基因型的混杂因素。

启动QIIME2运行环境

要求完成本节分析，你需要安装好QIIME 2，参见《1简介和安装Introduction&Install（2020.2版）》。

对于上文提到了conda/docker两种常用安装方法，我们每次在分析数据前，需要打开工作环境，根据情况选择对应的打开方式。

# 定义工作目录变量，方便以后多次使用
wd=~/github/QIIME2ChineseManual/2020.2
mkdir -p $wd
# 进入工作目录，是不是很简介，这样无论你在什么位置就可以快速回到项目文件夹
cd $wd

# 方法1. 进入QIIME 2 conda工作环境
conda activate qiime2-2020.2
# 这时我们的命令行前面出现 (qiime2-2020.2) 表示成功进入工作环境

# 方法2. conda版本较老用户，使用source进入QIIME 2
source activate qiime2-2020.2

# 方法3. 如果是docker安装的请运行如下命令，默认加载当前目录至/data目录
docker run --rm -v $(pwd):/data --name=qiime -it  qiime2/core:2020.2

# 创建本节学习目录
mkdir -p mouse_tutorial
cd mouse_tutorial

元数据

Metadata

在开始任何分析之前，熟悉元数据很重要。在本研究中，元数据文件包含7列。

即使mouse ID看起来像一个数字，我们也会使用＃q2_type指令指定它是分类型数据。

注意：QIIME 2 官方测试数据部分保存在Google服务器上，国内下载比较困难。可下载 https://data.qiime2.org/2020.2/tutorials/pd-mice/sample_metadata.tsv ，或微信订阅号回复"qiime2"获取测试数据批量下载链接，这样你就可以跳过下面的wget步骤。

下载来源Google文档的实验设计

wget \
  -O "metadata.tsv" \
  "https://data.qiime2.org/2020.2/tutorials/pd-mice/sample_metadata.tsv"

整个教程将使用示例元数据。让我们运行我们的第一个QIIME 2命令，来总结和探索元数据。

qiime metadata tabulate \
  --m-input-file metadata.tsv \
  --o-visualization metadata.qzv

metadata.qzv：元数据可视化，生成交互式表格在网页在查看，可按任意列排序。查看 | 下载

数据导入QIIME 2

Importing data into QIIME 2

在QIIME 2中，所有数据都被构造为特定语义类型的对象。对象包含数据以及有关数据的信息，包括原始数据的记录和用于处理数据的工具。这样可以更好地跟踪您实际到达分析中的位置。您可以在此处了解有关常见QIIME 2对象和语义类型的更多信息。

我们的样品使用EMP 515f-806r引物扩增，并在Illumina MiSeq上用2x150bp试剂盒测序。我们使用的引物覆盖的高变区长290bp，因此，对于150bp的读数，我们的序列将略微过短，无法在下游进行配对末端分析。因此，我们将使用单端序列。我们将使用已经按标签拆分好样本的版本，例如由测序中心拆分。如果您需要对序列进行自行样本拆分，“《人体各部位微生物组分析Moving Picture（2020.2版）》”教程将介绍如果使用Earth Microbiome Project协议对序列进行测序，则对应如何对序列进行拆分。(详者注：拆分方法与测序的实验方法对应，建议由你的测序服务商或合作者提供拆分为单个样本的单端或双端序列，并要确定是否已经去除了引物和标签序列)

我们将序列导入为SampleData [SequencesWithQuality]，这是拆分后的单端序列格式。如果我们想导入双端序列，我们将指定语义类型SampleData [PairedEndSequencesWithQuality]。我们将使用样本清单格式(manifest format)导入序列，这是一种在QIIME 2中导入拆分样本数据的通用方法。我们创建一个以制表符分隔的样本清单文件，将我们要在QIIME 2中使用的样本名称映射到序列文件的路径。好处是可以将单样本的序列文件命名为您想要的任何名称；没有关于约定的固定假设，文件名也没有规定最终名称。当QIIME 2读取文件时，它会忽略前缀为＃符号的任何行。但不包含＃的第一行，因为它是标题行，必须是sample-id absolute-filepath。标题行后的样本顺序无关紧要。阅读有关将数据导入QIIME 2对象的更多信息，以及有关示例元数据格式要求的更多信息。

让我们从下载清单和相应的序列开始。

# 下载文件清单
wget -c \
  -O "manifest.tsv" \
  "https://data.qiime2.org/2020.2/tutorials/pd-mice/manifest"

# 下载序列压缩包，21M文件，我下载了1-10m不等
wget -c \
  -O "demultiplexed_seqs.zip" \
  "https://data.qiime2.org/2020.2/tutorials/pd-mice/demultiplexed_seqs.zip"

# 解压序列数据
unzip demultiplexed_seqs.zip

# 查看清单文件
head -n3 manifest.tsv

文件内容示例

sample-id	absolute-filepath
recip.220.WT.OB1.D7	$PWD/demuliplexed_seqs/10483.recip.220.WT.OB1.D7_30_L001_R1_001.fastq.gz
recip.290.ASO.OB2.D1	$PWD/demuliplexed_seqs/10483.recip.290.ASO.OB2.D1_27_L001_R1_001.fastq.gz

使用此清单格式时，样本名称只能出现在一行中，并且每列只能映射到每列一个文件名（单端为一列，双端为两列）。每个样本的绝对文件路径必须是绝对路径，它指定文件的“完整”位置。我们在这里使用$ PWD变量，它以绝对值扩展当前目录。

使用文件清单导入数据

# 导入21M数据，15s
time qiime tools import \
  --type "SampleData[SequencesWithQuality]" \
  --input-format SingleEndFastqManifestPhred33V2 \
  --input-path ./manifest.tsv \
  --output-path ./demux_seqs.qza

让我们使用qiime demux summary命令检查样本的序列和测序深度，它提供每个样本中序列数及序列质量的信息。在运行命令之前，让我们查看帮助文档，以确保我们了解该命令的参数。

qiime demux summarize --help

根据文档，我们应该为--i-data参数指定输入文件（已拆分序列的文件或叫“对象”），语义类型为SampleData [SequencesWithQuality]。我们通过--o-visualization来设定输出路径，指定文件保存的位置。帮助文档是所有命令的参考资料，从中你还可以查找到错误信息，尤其是有关参数的报错信息。

# 导入数据的可视化，9s
time qiime demux summarize \
  --i-data ./demux_seqs.qza \
  --o-visualization ./demux_seqs.qzv

demux_seqs.qzv：元数据可视化，生成交互式表格在网页在查看，可按任意列排序。查看 | 下载

问题

拆分后，哪个样本的测序深度最低？
序列长度中位数是多少？
125位的中位数质量得分是多少？
如果您正在与其他人一起学习本教程，为什么您的细节与您的邻居略有不同？如果您没有与其他人一起工作，请尝试运行此命令多次并比较结果的细微变化。

译者注：以上问题查看demux_seqs.qzv很容易找到答案。

详者注参考答案：

使用https://view.qiime2.or查看demux_seqs.qzv页面的底部，即最小样本量的样本recip.460.WT.HC3.D14
查看Interactive Quality Plot页面，最下面的表格有长度的中位数:150 nts
鼠在当前页面中质量箱线图中划动，找到125位碱基，质量中位数显示在下表中，为38
因为质量值评估，不是对所有数据评估，是从数据中随机抽样一部数据，但足以反映整体的情况，每次会略有不同。数据分析中，使用随机的过程，结果都可能存在不确定性，如抽样、随机森林分析等。

小测试

考虑修剪和/或截断的合适位置是什么？

序列质量控制和特征表

Sequence quality control and feature table

有几种方法可以在QIIME 2中构建特征表。第一个主要选择是使用操作分类单元（Operational Taxonomic Units，OTU）或扩增/绝对序列变体（Absolute Sequence Variants，ASV）。自2010年中期以来，OTU已广泛用于微生物组研究，并基于参考数据库或从头将序列分配给聚类。 QIIME 2目前通过q2-vsearch和q2-dbOTU插件提供聚类。

与传统的基于OTU的方法相比，ASV是最近发展的新一代方法，在功能上提供更好的分辨率。 ASV可以基于400bp或更多序列中单个核苷酸的差异来分离特征，甚至超过99％同一性OTU聚类的分辨率。 QIIME 2目前通过DADA2（q2-dada2）和Deblur（q2-deblur）提供去噪。 Nearing等人，2018年很好地描述了主要去噪算法的动机的主要差异。

值得注意的是，在任何一种情况下，对序列进行ASV去噪或OTU进行聚类是分开的，即并行步骤。应该选择单一方法：去噪或基于OTU的聚类; 不建议将这些步骤组合在一起（当然也存在组合方法，但我们不推荐）。

在本教程中，我们将使用DADA2进行去噪（使用单端序列）。有关在配对末端序列上使用DADA2的示例，请参阅Atacama Soil教程。对于那些对使用Deblur感兴趣的人，你可以参考《4人体各部位微生物组分析MovingPicture》和阅读序列合并的替代方法，分别在单端和双端序列上运行Deblur。

qiime dada2 denoise-single方法要求我们设置--p-trunc-len参数。这可以控制序列的长度，并应根据质量得分的下降进行选择。在我们的数据集中，质量得分在测序运行中相对均匀分布，因此我们将使用完整的150 bp序列。然而，修剪长度的选择是相对主观的测量结果，并且依赖于数据分析人员的决策能力。

# 注：./代表当前目录，可以省略，也可替换为你数据所在或想保存的任何位置
# 时间2m55s，此步大数据可能需数小时或数天
time qiime dada2 denoise-single \
  --i-demultiplexed-seqs ./demux_seqs.qza \
  --p-trunc-len 150 \
  --o-table ./dada2_table.qza \
  --o-representative-sequences ./dada2_rep_set.qza \
  --o-denoising-stats ./dada2_stats.qza

20M的测试数据，用时2分30s。

输出对象：

dada2_stats.qza：元数据可视化，生成交互式表格在网页在查看，可按任意列排序。查看 | 下载
dada2_table.qza：元数据可视化，生成交互式表格在网页在查看，可按任意列排序。查看 | 下载
dada2_rep_set.qza：元数据可视化，生成交互式表格在网页在查看，可按任意列排序。查看 | 下载

我们可以使用qiime metadata tabulate命令来可视化统计结果

# 5s
time qiime metadata tabulate \
  --m-input-file ./dada2_stats.qza  \
  --o-visualization ./dada2_stats.qzv

可视化结果:

dada2_stats.qzv：元数据可视化，生成交互式表格在网页在查看，可按任意列排序。查看 | 下载

特征表摘要

Feature table summary

在我们完成对数据进行去噪后，我们可以通过查看特征表的摘要来检查结果。这将为我们提供与每个序列和每个特征相关的计数，以及其他有用的图和指标。

# 7s
time qiime feature-table summarize \
  --i-table ./dada2_table.qza \
  --m-sample-metadata-file ./metadata.tsv \
  --o-visualization ./dada2_table.qzv

dada2_table.qzv：元数据可视化，生成交互式表格在网页在查看，可按任意列排序。查看 | 下载

问题：

去噪后剩余多少特征？
哪个样本的特征总数最多？在DADA2去噪之前，该样本有多少个序列？
有多少样本的总特征小于4250？
在至少47个样品中观察到哪些特征？
哪个样本特征最少？它有多少？
如果打开去噪摘要，是否可以找到序列最少的样本失败的步骤？

详者注：参考答案

使用 https://view.qiime2.org 查看dada2_table.qzv样本，第一页Table summary中的Number of features有287个。

查看dada2_table.qzv中Interactive Sample Detail，中每个样本的Feature Count按数量排序，其中recip.539.ASO.PD4.D14 样本的特征总数最多，共有4996条；去噪前的序列数，需要查看dada2_stats.qzv文件，查找recip.539.ASO.PD4.D14，发现input原始序列为5475条。

查看dada2_table.qzv中Interactive Sample Detail，显示48个样品，输入4250显示剩余26。即22个样本小于4250。

查看dada2_table.qzv中Feature Detail中查看，只有3个特征在47个样品中。

查看dada2_table.qzv中Interactive Sample Detail，最底部的样本为recip.460.WT.HC3.D49特征最少，只有347个。

查看dada2_stats.qzv文件，查找recip.460.WT.HC3.D49，发现input原始序列为16327条，过滤后为9919条，去噪后为347条，估计可能为质量太低被去除。

构建多样性分析所需的进化树

Generating a phylogenetic tree for diversity analysis

QIIME 2分析允许将系统发育树用于多样性指标，例如Faith的系统发育多样性和UniFrac距离以及基于特征的Gneiss分析。树为数据提供了固有的结构，使我们能够考虑生物之间的进化关系。

QIIME 2提供了几种构建系统发育树的方法。在本教程中，我们将使用q2-fragment-insertion插件创建一个片段插入树。片段插入插件的作者表明，它可以通过基于Illumina短读长，与较大序列构建的参考树对齐，优于传统的基于比对的方法。我们的命令qiime fragment-insertion sepp将使用我们在去噪期间生成的代表序列（FeatureData[Sequence]对象）来创建系统发育树，其中序列已插入到greengenes 13_8 99％相似度的参考树骨架中。

注意
此命令是资源密集型的 - 如果您的计算环境支持它，我们建议包括一个适当设置的--p-threads参数。

先下载sepp-refs-gg-13-8.qza

wget -c \
  -O "sepp-refs-gg-13-8.qza" \
  "https://data.qiime2.org/2020.2/common/sepp-refs-gg-13-8.qza"

# 多线程服务器，可调多线程加速
time qiime fragment-insertion sepp \
  --i-representative-sequences ./dada2_rep_set.qza \
  --i-reference-database sepp-refs-gg-13-8.qza \
  --o-tree ./tree.qza \
  --o-placements ./tree_placements.qza \
  --p-threads 1  # update to a higher number if you can

测序中，1线程计算35m，9线程用时15m。多线程是缩短时间，但使用机时长达3小时以上，总体效率下降明显。

输出对象:

sepp-refs-gg-13-8.qza: Greengenes 13_8 版本99%相似性参考树骨架文件。查看 | 下载
tree_placements.qza：插值法的树文件。查看 | 下载
tree.qza：树文件。查看 | 下载

Alpha稀疏和深度选择

Alpha Rarefaction and Selecting a Rarefaction Depth

我们现在有一个包含每个样本ASV的特征表（观察矩阵），以及代表这些ASV的系统发育树，因此几乎准备好对微生物多样性进行各种分析。但是，首先我们必须对数据进行标准化，以解决样本之间不均匀的测序深度。

尽管微生物组样本中的测序深度与群落中的原始生物量没有直接关系，但相对测序深度对观察到的群落具有很大影响（Weiss等，2017）。因此，对于大多数多样性度量，需要标准化方法。

目前的最佳实践建议使用稀疏，通过二次取样进行标准化而无需替换。稀疏发生在两个步骤中：首先，低于稀疏深度的样本被从特征表中滤掉。然后，对所有剩余样本进行无放回采样以达到指定的测序深度。选择稀疏深度进行多样性分析既重要又有时具有挑战性。有几种策略可以找出适当的稀疏深度 - 我们将在本教程中主要考虑alpha稀疏，因为它是一种解决问题的数据驱动方式。

我们将使用qiime diversity alpha-rarefaction在不同深度（在--p-min-depth和--p-max-depth之间）对ASV表进行子采样，并使用一个或多个度量来计算alpha多样性（--p-metrics）。当我们检查特征表时，我们发现在去噪表中具有最少序列的样本具有85个特征，并且具有最多具有4996个特征的样本。我们希望将最大深度设置为接近最大序列数。我们也知道，如果我们查看每个样本4250个序列的测序深度，我们将查看22个样本的信息。所以，让我们将其设置为我们的最大测序深度。

在每个采样深度，通常计算10个稀疏表以提供误差估计，尽管可以使用--p-iterations参数进行调整。我们可以通过指定--m-metadata-file参数的元数据文件来检查并查看alpha多样性和元数据之间是否存在关系。

# 用时15s
time qiime diversity alpha-rarefaction \
  --i-table ./dada2_table.qza \
  --m-metadata-file ./metadata.tsv \
  --o-visualization ./alpha_rarefaction_curves.qzv \
  --p-min-depth 10 \
  --p-max-depth 4250

alpha_rarefaction_curves.qzv：alpha稀疏曲线。查看 | 下载

可视化文件将显示两个图。上图将显示作为采样深度函数的α多样性（观察到的OTU或shannon）。这用于基于采样深度确定丰富度或均匀度是否已饱和。当您接近最大采样深度时，稀疏曲线应“平稳”。如果不这样做，特别是对于仅有多样性的度量，例如观察到的OTU或Faith的PD多样性，可能表明样本中的丰富度尚未完全饱和。

第二个图显示了每个采样深度的每个元数据类别组中的样本数。这对于确定样本丢失的采样深度以及元数据列组值是否存在偏差非常有用。请记住，稀疏是一个两步过程，不满足稀疏深度的样本将从表中过滤掉。我们可以使用曲线来查看不同元数据列的样本数。

如果您仍然不确定稀疏深度，还可以使用示例摘要通过将样本元数据提供给特征表(dada2_table.qzv)摘要来查看丢失的样本。

问题

首先打开alpha稀疏可视化。

是否在可视化中表示了所有元数据列？如果没有，哪些列被排除，为什么？

哪个指标显示多样性的饱和度和稳定性？

基于曲线，哪种小鼠遗传背景具有更高的多样性？哪个采样深度较浅？

现在，让我们检查特征表摘要。

如果我们将稀疏深度设置为每个样本2500个序列，则会丢失多少百分比的样本？

丢失样品来自哪些老鼠？

参考答案（译者注）

首先使用https://view.qiime2.org打开alpha稀疏可视化alpha_rarefaction_curves.qzv。

我们查看cat metadata.tsv中除样本名外的元数据共有8列，在网页中Sample Metaadata Colmn中只有7类，没有全部元数据列。比较发现days_post_transplant缺失，原因为此列为连续型变量，而不是分类型变量。

Metric中的observed_otus指标显示多样性的饱和度和稳定性，如选择cage_id分组，可到各种曲线开始快速上升，后期趋于平滑。

分组切换为genotype，观察到wild type有较高的多样性。观察下面的图，开始wild type采样较浅，susceptible中所有24个样本均大于3500。

现在，让我们检查特征表摘要。

我们打开dada2_table.qzv，在Interactive Sample Detail中Sampling Depth，如果我们将稀疏深度设置为每个样本2500个序列，显示91.67%剩余，则会丢失百分之8.37%(4)的样本。

我们切换Metadata为mouse_id，丢失样品来自457，469，538，538四种老鼠。

在我们查看了数据之后，我们需要选择一个稀疏深度。一般而言，选择稀疏深度是一个主观过程，需要分析师自行决定。选择稀疏深度是最大限度地减少序列损失，同时最大化保留用于多样性分析的序列。对于高生物量样品（粪便，口腔等），一般的最佳估计是每个样品的稀疏深度不少于1000个序列。在测序较浅的低生物量样品中，可以选择较低的稀疏深度，但重要的是要记住，这些样品的多样性测量将是非常嘈杂的并且总体质量将是低的。

小测验

根据当前的稀疏曲线和样本摘要，您会选择什么样的测序深度？为什么？

在这种情况下，我们可以保留47个稀疏深度为2000个序列/样本的样本。

根据测序深度和样品分布，我们将使用2000个序列/样品进行分析。这将使我们保留48个高质量样品中的47个（丢弃一个样品，测序深度低于1000个序列/样品）。

多样性分析

Diversity analysis

微生物生态学假设检验的第一步通常是研究 - 样本同（α）和样本间（β）多样性。我们可以使用q2-diversity插件计算多样性指标，应用适当的统计检验，并可视化数据。

我们将首先使用qiime diversity core-metrics-phylogenetic方法，该方法输入文件为特征表，计算几种常用的α和β多样性度量，并在Emperor中为β多样性生成主坐标分析（PCoA）可视化。默认情况下，计算的指标是：

Alpha多样性
- Shannon’s diversity index
- Observed OTUs
- Faith’s phylogenetic diversity
- Pielou’s evenness
Beta多样性
- Jaccard distance
- Bray-Curtis distance
- Unweighted UniFrac distance
- Weighted UniFrac distance

Stephanie Orchanian在论坛帖子中对多样性指标及其含义进行了非常好的讨论。

qiime diversity core-metrics-phylogenetic方法包含了其他几种方法，值得注意的是，这些步骤也可以独立执行。

多样性计算的一个重要考虑因素是稀疏深度。在上面，我们使用alpha稀疏可视化和样本摘要可视化来选择稀疏深度。因此，对于这些分析，我们将使用每个样本2000个序列的深度。

# 计算多样性，23s
time qiime diversity core-metrics-phylogenetic \
  --i-table ./dada2_table.qza \
  --i-phylogeny ./tree.qza \
  --m-metadata-file ./metadata.tsv \
  --p-sampling-depth 2000 \
  --output-dir ./core-metrics-results

输出对象:

core-metrics-results/faith_pd_vector.qza: 。查看 | 下载
core-metrics-results/unweighted_unifrac_distance_matrix.qza: 。查看 | 下载
core-metrics-results/bray_curtis_pcoa_results.qza:。查看 | 下载
core-metrics-results/shannon_vector.qza: 。查看 | 下载
core-metrics-results/rarefied_table.qza: 。查看 | 下载
core-metrics-results/weighted_unifrac_distance_matrix.qza: 。查看 | 下载
core-metrics-results/jaccard_pcoa_results.qza: 。查看 | 下载
core-metrics-results/observed_otus_vector.qza: 。查看 | 下载
core-metrics-results/weighted_unifrac_pcoa_results.qza: 。查看 | 下载
core-metrics-results/jaccard_distance_matrix.qza: 。查看 | 下载
core-metrics-results/evenness_vector.qza: 。查看 | 下载
core-metrics-results/bray_curtis_distance_matrix.qza: 。查看 | 下载
core-metrics-results/unweighted_unifrac_pcoa_results.qza: 。查看 | 下载

输出可视化:

core-metrics-results/unweighted_unifrac_emperor.qzv: 。查看 | 下载
core-metrics-results/jaccard_emperor.qzv: 。查看 | 下载
core-metrics-results/bray_curtis_emperor.qzv: 。查看 | 下载
core-metrics-results/weighted_unifrac_emperor.qzv: 。查看 | 下载

问题：我们从哪里获得2000的参数值？我们为什么选择那个？

Alpha多样性

Alpha diversity

Alpha多样性查询样本（或样本组）中的特征分布是否在不同条件之间不同。该比较没有假设样本之间共享的特征; 两个样本可以具有相同的alpha多样性，并且不共享任何特征。 q2-diversity产生的稀疏α多样性是一个单变量的连续值，可以使用常见的非参数统计检验进行检验。

我们可以通过运行以下方法测试我们感兴趣的协变量对Faith系统发育多样性(Faith’s phylogenetic diversity)和Pielou均匀度(Pielou’s evenness)值：

time qiime diversity alpha-group-significance \
  --i-alpha-diversity ./core-metrics-results/faith_pd_vector.qza \
  --m-metadata-file ./metadata.tsv \
  --o-visualization ./core-metrics-results/faiths_pd_statistics.qzv

可视化结果:

core-metrics-results/faiths_pd_statistics.qzv: faiths_pd指数按元数据的统计可视化。查看 | 下载

# 5s
time qiime diversity alpha-group-significance \
 --i-alpha-diversity ./core-metrics-results/evenness_vector.qza \
 --m-metadata-file ./metadata.tsv \
 --o-visualization ./core-metrics-results/evenness_statistics.qzv

可视化结果:

core-metrics-results/evenness_statistics.qzv: 均匀度指数按元数据的统计可视化。查看 | 下载

问题：

基因型之间的均匀性是否存在差异？基因型之间的系统发育多样性是否存在差异？
基于组间显着性检验，基因型的系统发育多样性是否存在差异？基于捐赠者是否存在差异？

参考答案（译者注）

我们查看evenness_statistics.qzv，列名Column选择genotype，观察图形差异不明显，观察下方P值不显著。

同样观察faiths_pd_statistics.qzv中的基因型，P值不显著(P=0。08)。切换为donor分组，差异显著（P=0.01, Kruskal-Wallis test）

如果我们有一个我们认为与α多样性相关的连续协变量，我们可以使用qiime diversity alpha-correlation来进行检验。但是，此数据集中唯一的连续变量是days_since_transplant。

在一些实验中，多个相互作用的因素可能共同影响α多样性。 如果我们的α多样性估计遵循正态分布，我们可以使用方差分析（ANOVA）来测试多重效应是否显着影响α多样性。此测试存在于q2-longitudinal插件中：

time qiime longitudinal anova \
  --m-metadata-file ./core-metrics-results/faith_pd_vector.qza \
  --m-metadata-file ./metadata.tsv \
  --p-formula 'faith_pd ~ genotype * donor_status' \
  --o-visualization ./core-metrics-results/faiths_pd_anova.qzv

core-metrics-results/faiths_pd_anova.qzv: faiths_pd指数按元数据分组交互计算的anova统计可视化。查看 | 下载

Beta多样性

Beta diversity

接下来，我们将使用β多样性比较微生物群落的结构。首先目视检查由q2-emperor和core-metrics-results/weighted_unifrac_emperor.qzv生成的主坐标分析（PCoA）图。

问题

首先打开未加权的UniFrac emperor图（core-metrics-results/unweighted_unifrac_emperor.qzv）。你能找到数据中的明显分离吗？您能找到反映分离的元数据因子吗？如果您使用加权的UniFrac距离（core-metrics-results/weighted_unifrac_emperor.qzv）怎么办？
小鼠研究的主要问题之一是有时群落的差异是由于每个笼子的自然变异。你看到每个笼子中的样本聚集在一起了吗？

现在，让我们使用PERMANOVA分析统计趋势。 PERMANOVA测试的假设是，一组内的样本彼此之间的相似性比另一组中的样本更相似。换句话说，它测试每组的组内距离是否与组间距离不同。我们期望相似的样本彼此之间的距离较小，因此如果我们假设一组不同于另一组是正确的，那么我们期望组内距离小于组间距离。

让我们使用beta-group-significance命令来测试供体身份（我们定性地确定为PCoA空间中的主要分隔符）是否与加权和未加权UniFrac距离的显着差异相关联。

# 6s
time qiime diversity beta-group-significance \
  --i-distance-matrix core-metrics-results/unweighted_unifrac_distance_matrix.qza \
  --m-metadata-file metadata.tsv \
  --m-metadata-column donor \
  --o-visualization core-metrics-results/unweighted-unifrac-donor-significance.qzv

# 5s
time qiime diversity beta-group-significance \
  --i-distance-matrix core-metrics-results/weighted_unifrac_distance_matrix.qza \
  --m-metadata-file metadata.tsv \
  --m-metadata-column donor \
  --o-visualization core-metrics-results/weighted-unifrac-donor-significance.qzv

可视化结果:

core-metrics-results/weighted-unifrac-donor-significance.qzv: 。查看 | 下载
core-metrics-results/unweighted-unifrac-donor-significance.qzv: 。查看 | 下载

我们还要检查小鼠所在的笼子与β多样性之间是否存在关系，因为“笼子效应”通常是一个需要考虑的重要技术效果。由于我们有几个笼子，我们将使用--p-pairwise参数，让我们检查驱动差异的笼子之间是否存在个体差异。这可能很有用，因为如果我们检查元数据，我们可能会发现笼子是由捐赠者嵌套的。

# 9s
time qiime diversity beta-group-significance \
  --i-distance-matrix core-metrics-results/unweighted_unifrac_distance_matrix.qza \
  --m-metadata-file metadata.tsv \
  --m-metadata-column cage_id \
  --o-visualization core-metrics-results/unweighted-unifrac-cage-significance.qzv \
  --p-pairwise

# 9s
time qiime diversity beta-group-significance \
  --i-distance-matrix core-metrics-results/weighted_unifrac_distance_matrix.qza \
  --m-metadata-file metadata.tsv \
  --m-metadata-column cage_id \
  --o-visualization core-metrics-results/weighted-unifrac-cage-significance.qzv \
  --p-pairwise

可视化结果:

core-metrics-results/weighted-unifrac-cage-significance.qzv: 按笼子统计有权重unifrac距离的显著性。查看 | 下载
core-metrics-results/unweighted-unifrac-cage-significance.qzv: 按笼子统计无权重unifrac距离的显著性。查看 | 下载

译者注：可以看到很多笼子间就有显著区别，这是一个小鼠实验中很常见的混淆因子，一定要严格注意，防止下错误结论。

问题

捐赠者有显著影响吗？

从元数据中，我们知道笼子C31，C35和C42都是从一个供体移植的小鼠，而笼子C43，C44和C49来自另一个。在C31和C35笼中收集的样本之间的微生物群落是否存在显着差异？ C31和C43之间怎么样？根据捐赠者的箱图，结果是否符合您的预期？

答案，我们分别计算了weighted-unifrac和unweighted_unifrac两种距离的结果。我们只在有权重的为例进行解答，两种结果可能不同。

结果中P值为0.001，即有显著影响。

在C31和C35中无显著差异(q-value = 0.75)，C31与C43中有显著差异(q-value = 0.01)

PERMANOVA的显著差异可以反映组内的差异或组内差异的差异。这意味着我们可能会看到统计上显著的差异，即使它是由一组内的变异引起的。距离箱线图可以帮助给出视觉上的感觉，但是使用统计测试来确认这一点很好。我们可以使用permdisp来帮助排除由于其中一个感兴趣的组中的高度分散（组内方差）而导致的差异。

我们可以指定我们想要在qiime Diversity beta-group-significance中使用--p-method标志来使用permdisp。让我们探讨基于cage_id的离散度，以检查笼子相关的差异是否是由于笼内较大差异引起。

# 22s
time qiime diversity beta-group-significance \
  --i-distance-matrix core-metrics-results/weighted_unifrac_distance_matrix.qza \
  --m-metadata-file metadata.tsv \
  --m-metadata-column cage_id \
  --o-visualization core-metrics-results/unweighted-unifrac-cage-significance_disp.qzv \
  --p-method permdisp

可视化结果:

core-metrics-results/unweighted-unifrac-cage-significance_disp.qzv: 按笼子统计无权重unifrac距离的显著性。查看 | 下载

问题：任何一个笼子的方差都有显着差异吗？

我们还可以使用adonis动作来查看多变量模型。 adonis动作使用PERMANOVA检验，但是允许同时检验多种效应（类似于我们之前使用ANOVA对α多样性的多变量效应的方式）。让我们看看供体和基因型之间的交集。

# 9s
time qiime diversity adonis \
  --i-distance-matrix core-metrics-results/unweighted_unifrac_distance_matrix.qza \
  --m-metadata-file metadata.tsv \
  --o-visualization core-metrics-results/unweighted_adonis.qzv \
  --p-formula genotype+donor

可视化结果:

core-metrics-results/unweighted_adonis.qzv: 供体和基因型交互条件统计无权重unifrac距离的显著性。查看 | 下载

问题：

捐赠者有显著影响吗？

从元数据中，我们知道笼子C31，C35和C42都是从一个供体移植的小鼠，而笼子C43，C44和C49来自另一个。在C31和C32笼中收集的样本之间的微生物群落是否存在显着差异？ C31和C43之间怎么样？根据捐赠者的箱图，结果是否符合您的预期？

如果您在adonis模型中调整供体，您是否保留基因型效应？基因型解释的变异百分比是多少？

参考答案：详者注

查看core-metrics-results/unweighted_adonis.qzv，其中donor的Pr=0.001，有显著差异；
查看core-metrics-results/unweighted-unifrac-cage-significance_disp.qzv，查看Distances to C31，发现与C32或C43间无显著差异。
查看core-metrics-results/unweighted_adonis.qzv，保留基因型效应是有的。变异百分比为0.04%。

物种注释

Taxonomic classification

到目前为止，我们一直在ASV上进行多样性分析；换句话说，我们仅基于在每个样品中观察到的独特序列变体评估了样品之间的相似性。在大多数实验中，我们希望了解微生物类群的存在 - 识别ASV并给它们“命名”。为此，我们将使用q2-feature-classifier插件对ASV进行分类。

对于这种分析，我们将使用经过预先训练的朴素贝叶斯机器学习分类器，该分类器经过训练，可以区分99％Greengenes 13_8参考集中的分类群，修剪为V4高变区的250 bp（对应于515F-806R引物））。该分类器通过识别对特定分类群体具有诊断性的k聚体，并使用该信息来预测每个ASV的分类从属关系。我们可以在这里下载预训练的分类器：

下载基于GreenGene13.8的99%聚类序列的V4区训练的分类器，我们在之前第4节.人体各部位微生物组分析MovingPicture中已经下载过。

如果你完成了之前第4节. 人体各部位微生物组分析MovingPicture的练习，可跳过分类器的下载。

# 27M，61s
wget -c \
  -O "gg-13-8-99-515-806-nb-classifier.qza" \
  "https://data.qiime2.org/2020.2/common/gg-13-8-99-515-806-nb-classifier.qza"

值得注意的是，Naive Bayes分类器在针对扩增特定高变区数据训练时表现最佳。您可以根据训练分类器教程，训练特定于数据集的分类器，或者从QIIME 2资源页面下载其他数据集的分类器。分类器可以重复用于一致版本的包，数据库和感兴趣的区域。

# 59s
time qiime feature-classifier classify-sklearn \
  --i-reads ./dada2_rep_set.qza \
  --i-classifier ./gg-13-8-99-515-806-nb-classifier.qza \
  --o-classification ./taxonomy.qza

输出对象:

taxonomy.qza: 物种注释结果。查看 | 下载
gg-13-8-99-515-806-nb-classifier.qza: 物种注释结果。查看 | 下载

接下来可视化物种注释为表，方便查看。

qiime metadata tabulate \
  --m-input-file ./taxonomy.qza \
  --o-visualization ./taxonomy.qzv

输出可视化:

taxonomy.qzv: 物种注释表，包括界、门、纲、目、科、属和种的注释。查看 | 下载

我们还将代表性序列（FeatureData [Sequence]）制成表格。对代表性序列进行制表将允许我们查看分配给标识符的序列，并以NCBI数据库的形式交互式地对序列进行比对查询。

qiime feature-table tabulate-seqs \
  --i-data ./dada2_rep_set.qza \
  --o-visualization ./dada2_rep_set.qzv

输出可视化:

dada2_rep_set.qzv: 代表序列，特征的序列，可blast到NCBI人工挑选注释。查看 | 下载

问题

找到该特征，07f183edd4e4d8aef1dcb2ab24dd7745。这个序列的分类学注释是什么？这项任务的置信度是多少？

有多少功能被归类为g__Akkermansia属？

使用列表代表序列查找这些功能。如果你对NCBI进行比对，你会得到与q2-feature-classifier相同的分类标识符吗？

你可以通过上面两个结果文件中搜索到问题的答案。

注意

您可能会注意到某些功能没有分类注释，对于Greengenes数据库，该分配由该级别的空白字符串表示（例如，“g__”）。这些表明Greengenes数据库没有足够的信息来区分该进化枝的成员，这可能是由于数据库中的模糊性，或者因为被测序的基因区域不能提供区分该进化枝成员的分辨率。这与q2-feature-classifier无法可靠地将ASV分类到更深层次的情况不同：在这些情况下，将提供不完整的分类字符串。因此，您可能会在数据中看到两种不同类型的“低估分类”：例如，k__Bacteria; p__Firmicutes; c__Clostridia; o__Clostridiales; f__Christensenellaceae; G__; s__（Greengenes中缺少属和物种注释）以及k__Bacteria; p__Firmicutes; c__Clostridia; o__Clostridiales; f__Christensenellaceae（q2-feature-classifier无法自信地将ASV归类于属级别）。

注意

您可能还注意到多个ASV具有相同的分类分配。这是正常的 - 独特的ASV不一定映射到独特的分类群！我们可以在条形图中显示每个分类群的频率（如下所述），或使用q2-taxa插件根据分类从属关系折叠collapse我们的特征表。

物种组成柱状图

Taxonomy barchart

由于我们发现该数据集的多样性存在差异，我们可能需要查看这些样本的分类组成。为了使其可视化，我们将在多样性数据集中构建我们分析的样本的分类条形图。

在此之前，我们将首先筛选掉比我们的稀疏阈值（2000）更少特征的任何样本。我们可以使用q2-feature-table插件和filter-samples方法过滤样本。这让我们可以根据各种标准过滤我们的表格，例如计数（频率，--p-min-frequency和--p-max-frequency），特征数量（--p-min-features和 --p-max-feature）或样本元数据（--p-where）。有关更多详细信息和示例，请参阅过滤教程。

对于此示例，我们需要过滤掉比稀疏深度更少的序列的样本。

time qiime feature-table filter-samples \
  --i-table ./dada2_table.qza \
  --p-min-frequency 2000 \
  --o-filtered-table ./table_2k.qza

输出对象：

table_2k.qza: 按2000条序列过滤的特征表。查看 | 下载

现在，让我们使用过滤表在每个样本中构建分类法的交互式条形图。

time qiime taxa barplot \
  --i-table ./table_2k.qza \
  --i-taxonomy ./taxonomy.qza \
  --m-metadata-file ./metadata.tsv \
  --o-visualization ./taxa_barplot.qzv

输出对象：

taxa_barplot.qzv: 按2000条序列过滤的特征表。查看 | 下载

问题：

可视化2级（门水平）的数据，并按供体分类，然后按基因型分类。您能否观察到捐献者之间门的一致差异？这让你感到惊讶吗？为什么或者为什么不？

答案：有。hc_1供体有较多Actinobacteria，偶尔有高丰度的Verrucomicrobia；而pd_1中Probacteria较稳定的出现。

ANCOM差异丰度分析

Differential abundance with ANCOM

许多微生物组研究人员对测试不同样本组中的个体ASV或分类群是否有更多或更少很感兴趣，这被称为差异丰度。微生物组数据使用传统方法对差异丰度进行了若干挑战。微生物群丰度数据本质上是稀疏的（有很多零）和成分（一切都加起来1）。因此，您可能熟悉的传统统计方法（如ANOVA或t检验）不适合进行微生物组数据的差异丰度检验，并导致较高的假阳性率。 ANCOM是一种具有组合意识的替代方案，可以测试差异丰富的功能。如果您不熟悉该技术，那么值得回顾ANCOM文章以更好地理解该方法。

在我们开始之前，我们将过滤掉低丰度/低流行率的ASV。过滤可以提供更好的分辨率，并限制远低于噪声阈值的特征的错误发现率（FDR）惩罚，以适用于统计检验。显示10个计数的特征可能是仅存在于该样本中的真实特征，可能是存在于若干样本中但仅在一个样本中被放大和测序的特征，因为PCR是一个稍微随机的过程，或者它可能是是噪音。我们不可能説，因为过滤低丰度特征，基于特征的分析可能会更好。然而，过滤也会改变样本的组成，进一步破坏关系。这里，过滤是作为模型，计算效率和统计实用性之间的折衷来执行的。

# 筛选最小频率为50，至少在4个样品中出现的特征，5s
time qiime feature-table filter-features \
  --i-table ./table_2k.qza \
  --p-min-frequency 50 \
  --p-min-samples 4 \
  --o-filtered-table ./table_2k_abund.qza

输出对象：

table_2k_abund.qza: 按2000条序列过滤的特征表。查看 | 下载

ANCOM从根本上对FeatureTable[Frequency]进行操作，其中包含每个样本中的特征频率。但是，ANCOM不能容忍零（因为组合方法通常使用对数变换或比率，你不能求对数或除以零）。要从表中删除零，我们将一个伪计数添加到FeatureTable [Frequency]对象，在其位置创建一个FeatureTable[Composition]。

# 5s
time qiime composition add-pseudocount \
  --i-table ./table_2k_abund.qza \
  --o-composition-table ./table2k_abund_comp.qza

输出对象：

table2k_abund_comp.qza: 按2000条序列过滤的特征表。查看 | 下载

让我们使用ANCOM检查基于其供体的小鼠是否存在差异，然后检查它们的遗传背景。该检验将计算采用FDR校正的p <0.05显著不同的ASV对之间的比率数。

# 6s
time qiime composition ancom \
  --i-table ./table2k_abund_comp.qza \
  --m-metadata-file ./metadata.tsv \
  --m-metadata-column donor \
  --o-visualization ./ancom_donor.qzv

# 7s
time qiime composition ancom \
  --i-table ./table2k_abund_comp.qza \
  --m-metadata-file ./metadata.tsv \
  --m-metadata-column genotype \
  --o-visualization ./ancom_genotype.qzv

输出可视化：

ancom_genotype.qzv: 按基因型差异分析的结果。查看 | 下载
ancom_donor.qzv: 按基因型差异分析的结果。查看 | 下载

当您打开ANCOM可视化时，您将在顶部看到一个火山图，它将ANCOM W统计信息与组的CLR（中心对数变换）相关联。 W统计量是每个单独分类单元已经过的ANCOM子假设的数量，表明该分类单元的相对丰度与W其他分类群的相对丰度的比率被检测到显著不同（通常FDR调整后的p <0.05）。因为ANCOM中的差异丰度是基于测试之间的比率，所以它不会产生传统的p值。

问题

打开供体和基因型以及分类可视化对象的ANCOM可视化。

1 捐赠者或小鼠基因型之间是否有更多差异丰富的特征？你是否期望这个结果基于beta多样性？
2. 捐赠者和基因型是否存在差异丰富的相同特征？
3. 两种基因型之间存在多少差异丰富的特征？使用百分位丰度和火山图作为指导，您能否判断它们在野生型或易感小鼠中是否更丰富？
4. 根据基因型使用分类法元数据可视化和搜索序列标识符来显示不同的特征。他们属于什么属？

参考答案：

打开以上两个结果，看到genotype下有3个显著差异特征，供体下有非常多差异特征。因此供体间差异较大，基因型间差异较小。差异的程度和数量，是可以基于beta多样性期望这个结果。

判断两者间是否有共有，可以将两者差异的进行Venn图比较，我们在genotype中只有3个差异，数量不多可直接在donor中检索，发现没有共有的特征。

基因型间有3个。它们在野生型wild type中更丰富。

在taxonomy.qzv中检索这3个特征，它们ac5402de1ddf427ab8d2b0a8a0a44f19、79280cea51a6fe8a3432b2f266dd34db、3017f87a3b0f5200ed54eca17eef3cbb分别属于g__Bacteroides、g__Faecalibacterium和末知属

下面部分视频教程

https://v.qq.com/x/page/n3007ry9psh.html

视频有广告，清晰度不够高吗？在微信订阅号“meta-genome”后台回复“qiime2”获得1080p视频和测试数据下载链接。

再次物种分类

Taxonomic classification again（2020.02版新增内容）

在尝试物种分类之前，让分类器学习典型动物粪便样本分类情况可以提高分类的准确性。为了提高分类精度，我们就再次对贝叶斯分类器进行训练。幸运的是，演化自Qiita的代表性大便样本数据已经在readytowear collection可以获得。

假如你感觉这些并不是典型的大便样本数据，你可以用q2-clawback插件加载老鼠和/或人类大便的样本数据。但是我们在这里就不演示这个插件了，因为它需要会花一些时间运行。如果你想了解更多这方面的信息，请参见这个教程。

首先下载粪便数据，其中包括99% Greengene 13_8 reference数据。

# V4区代表序列，8.9M, 23s
wget -c \
  -O "ref_seqs_v4.qza" \
  "https://data.qiime2.org/2020.2/tutorials/pd-mice/ref_seqs_v4.qza"

# 对应物种注释，2.5M, 7s
wget -c \
  -O "ref_tax.qza" \
  "https://data.qiime2.org/2020.2/tutorials/pd-mice/ref_tax.qza"

# 肠道菌群数据表，224k, 1s
wget -c \
  -O "animal_distal_gut.qza" \
  "https://data.qiime2.org/2020.2/tutorials/pd-mice/animal_distal_gut.qza"

接下来重新训练分类器，建立考虑已知菌群丰度的分类器：

# 7m 37s
time qiime feature-classifier fit-classifier-naive-bayes \
  --i-reference-reads ./ref_seqs_v4.qza \
  --i-reference-taxonomy ./ref_tax.qza \
  --i-class-weight ./animal_distal_gut.qza \
  --o-classifier ./bespoke.qza

输出对象：

ref_seqs_v4.qza: 查看 | 下载
animal_distal_gut.qza: 查看 | 下载
bespoke.qza: 查看 | 下载
ref_tax.qza: 查看 | 下载

你可以像使用标准分类器的方法使用新的分类器。

# 43s
time qiime feature-classifier classify-sklearn \
  --i-reads ./dada2_rep_set.qza \
  --i-classifier ./bespoke.qza \
  --o-classification ./bespoke_taxonomy.qza

# 可视化，6s
time qiime metadata tabulate \
  --m-input-file ./bespoke_taxonomy.qza \
  --o-visualization ./bespoke_taxonomy.qzv

输出对象：

bespoke_taxonomy.qza: 查看 | 下载

输出可视化结果：

bespoke_taxonomy.qzv: 查看 | 下载

问题：打开老的可视化工具taxonomy.qzv，然后与bespoke_taxonomy.qzv比较看看有何差异。⑴ 你可以用“ovatus”搜索，能在新的分类学中找到这个ASV吗？这个在原来分类中并没有出现。⑵ 重新查阅ancom_donor.qzv可视化结果，你能发现这个ASV吗？

在分析ANCOM结果时，我们可以追踪这些用前面创建的分类法发现的ASVs。在我们自己的样品中，通过根据物种分类特征进行计数可获得分类群组；然后我们也可以直接在这些分类群组上直接运行ANCOM。这种在分类学上具有相似性的ASVs间汇集特征计数的方法具有一定优势，比如它允许在样品间进行精确的物种替换，这种输出结果也具有比较强的可读性。不过它也有不足之处，即它同样存在来自物种分类不精确性带来的问题。

为了便于比较，我们将运行这个流程二次，一次用原来的分类信息，一次用新的分类注释信息。首先用原来的分类信息：

# 4s
time qiime taxa collapse \
  --i-table ./table_2k.qza \
  --i-taxonomy ./taxonomy.qza \
  --o-collapsed-table ./uniform_table.qza \
  --p-level 7 # means that we group at species level

# 5s
time qiime feature-table filter-features \
  --i-table ./uniform_table.qza \
  --p-min-frequency 50 \
  --p-min-samples 4 \
  --o-filtered-table ./filtered_uniform_table.qza

# 5s
time qiime composition add-pseudocount \
  --i-table ./filtered_uniform_table.qza \
  --o-composition-table ./cfu_table.qza

# 6s
time qiime composition ancom \
  --i-table ./cfu_table.qza \
  --m-metadata-file ./metadata.tsv \
  --m-metadata-column donor \
  --o-visualization ./ancom_donor_uniform.qzv

输出对象:

uniform_table.qza: 查看 | 下载
cfu_table.qza: 查看 | 下载
filtered_uniform_table.qza: 查看 | 下载

输出可视化结果：ancom_donor_uniform.qzv: 查看 | 下载

下面用新的分类学再来运行一次：

qiime taxa collapse \
  --i-table ./table_2k.qza \
  --i-taxonomy ./bespoke_taxonomy.qza \
  --p-level 7 \
  --o-collapsed-table ./bespoke_table.qza

qiime feature-table filter-features \
  --i-table ./bespoke_table.qza \
  --p-min-frequency 50 \
  --p-min-samples 4 \
  --o-filtered-table ./filtered_bespoke_table.qza

qiime composition add-pseudocount \
  --i-table ./filtered_bespoke_table.qza \
  --o-composition-table ./cfb_table.qza

qiime composition ancom \
  --i-table ./cfb_table.qza \
  --m-metadata-file ./metadata.tsv \
  --m-metadata-column donor \
  --o-visualization ./ancom_donor_bespoke.qzv

输出对象：

bespoke_table.qza: 查看 | 下载
cfb_table.qza: 查看 | 下载
filtered_bespoke_table.qza: 查看 | 下载

输出可视化结果：

ancom_donor_bespoke.qzv: 查看 | 下载

问题：比较最终的ANCOM可视化结果，其实他们是很像的，你觉得哪个更好呢？问题⑴：在ANCOM结果中出现的Bacteroides ovatus是来自于原来的分类法吗？问题⑵：B. ovatus有没有出现在新的ANCOM结果中？问题⑶：这是为什么？

纵向分析

Longitudinal analysis

该研究包括纵向分量;在粪便移植后7,14,21和49天收集每只小鼠的样品。我们可以使用q2-longitudinal插件来探索小鼠遗传背景影响每只小鼠微生物群落变化的假设。对于这种纵向分析，我们将重点关注beta多样性。婴儿的α多样性变化很大，但在短时间内成人常常稳定。我们在相对较短的时间内处理成人粪便群落，并且α多样性随时间没有差异。纵向分析教程是探索微生物组样本纵向分析的极好资源。

基于PCoA的分析

PCoA-based analyses

我们可以从使用动画animations选项卡探索PCoA中的时间变化开始。

问题

打开未加权的UniFrac emperor 图查看，并设置样本按小鼠ID(mouse_id)着色。单击“动画Animations”选项卡并使用day_post_transplant作为渐变(Gradient)和mouse_id作为轨迹(Trajectory)进行动画处理。您是否观察到基于PCoA的任何明确的时间趋势？(打开weighted_unifrac_emperor.qzv文件，自己操作一下，很有意思)
如果你通过day_post_transplant上色会发生什么？您是否看到了当天的差异？提示：尝试将色彩映射更改为像viridis一样的连续色彩映射。

波动率图(volatility plot)将让我们从同一点开始查看沿主要坐标轴的变化模式。这可能很有用，因为个体间的变化可能很大，而这种可视化使我们可以专注于每个群体和每个人的变化幅度。

让我们使用q2-longitudinal插件来查看来自个人的样本如何沿每个主坐标(PC)移动。 -m-metadata-file列可以采用多种类型，包括元数据文件（如metadata.tsv）以及SampleData [AlphaDiversity]，SampleData [Distance]（“可查看”文件作为元数据）或PCoA对象。

# 24s，绘制波动率图，输入元数据，非权重unifrac的pcoa结果，指定状态列为时间，个体列为小鼠，分组列为供体状态，默认数值来自第二轴，输出pc_vol.qzv
time qiime longitudinal volatility \
  --m-metadata-file ./metadata.tsv \
  --m-metadata-file ./core-metrics-results/unweighted_unifrac_pcoa_results.qza \
  --p-state-column days_post_transplant \
  --p-individual-id-column mouse_id \
  --p-default-group-column 'donor_status' \
  --p-default-metric 'Axis 2' \
  --o-visualization ./pc_vol.qzv

输出可视化：

pc_vol.qzv: 按主坐标轴值和时间的波动图。查看 | 下载

问题：使用右侧控件，查看PC 1,2和3中笼子的变化。沿着每个轴，您看到了什么样的图案？

答：主要在第一轴上，笼分成两组且明显分开，而且与供与分组一致。

基于距离的分析

Distance-based analysis

现在，让我们试着直接查看样本之间的成对距离。在这里，我们将检验这样的假设，基因型会影响从每只小鼠收集的样本至第一个样本（移植后7天）的距离变化幅度。我们假设，鉴于微生物群落的动态变化率，可能会看到群落随着时间的推移而发生变化。我们将回答这些变化是否与宿主基因型相关。

我们将通过观察每只小鼠的微生物群落从移植后7天的变化开始这一分析。我们使用baseline参数指定一个静态时间点，与之比较所有其他时间点; 如果我们从命令中删除此参数，我们会查看每个时间点之间每个人的变化率。有关详细信息，请参阅纵向分析教程。

# 纵向分析，5s
time qiime longitudinal first-distances \
  --i-distance-matrix ./core-metrics-results/unweighted_unifrac_distance_matrix.qza \
  --m-metadata-file ./metadata.tsv \
  --p-state-column days_post_transplant \
  --p-individual-id-column mouse_id \
  --p-baseline 7 \
  --o-first-distances ./from_first_unifrac.qza

输出对象：

from_first_unifrac.qza: 基于无权重unifrac距离的时间分析。查看 | 下载

我们可以再次使用波动率分析来根据距离可视化β多样性的变化。

# 5s，可视化基线距离
time qiime longitudinal volatility \
  --m-metadata-file ./metadata.tsv \
  --m-metadata-file ./from_first_unifrac.qza \
  --p-state-column days_post_transplant \
  --p-individual-id-column mouse_id \
  --p-default-metric Distance \
  --p-default-group-column 'donor_status' \
  --o-visualization ./from_first_unifrac_vol.qzv

输出可视化：

from_first_unifrac_vol.qzv: 基于无权重unifrac距离的时间分析图表。查看 | 下载

问题：根据波动率图，一个捐赠者的变化是否会随着时间的推移而变化？基因型怎么样？笼子怎么变？
答：切换不同分组方式donor_status、genotype和cage_id查看，你会看到三种不同的变化趋势，自己总结一下吧。

线性混合效应（linear mixed effects, LME）模型允许我们检验在使用重复测量的实验中因变量和一个或多个自变量之间是否存在关系。由于我们对基因型感兴趣，我们应该将其作为一个独立的预测因子。

对于我们的实验，我们目前对距离初始时间点的距离变化感兴趣，因此我们将其用作结果变量（由--p-metric给出）。

线性混合效果linear-mixed-effects分析还需要一个状态列（--p-state-column），它指定元数据中的时间组件，以及一个单独的标识符（--p-individual-id-column）。我们应该在数据中使用哪些列？

我们可以使用--p-formula参数或--p-group-columns参数构建模型。对于这种分析，我们对基因型是否影响微生物群落的纵向变化感兴趣。然而，我们从横断面分析中也知道，捐赠者在塑造粪便群落方面发挥着重要作用。因此，我们也应该在此分析中包括这一点。我们可能还想在我们的实验中考虑笼子效应，因为这是啮齿动物研究中常见的混淆因素。然而，这里最初的实验设计很聪明：虽然笼子按供体分组（小鼠是粪便），但它们是混合基因型。这种部分随机化有助于限制我们可能看到的一些笼子效应。

根据实验设计，我们应该选择哪些组列？

# 混线模型分析，分析至7点的距离，考虑基因型和供体11s
time qiime longitudinal linear-mixed-effects \
  --m-metadata-file ./metadata.tsv \
  --m-metadata-file ./from_first_unifrac.qza \
  --p-metric Distance \
  --p-state-column days_post_transplant \
  --p-individual-id-column mouse_id \
  --p-group-columns genotype,donor \
  --o-visualization ./from_first_unifrac_lme.qzv

输出可视化：

from_first_unifrac_lme.qzv: 基于无权重unifrac距离的交互时间分析。查看 | 下载

现在，让我们看一下模型的结果。

问题

基因型和时间变化之间是否存在显著关联？

哪种基因型更稳定（变异较小）？

与捐赠者有关的时间变化吗？您是否根据波动率结果预期或不期望这一点？

你能找到供体和基因型之间的相互作用吗？

详者注：参考答案。

是；

易感型，看第一张图。

有，疾病更稳定，健康变化大；与波动图结果一致，可预期此结果；

能找到，且存在显著关联。

注意

重要的是，LME模型还允许我们区分两种类型的独立变量：固定效应（例如，实验处理）和随机效应（例如，在实验中不能控制的生物因子）。默认情况下，q2-longitudinal中的线性混合效应linear-mixed-effects动作使用individual_id_column作为随机效应，因为我们可以预期各个主体之间的生物差异将影响我们正在测试的因变量的基线值(baseline values)。变化率-斜率——是另一种个体间效应(The rate of change — slope — is another inter-individual effect)，我们通常可能希望将其视为纵向实验中的随机效应。有关LME测试和效果类型的更多详细信息和讨论，请参阅纵向分析教程。

用于预测样本特征的机器学习分类器

Machine-learning classifiers for predicting sample characteristics

作为在本教程中用于测试样本是否以及如何区分彼此不同的替代（或补充）方法，我们可以利用机器学习方法来确定预测性微生物组成与样本的其他特征的关系。例如，我们可以使用机器学习分类器来预测患者对疾病的易感性，或预测样本所属的实验组。此外，许多机器学习方法报告哪些特征对于预测样本特征是最重要的，使其确定哪些特征（ASV，物种等）与特定治疗、疾病状态或其他感兴趣类别相关联的有用方法。所有这些以及更多内容都可以在q2-sample-classifier插件中找到。在这里，我们将使用此插件根据其ASV组成使用随机森林分类器预测每个小鼠的基因型和供体状态（此流程可通过估算器estimator参数访问许多不同的机器学习方法，但默认情况下使用随机森林分类器Random Forest classifiers）。

# 随机森林分类：基因型和供体组合，8s
time qiime sample-classifier classify-samples \
  --i-table ./dada2_table.qza \
  --m-metadata-file ./metadata.tsv \
  --m-metadata-column genotype_and_donor_status \
  --p-random-state 666 \
  --p-n-jobs 1 \
  --output-dir ./sample-classifier-results/

输出对象：

sample-classifier-results/probabilities.qza: 查看 | 下载
sample-classifier-results/sample_estimator.qza: 查看 | 下载
sample-classifier-results/feature_importance.qza: 查看 | 下载
sample-classifier-results/predictions.qza: 查看 | 下载

输出可视化：

sample-classifier-results/accuracy_results.qzv: 模型准确度评估混淆矩阵和ROC曲线。查看 | 下载
sample-classifier-results/model_summary.qzv: 模型摘要。查看 | 下载

此流程生成许多输出对象和可视化。您可以在示例分类器教程中阅读有关这些内容的更多信息，但现在让我们只关注./sample-classifier-results/accuracy_results.qzv。此可视化通过混淆矩阵(confusion matrix)和附带的准确度分数表告诉您样本分类器的执行情况。这会告诉您每个样本类型分类到每个样本类的频率，包括正确的类标签。整体错误率也在下表中报告。

问题：我们怎么操作？只是为了好玩，尝试预测一些其他元数据列，以查看可以轻松预测cage_id和其他列。

详者注：参考答案，见下方代码。

# 随机森林分类：预测笼子，11s
time qiime sample-classifier classify-samples \
  --i-table ./dada2_table.qza \
  --m-metadata-file ./metadata.tsv \
  --m-metadata-column cage_id \
  --p-random-state 666 \
  --p-n-jobs 1 \
  --output-dir ./sample-classifier-cage_id/
# 同样查看输出目录中的accuracy_result.qzv，准确率60%，高于基线3倍

# 随机森林分类：预测供体分类，12s
time qiime sample-classifier classify-samples \
  --i-table ./dada2_table.qza \
  --m-metadata-file ./metadata.tsv \
  --m-metadata-column donor \
  --p-random-state 666 \
  --p-n-jobs 1 \
  --output-dir ./sample-classifier_donor/
# 准备率100%

看起来我们做得很好！因此，我们可以看到哪些特征对每个样本类（供体和基因型组）最具预测性。重要性分数存储在./sample-classifier-results/feature_importance.qza对象中（专业提示：这可以使用前面介绍的qiime metadata tabulate命令进行查看）。

在这里，我们将生成一个热图，显示每个基因型和供体组中100个最重要的ASV的平均丰度。

注：此处的参数有更新，metadata-file全变为sample-metadata-file。因为metadata还有feature-metadata。

# 25s
time qiime sample-classifier heatmap \
  --i-table ./dada2_table.qza \
  --i-importance ./sample-classifier-results/feature_importance.qza \
  --m-sample-metadata-file ./metadata.tsv \
  --m-sample-metadata-column genotype_and_donor_status \
  --p-group-samples \
  --p-feature-count 100 \
  --o-heatmap ./sample-classifier-results/heatmap.qzv \
  --o-filtered-table ./sample-classifier-results/filtered-table.qza

输出对象：

sample-classifier-results/probabilities.qza: 查看 | 下载

输出可视化：

sample-classifier-results/heatmap.qzv: 样本按组均值取log10对数的特征热图。查看 | 下载

问题：哪些特征可以区分基因型genotypes呢？捐助者呢donors？哪些ASV是否特定于单个样品组？

详者注：参考答案，wild type组相近，而suspectible不同的特征；同理Healthy与PD不同的。每组特异的。

合成

Synthesis

根据分析结果，我们可以说这些小鼠的微生物群落基于其供体和遗传背景存在差异。（这概括了原始分析的结果。）

我们发现捐赠者是α多样性的主要驱动因素。

但是，我们看到基于β多样性的供体和基因型的差异。使用PCoA emperor 图，我们可以看到两个捐赠者的小鼠之间的差异明显。在调整为供体后，我们发现基因型之间存在显著差异。

虽然捐赠者或基因型之间的诊断图中的条形图没有明确的模式，但我们仍然能够找到使用ANCOM和随机森林分类区分基因型的ASV。这些ASV在供体和遗传背景中没有重叠，支持这样的假设，即基因型的差异与供体的差异是分开的。

波动率图和时间分析表明，不同遗传背景下的微生物组随着时间的推移发生了不同的变化。

这表明对接受粪菌移植的小鼠的微生物组具有基因型特异性作用。

Reference

https://docs.qiime2.org/2020.2

Evan Bolyen*, Jai Ram Rideout*, Matthew R. Dillon*, Nicholas A. Bokulich*, Christian C. Abnet, Gabriel A. Al-Ghalith, Harriet Alexander, Eric J. Alm, Manimozhiyan Arumugam, Francesco Asnicar, Yang Bai, Jordan E. Bisanz, Kyle Bittinger, Asker Brejnrod, Colin J. Brislawn, C. Titus Brown, Benjamin J. Callahan, Andrés Mauricio Caraballo-Rodríguez, John Chase, Emily K. Cope, Ricardo Da Silva, Christian Diener, Pieter C. Dorrestein, Gavin M. Douglas, Daniel M. Durall, Claire Duvallet, Christian F. Edwardson, Madeleine Ernst, Mehrbod Estaki, Jennifer Fouquier, Julia M. Gauglitz, Sean M. Gibbons, Deanna L. Gibson, Antonio Gonzalez, Kestrel Gorlick, Jiarong Guo, Benjamin Hillmann, Susan Holmes, Hannes Holste, Curtis Huttenhower, Gavin A. Huttley, Stefan Janssen, Alan K. Jarmusch, Lingjing Jiang, Benjamin D. Kaehler, Kyo Bin Kang, Christopher R. Keefe, Paul Keim, Scott T. Kelley, Dan Knights, Irina Koester, Tomasz Kosciolek, Jorden Kreps, Morgan G. I. Langille, Joslynn Lee, Ruth Ley, Yong-Xin Liu, Erikka Loftfield, Catherine Lozupone, Massoud Maher, Clarisse Marotz, Bryan D. Martin, Daniel McDonald, Lauren J. McIver, Alexey V. Melnik, Jessica L. Metcalf, Sydney C. Morgan, Jamie T. Morton, Ahmad Turan Naimey, Jose A. Navas-Molina, Louis Felix Nothias, Stephanie B. Orchanian, Talima Pearson, Samuel L. Peoples, Daniel Petras, Mary Lai Preuss, Elmar Pruesse, Lasse Buur Rasmussen, Adam Rivers, Michael S. Robeson, Patrick Rosenthal, Nicola Segata, Michael Shaffer, Arron Shiffer, Rashmi Sinha, Se Jin Song, John R. Spear, Austin D. Swafford, Luke R. Thompson, Pedro J. Torres, Pauline Trinh, Anupriya Tripathi, Peter J. Turnbaugh, Sabah Ul-Hasan, Justin J. J. van der Hooft, Fernando Vargas, Yoshiki Vázquez-Baeza, Emily Vogtmann, Max von Hippel, William Walters, Yunhu Wan, Mingxun Wang, Jonathan Warren, Kyle C. Weber, Charles H. D. Williamson, Amy D. Willis, Zhenjiang Zech Xu, Jesse R. Zaneveld, Yilong Zhang, Qiyun Zhu, Rob Knight & J. Gregory Caporaso#. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 2019, 37: 852-857. doi:10.1038/s41587-019-0209-9

Timothy R. Sampson, Justine W. Debelius, Taren Thron, Stefan Janssen, Gauri G. Shastri, Zehra Esra Ilhan, Collin Challis, Catherine E. Schretter, Sandra Rocha, Viviana Gradinaru, Marie-Francoise Chesselet, Ali Keshavarzian, Kathleen M. Shannon, Rosa Krajmalnik-Brown, Pernilla Wittung-Stafshede, Rob Knight & Sarkis K. Mazmanian. Gut Microbiota Regulate Motor Deficits and Neuroinflammation in a Model of Parkinson’s Disease. Cell 167, 1469-1480.e1412, doi:10.1016/j.cell.2016.11.018 (2016).

Nearing JT, Douglas GM, Comeau AM, Langille MGI. 2018. Denoising the Denoisers: an independent evaluation of microbiome sequence error-correction approaches. PeerJ 6:e5364 https://doi.org/10.7717/peerj.5364

译者简介

刘永鑫，博士。2008年毕业于东北农大微生物学，2014年于中科院遗传发育所获生物信息学博士，2016年遗传学博士后出站留所工作，任宏基因组学实验室工程师。目前主要研究方向为宏基因组数据分析和植物微生物组，QIIME 2项目参与人。目前在***Science、Nature Biotechnology、Cell Host & Microbe、Current Opinion in Microbiology*** 等杂志发表论文20+篇。2017年7月创办“宏基因组”公众号，目前分享宏基因组、扩增子原创文章500余篇，代表博文有《扩增子图表解读、分析流程和统计绘图三部曲(21篇)》、《Nature综述：手把手教你分析菌群数据(1.8万字)》、《QIIME2中文教程(22篇)》等，关注人数8万+，累计阅读1200万+。

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍末解决群内讨论，问题不私聊，帮助同行。

学习扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

你可能感兴趣的:(扩增子,扩增子分析)

扩增子质控流程多，专属名词来揭晓 ee00dc6faab7
在高通量测序王国中，Rawreads（或rawdata）已不陌生，但在扩增子测序的质控数据中还有Rawtags、Cleantags、Effectivetags等一串的专属名词，这些名词代表什么，分析要关注哪些数据，测序数据量要选择多少可以满足需求呢，带着这些疑问，我们将为您一一揭晓：首先简单说下扩增子的实验过程，与其他产品区别就是增加了扩增环节，扩增是依据测序仪器的读长和目标序列，设计特异引物对基
pacbio三代扩增子测序序列比对小鹿不吃香菜
新手小白求问一个fasta文件里面包含很多序列有什么办法能够把TTA开头的提取出来，ATGG开头的提取出来，如图一。关于序列比对的问题求助序列比对完之后可视化方法，比如300多条序列有同样的突变或者缺失规律，该怎样用一条序列或其他可视化方法表示出来。图一
热启动技术如何为您的PCR带来益处？南博屹生物医学
非特异性扩增是可能严重影响PCR性能的主要问题之一，导致以下一种或多种结果：目标扩增子产量低。目标扩增子的灵敏度下降。下游应用效果不佳。非特异性扩增的常见来源是由DNA聚合酶引起的错误引导靶标的延伸和引物二聚体的形成。研究人员用来避免非特异性扩增的一种解决方法是在冰上制备PCR反应混合物。降低温度有助于保持DNA聚合酶的活性低，但是在PCR开始之前仍然可能发生不需要的产物的合成。另一种解决方案是使
Gut Microbes+ Microbiome | 揭示太空环境对微生物的影响 ee00dc6faab7
从神话故事“嫦娥奔月”，到现在的载人航天、空间站的建立，我们从未停止对宇宙的探索。在不断拓展太空图谱的同时，太空中的辐射、微重力、高真空等极端环境，会对小鼠/宇航员体内微生物产生哪些影响，而暴露于太空的微生物，又可以为航天任务提供哪些信息呢？借助16S扩增子、宏基因组、转录组等生物学技术，我们一起来探究在太空环境下，微生物所发生的变化。航天飞行期间，小鼠肠道微生物和宿主代谢的变化[1]肠道微生物通
谈谈数次生信线下活动的收获和体会生信宝典
http://blog.genesino.com/2018/03/ampliconseqsumamry/从2017年11月份到2018年3月份，共进行了5次培训研讨活动，内容依次为转录组高级分析、生物信息作图系列R、Cytoscape及图形排版、应用Python处理生物信息数据和作图、微生物组扩增子分析、应用Linux处理生物信息数据和分析流程。从培训网站的课程顺序可以看到，最开始设计是从Linu
扩增子测序中OTU表进行抽平的两种方式凯凯何_Boy
Arandomrarefactionofsamplereadsaccordingtoaspecificreadslength(usuallythesmallestvalue)shouldbeperformedfirstlyfordownstreamanalysis.扩增子测序拿到OTU表之后通常会被要求进行抽平处理，这样去进行后续比较分析，测序量一致后续分析比较才有意义，但是这种方式的缺陷在于当样
跟着NC学cfDNA全基因组片段化丰度谱分析 zd200572 机器学习人工智能深度学习
继续我们的跟着NC学系列，前面分享的是关于16S扩增子测序和宏基因组数据分析的。考虑到我们有许多小伙伴是做人类基因组方面的，这次分享一篇癌症早筛方面的，血液DELFI全基因组片段化丰度谱检测的分析框架。题目是：Detectionandcharacterizationoflungcancerusingcell-freeDNAfragmentomes。文章虽然不是特别新，发表于2021年，可代码和数据
EasyAmplicon (易扩增子)-扩增子高通量序列分析软件流程及脚本-详细使用方法——来自刘永鑫团队的秘籍小果运维生信分析-bioinfo 扩增子高通量分析流程 EasyAmplicon
其他不重要，重要的是方向，资源，还要好用，建议大家先看看论文介绍：https://doi.org/10.1002/imt2.83EasyAmplicon:Aneasy‐to‐use,open‐source,reproducible,andcommunity‐basedpipelineforamplicondataanalysisinmicrobiomeresearch-Liu-2023-iMeta
EasyMicrobiome-易扩增子、易宏基因组等分析流程依赖常用软件、脚本文件和数据库注释文件小果运维生信分析-bioinfo 数据库生物信息学扩增子宏基因组学微生物 R脚本
啥也不说了，这个好用，给大家推荐：YongxinLiu/EasyMicrobiome(github.com)大家先看看引用文献吧，很有用：https://doi.org/10.1002/imt2.83还有这个，后面马上介绍：YongxinLiu/EasyAmplicon:EasyAmplicondataanalysispipeline(github.com)这个EasyMicrobiome的代码库
植物发育过程中，如何驱动共生微生物组的动态变化？ felix108
期刊《Microbiome》影响因子14.65近期，派森诺与中国科学院生态环境研究中心、中国科学院大学合作，又双叒在《Microbiome》发表论文，通过扩增子测序和宏基因组测序等方法，研究了植物发育过程中微生物群落与气候、土壤因子和施肥调控措施等多种因素交互影响下的土壤和植物微生物群落组合机制，为不同环境条件下植物微生物组结构及功能的时期演替特征提供了系统描述。可喜可贺！研究背景植物、微生物以及
QIIME2进阶六_QIIME2训练分类器及物种注释环微分析环境微生物生物信息分析分享板生物信息学
本文我们主要介绍了如何训练NaiveBayes分类器并把这个分类器应用于扩增子基因序列的物种注释与可视化。本教程将使用来自人源化(humanized)小鼠的一组粪便样品，展示16SrRNA基因扩增子数据的“典型”QIIME2分析。本教程旨在探讨人源化小鼠的遗传背景影响微生物群落的假设。然而，我们还需要考虑其他可能驱动微生物结构而不是小鼠基因型的混杂因素。在本节中，我们将探索样本的物种组成情况。这个
QIIME2进阶二_元数据及数据导入QIIME2 环微分析环境微生物生物信息分析分享板生物信息学
本节主要讲解如何将元数据与数据导入生物信息分析软件QIIME2，实现数据导入与检查。本实战教程将使用来自人源化(humanized)小鼠的一组粪便样品，展示16SrRNA基因扩增子数据的“典型”QIIME2分析。本教程旨在探讨人源化小鼠的遗传背景影响微生物群落的假设。今天，我们先从示例元数据及数据的导入开始介绍。01元数据(Metadata)在开始任何分析之前，熟悉元数据很重要。在本研究中，元数据
QIIME2进阶三_用QIIME2实现对数据的质量控制环微分析环境微生物生物信息分析分享板生物信息学
本文主要介绍了使用生物信息软件QIIME2中的DADA2与Deblur插件对扩增子基因序列进行质量控制。本教程将使用来自人源化(humanized)小鼠的一组粪便样品，展示16SrRNA基因扩增子数据的“典型”QIIME2分析。本教程旨在探讨人源化小鼠的遗传背景影响微生物群落的假设。然而，我们还需要考虑其他可能驱动微生物结构而不是小鼠基因型的混杂因素。序列质量控制和特征表Sequencequali
QIIME2进阶五_QIIME2扩增子基因序列多样性分析环微分析环境微生物生物信息分析分享板生物信息学
本节主要介绍了如何使用生物信息分析分析软件QIIME2对扩增子基因序列进行Alpha和Beta多样性分析，以及Alpha稀疏和深度选择。本教程将使用来自人源化(humanized)小鼠的一组粪便样品，展示16SrRNA基因扩增子数据的“典型”QIIME2分析。本教程旨在探讨人源化小鼠的遗传背景影响微生物群落的假设。01Alpha和Beta多样性分析Alphaandbetadiversityanal
多组学整合，快速定位关键代谢通路，解析分子机制 SHANGHAILINGEN 测序组学
生物学是一种复杂的学科，往往单一组学无法探究想要了解的生物学问题，这时就要运用到多组学联合分析。近年来，多组学研究的不断发展和持续火热，越来越多的研究者开始将微生物组学和代谢组学联合起来。16s全长扩增子测序可提供细菌构成、基因丰度，可以解决who-有谁以及many-有多少的问题。而代谢组学是研究生物体中代谢产物变化的科学，可以解决whathappened-发生了啥的问题。通过多组学整合，快速定位
病原微生物扩增子数据分析实战（一）：bcl2fastq软件完成数据拆分简说基因
懂得了那么多道理，却依然过不好这一生。所以理论归理论，最终要落实到分析代码上，咱们从这一篇开始，介绍一套扩增子数据分析流程。闲话少叙，首先介绍一下项目背景：测序平台:IlluminaMiSeq，双端（Paired-end）测序服务器：CentOS7操作系统，128G内存，CPU48线程编程语言：Bashscript、PythonNGS测序项目大致分为二个部分：湿实验部分，即取样、提取、建库以及上机
了尘兰若的小坑上线啦了尘兰若
个人博客维护了有几年了，终于买了自己的域名，www.liaochenlanruo.fun。Fun代表有趣，就是玩！边玩边学，对，博客主要是生信文，微生物基因组，比较基因组，功能基因组，扩增子，宏基因组等都有所涉猎。边想，边编程，边分析，边记录是我的范儿。欢迎访问了尘兰若的小坑，一起过ResearchGo的幸福科研生活！
2021-09-24 qiime2 DADA2 去噪、序列质控和生成特征表白告2333
文字转载DADA2是用于检测和校正（如果有可能的话）Illumina扩增序列数据的工作流程。正如在q2-dada2插件中实现的，这个质量控制过程将过滤掉在测序数据中鉴定的任何phiX序列（通常存在于标记基因Illumina测序数据中，用于提高扩增子测序质量），并同时过滤嵌合序列。dada2denoise-single方法需要两个用于质量过滤的参数：--p-trim-leftm，它去除每个序列的前m
产品升级！全球尺度下原核基因组关键基因共进化无标题 SHANGHAILINGEN 测序组学
微生物是群落型的生存方式，高通量测序时代到来后，掀起了针对微生物群落整体研究的高潮，比如基于功能基因/16S/ITS/扩增子、宏基因组等进行群落多样性分析。但是，我们基于分离培养等方法获得单菌落，针对单菌开展基因组、转录组的研究同样很有价值，有时甚至是必不可少的。在微生物群落研究异常火爆的今天，仍然有里程碑式的成果离不开单菌基因组的研究。例如可以同时催化两步反应硝化过程的细菌的发现。另一方面，针对
宏基因组研究工具 | 小鼠肠道宏基因组目录(iMGMC) 尐尐呅
近日，来自德国的研究人员在《CellReports》杂志发布了一个宏基因组研究的综合资源：小鼠肠道宏基因组目录(iMGMC)，为宏基因组研究提供高度集成的数据资源，并促进分类学、功能学以及小鼠肠道和其他生态系统群落结构的深入探索。研究概要为什么要构建iMGMC？微生物组研究需要综合资源宏基因组和16SrRNA扩增子序列分析通常使用单独的基因组目录、16SrRNA数据库和宏基因组组装基因组（MAGs
NCBI数据上传（二）：转录组测序（RNA-Seq）数据 bioyigene 转录组测序数据上传 NCBI 大数据
继“16S扩增子原始数据上传”教程发布之后，为满足大家对转录组数据上传的需求，小编马不停蹄地把转录组原始数据上传流程进行了整理，有需求地赶紧收藏吧!1.注册及登录账号1）注册账号：进入NCBI（https://www.ncbi.nlm.nih.gov/）网页，选择对应的账号进行注册，按照提示填写。2）登录账号：输入账号及密码（注册时使用哪种账号注册，登录时选择对应的登录通道登录），点击Login，
将NR数据库diamond比对结果做物种注释江有枫xx python 开发语言
需求：环境菌功能基因扩增子测序的OTU序列已经用diamond进行了NR全库的比对（blastx），还需得知其物种信息。P.S.本人是没接触过扩增子比对相关内容，不保证该过程的合理性。【流程主要参考这个，对于小白如我，该文很详细。本文也只是根据我的需求重新整理了这篇文章】一文完成nt库序列快速下载及blast结果注释物种(qq.com)【装所需文件主要参考这个】(20条消息)NR数据库的物种注释_
微生物多样性（扩增子/16S rDNA测序）—关联与进化分析方法描述 JarySun
一、关联分析&进化关系内容及意义a)RDA/CCA分析基于对应分析发展而来的一种排序方法，又称多元直接梯度分析。RDA是基于线性模型，CCA是基于单峰模型。意义：可以检测环境因子、样本、菌群三者之间的关系或者两两之间的关系。b)OTU共表达网络分析生态学中一般认为功能上关系密切的群落往往表现出丰度的“同升同降”，根据微生物群落丰度信息计算样本中物种之间的相关性，并据此划分不同的共变化组（CAG）。
生物信息分析常用文件格式和软件超人立志做国王
生物信息分析常用文件格式和软件文件格式数据格式fastqfasta注释gtfgffbedbcf比对格式sambam工具类数据质控类cutadaptfastptrimmomaticfastx-toolkit序列处理类seqkitseqtk工具类samtoolsbedtoolsbedopsbcftoolspysamgffutils比对软件bwabowtiebowtie2tophathisat2扩增子测
微生物组-扩增子16S分析和可视化(2023.2) 生信宝典大数据编程语言 python 机器学习人工智能
课程改为长直播模式，报名后就可以学习，时间更充裕，练习更充分具体见：易生信培训改为长周期模式福利公告：为了响应学员的学习需求，经过易生信培训团队的讨论筹备，现决定安排扩增子16S分析、宏基因组、转录组的线上/线下同时开课。报名参加线上直播课的老师可在1年内选择参加同课程的一次线下课。期待和大家的线上线下会晤。目前可以通报的信息：临床基因组学线上/线下开课时间：2022/11/4-2022/11/6
OMG！扩增子大小对qPCR产量影响辣么大～深蓝云
一般情况下，实时荧光定量PCR引物设计原则中会提到扩增子大小对实时荧光定量PCR的扩增效率有一定作用。所以通常建议使用相对较短的扩增子长度，范围为50到150个碱基对（bp）。由于小片段不太容易在传统PCR中所用的琼脂糖凝胶上显现，因此这种小片段扩增在传统PCR中检测更为困难。qPCR的出现使得扩增小于100bp的基因片段成为可能。本文将为大家介绍扩增子大小对qPCR产量的影响，表明使用小片段检测
初试扩增子测序数据的meta分析 Oodelay
测序数据越来越多，发表文章大多被要求上传原始数据，这为进行meta分析提供了丰富的可用资源。近年来，越来越多学者开始尝试meta分析回答单一研究小样本无法回答的大问题。颇有‘一切皆可meta’的趋势。但meta分析需要进行严谨科学的假设，规范的数据收集以及严格的数据整合，而非简单的将收集来的数据进行原样分析，然后简单加总。其中奥秘，需深刻把握。这张图是我的尝试。对收集的每一个数据集，各自进行拼接，
表观技术 | 靶基因DNA甲基化和羟甲基化测序定制精准检测易基因科技
DNA甲基化是最早被发现、也是研究最深入的表观遗传调控机制之一。目前研究中常用的DNA甲基化测序方法包括全基因组（WGBS、oxWGBS等）、简化基因组（dRRBS、RRBS、XRRBS等）、靶向基因组（液相捕获）、靶向基因（扩增子）和850K芯片等，适用于多种不同应用场景。那么基于靶基因的DNA甲基化和羟甲基化测序是怎样的呢？一起来看看吧！EGENE靶基因DNA甲基化和羟甲基化测序亚硫酸盐靶基因
多组学的狂欢！——三代扩增子+代谢组学联合分析！ SHANGHAILINGEN 测序组学
研究微生物组学的老师们~看过来！你还在苦恼微生物研究种属水平注释不全面吗？代谢组学研究不知道结果是啥东西吗？微生物+代谢组学研究到底可以干啥吗？NO~NO~NO~NO~NO~NO~NO~NO~NO~是时候展现真正的技术了！凌恩生物推出三代PacBio全长扩增子+LC-MS代谢组学联合分析项目！劲爆促销活动现在只要650！关键技术团队多年深耕多组学研究，优秀售前方案优质售后服务只为您发表高分PAPE
凌恩生物文献分享|微刊：三代全长16s扩增子——环境多样性研究的明星 SHANGHAILINGEN 测序组学测序组学
在微生物研究领域，PacBio三代全长的时代已经来临，如果你还没用过那就太可惜了！要问三代有什么好，那我可得说道说道。相比于传统二代Illumina平台测序，PacBioSequellle平台获得的序列更长，信息量更多更准确！高精准鉴定，使“种”水平实现了大幅提升；PCR扩增无GC偏好性再加上V1-V9全区域测序，使数据更准确更真实的还原微生物群落结构。口说无凭，让我们来看一些三代全长扩增子的优秀
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

QIIME 2教程. 07帕金森小鼠教程Parkinson's Mouse(2020.2)

文章目录

前情提要

QIIME 2用户文档. 7帕金森小鼠教程

本节视频视频教程

假设

启动QIIME2运行环境

元数据

数据导入QIIME 2

序列质量控制和特征表

特征表摘要

构建多样性分析所需的进化树

Alpha稀疏和深度选择

多样性分析

Alpha多样性

Beta多样性

物种注释

物种组成柱状图

ANCOM差异丰度分析

下面部分视频教程

再次物种分类

纵向分析

基于PCoA的分析

基于距离的分析

用于预测样本特征的机器学习分类器

合成

Reference

译者简介

猜你喜欢

写在后面

你可能感兴趣的:(扩增子,扩增子分析)