Fecal microbiota transplant (FMT) study: an exercise
https://docs.qiime2.org/2018.11/tutorials/fmt/
注意:本教程假定您已经使用安装指南中的一个过程安装了QIIME 2。
本教程计划在完成《人体各部位微生物组教程》之后练习。它旨在介绍一些新思想,并且是应用该文档中探索工具的一个练习。
本教程中使用的数据来自粪便微生物移植研究(粪菌移植),其中18岁以下患有自闭症和胃肠道疾病的儿童,分别通过自闭症诊断访谈修订版(ADI-R)和胃肠道症状评定量表(GSRS)测量,用粪便微生物移植治疗,试图减少他们的行为异常和胃肠道症状的严重程度。我们通过18周内他们的GSRS评分追踪了他们的微生物变化,包括父母的整体状况III(Parent Global Impressions,PGI-III)和儿童孤独症评定量表(CARS),以及他们胃肠道症状的严重程度。通过每周收集粪便拭子样本(通过用卫生纸拭子收集)和不太频繁的大便样本(收集全大便)来跟踪微生物群。在全部研究中,这是第一阶段的临床试验,旨在测试治疗的安全性,18个人接受了治疗,20个人作为对照。对照组未接受治疗,但监测肠道微生物群的正常时间变化。本研究还对治疗期间移植的粪便材料进行了测序。
本教程数据集是为本研究数据的一个子集。它包括五个接受治疗的个体和五个对照的数据。每个个体包括6至16个样本,包括每个个体的大便和粪便拭子样本,以及FMT治疗前后样本。移植的粪便材料也包括五个样本。
这些数据是在两次Illumina MiSeq测序运行中测序的。如《人体各部位微生物组教程》所示,我们将使用DADA2执行初始质量控制并生成FeatureTable[Frequency]
和FeatureData[Sequence]
对象。然而,DADA2去噪过程只适用于一次单个测序批次,因此我们需要在每个测序批次的基础上运行该过程,然后合并结果。我们将完成这个初始步骤,然后提出一些可以作为练习来回答的问题。
详者注:此实例需要一些基础知识,要求完成本系列文章前两篇内容:1简介和安装和4人体各部分微生物组分析实战Moving Pictures。
本实验研究自闭症且胃肠道功能紊乱患者,采用粪便菌群移植方法,来降低患者的行为异常和肠道紊乱。监测移植后18个月范围内肠道菌群的变化,下图为Microbiome原文中实验设计。
对于上文提到了两种常用安装方法,我们每次在分析数据前,需要打开工作环境,根据情况选择对应的打开方式。
# 创建qiime2学习目录并进入
mkdir -p qiime2
cd qiime2
# Miniconda安装的请运行如下命令加载工作环境
source activate qiime2-2018.11
# 如果是docker安装的请运行如下命令,默认加载当前目录至/data目录
# docker run --rm -v $(pwd):/data --name=qiime -it qiime2/core:2018.11
# 创建本节学习目录
mkdir qiime2-fmt-tutorial
cd qiime2-fmt-tutorial
注意:QIIME 2 官方测试数据均保存在Google服务器上,国内下载比较困难。可使用代理服务器(如蓝灯)下载,或公众号后台回复"qiime2"获取测试数据批量下载链接,你还可以跳过以后的wget步骤。
下载元数据,即描述样本的数据,也称实验设计
wget \
-O "sample-metadata.tsv" \
"https://data.qiime2.org/2018.11/tutorials/fmt/sample_metadata.tsv"
接下来,下载我们将在本分析中使用的样本混合序列。要了解如何从fastq格式的序列数据中开始QIIME 2分析,请参阅导入数据教程。我们需要下载两组样本拆分好的序列,每个序列文件对应一个序列测序批次。
在本教程中,我们将使用完整序列数据的一个小子集,以便命令能够快速运行。您可以选择1%的序列子集或10%的序列子集。如果您只是试图获得准备和组合多个数据序列运行的经验,那么您可以使用1%的子集数据,以便命令可以非常快速地运行。如果您使用本教程来获得在生成和解释QIIME 2分析结果方面的额外经验,那么您应该使用10%的子采样数据,以便结果将由更多的序列数据支持(1%的序列可能不足以支持原始研究的一些发现)。
这里我们选择10%的子集序列用于后序列分析。
因为10%的子集序列也非常少,才几十M,注意文件名要手动删除-10p
部分。
wget \
-O "fmt-tutorial-demux-1.qza" \
"https://data.qiime2.org/2018.11/tutorials/fmt/fmt-tutorial-demux-1-10p.qza"
wget \
-O "fmt-tutorial-demux-2.qza" \
"https://data.qiime2.org/2018.11/tutorials/fmt/fmt-tutorial-demux-2-10p.qza"
我们将首先使用DADA2对样本拆分后的序列执行质量控制,但是这次我们将对每组样本拆分后序列分别运行denoise-single
(单端去噪)命令。同样,我们希望可视化每批次中样本的序列质量。当我们运行denoise-single
命令时,我们需要为两次分析--p-trunc-len
和--p-trim-left
使用相同的参数值。当查看这两个命令产生的可视化时,只有两个命令基于相同的参数分析结果进行比较才有意义,否则多变量因素导致混淆。
qiime demux summarize \
--i-data fmt-tutorial-demux-1.qza \
--o-visualization demux-summary-1.qzv
qiime demux summarize \
--i-data fmt-tutorial-demux-2.qza \
--o-visualization demux-summary-2.qzv
输出对象:
输出可视化:
查看可视化评估结果,也可下载qzv文件,使用 view.qiime2.org 打开查看,也可解压查看。
问题:从上图中我们判断选择质控参数
--p-trunc-len
和--p-trim-left
的值是多少比较合理?
详者注:序列上游13 bp的序列质量偏低,设置trim-left 13截掉前13bp序列;整体150bp的质量都不错,则保留150 bp的序列长度。
前几个碱基的质量似乎相对较低,然后似乎保持相对较高,直到序列测序结束。因此,我们将从每个序列中修剪前13个碱基,并在150个碱基处截断这些碱基。由于读数是151个碱基,这导致序列的截断非常少。
dada2质控和去冗余,本实验有两批独立的数据,需要处理两次,生成代表序列和特征表
qiime dada2 denoise-single \
--p-trim-left 13 \
--p-trunc-len 150 \
--i-demultiplexed-seqs fmt-tutorial-demux-1.qza \
--o-representative-sequences rep-seqs-1.qza \
--o-table table-1.qza \
--o-denoising-stats stats-1.qza
qiime dada2 denoise-single \
--p-trim-left 13 \
--p-trunc-len 150 \
--i-demultiplexed-seqs fmt-tutorial-demux-2.qza \
--o-representative-sequences rep-seqs-2.qza \
--o-table table-2.qza \
--o-denoising-stats stats-2.qza
输出对象:
Viewing denoising stats
denoise-single
命令返回去噪过程的基本统计,可以使用如下命令可视化。
qiime metadata tabulate \
--m-input-file stats-1.qza \
--o-visualization denoising-stats-1.qzv
qiime metadata tabulate \
--m-input-file stats-2.qza \
--o-visualization denoising-stats-2.qzv
结果可视化文件:
图3. 第一批数据质量去噪过程统计。有非常多列,可托动下方滚动条查看;样本多,可以在右上角Search中查找。
Merging denoised data
在这个分析中,denoise-single
命令是最后一步,它需要对每批数据独立处理。因此,我们必须合并由这两个命令生成的对象,才能继续下游分析。首先我们将合并两个FeatureTable[Frequency]
对象,然后合并两个FeatureData[Sequence]
对象。这种操作是可行的,因为在每次去噪单次运行中生成的特征id是可以直接比较的(在这种情况下,特征id是定义特征序列的md5值(散列/哈希))。
合并两组数据特征表
qiime feature-table merge \
--i-tables table-1.qza \
--i-tables table-2.qza \
--o-merged-table table.qza
当然也可以继续增加更多的批次数据,只要使用更多次的--i-tables
参数即可
合并两组数据的代表序列
qiime feature-table merge-seqs \
--i-data rep-seqs-1.qza \
--i-data rep-seqs-2.qza \
--o-merged-data rep-seqs.qza
输出对象:
特征表统计
qiime feature-table summarize \
--i-table table.qza \
--o-visualization table.qzv \
--m-sample-metadata-file sample-metadata.tsv
输出可视化结果:
图4. 特征表汇总。下面还包括样本信息的汇总图表、特征的汇总图表。此页面中还可以交互查看样本、特征的详细信息,自己在网页或本地中查看和探索结果吧!
图片看不清,可查看下方纯文本表格
Metric | Sample |
---|---|
Number of samples | 121 |
Number of features | 337 |
Total frequency | 48,925 |
Type | Frequency |
---|---|
Minimum frequency | 84.0 |
1st quartile | 276.0 |
Median frequency | 380.0 |
3rd quartile | 492.0 |
Maximum frequency | 860.0 |
Mean frequency | 404.3388429752066 |
Type | Frequency |
---|---|
Minimum frequency | 2.0 |
1st quartile | 9.0 |
Median frequency | 24.0 |
3rd quartile | 85.0 |
Maximum frequency | 10,832.0 |
Mean frequency | 145.1780415430267 |
通过上表,我们可以确定特征表标准化时数据重抽样的参数,由于本测试,只用了文章原始数据的10%的数据,数据量很小,最小值为84,第一分位数为276,我们可选择276保留75%以上的样品。一般最小值1000,推荐5000以上。
问题1. 基于
table.qzv
中的信息,在运行qiime diversity core-metrics-phylogenetic
时,您将为--p-sampling-depth
参数选择什么值?
问题2. 生成
qiime dada2 denoise-single
单批次数据结果汇总表中,查看第一批数据中定义了多少特性?在第批数据中定义了多少特性?这些数字与合并后的特性总数相比如何?
我们还将生成合并后的FeatureData[Sequence]
对象的摘要。在进行分析时,可以使用此摘要获得感兴趣特性的额外信息。
代表序列统计
qiime feature-table tabulate-seqs \
--i-data rep-seqs.qza \
--o-visualization rep-seqs.qzv
输出可视化结果:
图5. 特征序列长度统计。基本统计、分位数和序列详细。可点击序列进行NCBI blast查看详细注释。
Diversity analysis
现在我们已经获得了特征表(Feature table),以及代表序列(Feature Sequences)对象,你可以基于样本元数据来探索其微生物组成。自己尝试用上篇文章《人体各部位微生物组》分析方法。几个问题与个体的微生物组的纵向变化有关;可以参考q2-longitudinal
教程,以后面教程中会详细讲到,到时可以学习此类分析方法。试着回答以下问题?
qiime emperor plot
)?刘永鑫,博士。2008年毕业于东北农大微生物学专业。2014年中科院遗传发育所获生物信息学博士学位,2016年博士后出站留所工作,任宏基因组学实验室工程师,目前主要研究方向为宏基因组学、数据分析与可重复计算和植物微生物组、QIIME 2项目参与人。发于论文12篇,SCI收录9篇。2017年7月创办“宏基因组”公众号,目前分享宏基因组、扩增子原创文章300+篇,代表博文有《扩增子图表解读、分析流程和统计绘图三部曲》,关注人数3万+,累计阅读400万+。
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外2600+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA