基于qiime2的扩增子流程

写在前面：扩增子在微生物组领域就像分子生物学里面的PCR一样常见、有用，像繁琐的PCR一样（虽然有说明书告诉你引物、Taq酶、dNTPs等的加入量，但是每次都加也很繁琐），扩增子分析的流程也是很复杂。逐渐发展后，PCR有了mix（有了它，你只需要加水和模板就能PCR了）。为了方便自我和大家，我也把扩增子这个繁琐的流程整合成了像mix一样的东西 - Amp.sh。只需要输入几个简单的参数，就可以坐等结果了。经过多次调试和验证，Amp.sh和手动分步计算得到的结果一致。

正常情况下，想跑完扩增子流程，你需要把这里面https://docs.qiime2.org/2020.6/tutorials/moving-pictures/
的大多数命令跑一遍，比如：

像这样

先看一下结果：

基于dada2，“逐步计算”得到的β多样性（基于Bray-Curtis距离）

基于dada2，“整合流程”计算得到的β多样性（基于Bray-Curtis距离）

整合流程和逐步计算得到的结果一致，细微差别（比如三轴解释的比例）很正常，属于计算的正常波动

“逐步计算”基于silva_fl_dada2得到的物种分类

“整合流程” 基于silva_fl_dada2得到的物种分类

“逐步计算”基于gg_v4_deblur得到的物种分类

“整合流程”基于gg_v4_deblur得到的物种分类

好，结果一致，流程没什么问题。得到的结果包括α和β多样性，以及物种组成堆叠柱状图等。原始数据也都可以在https://www.microbiomeanalyst.ca/网站点点点，进行可视化和数据探索。

附：microbiomeanalyst使用方法https://www.sohu.com/a/292331502_769248

这个流程本是为方便自己分析而写，如果能帮到大家自然更好。功能简单，代码也不多，望生信大佬看见了多多指点。下面先说说Amp.sh管道使用方法

windows用户需要安装Ubuntu https://www.cnblogs.com/jetttang/p/8186315.html，自带命令行窗口不好看，推荐mobaxterm
，其它Linux用户直接跳到第二步
安装qiime2，参考https://docs.qiime2.org/2020.6/install/
去我的GitHub下载Amp.sh
放到一个文件夹如~/biosoft/amp_processor；chmod +x Amp.sh
vi ~/.bashrc 摁 i，文件最下方加入export PATH=$PATH:$HOME/biosoft/amp_processor 这一步的目的是Amp.sh加入到环境变量，以后在任何地方而不是只有~/biosoft/amp_processor文件夹下才能用这个脚本
source ~/.bashrc

好，到这里，基本配置已经完成。原始数据格式就是miseq的双端测序下机文件fastq(去除了barcode和primer序列). 使用方法如下：

帮助

其中-i 是原始数据所在的绝对路径，像这样：

image.png

列以tab键分隔，照葫芦画瓢，弄一个这种文件就行了，excel就能做
需要注意的是：给出这个文件的绝对路径

-o 参数是输出文件的绝对路径

-m 参数是metadata的文件绝对路径，metadata长这样：

metadata

就是告诉它你的样品是怎么处理的

-n 参数允许使用的线程数，电脑总线程的2/3就行，不然跑这个，你用不了电脑做别的事情了

-d 参数是使用的数据降噪方法，推荐dada2，运行时间长一些。deblur其实表现也不错

-a 参数是使用的物种注释数据库，默认Greengenes v4，13年以后没有再更新，但是经典，建议如果认为注释不准确的话就换数据库，直到满意。注意silva全长，训练分类器需要很大RAM~~

-s 参数是每个样品需要采集的feature counts(我认为就是ASV)，这个需要尽可能少的排除样本，且采集的数量尽可能大。这样在保留更多信息的同时能保留多的样本，且每个样本取得的feature也是一样的，样品间具有可比性。默认是样本中的最小数量，保证利用到所有的样品。

-p 参数是分析alpha稀释曲线的时候的采样深度，默认5000，一般够用

-h 参数是输出帮助文档

正式运行示例：

Amp.sh -i /mnt/d/phd/tomato_micr/16S/split/pe-33-manifest-2 -o /mnt/d/phd/tomato_micr/16S/amp_results -m /mnt/d/phd/tomato_micr/16S/split/sample-metadata.tsv -n 4 -d deblur -a gg_v4

好，坐等结果就行了，对，就是这么简单。

此流程对已运行得到的结果不再重复计算，节约时间
此外，我还编写开发了用于下游常见可视化的R包microVisu, https://github.com/yjiakang/microVisu/tree/main/R
安装命令
devtools::install_github("yjiakang/microVisu")
使用说明和示例帮助
library(microVisu)
?taxBarPlot

Visualize the amplicon data
Description
Visualize the amplicon data

Usage
taxBarPlot(otuTab, metaData, classToPlot, topNum, col)
Arguments
otuTab  
otu table of your sample

metaData    
design file

classToPlot 
which column you want to plot

topNum  
top n taxa to plot

col 
colour palette: including all the types of the "display.brewer.all()" in the RColorBrewer package

classToFacet    
which class you want for facet, default none

legCol  
column number of legend, default 2. If text is too long, suggestion is 1

Examples
otu_table_L2.txt <- system.file("extdata", "otu_table_L2.txt", package = "microVisu")
design.txt <- system.file("extdata", "design.txt", package = "microVisu")
taxBarPlot(otuTab = otu_table_L2.txt, metaData = design.txt,
classToPlot = "status", topNum = 10, col = "Set3", classToFacet = "knownseverity")

使用过程中有什么问题，可邮件联系[email protected]