微生物组16S rRNA数据分析

原文链接:https://www.jianshu.com/p/920a5ce3a7a0

微生物组16sRNA 数据分析常规流程:划分OTU , 构造距离矩阵,分析物种多样性指数,构建序列的进化树及物种注释信息。

可以使用USEARCH、VSearch、Qiime来进行分析。

1、划分OTU

OTU为操作分类单元,基于序列相似度高于97%,将每个sample划分成不同OTU,每个OTU用一条序列read来代表,基于该代表序列进行物种注释和分析。划分完OTU后,可获得OTUtable,包括:每个sample的各OTU所含reads数目,可获得相对丰度信息, 即各OTU中reads所占总sample reads的百分比。

2、物种注释

将各OTU代表序列与生物数据库已有序列进行对比,给每个OTU追溯其物种来源,划分到:界(Kingdom)、门(Phylum)、纲(Class)、目(Order)、科(Family)、属(Genus)、种(Species),进行物种注释。

tips:

根据OTU table和物种注释信息,将相同level的物种丰度相加,整理出每个level的物种丰度文件。比方说将family level中,相同family的物种丰度相加,形成一个family level的物种丰度文件。其作用为可以通过直接比较不同分组的物种丰度,从而找出哪些物种的丰度在组间存在差异,即挑选可以区分不同组的marker(理解:整合相同level的物种,根据物种在不同样本组的丰度不同,从而区分不同的样本组)

3、物种进化树

通过各OTU代表序列之间的相似性来构建物种进化树,aerf多样性用于描述一个样本中有多少个物种,最简单的单位是richness,即样本中OTU的个数。

beta多样性,即距离矩阵用于描述两个样本之间的相似程度

4、物种构成与优势物种

相对丰度最大的物种为优势物种

aerfa多样性分析可采用rarefaction curve稀释曲线rank abundance curve丰度等级曲线、盒图进行展现。

可参考α diversity分析https://www.jianshu.com/p/7cb452fede5a

rarefaction curve稀释曲线图像解读:横坐标为每次抽样的reads数目,纵坐标表示每次抽样得到的OTU数据。Qiime可以生成稀释曲线。好的抽样方式能够使曲线最终趋于平缓,如图示

微生物组16S rRNA数据分析_第1张图片

rank abundance curve丰度等级曲线图像解读:横坐标为相对丰度从大到小的OTU的ID,纵坐标为相对丰度,如图示

微生物组16S rRNA数据分析_第2张图片

盒图根据各组样本的丰度均值来画图,横轴为物种,纵轴为该物种在所有样本中的平均丰度值

微生物组16S rRNA数据分析_第3张图片

5、各样本α多样性和β多样性指数的组间差异

α多样性

β多样性:以距离矩阵作为输入,使用PERMANOVA做组间的差异比较,以PCA .MDS,ISOMap等进行降维,产生新坐标进行绘图和可视化。

对16s微生物组数据而言,组间物种构成的差异以PERMANOVA的统计检验结果为准,PCA(MDS)所作的二维或三维散点图为可视化手段,为更直观的展现组间差异(需要实践)

6.biomarker

Biomarker是用以区分微生物组的标记,具体的判定准则是:不同微生物组的某相同物种,其相对丰度存在统计学意义上的差异,利用该物种的丰度差异可以区分不同的微生物组别,简而言之,即微生物组中相对丰度明显不同的物种可以作为biomarker。目前常用的方法有:boruta(python或者R可视化)lefse(web端软件封装)、统计检验方法(heatmap及boxplot展现

6、功能分析PICRUST

物种功能预测分析linux软件

 

 

 

 

 

你可能感兴趣的:(Bioinformatics)