16s rRNA微生物分析报告如何获得关键和有用分析

16s rRNA微生物分析报告如何获得关键和有用分析_第1张图片

16S科研项目是一个完整的闭环,前期的课题项目设计方案、取样和重复实验设置决定了后期分析报告的数据完整性项目类型

想要拿到一手有利用价值的科研报告和项目数据,前期的实验方案设计和后续的分析都起着关键性的作用。

然而有时候拿到报告不知道如何去解读,这里为大家梳理一下16s科研项目的全过程,帮助大家更好的了解报告内容,快速获取关键信息。

16s rRNA微生物分析报告如何获得关键和有用分析_第2张图片

NO.1
实验方案设计

实验方案设计就像一个总工程的设计图纸,决定了未来科研分析报告的类型走向,并且前期的分组设计的越详细,各种理化指标、生化指标、代谢物等信息准备越充分,后续报告的完整度越高

16s rRNA微生物分析报告如何获得关键和有用分析_第3张图片

明确项目课题类型

第一步要做的就是明确项目课题类型:

最常见的就是多分组之间差异分析比较:例如,要比较对照组、模型组、实验组,之间的差异结果。

16s rRNA微生物分析报告如何获得关键和有用分析_第4张图片

还有多分组中,任意两组之间比较:例如某实验设计了正常组、疾病组、用药组服用奥氮平、阿立哌唑、氨磺必利、利培酮,像比较不同的用药组和疾病组之间的菌群的差异结果,就用到了分组之间两两差异比较

✦举个例子

16s rRNA微生物分析报告如何获得关键和有用分析_第5张图片

图中1组与3组、4组、6组 组间差异显著

还有随时间的变化比较菌群之间的变化规律:例如在用药不同时间段包括3天,5天,2周,1个月,2个月,观察菌群的变化情况。如下图所示:

16s rRNA微生物分析报告如何获得关键和有用分析_第6张图片

16s rRNA微生物分析报告如何获得关键和有用分析_第7张图片

收集理化指标非常重要

如果前期搜集好每个样本的相关理化指标,还可以计算这些指标与菌群之间是否具有相关性

✦举个例子

例如该项目比较自闭症儿童与正常儿童的菌群差异。客户在样本信息单里还详细搜集了母孕期的各种详细指标,例如孕期天数、出生体重、白细胞介素6、肿瘤坏死因子a、五羟色氨等数值型理化指标

16s rRNA微生物分析报告如何获得关键和有用分析_第8张图片

还搜集了是否顺产、是否妊娠高血压、是否孕期感染、是否妊娠糖尿病、是否先兆流产等因子型理化指标。其中0代表否,1代表是:

16s rRNA微生物分析报告如何获得关键和有用分析_第9张图片

根据这些理化指标与菌群数据做相关性分析,从因子型的结果可以看出,自闭症(ASD)与正常儿童之间的分组与菌群之间相关性极显著**,其次是否有先兆流产的分组与菌群之间有显著相关性*,其他的包括是否喝牛奶、孕期是否感染、妊娠高血压都与菌群有相关性

16s rRNA微生物分析报告如何获得关键和有用分析_第10张图片

在数值型理化指标中,孕期的天数与菌群之间相关性显著*,其次是白细胞介素6与菌群之间有相关性

16s rRNA微生物分析报告如何获得关键和有用分析_第11张图片

小结

因此,前期搜集相关资料越详细充分,对分析报告的完整性也会有帮助,分析人员也会根据您的样本信息单提供的相关内容,做出个性化的分析和售后指导建议

NO. 2
取 样

首先基于样本类型,最常见的环境样本来源是人体、动物、土壤、水体等。而人体中的肠道菌群样本是目前研究最广泛,可鉴定的物种也最为丰富,谷禾在肠道菌群与人体健康方面有深入研究,目前已完成超20万例临床肠道菌群样本检测,并构建了超过60万各类人群粪便样本数据库。

其他样本类型还包括人体/动物唾液样本、组织样本、尿液样本等。

▸ 粪便样本

目前粪便样本从采样到提取数据分析技术较为成熟、应用较为广泛,谷禾最早在15年就开发了针对粪便样本的取样管,也是最早致力于研发粪菌取样盒的公司,方便实验室、个人日常取样需求,实现了粪菌样本的常温运输

谷禾取样管常温保存,取样也较为方便卫生,在家就可以轻松完成,相较于传统取样方法都有所升级。并且该取样管也有专利证书。该取样方法被大量客户采用并接纳,大大降低了采集粪便样本的难度,缩短了搜集样本的时间周期。

取样示意图

16s rRNA微生物分析报告如何获得关键和有用分析_第12张图片

▸ 其他样本

土壤样本也相对较为容易提取出DNA,但需要注意的是土壤样本的菌群特征容易受植物腐殖质基因的影响和干扰,所以提取时要进行纯化

而口腔、组织、尿液等样本,由于DNA含量较少,在实验阶段提取相对较为困难,所以提前准备样本时,尽量多取一些,并且可以多取几个重复,尽量避免扩增不出来的情况。

并且这些样还很容易受到环境样的污染,所以在实验阶段,可以取空白样本,和阳性样本ST做对照,数据分析时可以用来纯化样本,排除来自环境的干扰序列

✦组间差异分析需重复取样

要做组间差异分析时,每组要重复取样,才能做组与组之间的统计检验。理论上,每个组至少3个样就满足基本的统计差异分析需求。所以在重复取样时,每个分组至少取3个样。取样时要保证每个分组内部的样本一致性,如果组内样本之间的个体差异性较大,则会影响后期组间差异结果分析。

✦举个例子

16s rRNA微生物分析报告如何获得关键和有用分析_第13张图片

例如从该图可以看出,分组之间组间差异较大,并且组内的样本之间较为接近和相似。

16s rRNA微生物分析报告如何获得关键和有用分析_第14张图片

但从该图可以看出,Control组中Control3样本明显与组内的其他样本差异较大,与DSS组内的样本较为相近,这样就对后期组间差异分析的时候会产生影响,需要将该样本去除。

16s rRNA微生物分析报告如何获得关键和有用分析_第15张图片

又例如在该图中,TA200组中的TA3样本的Anaeroplasmatales物种丰度含量非常高,该样本与组内的其他样本明显差异较大,该样本可能受到环境污染等其他因素干扰,这样就没有办法保证组内样本的均一性,也会影响分组之间的差异分析统计结果,再后期分析的时候建议把该样本去掉重新分析。

建议

为了便于后期数据整理修改,每个分组需要保留一定量的重复样本,假如每个分组只取了3次重复,假如其中有一个样本质量不好需要去除,该分组只剩2个样本,则不满足每组至少3个样的分组条件,整体就没有办法做组间差异分析统计

所以这里建议每个分组至少取5个样做重复,一般6到10个样就能分析出比较完善的结果。具体分组和组内的重复取样数量视具体的实验设计方案而定。

在经费允许的情况下,建议多取一些重复。假设每组取50到100个重复或者以上,得到的分析结果就基本可以涵盖该分组情况所有的菌群构成情况,可以较为全面的研究分组之间的菌群构成差异情况。

NO. 3
科研分析报告

当拿到16S科研分析报告以后,面对纷繁复杂,各式各样的图表分析结果犯了难,不知道如何从这么多的图表中入手,快速找到报告中需要的图表结果。

这里对16S科研分析结果抽丝剥茧,概括出报告中的主要几大内容板块。

•16S科研分析究竟是在做什么?

16S rDNA 是一种对特定环境样品中所有的细菌进行高通量测序,以研究环境样品中微生物群体的组成,解读微生物群体的多样性丰富度群体结构,探究微生物与环境或宿主之间的关系的技术。

16S分析流程

主要是对原始数据进行拼接过滤得到的优化序列,降噪方法得到ASV,再对ASV进行物种注释,注释到门、纲、目、科、属、种各层次上的分类结果。

通过ASV表计算Alpha多样性,样本内的多样性指数,Beta多样性,样本间相似性的指标。

对ASV表进行功能预测,例如Picrust2功能预测分析、Bugbase菌群表型特征分析,FAPROTAX生态功能预测等。

得到的每个样的数据结果,根据客户提供的分组情况和理化指标,进一步做组间差异分析,以及和环境理化指标之间做关联分析,相关性分析,比较分组之间是否有差异,差异是否显著,来验证分组是否合理,和环境宿主之间是否有关联性

16s rRNA微生物分析报告如何获得关键和有用分析_第16张图片

原始数据处理

Illumina NovaSeq测序平台测序得到的双端数据Raw PE,经过拼接和质控,根据一定的标准过滤掉低质量数据、接头或PCR错误,得到Raw Tags。再经过去重复序列,去singleton序列,过滤嵌合体,得到可用于后续分析的有效数据 Effective Tags。

OTU(ASV) 表生成

微生物多样性分析中最重要的就是OTU特征表,一切后续分析都围绕OTU表来进行。生成OTU除了传统的聚类的方法(一般按照97%的相似度进行聚类),现在最新用到的技术的是降噪的方法得到ASV。

简单来讲ASV就是在去除了错误序列之后,将Identity的标准设为100%进行聚类,常见的有DADA2、Deblur、Unoise三种降噪方法。项目里用到的是UNOISE2降噪方法获得ASV数据。

物种的分类与注释

采用QIIME2训练分类器方法对ASVs代表序列进行分类学注释,默认选用SILVA138数据库进行物种注释。并在各个分类水平上:domain(域),phylum(门),class(纲),order (目),family(科),genus(属),species(种)对每个样本的群落组成统计。

alpha多样性

Alpha多样性主要反映样本内多样性。对ASV表进行计算可以获得每个样本的simpson,ace,shannon,chao1以及goods_coverage等指数,alpha多样性指数用来来评估样本菌群物种的丰富度(richness)和多样性(diversity)

beta多样性

Beta多样性反映的是样本间多样性,Beta多样性是衡量个体间微生物组成相似性的一个指标。通过计算样本间距离可以获得β多样性矩阵,基于OTU的群落比较方法报告中给出了,欧式距离、bray curtis距离、Unweighted UniFrac距离和Weighted UniFrac距离等。

功能预测

得到群落的微生物组成之后,也可以对群落功能组成进行预测,常用的16S功能预测的相关软件有PICRUSt2、FAPROTAX、BugBase。

PICRUSt2用来预测功能,通常指的是基因家族,PICRUSt2支持基于多个基因家族数据库的预测,报告中包括了KEGG同源基因,KO直系同源物,EC酶分类编号,MetaCyc途径的丰度,CAZy碳水化合物活性酶数据库,GMM是肠道代谢模块和GBM是肠脑模块。

FAPROTAX是原核的微生物注释代谢或其他生态相关的功能(例如硝化,反硝化,发酵)的一个数据库和软件。FAPROTAX预测的功能主要集中在海洋、湖泊环境样本微生物的功能,特别是硫、碳、氢、氮的循环功能。

BugBase能进行表型预测,其中表型类型包括革兰氏阳性(Gram Positive)、革兰氏阴性(Gram Negative)、生物膜形成(Biofilm Forming)、致病性(Pathogenic)、移动元件(Mobile Element Containing)、氧需求(Oxygen Utilizing,包括Aerobic、Anaerobic、facultatively anaerobic)及氧化胁迫耐受(Oxidative Stress Tolerant)等7类。

以上这些部分,我们通过数据处理分析,得到了每个样本相关的大量数据结果,包括每个样本的序列统计、ASVs表格、物种分类注释统计、alpha多样性指数、beta多样性指数、功能预测等。这些数据主要集中在报告里的这些内容:

▸ 科研分析报告结果文件夹

01_pick_otu/ 文件夹主要是对样本ASV表格统计

02_sequence_statistic/ 文件夹是对样本序列数据的统计

03_diversity-metrics / 文件夹是对样本的alpha多样性指数、beta多样性指数的统计

04_Taxonomic/ 文件夹是对物种分类注释的统计(门到种水平)

Picurst2/ 文件夹是Picrust2功能预测得到的每个样本的相关功能预测数据

Groups/ 文件夹下是对组间差异分析结果

16s rRNA微生物分析报告如何获得关键和有用分析_第17张图片

红框是样本个体的相关数据统计,Group是分组比较

根据以上常规分析得到的相关数据进行作图,其路径也在对应文件夹下,可以打开 分析报告.html 有相关分析的图表和对应文件的详细介绍路径说明。

★拿到样本后需要进行统计分析

当我们拿到这些样本大量的数据结果,之后关键的一步就是做对这些数据进行处理,做统计分析,比较分组之间的差异结果,找出菌群和环境之间的关联性等,对数据进一步做研究,找出课题方案对应的结果。

差异分析

不同的数据用到的统计检验方法也不太一样,接下来我们对报告中的不同的分析结果对应的统计差异分析方法进行介绍说明。

▸ alpha多样性

alpha多样性指数组间差异统计分析用到的检验方法是:单因素方差分析(如果只有两个分组,用Wilcoxon秩和检验,3个及以上的分组用Kruskal-Wallis 检验),图上方显示P值

16s rRNA微生物分析报告如何获得关键和有用分析_第18张图片

▸ beta多样性

beta多样性指数的统计检验方法有ANOSIM相似性分析和Adonis多元方差分析,这两种都是基于距离矩阵的检验方法。

✦Anosim相似性分析

Anosim分析是一种非参数检验,用来检验组间的差异是否显著大于组内差异,从而判断分组是否有意义

报告中给出了加权距离和非加权距离的Anosim结果图,图中给出了R值和P值。

R值用于比较不同组间是否存在差异,R-value 介于(-1,1)之间,R-value > 0,说明组间差异大于组内差异。R-value < 0,说明组间差异小于组内差异。R只是组间是否有差异的数值表示,并不提供显著性说明。

统计分析的可信度用 P-value 表示,P< 0.05 表示统计具有显著性

16s rRNA微生物分析报告如何获得关键和有用分析_第19张图片

图中能看出R>0,说明组间差异大于组内差异,P<0.05 ,说明差异显著,证明该分组情况效果较好。

✦Adonis多元方差分析

Adonis多元方差分析,其实就是PERMANOVA,亦可称为非参数多元方差分析。

其原理是利用距离矩阵(比如基于Bray-Curtis距离、Euclidean距离)对总方差进行分解,分析不同分组因素对样品差异的解释度,并使用置换检验对其统计学意义进行显著性分析。

它与Anosim的用途相似,也能够给出不同分组因素对样品差异的解释度(R值)与分组显著性(P值)。

报告中PCoA bray距离、PCoA weighted_unifrac距离、PCoA unweighted_unifrac距离的图片右下角有给出PERMANOVA检验的P值和R值。

16s rRNA微生物分析报告如何获得关键和有用分析_第20张图片

图中看出PCoa bray距离得到的检验P<0.05 组间差异显著,并且分组之间区分较为明显。

PCoa bray距离的PERMANOVA检验结果路径:

多组间检验结果:

Groups/betadiv/pcoa_bray_analysis/PERMANOVA.result_all.csv

两组间检验结果:

Groups/betadiv/pcoa_bray_analysis/ PERMANOVA_paired_result.csv

16s rRNA微生物分析报告如何获得关键和有用分析_第21张图片

不同分类水平下的检验方法

在很多分析报告当中,例如在不同疾病的肠道菌群分组中,本身样本个体之间肠道菌群的物种多样性,丰富度差异并不大,alpha多样性组间差异并不显著,beta多样性分组间区分不是很明显,这样就需要进一步找出分组之间的差异物种或者差异功能来进行分析。

对于不同分类水平的物种功能预测结果用到以下几种检验方法:

Tukey检验

Tukey主要应用于3组或以上的多重比较,适合于各组例数相等的每两两分组之间比较。

Tukey检验的一个重要的优点是非常简单,而且所需实验样本相对较少

其检验结果的可信度达到95%的置信水平时,最少的情况下只需6个样本进行验证(改善前3个样本、改善后3个样本)。

•举个例子

16s rRNA微生物分析报告如何获得关键和有用分析_第22张图片

图中的字母代表显著性差异的字母表示法,只要含有相同的字母,就表明两组之间没有显著性差异

例如a和ab含有相同字母“a”,表示两组之间没有显著性差异。ab中的“b”表示这一组和其他含有字母b的组(比如bc)没有显著性差异,但是a和bc就有显著性差异了。

图中只展示Tukey检验差异显著的物种或功能,如果数量较多,则只展示前10个。

路径:Groups/diff_analysis/TukeyHSD/

16s rRNA微生物分析报告如何获得关键和有用分析_第23张图片

图中显示的都是Tukey检验组间差异显著的物种,依次按照丰度从高到底排列,如果差异结果较大,则显示前10个物种。例如在该图中,Tukey检验结果,门水平物种Actinobacteriota在BB与MG1组、BB与MG2、BF与GG组、BF与MG1组、BF与MG2组,这些分组之间组间差异显著。

组间差异箱型图

组间差异箱型图用到的检验方法是通过单因素方差检验(只有两个分组,用的是Wilcoxon秩和检验,3个及以上的分组用的是Kruskal-Wallis 检验),Var检验和one-way相结合,筛选出组间差异性物种。

路径:Groups/diff_analysis/TaxaMarkers

图中每一个箱型图代表一个组间差异显著的物种

16s rRNA微生物分析报告如何获得关键和有用分析_第24张图片

图中显示的都是统计方法得到的差异显著的物种,图中能看出这3个物种分组之间差异显著。

命名格式是,例如:Cen_Nitrosopumilus 指的是,当前分类水平(属水平)的名字 g__Nitrosopu 加上一级分类水平(科水平)的名字 f__Cenarchaeaceae 的前 3 个字母简写Cen,如果当前水平没有注释到名字则以全称的名字表示。

统计结果表:Groups/diff_analysis/TaxaMarkers/ xxx.Groups.sig.meanTests.csv

16s rRNA微生物分析报告如何获得关键和有用分析_第25张图片

例如这是一个表格的截图

红框 mean_ 是分组组间的平均值

蓝框 sd_ 代表组间的标准差

粉色 .test 代表不同统计检验结果的P-value P值,这里有var检验 T 检验 Wilcoxon检验(或Kruskal-Wallis 检验)

绿色 _BH 例如Wilcoxon.test_BH代表Wilcoxon.test检验BH矫正的Q-value,Q值

UnivarTest检验(单因素方差分析)

单因素方差分析是指如果只有两个分组,用Wilcoxon秩和检验,3个及以上的分组用Kruskal-Wallis 检验。

路径:Groups/diff_analysis/UnivarTestXXX

16s rRNA微生物分析报告如何获得关键和有用分析_第26张图片

Groups\diff_analysis\UnivarTestKEGG\figure 文件夹下有做成柱状图、箱型图和单个物种之间的图,其中有横着排列和竖着排列的,有用原始值计算的,还有对原始值取log后进行统计的。图中只展示Univar 检验组间差异显著的物种/功能。

16s rRNA微生物分析报告如何获得关键和有用分析_第27张图片

统计结果表:Groups/diff_analysis/UnivarTestXXX/ UnivarTest_sign.txt

•举个例子

16s rRNA微生物分析报告如何获得关键和有用分析_第28张图片

16s rRNA微生物分析报告如何获得关键和有用分析_第29张图片

图中显示的是该统计检验差异显著的物种的柱状图或箱型图,按照丰度从高到低排列,如果差异物种/功能较大,则只显示前10个。例如该图中Therobifida、Staphylococcus、Streptomyces等物种用Kruskal-Wallis 检验得到的组间显著差异物种。

16s rRNA微生物分析报告如何获得关键和有用分析_第30张图片

该图展示了Bacillus物种Kruskal-Wallis 检验差异结果,所有分组中P<0,001 多组间差异显著,两组间BB与GG、BB与MG1、BB与MG2、BF与GG、BF与MG1、BF与MG2,组间差异显著

LEfse分析

LEfse分析即LDA Effect Size分析,是一种用于发现和解释高维度数据生物标识(基因、通路和分类单元等)的分析工具,可以进行两个或多个分组的比较,它强调统计意义生物相关性,能够在组与组之间寻找具有统计学差异的生物标识(Biomarker)。

LEfSe用到的统计分析方法是将线性判别分析与非参数的Kruskal-Wallis以及Wilcoxon秩和检验相结合。

LEfse分析结果中一般会出现两个图一张表( LDA值分布柱状图、进化分支图以及特征表)。

LDA值分布柱状图

这个条形图主要为我们展示了LDA score大于预设值的显著差异物种,即具有统计学差异的Biomaker,默认值为2.0(看横坐标,只有LDA值的绝对值大于2才会显示在图中);柱状图的颜色代表各自的分组,长短代表的是LDA score,即不同组间显著差异物种的影响程度

路径:

Group/Lefse_Analysis/out_formant.cladogram.png

16s rRNA微生物分析报告如何获得关键和有用分析_第31张图片

图中展示了不同分组特有的Lefse组间差异标记物,例如BB组的标记物是目水平的Bacillales和科水平的Bacillaceae,不同的分组标记物也不同,图中如果只展示了部分分组,则代表只有部分分组通过Lefse分析筛选出组间差异标记物。

进化分支图

小圆圈: 图中由内至外辐射的圆圈代表了由门至属的分类级别(最里面的那个黄圈圈是界)。不同分类级别上的每一个小圆圈代表该水平下的一个分类,小圆圈的直径大小代表了相对丰度的大小。

颜色: 无显著差异的物种统一着色为黄色,差异显著的物种Biomarker跟随组别进行着色,红色节点表示在红色组别中起到重要作用的微生物类群,蓝色节点表示在蓝色组别中起到重要作用的微生物类群。

未能在图中显示的Biomarker对应的物种名会展示在右侧,字母编号与图中对应(为了美观,右侧默认只显示门到科的差异物种)。

路径:Group/Lefse_Analysis/out_formant.png

16s rRNA微生物分析报告如何获得关键和有用分析_第32张图片

图中右侧展示了分支图中的字母对应的物种信息,例如a 代表GG组的标记物目水平的Microtrichales ,b代表GG组的标记物刚水平的Acidimicrobiia。在分支图的最外层显示的是各分组门水平物种的标记物,例如BF组的是Actinobacteriota、MG1组的是Proteobacteria、

MG2组的是Cyanobacteria

特征表

路径:Group/Lefse_Analysis/out_formant.res.csv

16s rRNA微生物分析报告如何获得关键和有用分析_第33张图片

第一列是样本中从门到属水平所有分类单位的列表

Lefse会逐一判断这些分类单位的在分组之间是否具有统计学显著性差异。

第二列:各组分丰度平均值中最大值的log10,如果平均丰度小于10的按照10来计算;如果该分类单位未体现出显著组间差异,则后三列为空。

对于具有统计学差异的分类单位:

第三列:差异基因或物种富集平均丰度最高的分组组名;

第四列:LDA差异分析的对数得分值;

第五列:Kruskal-Wallis秩和检验的p值,若不是Biomarker用“-”表示。

默认LDA>2,P<0.05

通常根据第4列的LDA差异分析对数得分值和第五列的P值,可以描述组间具有显著差异的分类单位统计学效力强弱。

metagenomeSeq

metagenomeSeq是用R开发的一个包,metagenomeSeq的基本思想,用normalization实现分类注释时的biases处理,同时用零膨胀高斯分布(zero-flated Gaussian distribution)处理了测序深度所带来的影响,在此基础上,利用线性模型找到存在的差异所在。

路径:Groups/diff_analysis/ metagenomeRXXX

16s rRNA微生物分析报告如何获得关键和有用分析_第34张图片

metagenomeSeq 差异显著物种/功能 热图

16s rRNA微生物分析报告如何获得关键和有用分析_第35张图片

图中颜色越深相关性越小,颜色越接近黄色相关性越大,从图中能看出Actinobacteria物种与BB组和BF组相关性较大。

metagenomeSeq差异菌属于功能代谢关联分析

16s rRNA微生物分析报告如何获得关键和有用分析_第36张图片

图中红色代表正相关,蓝色代表负相关,颜色越深,圆圈越大,相关性也越大,例如图中能看出MGB049余MF0025 之间成正相关,且相关性较大。

随机森林模型

一种非线性分类器,随机森林属于集成类型的机器学习算法,挖掘变量之间复杂非线性相互依赖关系。通过随机森林重要性点图,可以找出分组间差异关键物种/功能

反映了分类器中对分类效果起主要作用的特征,按重要性从大到小排列。

Error rate:表示使用下方的特征进行随机森林方法预测分类的错误率,数值越高表示基于特征分类准确度不高,可能分组之间特征不明显。分值越低证明分组效果比较好

•举个例子

16s rRNA微生物分析报告如何获得关键和有用分析_第37张图片

图中按照随机森林模型效果筛选出的对分组效果有重要性作用的物种,按照重要性从高到低进行排列,例如图中最终要的是a,依次往下是b、c等。错误率较小,表明该分组效果较好。

ROC曲线

ROC曲线分析是一种常用的统计学分析方法,在医学研究中主要用于评价诊断试验的效能。在16S测序报告中,我们通过绘制ROC曲线,并计算ROC曲线下面积(AUC),来确定分组对于菌群是否有诊断价值

ROC曲线图是反映敏感性特异性之间关系的曲线。ROC曲线下的面积值在1.0和0.5之间。在 AUC>0.5的情况下,AUC越接近于1,说明诊断效果越好

AUC在0.5~0.7时有较低准确性,AUC在0.7~0.9时有一定准确性,AUC在0.9以上时有较高准确性。AUC=0.5时,说明诊断方法完全不起作用,无诊断价值。AUC<0.5不符合真实情况,在实际中极少出现。

•举个例子

16s rRNA微生物分析报告如何获得关键和有用分析_第38张图片

从图中能看出各分组的AUC都大于大于0.9,各分组的分组效果较好,BF组AUC等于1,该分组效果最好,可能样本之间较为相近,并且跟其他分组组间差异也比较大。

以上是组间统计差异的方法介绍,其他的还包括关联分析

例如客户提供了每个样的相关理化指标数据,想计算这些指标与均属之间有什么相关性,就可以做一下分析。

关联性分析

✦相关性热图

图中X轴代表属水平物种,Y轴代表代谢指标,红色代表正相关,蓝色代表负相关,**代表相关极显著P<0.01,* 代表相关性显著P<0.05相关性具有统计学意义。

16s rRNA微生物分析报告如何获得关键和有用分析_第39张图片

例如从该图中能看出6与n物种成正相关,并且相关性极显著**,7与b物种成负相关,并且相关性极显著**

可以得到表格:任意菌属和代谢的相关性的值和P值

16s rRNA微生物分析报告如何获得关键和有用分析_第40张图片

✦CCA图

可以分析样本、菌群、理化指标之间的关联关系。图中使用点代表不同的样本,从原点发出的箭头代表不同的环境因子

箭头的长度越长,表示环境因子的影响越大;夹角越小,代表相关性越高。样本点与箭头距离越近,该环境因子对样本的作用越强

图像中坐标轴标签中的数值,代表了坐标轴所代表的环境因子组合对物种群落变化的解释比例。

16s rRNA微生物分析报告如何获得关键和有用分析_第41张图片

例如从图中能看出pH 、NO2N、02与 Acinetobacter、Weissella等物种成正相关,与T3D0、T1D0、T4D0等D0组的样本成正相关

✦RDA 冗余分析

16s rRNA微生物分析报告如何获得关键和有用分析_第42张图片

例如从图中能看出pH与Helicobacer物种成正相关,相关性较大,pH与NC组有一定的相关性

✦Envfit分析

回归拟合分析结果:

16s rRNA微生物分析报告如何获得关键和有用分析_第43张图片

16s rRNA微生物分析报告如何获得关键和有用分析_第44张图片

图中能看出ASD与正常儿童之间的分组与菌群之间相关性极显著**,其次是否有先兆流产的分组与菌群之间有显著相关性*,其他的包括是否喝牛奶、孕期是否感染、妊娠高血压都与菌群有相关性

环境因子与功能/物种的相关性线形图P<0.05显著,图中红色点代表正相关,绿色点代表负相关,灰色相关性不显著

16s rRNA微生物分析报告如何获得关键和有用分析_第45张图片

图中能看出pH 与Candidatus Rhabdochlamydia 之间成正相关,且相关性显著,pH 与Sinorhizobium、Euzebya 之间成负相关,切相关性显著。

Network网络分析

还可以做菌属之间的网络分析关联图,共发生网络图为研究复杂微生物环境的群落结构功能提供了新的视角。

由于不同环境下微生物的共发生关系截然不同,通过物种共发生网络图,可以直观看出不同环境因素对微生物适应性的影响,以及某个环境下占互作主导地位的优势物种、互作紧密的物种群,这些优势物种以及物种群往往对维持该环境的微生物群落结构和功能稳定发挥着独特以及重要的作用

•举个例子

16s rRNA微生物分析报告如何获得关键和有用分析_第46张图片

图中展示了相关性的物种,例如Bacteroidota、Actinobacteriota、Proteobacteria 这些物种与其他物种相关较大,图中这些物种与其他物种连线较多,字体比较大也代表相关性较强,例如Actinobacteriota与Deinococcota连线是绿色的代表这两个物种是负相关。

16s rRNA微生物分析报告如何获得关键和有用分析_第47张图片

16s rRNA微生物分析报告如何获得关键和有用分析_第48张图片

这两个图类似的物种相关性的图,用同一个数据做出来的,图中能看出Bacillales、Desulfovibrionales、Selenomonadales与其他物种相关性较强

结 语

报告中已经基本都涵盖了16S科研数据分析所需要的图表差异统计,以及相关性分析结果。如果在几种不同类型的统计方法对比之下有略微的差异结果,选取其中一组差异结果即可。

报告里涵盖了大部分16S所需要的图片,不过也有个别个性化的图需要单独用到软件去做,可以单独完成个性化图表生成。

随着16s分析报告的不断升级,报告中的图表以及相应的解读也会越来越精细完善,谷禾也将尽可能为大家的科研之路带来更多便利。

16s rRNA微生物分析报告如何获得关键和有用分析_第49张图片

你可能感兴趣的:(生信分析,人工智能,python,大数据,数据挖掘,论文阅读)