如何绘制带置信区间的物种积累曲线

背景

稀释曲线(Rarefaction curves)是从样品中随机抽取一定测序量的数据(序列条数),统计它们所对应的OTUs种类(代表物种),并以抽取的测序数据量与对应的代表OTUs来构建曲线。
一般情况下,横坐标代表随机抽取的序列数量,纵坐标代表观测到的OTUs种类数量,样本曲线的延伸终点的横坐标位置为对应样本的测序数量,反映了Alpha多样性中的物种丰富度指数(Richness)信息。
稀释曲线可直接反映测序数据量的合理性,并间接反映样品中物种的丰富程度,当曲线趋向平坦时,说明测序数据量渐进合理,更多的数据量只会产生少量新OTUs(物种);反之表明不饱和,增加数据量可以发现更多OTUs。

一般稀释曲线使用vegan包进行计算绘图,或通过gglot进行绘制。今天看到一篇文献,它展示的稀释曲线就很有趣,既包含了置信区间,又包含了预测值,就让我们来看看这样的稀释曲线是如何绘制的。

这里用到了iNEXT这个R包,iNEXT用于分析用于物种多样性的稀疏性和外推(通过假设现有趋势将继续或当前方法仍然适用来估计或得出结论的动作,通过观察到的物种数量进行合理的外推,可以获得理论物种数)
iNEXT专注于q阶希尔数(hill numbers)的三种度量:物种丰富度(q = 0),Shannon(q = 1)和Simpson(q = 2)。对于每个多样性度量,iNEXT使用观察到的丰度或发生率数据来计算稀疏样本和外推样本的多样性估计以及相关的95%(默认)置信区间,并绘制稀疏和外推(R / E)曲线。

Hill一开始是均匀度 (evenness index) 的一个指数。后来才被用于表征alpha多样性:



S是物种数;Pi是i物种相对丰度;q是多样性阶数
对于q=1, Hill没有定义,但是当q接近1时,它的极限以如下形式存在:



q决定了多样性指数的灵敏性。
q = 0, 计算物种数量;

q = 1, 计算指数的Shannon entropy,意义为群落中典型或常见的物种数量;
q = 2, 计算Simpson index,意义为群落中优势种或高丰度种的数量。


好了,不废话了,进入正题吧

iNEXT软件包在CRAN上可用,并且可以使用下面显示的命令通过标准安装过程下载。也可以从github下载。对于首次安装,必须加载其他可视化扩展程序包(ggplot2), iNEXT包的R适用版本为3.4及以上。

## install iNEXT package from CRAN
install.packages("iNEXT")

## install iNEXT from github
install.packages('devtools')
library(devtools)
install_github('AnneChao/iNEXT')

## import packages
library(iNEXT)
library(ggplot2)

主要功能:iNEXT()

iNEXT(x,q = 0,datatype =“ abundance”,size = NULL,endpoint = NULL,knots = 40,se = TRUE,conf = 0.95,nboot = 50 )
此主要功能计算q阶的多样性估计值,样本覆盖率估计值和大小为1的端点与端点之间的K(如果结节= K)均匀间隔的结点(样本大小)的相关统计量,其中端点如下所述。每个结代表一个特定的样本大小,将为此计算多样性估计。默认情况下,将端点设置为参考样本大小的两倍。

该函数返回一个“ iNEXT”对象,该对象可以进一步使用下面要描述的函数ggiNEXT()进行绘图。

Argument Description
x 矩阵,data.frame,物种丰度/发生率列表或发生频率列表
q 一个数字或向量,指定希尔数字的多样性顺序,可以设置为0/1/2
datatype 输入的数据类型,指定 “abundance”, “incidence_raw”, 或 “incidence_freq”
size 样本大小的整数向量,将为此计算出多样性估计。如果为NULL,则将为由指定的/默认的端点和结点确定的那些样本大小计算多样性估计
endpoint 一个整数,指定作为R / E计算终点的样本大小;如果为NULL,则端点=参考样本大小的两倍
knots 一个整数,指定大小1和端点之间的等距结数(默认为40)
se 逻辑变量,用于计算conf指定级别的引导标准误差和置信区间;
conf <1的正数,指定置信区间的水平
nboot 一个整数,指定引导复制的数量

数据格式/信息

支持三种类型的数据:(“abundance”,“ incidence_raw”或“ incidence_freq”):

基于个体的丰度数据(数据类型=“abundance”):每个集合/场所的输入数据包括n个个体的经验样本中的样本物种丰度。当有N个组合时,输入数据由S×N的丰度矩阵或N个物种丰度列表组成。
基于采样单位的关联数据:输入数据有两种。
1.发病率-原始数据(数据类型=“ incidence_raw”):对于每个组合,参考样本的输入数据由按采样单位的物种矩阵组成;当有N个组合时,输入数据由N个矩阵列表组成,并且每个矩阵都是按采样单位分类的矩阵。
2.入射频率数据(数据类型=“ incidence_freq”):每个组合的输入数据由物种样本入射频率(每个入射矩阵的行和)组成。当有N个组合时,输入数据由S + 1×N矩阵或N个物种入射频率列表组成。每个列/列表的第一项必须是采样单位总数,其后是物种发生频率。

iNEXT软件包中包括四个数据集(spider 和 bird用于丰度数据,ant 和 ciliates用于入射数据),用于说明数据输入格式和运行过程。

基本图形显示:功能ggiNEXT()

ggiNEXT(x,type = 1,se = TRUE,facet.var =“ none”,color.var =“ site “,grey= FALSE)
这里x是一个“ iNEXT”对象。允许使用三种类型的曲线:(1)具有置信区间(如果se = TRUE)的基于样本大小的R / E曲线(type= 1)。(2)具有置信区间(如果se = TRUE)的样本完整性曲线(type= 2)。(3)具有置信区间(如果se = TRUE)的基于覆盖率的R / E曲线(type= 3)。
参数facet.var(“ none”,“ order”,“ site”或“ both”)用于为指定变量的每个值创建单独的图。当facet.var =“ both”时,我们可以进一步使用参数color.var(“ none”,“ order”,“ site”或“ both”)为指定的每个值以不同的颜色显示曲线变量。用户还可以使用参数grey = TRUE绘制黑白图形。

Spider数据的提取/外推(丰度数据)

data(spider)
out <- iNEXT(spider, q=c(0, 1, 2), datatype="abundance", endpoint=500)
# Sample-size-based R/E curves, separating plots by "site"
ggiNEXT(out, type=1, facet.var="site")
#基于样本大小的R / E曲线,按“顺序”分隔图
ggiNEXT( out, type = 1, facet.var = “ order ”)

要链接样本大小和基于覆盖率的采样曲线,首先使用以下命令检查样本完整性曲线将是不错的选择:
ggiNEXT(out,type = 2)


以下命令返回基于coverage的R / E采样曲线。ggiNEXT()函数中的参数facet.var =“ site”为每个站点创建一个单独的图,如下所示:
ggiNEXT(out,type = 3,facet.var = “ site ”)

参数facet.var =“ order”为每个多样性顺序以及每个图内创建一个单独的图,如下所示。
ggiNEXT(out,type = 3,facet.var = “ order ”)

上面的图形显示描绘了典型的颜色图,以标准化生物多样性样品,以便比较同等大小(基于样本大小)或同等完整(基于覆盖率)的样本。下面介绍更多图形显示选项。

#按“顺序”分隔图,并显示黑白图
ggiNEXT( out, type = 1, facet.var = “ order ”, grey = TRUE)

最后来个简单的实例吧
比如我这里现在有一个注释后得到的otu丰度表



我们可以这样操作

install.packages("iNEXT")
library(iNEXT)
library(ggplot2)
data = read.table("otu_table.txt",sep="\t",header=T)
otutable=as.data.frame(data[,-c(1,8)])#这里根据自己的数据类型来进行选择,参考中第一列与第八列不需要保留
otu <- iNEXT(otutable, q=0, datatype="abundance")
ggiNEXT(otu, type=1)

怎么样,是不是很简单呢?

参考

Chao, A., Gotelli, N.J., Hsieh, T.C., Sander, E.L., Ma, K.H., Colwell, R.K. & Ellison, A.M. (2014) Rarefaction and extrapolation with Hill numbers: a framework for sampling and estimation in species diversity studies. Ecological Monographs, 84, 45–67.
Chao, A. & Jost, L. (2012) Coverage-based rarefaction and extrapolation: standardizing samples by completeness rather than size. Ecology, 93, 2533–2547.
Colwell, R.K., Chao, A., Gotelli, N.J., Lin, S.-Y., Mao, C.X., Chazdon, R.L. & Longino, J.T. (2012) Models and estimators linking individual-based and sample-based rarefaction, extrapolation and comparison of assemblages. Journal of Plant Ecology, 5, 3–21.
Hsieh, T.C., Ma, K.H. & Chao, A. (2016) iNEXT: An R package for interpolation and extrapolation of species diversity (Hill numbers). Methods in Ecology and Evolution, 7, 1451-1456.

你可能感兴趣的:(如何绘制带置信区间的物种积累曲线)