R语言:UPGMA聚类分析和树状图

导读

非加权组平均法(unweighted pair-group method with arithmetic means, UPGMA或average linkage)是一种较常用的聚类分析方法,可用于分析分类问题,也常被用于微生物多样性研究。下面介绍用R语言中的UPGMA函数分析微生物多样性数据和结果可视化的方法,内容如下:1)模拟(样品、丰度)矩阵数据;2)计算bray curtis相异指数和UPGMA聚类;3)绘制树状图。

1 模拟(样品、丰度)矩阵数据

set.seed(1995)  
# 随机种子

data=matrix(abs(round(rnorm(200, mean=1000, sd=500))), 20, 10)  
# 随机正整数,20行,20列

colnames(data)=paste("Species", 1:10, sep=".")  
# 列名-细菌

rownames(data)=paste("Sample", 1:20, sep=".")  
# 行名-样品

data_norm=data
for(i in 1:20){
    sample_sum=apply(data, 1, sum)
    for(j in 1:10){
        data_norm[i,j]=data[i,j]/sample_sum[i]
    }
}
# 标准化

data_norm
# 模拟完成的标准化矩阵数据如下:

               Species.1   Species.2  Species.3  Species.4 ... Species.10
    Sample.1  0.14032835 0.076767862 0.12225993 0.08713198 
    Sample.2  0.08434712 0.116281427 0.14405921 0.12976480 
    Sample.3  0.09997205 0.026460449 0.11571788 0.10006522 
    Sample.4  0.10753751 0.102236996 0.03449825 0.12766149 
    ...
    Sample.20

2 计算bray curtis相异指数和UPGMA聚类

用R语言vegan包中的vegdist函数分析菌群丰度数据,计算样品之间的bray curtis相异指数(Dissimilarity index),接着用phangorn包中的upgma函数进行样品聚类分析。vegdist函数中可供选择的dissimilarity算法有很多,如:"manhattan", "euclidean", "canberra", "bray", "kulczynski", "jaccard", "gower", "altGower", "morisita", "horn", "mountford", "raup" , "binomial", "chao", "cao" or "mahalanobis",其中"bray"即bray curtis在微生物多样性研究中最为常用,故用之。

library("vegan")
library("phangorn")
up=upgma(vegdist(data_norm, method="bray"))
# 使用bray curtis dissimilarity算法和upgma聚类算法

3 绘制树状图

plot画图函数中可供选择的树状图类型有:“phylogram”, “cladogram”, “fan”, “unrooted”, “radial”。利用par函数mfrow参数可将多张图片组合到一起,mai参数可调整每张图片的大小(距边长度)。

pdf('upgma.pdf')

opar=par(no.readonly=TRUE)
# 生成图形参数列表
par(mfrow=c(3, 2), col.main="red", family="serif")
# par设置:按行填充,3行,2列,标题颜色,字体(罗马)
par(mai=c(0.2, 0.2, 0.2, 0.2))
# par设置:每个图形距边距离(英寸)

plot(up, main="by default")
plot(up, type="phylogram", main="phylogram")  # 默认
plot(up, type="cladogram", main="cladogram")
plot(up, type="fan", main="fan")
plot(up, type="unrooted", main="unrooted")
plot(up, type="radial", main="radial")

par(opar)
# 关闭par
dev.off()
# 关闭画板

打开结果upgma.pdf可得如下结果:

图片.png

同步发布于微信公众号:微生态

\color{green}{原创文章,码字不易,转载请注明出处}

你可能感兴趣的:(R语言:UPGMA聚类分析和树状图)