R语言--聚类分析

一、实验内容
R语言--聚类分析_第1张图片
思想:研究样品或指标(变量)之间存在着程度不同的相似性(亲疏),并按相似程度不同将指标和样品形成一个分类系统。
R语言--聚类分析_第2张图片

  1. 系统聚类
    R语言--聚类分析_第3张图片
  2. Kmeans聚类
    R语言--聚类分析_第4张图片
    二、实验要求
    为了比较我国31个省、市、自治区2013年和2007年城镇居民生活消费的分布规律,根据调查资料作区域消费类型划分,并将2013年和2007你的数据进行对比分析,提交数据分析过程报告。今收集了八个反映城镇居民生活消费结构的指标(2013年数据)。
    X1——人均食品支出(元/人);
    X2——人均衣着商品支出(元/人);
    X3——人均家庭设备用品及服务支出(元/人);
    X4——人均医疗保健支出(元/人);
    X5——人均交通和通信支出(元/人);
    X6——人均娱乐教育文化服务支出(元/人);
    X7——人均居住支出(元/人);
    X8——人均杂项商品和服务支出(元/人)。
    把城镇居民生活消费结构指标分为三类,“经济水平好”、“经济水平一般”、“经济水平较好”,最终比较2007年至2013年城镇居民生活消费结构指标的变化,并作出图标进行对比分析。
    R语言--聚类分析_第5张图片
    R语言--聚类分析_第6张图片
    R语言--聚类分析_第7张图片
    三、实验工具
    R语言
    R语言--聚类分析_第8张图片

分析

  • 第一步:对2007年的数据进行分析
    先把题目中的2007年的数据放入表格中,并命名为“2007.csv”
    R语言--聚类分析_第9张图片 Step1、读取数据
 f<-read.csv("2007.csv文件存放路径",header=T)  #读取数据
 f  #显示数据`

R语言--聚类分析_第10张图片
Step2、求变量间相关系数矩阵

attach(f)  
a<-f[,2:9]
y=scale(a)
cor(y)

R语言--聚类分析_第11张图片
Step3、计算贡献率与累计贡献率

pca=princomp(y,cor=FALSE,scores=TRUE)
summary(pca)

R语言--聚类分析_第12张图片
Comp1,comp2,comp3的累计方差贡献率达到90.4%,这部分承载了原数据绝大多数的信息。

Step4、做系统聚类
1)提取数据

a=cbind(f[,1],f[,2],f[,3])

2)画聚类图

dist<-dist(a)
hc<-hclust(dist,"single")
cbind(hc$merge,hc$height)
plot(hc,f[,1])

R语言--聚类分析_第13张图片
R语言--聚类分析_第14张图片
3)打印聚类的结果

re<-rect.hclust(hc,k=3)
for(i in 1:3){
+print(paste("第",i,"类"))
+print(f[re[[i]],]$地区)
+}

R语言--聚类分析_第15张图片
4)结果展示
R语言--聚类分析_第16张图片

  • 第二步:对2013年的数据进行分析
    对2013年的数据进行分析,把题目中的2013年的数据放入表格中,并命名为“aa2.csv”
    R语言--聚类分析_第17张图片
    Step1、读取数据
f<-read.csv("C:\\Users\\Adminstrator\\Documents\\Tencent Files\\3105814524\\FileRecv\\aa2.csv",header=T)  #读取数据
 f  #显示数据

R语言--聚类分析_第18张图片
Step2、求变量间相关系数矩阵

attach(f)  
a<-f[,2:9]
y=scale(a)
cor(y)

R语言--聚类分析_第19张图片
Step3、计算贡献率与累计贡献率

pca=princomp(y,cor=FALSE,scores=TRUE)
summary(pca)

在这里插入图片描述
Comp1,comp2,comp3的累计方差贡献率达到90.4%,这部分承载了原数据绝大多数的信息。
Step4、做系统聚类
1)提取数据

a=cbind(f[,1],f[,2],f[,3])

2)画聚类图

dist<-dist(a)
hc<-hclust(dist,"single")
cbind(hc$merge,hc$height)
plot(hc,f[,1])

R语言--聚类分析_第20张图片
R语言--聚类分析_第21张图片
3)打印聚类的结果

re<-rect.hclust(hc,k=3)
for(i in 13):{
+print(paste("第",i,"类"))
+print(f[re[[i]],]$地区)
+}

R语言--聚类分析_第22张图片
4)结果展示
R语言--聚类分析_第23张图片

  • 第三步:对比
  • 2007年
    R语言--聚类分析_第24张图片
  • 2013年
    R语言--聚类分析_第25张图片
    根据以上两个表格我们可以看出在2007-2013年中,北京,浙江由经济水平较好,变为水平一般,从这一方面我们可以知道北京,浙江在这七年中各项城镇居民生活消费增速较上海的增速低,而广东增速与上海增速相差不大。

你可能感兴趣的:(R,r语言,聚类)