是一种无监督的学习(拿到的数据没有任何分类)、,使用聚类不需要被告知要划分的组是什么样的明神宗不知道找什么时就要自动完成分组。明确分好类是训练样本集
根据样本点的集合特征完成分类
距离--样本之间相似程度
连续型数值变量
分类型变量
二进制距离:
-m1:1-1配对的数量
-m0:0-0配对的数量
-m2:不配对的数量
dist函数
dist(x,method="edclidean",diag=F,upper=F,p=2)
method参数
-edclidean:欧式距离
-maximum:切比雪夫距离
-manhattan:曼哈顿距离
-canberra:lance距离
-minkowski:闵可夫斯基距离,这时参数p定义结束
-binary:二进制距离
diag:对角线上的0是否显示
upper上三角还是下三角
set.seed(12345)
(x=rnorm(20,mean = rep(1:4,each=5)*10,sd=3))
(y=rnorm(20,mean = rep(c(1,2,3,2),each=5)*10,sd=3))
(df=data.frame(x=x,y=y))
(dists=dist(df,method = 'minkowski',diag = T,p=3))
相似系数-变量之间的相似程度
皮尔森相关系数
apply系列函数的基本作用是对数组(array,可以是多维)或者列表(list)按照元素或元素构成的子集合进行迭代,并将当前元素或子集合作为参数调用某个指定函数。apply族函数分别有apply函数,tapply函数,lapply函数,mapply函数。每一个函数都有自己的特点,在处理不同类型的数据可以选用相对应的函数。
apply函数只能用于处理矩阵类型的数据,也就是说所有的数据必须是同一类型。因此要使用apply函数的话,需要将数据类型转换成矩阵类型。
https://blog.csdn.net/wzgl__wh/article/details/52207233
数据转化
set.seed(12345)
(x=rnorm(20,mean = rep(1:4,each=5)*10,sd=3))
(y=rnorm(20,mean = rep(c(1,2,3,2),each=5)*10,sd=3))
#runif均匀分布函数
(z=runif(20,min = 1000,max=2000))
(df=data.frame(x=x,y=y,z=z))
#查看均值
apply(df,2,mean)
#查看方差
apply(df,2,sd)
#中心化后均值为0方差不变
(dfc=scale(df,scale =F))
apply(dfc,2,mean)
apply(dfc,2,sd)
#标准化后均值为0方差为1
(dfs=scale(df))
apply(dfs,2,sum)
apply(dfs,2,sd)
#极差标准化
(d1=sweep(dfs,2,apply(dfs,2,mean),'-'))
(r=apply(dfs,2,max)-apply(dfs,2,min))
(dfr1=sweep(d1,2,r,'/'))
#极差正规化
(d0=sweep(dfs,2,apply(dfs,2,min),'-'))
(r=apply(dfs,2,max)-apply(dfs,2,min))
(dfr0=sweep(d0,2,r,'/'))
(dists=dist(df,method = 'minkowski',diag = T,p=3))
层次聚类法
思想:1.找到两个最近的点(类)2.把他们合成一个点(类);(这个新的点不是数据集中本来在的点,把原来的两个点删掉, 用这个点代替原来两个点)3.重复1,2最终得到一棵树。
耗资源
类间距离的算法(hclust的method参数
-最短距离法single
-最长距离法complete
-中间距离法median
-类平均法average
-重心法centroid
-离差平方法ward
层次聚类步骤
*dist()得到距离对象,得到距离矩阵,可能会很大,不断地遍历比较合并
*hclust(d,method="complete",members=NULL)
*plot()画出谱系图
*rect.hclust()分组
*heatmap()观察层次聚类
set.seed(12345)
(x=rnorm(20,mean = rep(1:4,each=5)*10,sd=3))
(y=rnorm(20,mean = rep(c(1,2,3,2),each=5)*10,sd=3))
plot(x,y,col='blue',pch=16)
text(x+0.05,y+0.05,labels = as.character(1:12))
(pts=data.frame(x=x,y=y))
(distxy=dist(pts))
(hc=hclust(distxy))
plot(hc)
rect.hclust(hc,k=3)
#函数要求,转化为矩阵
dm=as.matrix(pts)
heatmap(dm)
K-means聚类法
思想:1、随机选择k个点作为初始质心2、把每个点按距离分配给最近的质心,形成k个簇3、重新计算每个簇的质心4、重复2、3步,直到质心不再变化
kmeans(x,cengters,iter.max=10,...)