作者:李赞,尚进
距离的计算公式如下:
常见的minkowsk距离中p=1,2,inftity
特别地,p=infity时,是序列中的最大值
另外,pdist中根据metric参数赋值的不同还可以计算其他距离,例如:
用于展示分类变量与数值变量之间的关系
barplot(class_sum$x)#最简单的输出
plot(x)# x为factor类型
用于展示各部分的比例;可用于展示分类变量与数值变量之间的关系。
pie(clu_sum$x)
用于展示数据的分布;可用于对比多组数据之间的分布差异;可用于检查数据是否服从正态分布。
hist(airquality$Wind)
用于展示数据分布;用于观察数据是否偏态。
boxplot(x)
plot(x,y) #x为factor类型,y为数值向量
#分类箱线图
png(filename = "air_box+clu_r.png",width = 700,height = 480,units = "px",
bg = "transparent",res = 70)#创建画布,res为分辨率
par(oma=c(0,0,3,0))
boxplot(Wind~Month,data=air,#构建公式即可,~右边为分类变量,左边为数值型变量
col=rainbow(5,start = 4/10,end=1/10,alpha = 0.3))
mtext('batches of boxplots',side=3,line=0,cex=1.5,col='purple',outer = T)
dev.off()
用于展示数值变量与数值变量之前的关系。
#散点图、气泡图
z=Puromycin#两种细胞中辅因子浓度对酶促反应的影响
xl=range(z$conc)
yl=range(z$rate)#获取两个变量的极值向量
png(filename = "xibao_scatter1_r.png",width = 480,height = 480,units = "px", bg = "transparent",res = 64)#创建画布
plot(z$conc,z$rate,pch = 2,cex=0.7,col='blue',main = 'scatter plot', xlim = xl,ylim = yl)#设置点的形状、颜色、标题、坐标轴
dev.off()#关闭画布
用于快速探究各变量之前的关系。
car<-mtcars #32辆汽车在11个指标上的数据
png(filename = "xibao_scatter3_r.png",width = 480,height = 480,units = "px", bg = "transparent",res = 64)
pairs(~mpg+disp+hp+drat+wt+qsec,data=car,#pairs函数即可
main='Scatterplot Matrix',pch=20,cex=0.6)
dev.off()
用于展示相关系数矩阵的数据情况;用于对较大矩阵的数值分布的直观展示。
用于展示多组具有多属性样本之间的相似程度。
用于展示多组具有多属性样本之间的差异程度。
https://blog.csdn.net/pikapikaka/article/details/127037967?spm=1001.2014.3001.5502
https://blog.csdn.net/pikapikaka/article/details/127000863?spm=1001.2014.3001.5502