数据EDA阶段的绘图

作者:李赞,尚进

文章目录

  • minkowsk距离的计算
    • 实现方法scipy.spatial.distance.pdist【python】
  • 柱状图
    • 适用情形
    • barplot【R】
  • 饼图
    • 适用情形
    • pie 【R】
  • 直方图的绘制方法
    • 适用情形
    • hist【R】
    • seaborn.distplot【python】
    • plotly.express.histogram 【python,交互】
  • 箱线图的绘制方法
  • 适用情形
    • boxplot 【R】
    • matplotlib.pyplot.boxplot【python】
  • 散点图的绘制方法
    • 适用情形
    • plot 【R】
    • seaborn.relplot【python】
    • plotly.graph_objects.Scatter【python,交互】
    • matplotlib.pyplot.scatter【python】
  • 矩阵散点图的绘制方法
    • 适用情形
    • pairs【R】
    • seaborn.pairplot【python】
  • 热力图的绘制方法
    • 适用情形
    • matplotlib.pyplot.colorbar【python】
  • 平行坐标系的绘制方法
    • 适用情形
    • pandas.plotting.parallel_coordinates【python】
  • Chernoff脸图的绘制方法
    • 适用情形
    • aplpack::face【R】
  • 参考:

minkowsk距离的计算

距离的计算公式如下:
数据EDA阶段的绘图_第1张图片
常见的minkowsk距离中p=1,2,inftity
数据EDA阶段的绘图_第2张图片
特别地,p=infity时,是序列中的最大值数据EDA阶段的绘图_第3张图片

实现方法scipy.spatial.distance.pdist【python】

数据EDA阶段的绘图_第4张图片
另外,pdist中根据metric参数赋值的不同还可以计算其他距离,例如:
数据EDA阶段的绘图_第5张图片

柱状图

适用情形

用于展示分类变量与数值变量之间的关系

barplot【R】

barplot(class_sum$x)#最简单的输出
plot(x)# x为factor类型

数据EDA阶段的绘图_第6张图片

饼图

适用情形

用于展示各部分的比例;可用于展示分类变量与数值变量之间的关系。

pie 【R】

pie(clu_sum$x)

数据EDA阶段的绘图_第7张图片

直方图的绘制方法

适用情形

用于展示数据的分布;可用于对比多组数据之间的分布差异;可用于检查数据是否服从正态分布。

hist【R】

hist(airquality$Wind)

数据EDA阶段的绘图_第8张图片

seaborn.distplot【python】

数据EDA阶段的绘图_第9张图片

plotly.express.histogram 【python,交互】

数据EDA阶段的绘图_第10张图片
数据EDA阶段的绘图_第11张图片

箱线图的绘制方法

适用情形

用于展示数据分布;用于观察数据是否偏态。

boxplot 【R】

boxplot(x)
plot(x,y) #x为factor类型,y为数值向量

数据EDA阶段的绘图_第12张图片

#分类箱线图
png(filename = "air_box+clu_r.png",width = 700,height = 480,units = "px",
    bg = "transparent",res = 70)#创建画布,res为分辨率
par(oma=c(0,0,3,0))
boxplot(Wind~Month,data=air,#构建公式即可,~右边为分类变量,左边为数值型变量
        col=rainbow(5,start = 4/10,end=1/10,alpha = 0.3))
mtext('batches of boxplots',side=3,line=0,cex=1.5,col='purple',outer = T)
dev.off()

数据EDA阶段的绘图_第13张图片

matplotlib.pyplot.boxplot【python】

数据EDA阶段的绘图_第14张图片
数据EDA阶段的绘图_第15张图片

散点图的绘制方法

适用情形

用于展示数值变量与数值变量之前的关系。

plot 【R】

#散点图、气泡图
z=Puromycin#两种细胞中辅因子浓度对酶促反应的影响
xl=range(z$conc)
yl=range(z$rate)#获取两个变量的极值向量
png(filename = "xibao_scatter1_r.png",width = 480,height = 480,units = "px",   bg = "transparent",res = 64)#创建画布
plot(z$conc,z$rate,pch = 2,cex=0.7,col='blue',main = 'scatter plot',   xlim = xl,ylim = yl)#设置点的形状、颜色、标题、坐标轴
dev.off()#关闭画布

数据EDA阶段的绘图_第16张图片

seaborn.relplot【python】

数据EDA阶段的绘图_第17张图片

数据EDA阶段的绘图_第18张图片

plotly.graph_objects.Scatter【python,交互】

数据EDA阶段的绘图_第19张图片
数据EDA阶段的绘图_第20张图片

matplotlib.pyplot.scatter【python】

数据EDA阶段的绘图_第21张图片
数据EDA阶段的绘图_第22张图片

矩阵散点图的绘制方法

适用情形

用于快速探究各变量之前的关系。

pairs【R】

car<-mtcars    #32辆汽车在11个指标上的数据
png(filename = "xibao_scatter3_r.png",width = 480,height = 480,units = "px",   bg = "transparent",res = 64)
pairs(~mpg+disp+hp+drat+wt+qsec,data=car,#pairs函数即可
      main='Scatterplot Matrix',pch=20,cex=0.6)
dev.off()

数据EDA阶段的绘图_第23张图片

seaborn.pairplot【python】

在这里插入图片描述
数据EDA阶段的绘图_第24张图片

热力图的绘制方法

适用情形

用于展示相关系数矩阵的数据情况;用于对较大矩阵的数值分布的直观展示。

matplotlib.pyplot.colorbar【python】

数据EDA阶段的绘图_第25张图片
数据EDA阶段的绘图_第26张图片

平行坐标系的绘制方法

适用情形

用于展示多组具有多属性样本之间的相似程度。

pandas.plotting.parallel_coordinates【python】

数据EDA阶段的绘图_第27张图片
数据EDA阶段的绘图_第28张图片
数据EDA阶段的绘图_第29张图片

Chernoff脸图的绘制方法

适用情形

用于展示多组具有多属性样本之间的差异程度。

aplpack::face【R】

数据EDA阶段的绘图_第30张图片

参考:

https://blog.csdn.net/pikapikaka/article/details/127037967?spm=1001.2014.3001.5502
https://blog.csdn.net/pikapikaka/article/details/127000863?spm=1001.2014.3001.5502

你可能感兴趣的:(统计学习与数据挖掘,python,数据分析,数据挖掘,机器学习)