散点图、直方图和相关系数矩阵,一行命令轻松搞定

在做分析之前,我们会先进行探索性数据分析,我们想先看看多个变量之间的分布和他们的相关性,以便寻找关系来指导我们后续的分析,今天我们就一起来学习。

今天所用的例子是R语言pairs.panels帮助文件的例子,数据是R自带的iris数据集,类型是data.frame,直接用就可以了。该数据集包含150个数据样本,5个变量:花萼长度(Sepal.Length),花萼宽(Sepal.Width),花瓣长度(Petal.Length),花瓣宽度(Petal.Width)和鸢尾花卉种(Species),用命令View(iris)即可查看。

开始绘制:

library(psych)#加载做图包
data(iris)#读取数据
pairs.panels(iris[1:4],#选取数据集的前四列进行绘制
bg=c("red","yellow","blue")[iris$Species],#显示颜色分组,Species共分成三类
pch=21,#散点的形状
stars=TRUE,#star显示显著性
main="Fisher Iris data by Species")

结果如图:

我们可以改变对角线直方图的颜色,并且每组的散点形状用不同形状表示

pairs.panels(iris[1:4],bg=c("red","yellow","blue")[iris$Species],
        pch=21+as.numeric(iris$Species),#每组的散点以不同的形式展示
        stars=TRUE,#star显示显著性
        main="Fisher Iris data by Species",hist.col="red")

结果如图:

结果解读:对角线是直方图;在对角线上方,是显示显著性的相关字数矩阵;对角线下方是散点图。每个散点图中呈椭圆形的对象成为相关椭圆,它越被拉伸,其相关性越强。椭圆中心的点表示x轴变量和y轴变量的均值所确定的点,散点图中绘制的曲线称为局部回归平滑曲线。

本例子所使用的变量全部是定量变量;如果是定性变量,对角线上的直方图会变成直条图。

欢迎大家关注我们的公众号

统计练习题

你可能感兴趣的:(散点图、直方图和相关系数矩阵,一行命令轻松搞定)