【手把手陪你学R】用ggplot2包画箱线图

箱线图是什么?

箱线图(boxplot),又称箱形图或盒式图,不仅可以展示不同类别数据的平均水平差异,还能展示数据间的极值、离散程度、异常值等信息

【手把手陪你学R】用ggplot2包画箱线图_第1张图片
  • 箱子的中间线,是数据的中位数,反映了数据的平均水平
  • 箱子的上下限,分别是数据的上四分位数和下四分位数,箱子包含了50%的数据,其高度在一定程度上反映了数据的离散程度
  • 箱子的上方和下方又各有一条线,分别是数据的最大和最小值,而外溢的点则可理解成为异常值

第一步 安装并载入ggplot2包

install.packages("ggplot2")   #安装ggplot2包
library(ggplot2)   #载入ggplot2包

第二步 读取Excel文件

本篇使用的数据集是规模以上服务业企业的经济效益综合指数(将标准化后的贡献率、负债率、周转率、利润率按均等赋权后计算得到,贡献率、周转率、利润率为正向指标,负债率为适中指标),并将企业按国民经济行业门类进行分类

library(readxl)   #载入readxl包,首次使用需先安装
data <- read_xlsx("C:/Users/dell-pc/Desktop/data.xlsx", sheet = "data")    #读取Excel文件,若有多张sheet需指定sheet名
head(data,10)   #输出数据集前10行
【手把手陪你学R】用ggplot2包画箱线图_第2张图片

第三步 绘制箱线图

pic <- ggplot(data = data, aes(x = 行业门类, y = 经济效益综合指数, color = 行业门类))+   #指定数据集,设置坐标轴名称、类别颜色
  geom_boxplot()   #绘制箱线图
pic   #输出箱线图 

【手把手陪你学R】用ggplot2包画箱线图_第3张图片

(选做)第四步 美化箱线图

pic <- ggplot(data = data, aes(x = 行业门类, y = 经济效益综合指数, color = 行业门类))+
  geom_boxplot(size = 0.8, width = 0.8, alpha = 0)+   #设置箱线尺寸、箱形宽度、异常点透明度
  geom_jitter(position = position_jitter(0.4), alpha = 0.2, size=1.5)+   #设置数据点的分散程度、透明度、尺寸
  labs(title = "服务业行业门类经济效益综合指数")   #添加图形标题
pic

【手把手陪你学R】用ggplot2包画箱线图_第4张图片

(选做)第五步 其他输出形式1

pic <- ggplot(data = data, aes(x = 行业门类, y = 经济效益综合指数, color = 行业门类))+
  geom_boxplot(size = 0.8, width = 0.8, alpha = 0)+
  geom_jitter(position = position_jitter(0.4), alpha = 0.2, size=1.5)+
  labs(title = "服务业行业门类经济效益综合指数")
pic+theme_classic()

【手把手陪你学R】用ggplot2包画箱线图_第5张图片

(选做)第六步 其他输出形式2

pic <- ggplot(data = data, aes(x = 行业门类, y = 经济效益综合指数))+
  geom_boxplot(aes(fill = 行业门类), size = 0.8, width = 0.8,)+
  labs(title = "服务业行业门类经济效益综合指数")
pic

【手把手陪你学R】用ggplot2包画箱线图_第6张图片

★微信搜一搜“TriHub数据社”,欢迎关注获得入社福利

你可能感兴趣的:(手把手陪你学R,r语言,数据分析,数据可视化)