用ggplot2做一个箱图--写给刚刚开始用ggplot2作图的同仁

作图思路

  1. 首先要设计好需要作图类型。我展示组与组之间比较某一指标的差异的情况比较多,这个一般选用箱图。但是为了表达更多的信息,有时也会把单个数据以点图的形式叠加展示出来。

  2. 一般不同的组都会用不同的颜色表示,这样颜色的搭配就成为了一个问题,怎样更美观又不会太花哨。

  3. 组与组之间的比较还会做统计结果的标注,标记星号或者p值,一般来说标记星号就够了。

选择包

library(ggplot2)  
library(ggsci)    # 颜色
library(ggsignif) # 增加统计标记

做一个基本的图

ggplot(data = mtcars, aes(x = as.factor(gear), y = mpg)) + geom_boxplot() + 
  labs(x = "Gears", y = "MPG") + 
  theme_classic()
Rplot.png

  以上是一个最基本的箱图,它展示了数据的整体分布情况。但是一般文献里还会把每一个数据点也都展示出来,那就应该是下面这个样子。

ggplot(data = mtcars, aes(x = as.factor(gear), y = mpg)) +
  geom_boxplot() + 
  geom_dotplot(binaxis = "y", stackdir = "center") +
  labs(x = "Gears", y = "MPG") + 
  theme_classic()
Rplot01.png

  大家看到的用到的geom_dotplot()这样一个图形。我初学时第一反应是geom_point()。尝试一下就可以看出差别来,geom_point()所有点都是一列,重叠的点区分不出,geom_dotplot()对点的位置进行调整,把相互重叠点区分开来了。
  这里引出来ggplot的一个概念,“图层”。实际上我们是在geom_boxplot()上面又覆盖了一层geom_dotplot()图层。为什么是覆盖呢?你可以尝试把代码中两个geom的位置互换一下,你就会看到,box会掩盖掉一部分dots。

美化美化

  下面就是颜色的问题了。如何给不同的组标上不同的颜色以示区分呢?这个对于ggplot2来说很简单。

ggplot(data = mtcars, aes(x = as.factor(gear), y = mpg, color = as.factor(gear))) + 
  geom_boxplot() + 
  geom_dotplot(aes(fill = as.factor(gear)), binaxis = "y", stackdir = "center") +
  labs(x = "Gears", y = "MPG") + 
  guides(color = guide_legend("Gear"), fill = guide_legend("Gear")) +
  scale_color_aaas() + 
  scale_fill_aaas() + 
  theme_classic()
Rplot02.png

  简单说一下上面的代码。默认大家能理解在aes()中增加color = as.factor(gear)的含义(应该是涉及到映射的概念,大家百度或gg一下映射,或者颜色映射应该很容易找到相关的解释)。请注意一下geom_dotpot()中增加了fill = as.factor(gear)。这是因为对于一个点来说,它包含了边和内部两个部分。color设定的是边的颜色,这个是从ggplot()里面的aes()继承下来的,所以不用再次设定。而填充的颜色则是fill,需要在这里设定一下。
  相对应的后面增加了两个scale,scale_color_aaas()scale_fill_aaas(),对应于color和fill各一个。aaas是美国科学促进会,出版science的,上面的函数表示会把color和fill的颜色设定成science风格的颜色。这个函数来自于ggsci包,是很有意思的一个ggplot2的相关包,对于颜色选择障碍认识很有帮助。
  好的目前为止,似乎已经完成了我前面说的前两点了。下面来完成第3点,增加统计学标记。

ggplot(data = mtcars, aes(x = as.factor(gear), y = mpg, color = as.factor(gear))) + 
  geom_boxplot() + 
  geom_dotplot(aes(fill = as.factor(gear)), binaxis = "y", stackdir = "center") +
  geom_signif(comparisons = list(c("3", "4")), map_signif_level = T) +
  labs(x = "Gears", y = "MPG") + 
  guides(color = guide_legend("Gear"), fill = guide_legend("Gear")) +
  scale_color_aaas() + 
  scale_fill_aaas() + 
  theme_classic()
Rplot03.png

  大家看到这回有增加了一个geom_signif,其内部的参数设置的意思是标出“3”和“4”之间( comparisons)的统计学差异的显著性水平(map_signif_level = T表示标注星号,否则标注p值)。为什么仅标注了3和4之间的差异呢?事实上其他的比较对也可以增加,通过comparisons = list(c("3", "4"), c("3", "5"))这样类似的可以添加多个比较对,但是本数据中其他比较对统计学差异不显著,因此这里省略了,没有添加。当然添加统计学差异的标记还有一个用的很广的ggpubr包。对于我来说,ggsignif包中调整标记位置之类的函数记得相对清楚一点,但是ggpubr中的参数记得不清楚,还总是混。读者感兴趣可以多了解一下ggpubr包。

有点像样了吧

  至此,一个有点像样的图做出来了,解决了有还是没有的问题,但其实问题还是挺多的,比如横纵坐标的字体,有的杂志都是有要求的。字号调整大小也是问题,还有颜色调整的问题(颜色是很个性化的,有些人就是偏执于自己喜欢的颜色,看不上science的配色),图形比例问题等。

你可能感兴趣的:(用ggplot2做一个箱图--写给刚刚开始用ggplot2作图的同仁)