R 数据可视化 —— ggpol

前言

ggpolggplot2 的一个扩展包,添加了一些图形。主要可以绘制 parliament diagrams(议会图),也可以方便的绘制金字塔图,以及箱线图和散点图的混合等。

下面我们简要介绍一下如何使用 ggpol 绘制对应的图形。

使用

安装导入,推荐安装开发版,功能更全

# 从 bioconductor 安装
BiocManager::install("ggpol")

# 从 CRAN 安装
install.packages("ggpol")

# 安装开发版
if (!require(devtools)) {
    install.packages('devtools')
}
devtools::install_github('erocoar/ggpol')

library(ggpol)

1. 半圆弧形柱状图

使用 geom_arcbar 可以绘制只有 180 度,也就是半圆的圆弧形条形图。

其中 aes 函数中的 参数:

  • shares:与扇形的大小成正比,
  • r0:指定圆弧的内半径,
  • r1:指定圆弧的外半径

还有其他参数 colorfilllinetypealpha 用于指定颜色、线型和透明度。

data <- tibble(
  months = factor(month.name, levels = month.name),
  sales = sample(30:90, 12),
  colors = RColorBrewer::brewer.pal(12, "Paired")
)

ggplot(data) +
  geom_arcbar(aes(shares = sales, r0 = 6, r1 = 10, fill = month.name), sep = 0.1) +
  scale_fill_manual(values = data$colors) +
  coord_fixed() +
  theme_void()

2. Parliament diagrams

geom_parliament 可以绘制 parliament diagrams,该图像类似于半圆形的弧形柱状图。使用 seats 参数来设置,以点来表示每个分组的成员。

data <- tibble(
  months = factor(month.name, levels = month.name),
  sales = sample(1:100, 12),
  colors = RColorBrewer::brewer.pal(12, "Paired")
)

ggplot(data) +
  geom_parliament(aes(seats = sales, fill = month.name)) +
  scale_fill_manual(values = data$colors, labels = month.name) +
  coord_fixed() +
  theme_void()

3. 条形图文本注释

使用 geom_bartext 为条形图添加文本信息,可以避免文本之间的重叠。如果文本之间存在堆叠,会在水平或竖直方向添加偏移来避免文本重叠。

目前在开发版中的具有较好的展示,稳定版可能在某些情况下交叠的文本无法分开。

geom_bartext 接受与 geom_text 一样的参数,还有一个 dir 参数,可选的值为 hv,分别表示在水平和竖直方向添加偏移。

spacing 参数可以设置文本之间的最小间隔,单位为 NPC

df <- tibble(
  L = rep(LETTERS[1:2], each = 4),
  l = rep(letters[1:4], 2),
  val = c(96.5, 1, 2, 0.5, 48, 0.7, 0.3, 51)
)

p1 <- ggplot(df, aes(x = L, y = val, fill = l)) +
  geom_bar(stat = "identity") +
  geom_text(aes(label = scales::percent(val / 100)), position = position_stack(vjust = 0.5)) +
  ggtitle("GeomText")

p2 <- ggplot(df, aes(x = L, y = val, fill = l)) +
  geom_bar(stat = "identity") +
  geom_bartext(aes(label = scales::percent(val / 100)), position = position_stack(vjust = 0.5)) +
  ggtitle("GeomBartext")

p1 + p2

4. 圆形

geom_circle 可以绘制指定半径的圆,而不是像 geom_point 函数中设置 size 参数。

data.frame(x = sample(1:10, 6), y = sample(1:10, 6),
           r = sample(1:2, 6, replace = TRUE)) %>%
  ggplot() + geom_circle(aes(x = x, y = y, r = r, fill = gl(6, 1))) +
  coord_fixed()

5. 时序高亮

geom_tshighlight 可以用来高亮时间序列中的一个时段,是对 geom_rect 的封装,

ggplot(economics, aes(x = date, y = unemploy)) +
  geom_line() +
  geom_tshighlight(
    aes(xmin = as.Date("01/01/1990", format = "%d/%m/%Y"), 
        xmax = as.Date("01/01/2000", format = "%d/%m/%Y")),
    alpha = 0.005, fill = "blue"
  )

6. geom_boxjitter

geom_boxjitter 用于绘制混合的箱线图:一半箱线图和一半 jitter 散点图,以及可选的误差线。

如果要设置点的填充色, 则需要指定 jitter.shape21-25

df <- data.frame(
  score = rgamma(150, 4, 1), 
  gender = sample(c("M", "F"), 150, replace = TRUE), 
  genotype = factor(sample(1:3, 150, replace = TRUE))
)

ggplot(df) + 
  geom_boxjitter(aes(x = genotype, y = score, fill = gender),
                 jitter.shape = 21, jitter.color = NA, 
                 jitter.params = list(height = 0, width = 0.04),
                 outlier.color = NA, errorbar.draw = TRUE) +
  scale_fill_manual(values = c("#fb8072", "#80b1d3")) +
  theme_minimal()

如果我们关注离群点,想对这些点进行高亮,可以设置 outlier.intersect = TRUE,并用 outlier.shapeoutlier.size 来设置点的形状和大小

ggplot(df) + 
  geom_boxjitter(aes(x = genotype, y = score, fill = gender),
                 jitter.shape = 21, jitter.color = NA, 
                 jitter.params = list(height = 0, width = 0.04),
                 outlier.color = "black", errorbar.draw = TRUE,
                 outlier.intersect = TRUE, outlier.shape = 24,
                 outlier.size = 1.5) +
  scale_fill_manual(values = c("#fb8072", "#80b1d3")) +
  theme_minimal()

如果将 boxplot.expand 参数设置为 TRUE,则会隐藏 jitter 点图,其功能就类似于 geom_boxplot 绘制完整的箱线图,但添加了误差线

ggplot(df) + 
  geom_boxjitter(aes(x = genotype, y = score, fill = gender),
                 errorbar.draw = TRUE, boxplot.expand = TRUE,
                 errorbar.length = 0.4, varwidth = TRUE) +
  scale_fill_manual(values = c("#fb8072", "#80b1d3")) +
  theme_minimal()

7. 混淆矩阵

geom_confmat 可以用于绘制混淆矩阵,本质上就是一个热图。

x <- sample(LETTERS[seq(4)], 50, replace = TRUE)
y <- sample(LETTERS[seq(4)], 50, replace = TRUE)

ggplot() + 
  geom_confmat(aes(x = x, y = y), normalize = TRUE, text.perc = TRUE)

8. 轴共享分面

facet_share 用于生成具有共享轴标签的分面图,由于该函数只是实验性的,目前只支持两个分面共享同一个轴。

如果想要将轴以镜像的方式放置,需要将其中一个分面乘上 -1,如果想要水平方式,则将放置在左边的分面乘上 -1,如果是竖直放置,则将下面的分面乘上 -1。但是这样会改变轴标签,需要设置 reverse_num = TRUE

可以用来展示对称的人口金字塔图

df <- data.frame(sex = sample(c("M", "F"), 1000, replace = TRUE),
                 age = rnorm(1000, 45, 12))

df$age_bins <- cut(df$age, 15)
df$count <- 1
df <- aggregate(count ~ sex + age_bins, data = df, length)


df_h <- df
df_h$count <- ifelse(df_h$sex == "F", df_h$count * -1, df_h$count)

ggplot(df_h, aes(x = age_bins, y = count, fill = sex)) + 
  geom_bar(stat = "identity") +
  facet_share(~sex, dir = "h", scales = "free", reverse_num = TRUE) + 
  coord_flip() +
  scale_fill_manual(values = c("#fb8072", "#80b1d3"))

如果想要竖直放置,需要对第二个因子乘以 -1

df_v <- df
df_v$count <- ifelse(df_v$sex == levels(factor(df_v$sex))[2], df_v$count * -1, df_v$count)

ggplot(df_v, aes(x = age_bins, y = count, fill = sex)) + 
  geom_bar(stat = "identity") +
  facet_share(~sex, dir = "v", scales = "free", reverse_num = TRUE)

但是运行上面的代码,我得到了一行报错信息

 Error in unit(c(axes$x$bottom[[1]]$children$axis$heights[[tick_idx]],  : 
  'list' object cannot be coerced to type 'double' 

是类型转换出现了问题。通过下载阅读源码进行试调,找到报错的代码所在文件(facet_share.R),在代码前添加一行打印命令

print(axes$x$bottom[[1]]$children$axis$heights[[tick_idx]])
shared_axis <- gtable::gtable_matrix(
          "shared.ax.x", shared_axis,
          widths = unit(1, "npc"),
          heights = unit(c(axes$x$bottom[[1]]$children$axis$heights[[tick_idx]], 1,
                           axes$x$bottom[[1]]$children$axis$heights[[tick_idx]]),
                         c("pt", "grobwidth", "pt"),
                         list(NULL, axes$x$bottom[[1]]$children$axis$grobs[[lab_idx]], NULL)),
          clip = "off")

同时,重新加载函数,还要收到导入用到的包

library(grid)
library(rlang)

source("Downloads/facet_share.R")
ggplot(df_v, aes(x = age_bins, y = count, fill = sex)) + 
  geom_bar(stat = "identity") +
  facet_share(~sex, dir = "v", scales = "free", reverse_num = TRUE)

打印出了

2.75points 

是一个 unit 对象,也就是坐标系统的度量单位。通过查阅 unit 函数,发现函数的第一个参数需要传入一个数值向量,也就是说

c(axes$x$bottom[[1]]$children$axis$heights[[tick_idx]], 1,
                           axes$x$bottom[[1]]$children$axis$heights[[tick_idx]])

必须是一个数值向量,我们再打印看看

source("Downloads/facet_share.R")
ggplot(df_v, aes(x = age_bins, y = count, fill = sex)) + 
  geom_bar(stat = "identity") +
  facet_share(~sex, dir = "v", scales = "free", reverse_num = TRUE)

输出了一个嵌套的 list

[[1]]
[[1]][[1]]
[1] 2.75

[[1]][[2]]
NULL

[[1]][[3]]
[1] 8


[[2]]
[1] 1

[[3]]
[[3]][[1]]
[1] 2.75

[[3]][[2]]
NULL

[[3]][[3]]
[1] 8

问题就在这里,数值 1 肯定不会错,错的应该是另外两个 unit 对象,可以尝试将这两个对象转换为数值型。将 heights 的值改为

heights = unit(c(as.numeric(axes$x$bottom[[1]]$children$axis$heights[[tick_idx]]), 1,
                           as.numeric(axes$x$bottom[[1]]$children$axis$heights[[tick_idx]])),
                         c("pt", "grobwidth", "pt"),
                         list(NULL, axes$x$bottom[[1]]$children$axis$grobs[[lab_idx]], NULL))

再运行代码,就得到了我们想要的图形了。

source("Downloads/facet_share.R")
ggplot(df_v, aes(x = age_bins, y = count, fill = sex)) + 
  geom_bar(stat = "identity") +
  facet_share(~sex, dir = "v", scales = "free", reverse_num = TRUE)

标签都挤到一块了,将其旋转 90 度,刻度线也不要了

ggplot(df_v, aes(x = age_bins, y = count, fill = sex)) + 
  geom_bar(stat = "identity") +
  facet_share(~sex, dir = "v", scales = "free", reverse_num = TRUE) +
  theme(axis.text = element_text(angle = 90, size = 6), axis.ticks.length.x = unit(0, "cm"))

但是下面的空白有点大,再设置一下。只需先获取 ggplot 对象,然后设置对象的高度就行

p <- ggplot(df_v, aes(x = age_bins, y = count, fill = sex)) + 
  geom_bar(stat = "identity") +
  facet_share(~sex, dir = "v", scales = "free", reverse_num = TRUE) +
  theme(axis.text = element_text(angle = 90, size = 6), axis.ticks.length.x = unit(0, "cm"))

gp <- ggplotGrob(p)
gp$heights[15] <- unit(0, 'cm')

grid.newpage()
grid.draw(gp)

嗯,这样就好多了。

你可能要问,为什么我能知道要设置 15 个,哈哈哈,我也是通过观察和不断的尝试。先打印图形对象的高度属性,发现是一个数值向量

> gp$heights
 [1] 5.5points                          0cm                                0cm                               
 [4] 0cm                                0cm                                0cm                               
 [7] 0.59683986336016cm                 1null                              sum(0.456897744568977cm, 11points)
[10] 0cm                                5.5points                          0cm                               
[13] 0.59683986336016cm                 1null                              1.08935240677321cm                
[16] 1grobheight                        0cm                                0points                           
[19] 5.5points 

看到第 15 个值是最大的,与图形下面间距最大相符,所以蛮设置看下。然后就行了。

你可能感兴趣的:(R 数据可视化 —— ggpol)