数据可视化基础和常见可视化策略

Fundamentals of Data Visualization: A Primer on Making Informative and Compelling Figures 1st Edition - by Claus O. Wilke
是一本系统讲解常见数据可视化的问题的书籍,包括内容选择、表现形式、注释形式等。但作者并没有把它当成编程书籍,因此没有现成的代码。

Ugly, Bad, and Wrong Figures

  1. Ugly: 信息清晰丰富但很丑的图片
  2. Bad: 不清晰、欺骗性、迷惑性、或者过度复杂的图片
  3. Wrong:存在数字上的问题
library(ggplot2)
library(patchwork)
data <- data.frame(names = c("A", "B", "C"), 
                   values = c(5, 4, 3))

theme <- theme(panel.grid.major.y = element_line(colour = "black"), 
               panel.background = element_blank(),
               axis.line.y = element_blank())
p1 <- ggplot(data = data) + geom_col(aes(x = names, y = values)) + 
  theme

p2 <- ggplot(data = data) + geom_col(aes(x = names, 
                                         y = values, 
                                         fill = names)) + 
  labs(title = "ugly") + 
  theme 
p3 <- ggplot(data = data) + geom_col(aes(x = names, 
                                         y = values)) + 
  labs(title = "bad") + 
  theme(panel.background = element_blank(),
        axis.ticks = element_blank(),
        axis.title = element_blank(),
        axis.text.y = element_blank())


ggsave("C:\\Users\\Administrator\\Desktop\\Ugly_Bad_Figures.png", p1+p2/p3 + plot_annotation(tag_levels = 'A'))
数据可视化基础和常见可视化策略_第1张图片
Ugly_Bad_Figures.png

解释

图不是完全相同,意思意思。
A. 没有太多瑕疵。
B. 填充颜色是没有必要的变量。
C. 没有y坐标轴,只知道数据大概比例,不知道确切数值。

可视化目录

总述一般常见的数据可视化策略,可以作为参考字典,为日常可视化提供思路。

Visualizing Amounts

柱状图一般用于,当我们都有一组分类变量以及每个类别的定量值,而我们关注的主要重点是定量值的大小时。

  1. 应该在柱状图背景保留横网格线,便于比较我们关注的值。

  2. 当分类label过长时,最好选择横向柱状图,避免出现旋转label,保持文字阅读方向与图形方向的统一性。

  3. 应该注意对柱状图(或点图,棒棒糖图)进行适当排序(大小,分类变量,分布心态)。

  4. 当分类数据过多时,可以选择棒棒糖图(点图 + 点到坐标轴连线)或热图

ggplot2中柱状图的基本绘制函数有geom_bar() 和 geom_col(),其中geom_bar() 产生的柱状图映射是经过统计变换的(count, ..prop..);geom_col()是不经过统计变换的,代表的就是该分类变量的实际值。

数据可视化基础和常见可视化策略_第2张图片
image.png

棒棒糖图也是一种可以选择的图形映射。

Distributions

单变量分布图

数据可视化基础和常见可视化策略_第3张图片
image.png

多变量分布图

数据可视化基础和常见可视化策略_第4张图片

Proportions

单变量比例图

数据可视化基础和常见可视化策略_第5张图片
image.png

多变量比例图

数据可视化基础和常见可视化策略_第6张图片
image.png

数据可视化基础和常见可视化策略_第7张图片
image.png

其他

与散点图相比,坡度图(Slopegraphs)有一个重要的优势:它们可用于一次比较两个以上的测量结果。

比列原则

1. 保证坐标轴从0开始

在许多不同的可视化场景中,我们常常通过图形元素的范围来表示数据值。例如,在柱状图中,我们所绘制柱子一般是从0开始到其代表的数据值结束。在这种情况下,数据值不仅被编码在条的端点中,而且还被编码在条的高度或长度中。此时,如果我们绘制的条形图的起始值不在0点,则条形图的长度比例和条形图端点所代表的数字可能会传达相互矛盾的信息。因此,当阴影区域用于表示数值时,该阴影区域的面积应与相应的值成正比。

library(ggplot2)
require(patchwork)
set.seed(13)
data <- data.frame(name = rep(LETTERS[1:10],3),
                   value = runif(30, min = 1, max = 10))
customer_theme <- theme(panel.grid.major.y = element_line(colour = "black"), 
                        panel.background = element_blank(),
                        axis.line = element_line(colour = "black"),
                        axis.title.y = element_blank())


p1 <- ggplot(data = data, aes(x = name, y = value)) + 
  geom_col() +
  coord_cartesian(ylim = c(10, 25)) + 
  customer_theme

p2 <- ggplot(data = data, aes(x = name, y = value)) + 
  geom_col() +
  customer_theme
数据可视化基础和常见可视化策略_第8张图片
Proportional_Ink.png

左图是阴影部分与实际值成正比的一个示例,当我们让实际值等于阴影部分加上坐标轴起点10时,我们可以看到F、G与其他的分组的值差异显得非常大,使图片传递出了一个具有误导性的信息。

2. 利用平均值或中位数

当我们切实需要展示大数据中的差异度相对较小变化时,可以选择利用数据的中位数或者平均值为0点,做类似瀑布图的柱状图。

library(ggplot2)
require(patchwork)
set.seed(13)
data <- data.frame(name = rep(LETTERS[1:10]),
                   value = rnorm(10, mean = 5, sd = 2))
customer_theme <- theme(panel.grid.major.y = element_line(colour = "black"), 
                        panel.background = element_blank(),
                        axis.line = element_line(colour = "black"),
                        axis.title.y = element_text(colour = "red"))


p1 <- ggplot(data = data, aes(x = name, y = value)) + 
  geom_col() +
  customer_theme

data_mean <- mean(data$value)

p2 <- ggplot(data = data, aes(x = name, y = (value - data_mean))) + 
  geom_col() +
  customer_theme + labs(y = "change in mean **")


ggsave(filename =  quote(mean_bar.png), 
       plot = p1 +p2 + plot_annotation(tag_levels = 'A'), 
       path = file)
数据可视化基础和常见可视化策略_第9张图片
mean_bar.png

3. 避免标签重叠

ggrepel 主要通过geom_text_repel() 和geom_label_repel() 两个函数对标签重叠进行处理。

library(ggplot2)
library(patchwork)
library(ggrepel)

set.seed(13)
dat <- subset(mtcars, wt > 2.75 & wt < 3.45)
dat$car <- rownames(dat)
p <- ggplot(dat, aes(wt, mpg, label = car)) +
  geom_point(color = "red")
p2 <- p + geom_text()
p3 <- p + geom_text_repel() +
  labs(title = "geom_text_repel")
p4 <- p + geom_text_repel(min.segment.length = 0, 
                          box.padding = 0.5) +
  labs(title = "box.padding = 0.5")
数据可视化基础和常见可视化策略_第10张图片
ggrepel.png

你可能感兴趣的:(数据可视化基础和常见可视化策略)