R数据科学笔记:1

最近把之前的《R数据科学》的笔记整理一下,大概每篇文章整理2-3章,这本书有中英文两版,不知道为什么中文版比英文版少了一章,而且一些关键内容也有所删减,所以大家学习这本书的时候以英文版为准。
电子书下载地址:《R4ds》
源代码地址:https://github.com/hadley/r4ds

作者简介:

哈德利•威克姆(Hadley Wickham)

RStudio首席科学家,统计学家,斯坦福大学、奥克兰大学、莱斯大学兼职统计学教授。已被下载数百万次的ggplot2等多款知名R包的开发者,一直致力于让普罗大众更容易上手数据分析,被R社区誉为“改变了R的人”。另著有《R包开发》等书。

加勒特•格罗勒芒德(Garrett Grolemund)

RStudio数据科学家,知名R培训师,曾受邀在Google、eBay等诸多公司讲授R语言和数据科学,在DataCamp开授的R相关课程备受R开发者喜爱。另著有《R语言入门与实践》。

第一章:使用ggplot2进行数据可视化

1.1 简介

准备工作

本章重点讨论tidyverse 的一个核心R 包——ggplot2。为了访问本章用到的数据集、帮助页面和函数,需要先运行以下代码来加载tidyverse

install.packages("tidyverse")
library(tidyverse)

1.2 第一步

我们使用第一张图来回答问题:大引擎汽车比小引擎汽车更耗油吗?你可能已经有了答案,但应该努力让答案更精确一些。引擎大小与燃油效率之间是什么关系?是正相关,还是负相关?是线性关系,还是非线性关系?

1.2.1 mpg数据框

你可以使用ggplot2 包中的mpg 数据框(即ggplot2::mpg)来检验自己的答案。数据框是变量(列)和观测(行)的矩形集合。mpg 包含了由美国环境保护协会收集的38 种车型的观测数据。

> mpg
# A tibble: 234 x 11
   manufacturer model displ  year   cyl trans drv     cty   hwy fl   
                   
 1 audi         a4      1.8  1999     4 auto~ f        18    29 p    
 2 audi         a4      1.8  1999     4 manu~ f        21    29 p    
 3 audi         a4      2    2008     4 manu~ f        20    31 p    
 4 audi         a4      2    2008     4 auto~ f        21    30 p    
 5 audi         a4      2.8  1999     6 auto~ f        16    26 p    
 6 audi         a4      2.8  1999     6 manu~ f        18    26 p    
 7 audi         a4      3.1  2008     6 auto~ f        18    27 p    
 8 audi         a4 q~   1.8  1999     4 manu~ 4        18    26 p    
 9 audi         a4 q~   1.8  1999     4 auto~ 4        16    25 p    
10 audi         a4 q~   2    2008     4 manu~ 4        20    28 p    
# ... with 224 more rows, and 1 more variable: class 

mpg 中包括如下变量。
• displ:引擎大小,单位为升。
• hwy:汽车在高速公路上行驶时的燃油效率,单位为英里/ 加仑(mpg)。与燃油效率高的汽车相比,燃油效率低的汽车在行驶相同距离时要消耗更多燃油。要想了解更多关于mpg 的信息,可以使用?mpg 命令打开其帮助页面。

1.2.2 创建ggplot图形

为了绘制mpg 的图形,运行以下代码将displ 放在x 轴,hwy 放在y 轴:

ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy))
R数据科学笔记:1_第1张图片

上图显示出引擎大小(displ)和燃油效率(hwy)之间是负相关关系。换句话说,大引擎汽车更耗油。
在ggplot2 中,你可以使用ggplot() 函数开始绘图。ggplot() 创建了一个坐标系,你可以在它上面添加图层。ggplot() 的第一个参数是要在图中使用的数据集。ggplot(data = mpg)会创建一张空白图,因为这张图没什么意思,所以就不在这里展示了。

函数geom_point() 向图中添加一个点层,这样就可以创建一张散点图。ggplot2 中包含了多种几何对象函数,每种函数都可以向图中添加不同类型的图层。

ggplot2 中的每个几何对象函数都有一个mapping 参数。这个参数定义了如何将数据集中的变量映射为图形属性。mapping 参数总是与aes() 函数成对出现,aes() 函数的x 参数和y参数分别指定了映射到x 轴的变量与映射到y 轴的变量。ggplot2 在data 参数中寻找映射变量,本例中就是mpg。

1.2.3 绘图模板

将上面的代码转换为一个可重用的ggplot2 绘图模板。要想生成一张图,将以下代码中的尖括号部分替换为数据集、几何对象函数或映射集合即可:

ggplot(data = ) +
(mapping = aes())

1.2.4 练习

(1) 运行ggplot(data = mpg),你会看到什么?

一片空白

(2) 数据集mpg 中有多少行?多少列?

234行11列

(3) 变量drv 的意义是什么?使用?mpg 命令阅读帮助文件以找出答案。

传动系的类型,其中f =前轮驱动,r =后轮驱动,4 = 4wd

(4) 使用hwy 和cyl 绘制一张散点图。

ggplot(data = mpg) +
  geom_point(mapping = aes(x = cyl, y = hwy))

上图显示出引擎大小(displ)和燃油效率(hwy)之间是负相关关系。换句话说,大引擎汽车更耗油。
在ggplot2 中,你可以使用ggplot() 函数开始绘图。ggplot() 创建了一个坐标系,你可以在它上面添加图层。ggplot() 的第一个参数是要在图中使用的数据集。ggplot(data = mpg)会创建一张空白图,因为这张图没什么意思,所以就不在这里展示了。

函数geom_point() 向图中添加一个点层,这样就可以创建一张散点图。ggplot2 中包含了多种几何对象函数,每种函数都可以向图中添加不同类型的图层。

ggplot2 中的每个几何对象函数都有一个mapping 参数。这个参数定义了如何将数据集中的变量映射为图形属性。mapping 参数总是与aes() 函数成对出现,aes() 函数的x 参数和y参数分别指定了映射到x 轴的变量与映射到y 轴的变量。ggplot2 在data 参数中寻找映射变量,本例中就是mpg。

1.2.3 绘图模板

将上面的代码转换为一个可重用的ggplot2 绘图模板。要想生成一张图,将以下代码中的尖括号部分替换为数据集、几何对象函数或映射集合即可:

ggplot(data = ) +
(mapping = aes())

1.2.4 练习

(1) 运行ggplot(data = mpg),你会看到什么?

一片空白

(2) 数据集mpg 中有多少行?多少列?

234行11列

(3) 变量drv 的意义是什么?使用?mpg 命令阅读帮助文件以找出答案。

传动系的类型,其中f =前轮驱动,r =后轮驱动,4 = 4wd

(4) 使用hwy 和cyl 绘制一张散点图。

ggplot(data = mpg) +
  geom_point(mapping = aes(x = cyl, y = hwy))
R数据科学笔记:1_第2张图片

(5) 如果使用class 和drv 绘制散点图,会发生什么情况?为什么这张图没什么用处?

ggplot(data = mpg) +
  geom_point(mapping = aes(x = class, y =drv))

(5) 如果使用class 和drv 绘制散点图,会发生什么情况?为什么这张图没什么用处?

ggplot(data = mpg) +
  geom_point(mapping = aes(x = class, y =drv))

车的类型与驱动类型之间没有对应关系,或者说两者无法发生关系。

1.3 图形属性映射

The greatest value of a picture is when it forces us to notice what we never expected to see. —John Tukey

下图中有一组点(显示为红色)似乎位于线性趋势之外。这些汽车比预期具有更高的里程数。



假设这些汽车是混合动力车。检验这种假设的一个方法是查看每辆汽车的class值。mpg 数据集中的class 变量对汽车进行了分类,比如小型、中型和SUV。如果那些离群点是混合动力车,那么它们应该分类为小型车,也可能是微型车(注意,这份数据是在混合动力车和SUV 流行前收集的)。

可以向二维散点图中添加第三个变量,比如class,方式是将它映射为图形属性。图形属性是图中对象的可视化属性,其中包括数据点的大小、形状和颜色。通过改变图形属性的值,可以用不同的方式来显示数据点(如下图所示)。因为已经使用“value”这个词来表示数据的值,所以下面使用“level”(水平)这个词来表示图形属性的值。我们来改变一个点的大小、形状和颜色来反映不同属性。

通过将图中的图形属性映射为数据集中的变量,可以传达出数据的相关信息。例如,可以将点的颜色映射为变量class,从而揭示每辆汽车的类型:


R数据科学笔记:1_第3张图片

要想将图形属性映射为变量,需要在函数aes() 中将图形属性名称和变量名称关联起来。ggplot2 会自动为每个变量值分配唯一的图形属性水平(本例中是唯一的颜色),这个过程称为标度变换。ggplot2 还会添加一个图例,以表示图形属性水平和变量值之间的对应关系。

也可以用同样的方式将其映射为点的大小。在下面的示例中,每个点的实际大小表示其所属的类别。这里我们收到一条警告信息,因为将无序变量(class)映射为有序图形属性(size)可不是好主意。

ggplot(data = mpg) +
 geom_point(mapping = aes(x = displ, y = hwy, size = class))
Warning message:
Using size for a discrete variable is not advised. 

或者我们也可以将class 映射为控制数据点透明度的alpha 图形属性,还可以将其映射为点的形状。

# 上图
ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy, alpha = class))
# 下图
ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy, shape = class))
R数据科学笔记:1_第4张图片

R数据科学笔记:1_第5张图片

SUV 怎么了? ggplot2 只能同时使用6 种形状。默认情况下,当使用这种图形属性时,多出的变量值将不会出现在图中。

一旦映射了图形属性,ggplot2 会处理好其余的事情。它会为图形属性选择一个合适的标度,并创建图例来表示图形属性水平和变量值之间的映射关系。ggplot2 不会为x 和y 这两个图形属性创建图例,而会创建带有刻度标记和标签的坐标轴。坐标轴就相当于图例,可以体现出位置和变量值之间的映射关系。

还可以手动为几何对象设置图形属性。例如,我们可以让图中的所有点都为蓝色:

ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy), color = "blue")

此时颜色不会传达关于变量的信息,只是改变图的外观。要想手动设置图形属性,需要按名称进行设置,将其作为几何对象函数的一个参数。这也就是说,需要在函数aes() 的外部进行设置。此外,还需要为这个图形属性选择一个有意义的值。
• 颜色名称是一个字符串。
• 点的大小用毫米表示。
• 点的形状是一个数值,如图1-1 所示。有些形状相同,比如0、15 和22 都是正方形。
形状之间的区别在于color 和fill 这两个图形属性。空心形状(0~14)的边界颜色由color 决定;实心形状(15~20)的填充颜色由color 决定;填充形状(21~24)的边界颜色由color 决定,填充颜色由fill 决定。


R数据科学笔记:1_第6张图片
用数值进行标识的R 的25 种内置形状

练习

(1) 以下这段代码有什么错误?为什么点不是蓝色的?

ggplot(data = mpg) +
geom_point(
mapping = aes(x = displ, y = hwy, color = "blue"))

color在mapping的括号里面,成为了图形属性映射

(2) mpg 中的哪些变量是分类变量?哪些变量是连续变量?(提示:输入?mpg 来阅读这个数据集的文档。)当调用mpg 时,如何才能看到这些信息?

在每一列的下方有两个属性,其中是分类变量,是连续变量

(3) 将一个连续变量映射为color、size 和shape。对分类变量和连续变量来说,这些图形属性的表现有什么不同?

ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy, color = hwy))
R数据科学笔记:1_第7张图片

颜色是一个渐变色,大小也是渐变,形状会报错
(4) 如果将同一个变量映射为多个图形属性,会发生什么情况?

两种属性会结合,例如颜色和大小

ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy, size = class, color=class))

(5) stroke 这个图形属性的作用是什么?它适用于哪些形状?(提示:使用?geom_point 命令。)

改变形状的边框的大小

(6) 如果将图形属性映射为非变量名对象,比如aes(color = displ < 5),会发生什么情况?

Error: geom_point requires the following missing aesthetics: x and y

1.4 常见问题

当开始运行R 代码时,你很可能会遇到问题。不用担心,每个人都会遇到问题。首先,将你需要运行的代码与书中的代码进行仔细对比。R 极其挑剔,即使一个字母放错了位置,也可能会造成问题。确保每个( 都有一个) 与之匹配,并且每个" 后面都跟着另一个"。有时运行了代码却什么也没有发生。检查一下控制台左侧:如果有一个+ 号,那么说明R 认为你没有输入完整的表达式,正在等待你完成输入。这种情况下,按Esc 键中止当前执行的命令就可以重新开始。

创建ggplot2 图形时的一个常见问题是将+ 号放错了位置:+ 必须放在一行代码的末尾,而不是开头。

1.5 分面

添加额外变量的一种方法是使用图形属性。另一种方法是将图分割成多个分面,即可以显示数据子集的子图。这种方法特别适合添加分类变量。


R数据科学笔记:1_第8张图片

要想通过单个变量对图进行分面,可以使用函数facet_wrap()。其第一个参数是一个公式,创建公式的方式是在~ 符号后面加一个变量名(这里所说的“公式”是R 中的一种数据结构,不是数学意义上的公式)。传递给facet_wrap() 的变量应该是离散型的。

ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy),stroke=1.5) +
  facet_wrap(~ class, nrow = 2)

要想通过两个变量对图进行分面,需要在绘图命令中加入函数facet_grid()。这个函数的第一个参数也是一个公式,但该公式包含由~ 隔开的两个变量名。

ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy)) +
  facet_grid(drv ~ cyl)
R数据科学笔记:1_第9张图片

如果不想在行或列的维度进行分面,你可以使用. 来代替变量名,例如+ facet_grid(. ~cyl)。


R数据科学笔记:1_第10张图片

练习

(1) 如果使用连续变量进行分面,会发生什么情况?

ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy)) +
  facet_grid(~ cty)
R数据科学笔记:1_第11张图片

(2) 在使用facet_grid(drv ~ cyl) 生成的图中,空白单元的意义是什么?它们和以下代码生成的图有什么关系?

虽然空白单元没有数据,但也代表了一种组合

ggplot(data = mpg) +
  geom_point(mapping = aes(x = drv, y = cyl))

这张图生成的是没有意义的图,每个点代表每种组合,facet_grid(drv ~ cyl) 生成的图则将每个组合中displ和 hwy之间的关系表现了出来。
(3) 以下代码会绘制出什么图? . 的作用是什么?

ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy)) +
  facet_grid(drv ~ .)
R数据科学笔记:1_第12张图片
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy)) +
facet_grid(. ~ cyl)

.的作用决定了分布方向,如果前面出现、纵向分布,反之为横向分布

(4) 查看本节的第一个分面图:

ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy)) +
facet_wrap(~ class, nrow = 2)

与使用图形属性相比,使用分面的优势和劣势分别是什么?如果有一个更大的数据集,
你将如何权衡这两种方法的优劣?

使用分面能更好的体现出每个类别displ与hwy的关系,但是没办法比较不同类别之间的区别

使用属性能更好的体现整体的关系,但是个体差异不明显

1.6 几何对象

R数据科学笔记:1_第13张图片

两张图有同样的x 变量和y 变量,而且描述的是同样的数据。但这两张图并不一样,它们各自使用不同的可视化对象来表示数据。在ggplot2 语法中,我们称它们使用了不同的几何对象。

几何对象是图中用来表示数据的几何图形对象。我们经常根据图中使用的几何对象类型来描述相应的图。例如,条形图使用了条形几何对象,折线图使用了直线几何对象,箱线图使用了矩形和直线几何对象。散点图打破了这种趋势,它们使用点几何对象。如上面的两幅图所示,我们可以使用不同的几何对象来表示同样的数据。左侧的图使用了点几何对象,右侧的图使用了平滑曲线几何对象,以一条平滑曲线来拟合数据。要想改变图中的几何对象,需要修改添加在ggplot() 函数中的几何对象函数。举例来说,要想绘制出上图,你可以使用以下代码:

# 左图
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy))
# 右图
ggplot(data = mpg) +
geom_smooth(mapping = aes(x = displ, y = hwy))

ggplot2 中的每个几何对象函数都有一个mapping 参数。但是,不是每种图形属性都适合每种几何对象。你可以设置点的形状,但不能设置线的“形状”,而可以设置线的线型。geom_smooth() 函数可以按照不同的线型绘制出不同的曲线,每条曲线对应映射到线型的变量的一个唯一值:

ggplot(data = mpg) +
geom_smooth(mapping = aes(x = displ, y = hwy, linetype = drv))
R数据科学笔记:1_第14张图片

根据表示汽车驱动系统的drv 变量的值,这里的geom_smooth() 函数分别用3 条曲线来表示汽车。一条线表示drv 值为4 的所有汽车,一条线表示drv 值为f 的所有汽车,另一条线表示drv 值为r 的所有汽车。其中4 表示四轮驱动,f 表示前轮驱动,r 表示后轮驱动。如果你觉得这有些难以理解,我们可以将这些曲线覆盖在原始数据上,并按照drv 值对所有的点和线进行着色,这样你就能看得更清楚一些了。

要想在同一张图中显示多个几何对象,可以向ggplot() 函数中添加多个几何对象函数:

ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy)) +
  geom_smooth(mapping = aes(x = displ, y = hwy))
R数据科学笔记:1_第15张图片

但是,这样代码就产生了一些重复。假如你想将y 轴上的变量从hwy 改成cty,那么就要在两个地方修改这个变量,但你或许会漏掉一处。避免这种重复的方法是将一组映射传递给ggplot() 函数。ggplot2 会将这些映射作为全局映射应用到图中的每个几何对象中。

ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +
geom_point() +
geom_smooth()

如果将映射放在几何对象函数中,那么ggplot2 会将其看作这个图层的局部映射,它将使用这些映射扩展或覆盖全局映射,但仅对该图层有效。这样一来,我们就可以在不同的图层中显示不同的图形属性:

ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +
geom_point(mapping = aes(color = class)) +
geom_smooth()
R数据科学笔记:1_第16张图片

同理,你也可以为不同的图层指定不同的数据。下图中的平滑曲线表示的只是mpg 数据集的一个子集,即微型车。geom_smooth() 函数中的局部数据参数覆盖了ggplot() 函数中的全局数据参数,当然仅对这个图层有效:

ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +
geom_point(mapping = aes(color = class)) +
geom_smooth(
data = filter(mpg, class == "subcompact"),
se = FALSE
)

练习

(1) 在绘制折线图、箱线图、直方图和分区图时,应该分别使用哪种几何对象?

折线图使用了直线几何对象,箱线图使用了矩形和直线几何图像、直方图使用了使用了矩形几何对象

(2) 在脑海中运行以下代码,并预测会有何种输出。接着在R 中运行代码,并检查你的预测是否正确。

ggplot(
  data = mpg,
  mapping = aes(x = displ, y = hwy, color = drv)
) +
  geom_point() +
  geom_smooth(se = FALSE)
R数据科学笔记:1_第17张图片

(3) show.legend = FALSE 的作用是什么?删除它会发生什么情况?你觉得我为什么要在本章前面的示例中使用这句代码?

sohw.legend=FLASE去掉图例

(4) geom_smooth() 函数中的se 参数的作用是什么?

se如果设定为TRUE,则会为曲线设定置信区间,FLASE则没有置信区间

(6) 自己编写R 代码来生成以下各图。


#######1
ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +
  geom_point() +
  geom_smooth(se=FALSE)

#######2
ggplot() +
  geom_point(
    data = mpg,
    mapping = aes(x = displ, y = hwy)
  ) +
  geom_smooth(
    data = mpg,
    mapping = aes(x = displ, y = hwy,group=drv),se=FALSE)
#######3
ggplot(data = mpg, mapping = aes(x = displ, y = hwy,color=drv)) +
  geom_point() +
  geom_smooth(se = FALSE)
#######4
ggplot() +
  geom_point(
    data = mpg,
    mapping = aes(x = displ, y = hwy,color=drv)
  ) +
  geom_smooth(
    data = mpg,
    mapping = aes(x = displ, y = hwy),se=FALSE)
######5
ggplot() +
  geom_point(
    data = mpg,
    mapping = aes(x = displ, y = hwy,color=drv)
  ) +
  geom_smooth(
    data = mpg,
    mapping = aes(x = displ, y = hwy,linetype=drv),se=FALSE)
######6
ggplot() +
  geom_point(
    data = mpg,
    mapping = aes(x = displ, y = hwy,color=drv))

1.7 统计变换

接下来我们看一下条形图。条形图虽然简单,但很有意思,因为它可以揭示出图形中的一些微妙信息。我们看一下用geom_bar() 函数就可以绘制的基本条形图。下面的条形图显示了diamonds 数据集中按照cut 变量分组的各种钻石的总数量。diamonds 数据集是ggplot2的内置数据集,包含大约54 000 颗钻石的信息,每颗钻石具有price、carat、color、clarity 和cut 变量。条形图显示,高质量切割钻石的数量要比低质量切割钻石的数量多:

ggplot(data = diamonds) +
  geom_bar(mapping = aes(x = cut))
R数据科学笔记:1_第18张图片

条形图x 轴显示的是cut,这是diamonds 数据集中的一个变量。y 轴显示的是count,但count 不是diamonds 中的变量!那么count 来自哪里呢?很多图形绘制的是数据集的原始数据,比如散点图。另外一些图形则可以绘制那些计算出的新数据,比如条形图。
• 条形图、直方图和频率多边形图可以对数据进行分箱,然后绘制出分箱数量和落在每个分箱的数据点的数量。
• 平滑曲线会为数据拟合一个模型,然后绘制出模型预测值。
• 箱线图可以计算出数据分布的多种摘要统计量,并显示一个特殊形式的箱体。
绘图时用来计算新数据的算法称为stat(statistical transformation,统计变换)。下图描述了geom_bar() 函数的统计变换过程。



通常来说,几何对象函数和统计变换函数可以互换使用。例如,你可以使用stat_count()替换geom_bar() 来重新生成前面那张图:

ggplot(data = diamonds) +
stat_count(mapping = aes(x = cut))

你可能想要覆盖从统计变换生成的变量到图形属性的默认映射。例如,你或许想显示一张表示比例(而不是计数)的条形图:

ggplot(data = diamonds) +
geom_bar(
mapping = aes(x = cut, y = ..prop.., group = 1)
)
R数据科学笔记:1_第19张图片

你可能想要在代码中强调统计变换。例如,你可以使用stat_summary() 函数将人们的注意力吸引到你计算出的那些摘要统计量上。stat_summary() 函数为x 的每个唯一值计算y 值的摘要统计:


R数据科学笔记:1_第20张图片

练习

(1) stat_summary() 函数的默认几何对象是什么?不使用统计变换函数的话,如何使用几何对象函数重新生成以上的图?

geom_pointrange,

(2) geom_col() 函数的功能是什么?它和geom_bar() 函数有何不同?

直方图,其中柱状图的高度表示数据中的值,geom_col()的默认统计变换为identity(),geom_bar()默认为count()

1.8 位置调整

可以使用color 或者fill(这个更有用)图形属性来为条形图上色:

ggplot(data = diamonds) +
geom_bar(mapping = aes(x = cut, color = cut))
ggplot(data = diamonds) +
geom_bar(mapping = aes(x = cut, fill = cut))
R数据科学笔记:1_第21张图片

如果将fill 图形属性映射到另一个变量(如clarity),那么条形会自动分块堆叠起来。每个彩色矩形表示cut 和clarity 的一种组合。

ggplot(data = diamonds) +
geom_bar(mapping = aes(x = cut, fill = clarity))
R数据科学笔记:1_第22张图片

这种堆叠是由position 参数设定的位置调整功能自动完成的。如果不想生成堆叠式条形图,你还可以使用以下3 种选项之一:"identity"、"fill" 和"dodge"。

• position = "identity" 将每个对象直接显示在图中。这种方式不太适合条形图,因为条形会彼此重叠。为了让重叠部分能够显示出来,我们可以设置alpha 参数为一个较小的数,从而使得条形略微透明;或者设定fill = NA,让条形完全透明:

ggplot(
  data = diamonds,
  mapping = aes(x = cut, fill = clarity)
) +
  geom_bar(alpha = 1/5, position = "identity")
ggplot(
  data = diamonds,
  mapping = aes(x = cut, color = clarity)
) +
  geom_bar(fill = NA, position = "identity")
R数据科学笔记:1_第23张图片

R数据科学笔记:1_第24张图片

• position = "fill" 的效果与堆叠相似,但每组堆叠条形具有同样的高度,因此这种条形图可以非常轻松地比较各组间的比例:

ggplot(data = diamonds) +
  geom_bar(
    mapping = aes(x = cut, fill = clarity),
    position = "fill"
  )
R数据科学笔记:1_第25张图片

• position = "dodge" 将每组中的条形依次并列放置,这样可以非常轻松地比较每个条形表示的具体数值:

ggplot(data = diamonds) +
  geom_bar(
    mapping = aes(x = cut, fill = clarity),
    position = "dodge"
  )
R数据科学笔记:1_第26张图片

回忆一下我们的第一张散点图。你是否发现,虽然数据集中有234 个观测值,但散点图中只显示了126 个点?


R数据科学笔记:1_第27张图片

因为hwy 和displ 的值都进行了舍入取整,所以这些点显示在一个网格上时,很多点彼此重叠了。这个问题称为过绘制。点的这种排列方式很难看出数据的聚集模式。数据点是均匀地分布在图中,还是存在hwy 和displ 的特殊组合,其中包括了109 个点?

通过将位置调整方式设为“抖动”,可以避免这种网格化排列。position = "jitter" 为每个数据点添加一个很小的随机扰动,这样就可以将重叠的点分散开来,因为不可能有两个点会收到同样的随机扰动:

添加随机性来改善图形似乎是一种奇怪的方式,然而尽管这种方式会损失图形的精确性,但可以大大提高图形的启发性。因为这种操作的用处非常大,所以ggplot2 提供了geom_point(position = "jitter") 的一种快速实现方式:geom_jitter()。


1.9坐标系

坐标系可能是ggplot2 中最复杂的部分。默认的坐标系是笛卡儿直角坐标系,可以通过其独立作用的x 坐标和y 坐标找到每个数据点。偶尔也会用到一些其他类型的坐标系。

• coord_flip() 函数可以交换x 轴和y 轴。当想要绘制水平箱线图时,这非常有用。它也非常适合使用长标签,但要想在x 轴上不重叠地安排好它们是非常困难的:

ggplot(data = mpg, mapping = aes(x = class, y = hwy)) +
geom_boxplot()
ggplot(data = mpg, mapping = aes(x = class, y = hwy)) +
geom_boxplot() +
coord_flip()
R数据科学笔记:1_第28张图片

• coord_polar() 函数使用极坐标系。极坐标系可以揭示出条形图和鸡冠花图间的一种有趣联系:

bar <- ggplot(data = diamonds) +
  geom_bar(
    mapping = aes(x = cut, fill = cut),
    show.legend = FALSE,
    width = 1
  ) +
  theme(aspect.ratio = 1) +
  labs(x = NULL, y = NULL)
p1<-bar + coord_flip()
p2<-bar + coord_polar()
ggarrange(p1, p2)
R数据科学笔记:1_第29张图片

1.10 图形分层语法

在前面几节中,你学到的绝不仅仅是如何绘制散点图、条形图和箱线图,而是使用ggplot2绘制任何类型图形的基础知识。为了说明这一点,我们向前面的代码模板中添加位置调整、统计变换、坐标系和分面:

ggplot(data = ) +
(
mapping = aes(),
stat = ,
position = 
) +
 +

为了说明图形语法的工作方式,我们看一下如何从头开始构建一个基本图形:首先需要有一个数据集,然后(通过统计变换)将其转换为想要显示的信息。



接下来,你可以选择一个几何对象来表示转换后的数据中的每个观测值,然后选择几何对象的图形属性来表示数据中的变量,这会将每个变量的值映射为图形属性的水平。


R数据科学笔记:1_第30张图片

下一步是选择放置几何对象的坐标系。你可以使用对象位置(对象本身的一个图形属性)来显示x 变量和y 变量的值。这样就生成了一张完整的图。但你还可以进一步调整几何对象在坐标系中的位置(位置调整),或者将图划分为多个子图(分面)。你还可以通过添加一个或多个附加图层对图进行扩展,其中每个附加图层都使用一个数据集、一个几何对象、一个映射集合、一个统计变换和一个位置调整。

转载请注明周小钊的博客>>R4ds1

你可能感兴趣的:(R数据科学笔记:1)