我学习的主要是这本书R for Data Science.
上图是我们处理数据的流程
导入:首先,必须将数据导入R。
整理:导入数据后,需要整理一下,整理数据意味着以统一整齐的形式存储数据,我称它为齐整数据。
转换:整理完数据后,通常第一步是对其进行转换。转换包括缩小观测范围(提取)(例如一个城市中的所有人或去年的所有数据),创建现有变量的函数的新变量(例如根据距离和时间来计算速度)以及计算一组统计信息(如计数或均值)。
描述:一旦有了需要的变量的齐整数据,就可以使用两个主要的方式来描述它:可视化和建模。
(1) 良好的可视化效果会反映出在输入时的错误或者对数据提出新的问题,或者反映出需要收集其他数据。
(2) 模型是可视化的补充工具。一旦问题变得足够精确,就可以使用模型来描述回答。交流:数据统计科学的最后一步是交流(没理解)。
我们首先从数据可视化开始学习,先了解我们最后能得到一个什么样fancy的结果,这里主要用到了ggplot2包。
1. Prerequisites
install.packages("tidyverse")
library(tidyverse)
我们使用ggplot2中的mpg数据框进行分析测试。 数据框是变量(列)和观察值(行)的矩阵集合。 mpg包含美国环境保护署收集的有关38辆汽车的观察结果。
mpg
#> # A tibble: 234 x 11
#> manufacturer model displ year cyl trans drv cty hwy fl class
#>
#> 1 audi a4 1.8 1999 4 auto(l5) f 18 29 p compa…
#> 2 audi a4 1.8 1999 4 manual(m5) f 21 29 p compa…
#> 3 audi a4 2 2008 4 manual(m6) f 20 31 p compa…
#> 4 audi a4 2 2008 4 auto(av) f 21 30 p compa…
#> 5 audi a4 2.8 1999 6 auto(l5) f 16 26 p compa…
#> 6 audi a4 2.8 1999 6 manual(m5) f 18 26 p compa…
#> # … with 228 more rows
displ: 表示汽车引擎大小(以升为单位)。
hwy: 高速公路上的汽车燃油效率,以英里/加仑(mpg)为单位。 当相同距离行驶时,低燃油效率的汽车比高燃油效率的汽车消耗更多的燃油。
2. Creating a ggplot
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy))
该图显示了发动机尺寸(排量)和燃油效率(高速)之间的负相关关系。
ggplot()的第一个参数是要在图形中使用的数据集。因此ggplot(data = mpg)创建了一个空图,然后通过向ggplot()添加一层或多层来完成图形。
函数geom_point()在绘图上添加了一层点,从而创建了一个散点图。
ggplot2附带了许多geom函数,每个函数都会在绘图中添加不同类型的图层。ggplot2中的每个geom函数都带有一个映射参数。这定义了数据集中的变量如何映射到视觉属性。映射参数始终与aes()配对,而aes()的x和y参数指定要映射到x和y轴的变量。
3. Aesthetic mappings
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy, color = class))
在上面的示例中,我们将点的类别映射到颜色,我们也可以以相同的方式将类别映射到尺寸。
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy, size = class))
#> Warning: Using size for a discrete variable is not advised.
我们也可以将类映射到控制点的透明度的alpha,或控制点的形状。
# Up
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy, alpha = class))
# Down
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy, shape = class))
ggplot2一次只能使用六个形状。对于每种映射,都可以使用aes()将映射名称与要显示的变量相关联。
还可以手动设置几何图形的映射属性。例如,我们可以将图中的所有点设为蓝色:
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy), color = "blue")
要手动设置映射,需按名称将映射设置为geom函数的参数, 需要选择一种适合该美学的水平:
- 颜色的名称,为字符串。
- 点的大小,以毫米为单位。
- 点的形状为数字,如图所示。
4. Facets
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy)) +
facet_wrap(~ class, nrow = 2)
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy)) +
facet_grid(drv ~ cyl)
5. Geometric objects
# Up
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy))
# Down
ggplot(data = mpg) +
geom_smooth(mapping = aes(x = displ, y = hwy))
ggplot2中的每个geom函数都带有一个映射参数。 可以设置点的形状,或者可以设置线的线型。 例如:geom_smooth()将为映射到线型的变量的每个唯一值绘制一条不同的线,并使用不同的线型。
ggplot(data = mpg) +
geom_smooth(mapping = aes(x = displ, y = hwy, linetype = drv))
许多几何图形(例如geom_smooth())都使用单个几何对象显示多行数据。ggplot2将为分组
group
变量的每个唯一值绘制一个单独的对象。
ggplot(data = mpg) +
geom_smooth(mapping = aes(x = displ, y = hwy))
ggplot(data = mpg) +
geom_smooth(mapping = aes(x = displ, y = hwy, group = drv))
ggplot(data = mpg) +
geom_smooth(
mapping = aes(x = displ, y = hwy, color = drv),
show.legend = FALSE
)
要在同一图中显示多个几何,可以将多个几何函数添加到ggplot()中:
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy)) +
geom_smooth(mapping = aes(x = displ, y = hwy))
如果将映射放置在geom函数中,则ggplot2会将其视为该图层的局部映射。 它将仅使用这些映射来扩展或覆盖该层的全局映射。 这可以实现在不同的图层显示不同的映射。
ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +
geom_point(mapping = aes(color = class)) +
geom_smooth()
可以使用相同的想法为每个图层指定不同的数据。 在这里,我们的平滑线仅显示mpg数据集的一个子集,即小型汽车。 geom_smooth()中的局部数据参数仅覆盖该层的ggplot()中的全局数据参数。
ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +
geom_point(mapping = aes(color = class)) +
geom_smooth(data = filter(mpg, class == "subcompact"), se = FALSE)
参考:https://r4ds.had.co.nz/introduction.html