title: "dplyr1.0.0 重点内容"
author: "qliu"
date: "2020/6/5"
output: html_document
翻译链接为:
My Favorite dplyr 1.0.0 Features
加载包和数据
# install.packages("AmesHousing")
library(AmesHousing)
library(tidyverse)
ames_data <- make_ames() %>%
janitor::clean_names() %>%
select(sale_price, bsmt_fin_sf_1, first_flr_sf,
total_bsmt_sf, neighborhood, gr_liv_area)
head(ames_data)
across()
所有 *_if()、 *_at()、 *_all()
变体函数都已经被 across()
函数所取代,使得所有列进行相同操作更为便捷。
# 构造函数
feet_to_yards <- function(x) {x / 9}
# 之前版本的 mutate_at() 函数
ames_data %>%
mutate_at(.vars = vars(contains("_sf") | contains("area")) , .funs = feet_to_yards)
# across() 函数实现
ames_data %>%
mutate(across(.cols = c(contains("_sf") | contains("area")) , .funs = feet_to_yards)) %>%
head()
across(where())
取代 mutate_if()
ames_data %>%
mutate_if(is.numeric, log)
ames_data %>%
mutate(across(where(is.numeric), log)) %>%
head()
across(where())
与 summarise()
函数
summarise()
函数中参数.names = "mean_{col}"
可以指定新增的列名,比如这里为函数 mean + 原本列名
ames_data %>%
group_by(neighborhood) %>%
summarise(across(where(is.numeric), mean, .names = "mean_{col}")) %>%
head()
ames_data %>%
mutate(across(where(is.integer) & ends_with("_sf"), as.double))
我们可以看到非
integer
且 不是以_sf
结尾的列,并没有转变为double
数据类型,比如:gr_liv_area
列虽然为integer
但是处理后仍为double
。
across(everything()) 取代 mutate_all()
... 等等
slice()
top_n()、 sample_n()、 sample_frac()
这三个函数已经被 slice
新增的子函数所替代
不推荐继续使用这三个函数的原因
top_n()
:有一个令人困惑的名称,可以合理地认为它过滤了最小或最大的行。比如,我们有田径赛记录圈数的数据。我们可以合理地假设top_n()
返回的时间是最快的,但实际上它们返回的时间是最长的。top_n()
已被slice_min()
和slice_max()
取代。sample_n()
和sample_frac()
:被整合到函数slice_sample()
一个中,分别被参数slice_sample(n=4)
和slice_sample(prop = 0.002)
取代,更容易记住。
此外,
slice_head()
和slice_tail()
可以提取数据第一行和最后一行
ames_data %>%
top_n(n = 5, wt = sale_price)
#->
ames_data %>%
slice_max(sale_price, n = 5)
#->
ames_data %>%
slice_min(sale_price, n = 5)
#########################################
ames_data %>%
sample_n(4)
# ->
ames_data %>%
slice_sample(n = 4)
#########################################
ames_data %>%
sample_frac(0.002)
#->
ames_data %>%
slice_sample(prop = 0.002)
nest_by()
nest_by()
与函数 group_by()
类似,只是 nest_by()
分组后每一组存储为一个 list
文件。
group_by()
+ summarise()
ames_data %>%
group_by(neighborhood) %>%
summarise(avg_sale_price = mean(sale_price)) %>%
ungroup() %>%
head()
summarise()
常常与 group_by()
连用,特别是在统计函数的输出是单个数值的情况下。但是如果我们想对分组的行执行更复杂的操作呢? 比如线性模型。为此,我们可以使用 nest_by()
,它将分组的数据存储为名为 data
的新列中的列表,而不是元数据。
nested_ames <- ames_data %>%
nest_by(neighborhood)
head(nested_ames)
我们可以看到,与 group_by()
函数不同,nest_by()
是改变了原来数据得数据结构。当我们希望将模型应用于嵌套数据的每一行时,此功能非常有用。
nested_ames_with_model <- nested_ames %>%
mutate(linear_model = list(lm(sale_price ~ gr_liv_area, data = data)))
head(nested_ames_with_model)
需要注意的是,模型必须向量化,这是使用 list()
执行的转换。
north_ames_model <- nested_ames_with_model %>%
filter(neighborhood == "North_Ames") %>%
pull(linear_model)
north_ames_model
该模型显示,每增加一平方英尺,位于埃姆斯北部社区的一套房子预计将多卖 54.61 美元。
mutate()
函数中新增的参数
.keep
可以看到输出结果中,仅保存了所有到的列,而非之前输出所有列,有点类似与
tranmute()
函数
ames_data %>%
mutate(sale_price_euro = sale_price / 1.1, .keep = "used") %>%
head()
-
.before
和.after
控制新增列的排放位置
ames_data %>%
mutate(
sale_price_euro = sale_price / 1.1, .keep = "used", .before = sale_price
) %>%
head()
总结:
两个主要的变化是添加了 across()
和 slice()
,它们取代了旧的功能。使用 across()
可以很容易地以更直观、更一致的方式改变特定的列或行。slice()
对数据采样方法进行了类似的改进。新的 nest_by()
功能使得一些统计建模函数更加方便。另外此文这里没有列出的 rowwise()
函数结合 c_across()
可以使我们在 R
中对数据行水平层次进行操作更加方便,relocate()
函数能够使我们更加方便的控制感兴趣的列的顺序的调整,rename()
函数新增使用函数重新命名列名,总之这一次更新对于在 R
中进行数据更方便,看代码更为简明易懂。