R数据科学day2-4

  • 分组新变量

用到的变量有:select(),mutate(),summarize(),filter()。组合使用。

  1. 找出每组中最差的成员
flights_sml %>% 
  group_by(year, month, day) %>%
  filter(rank(desc(arr_delay)) < 10)

注:<10的意思不是值,而是个数,是选择每天延误时间最长的10趟航班。

  1. 找出大于某个阈值的所有分组:
popular_dests <- flights %>%
group_by(dest) %>%
filter(n() > 365)
popular_dests

dest=77

  1. 筛选延误的航班,添加新变量,并显示指定列。
  filter(arr_delay > 0) %>% 
  mutate(prop_delay = arr_delay / sum(arr_delay)) %>% 
  select(year:day, dest, arr_delay, prop_delay)

工作流:脚本

image.png

编辑器用来修改脚本,不要在控制台输入。使用组合键Ctrl+Shift+N创建新脚本。

当退出RStudio 时,它会自动保存编辑器中的内容,并在重新打开时自动加载编辑器中的内容。
尽管如此,我们还是应该定时保存脚本,并做好备份。

Ctrl+Enter。这组快捷键会在控制台中执行当前的R 语句
一次性运行整个脚本:Ctrl+Shift+S

你可能感兴趣的:(R数据科学day2-4)