R语言数据处理之dplyr包

数据准备

> library(hflights)

> library(dplyr)

> data("hflights",package = "hflights")

> hflights_df<-tbl_df(hflights)

$filter筛选

按给定的逻辑判断筛选出符合要求的子数据集

除了代码简洁外, 还支持对同一对象的任意个条件组合, 如:

> filter(hflights_df,Month == 1,DayofMonth ==1)

> filter(hflights_df, Month == 1 | Month == 2)

> filter(tbl_hflights,Year == 2011, Month == 1, DepTime == 1400)

> filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime == 1400)

> filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime <= 1400)

> filter(tbl_hflights,Year == 2011 & Month == 1 & (DepTime == 1400 |  DepTime == 1430) & UniqueCarrier == 'AA')

$select选择列

> b<-select(hflights_df,Year,Month,DayofMonth,FlightNum,Distance)

> c<-select(hflights_df,Year:ArrTime)

> w<-select(hflights_df,ArrTime:Year)

> v<-select(hflights_df,-Year,-Month,-DayofMonth,-FlightNum,-Distance)

> e<-select(hflights_df,-(Year:ArrTime))

$%>%管道函数

是最常用的一个操作符,就是把左侧准备的数据或表达式,传递给右侧的函数调用或 表达式进行运行,可以连续操作就像一个链条一样。

# 设置随机种子

> set.seed(1)

# 开始 

> n1<-rnorm(10000)             # 第1步

> n2<-abs(n1)*50                  # 第2步

> n3<-matrix(n2,ncol = 100)  # 第3步

> n4<-round(rowMeans(n3))    # 第4步

> hist(n4%%7)                           # 第5步# 设置随机种子

> set.seed(1)

# 开始

> rnorm(10000) %>%

    +  abs %>% `*` (50)  %>%

+  matrix(ncol=100)  %>%

+  rowMeans %>% round %>% 

+  `%%`(7) %>% hist

$arrange数据排序

arrange可以根据变量名依次对数据框进行排序,靠前的变量优先级越高,对变量名使用desc函数即为倒序。plyr(我们以后会介绍的一个包,同样出品自Hadley Wickham)中也有一个相同的此函数。

hflights1<-select(filter(hflights_df,Year == 2011 & Month == 1 & DepTime == 1400),Year:ArrTime,AirTime)

arrange(hflights_df1,ArrTime)

arrange(hflights_df1,desc(AirTime),ArrTime)

$mutate变形

对已有列进行数据运算并添加为新列,值得称赞的是,一段mutate的代码中,靠后的变量操作可以操作前期新添加或改变的变量

c<-mutate(hflights_df,  gain = ArrDelay - DepDelay,  speed = Distance / AirTime * 60)

$summarise汇总

summarise是对数据框中的变量调用函数进行数据汇总,分组计算,使用分组计算的summarise能做的事情就多了非常多,其可以实现几乎所有的类似于Excel中数据透视表的汇总功能。

summarise(hflights_df,  delay = mean(DepDelay, na.rm = TRUE))

> iris[1:4]%>%summarise_each(funs(mean,sum))  

Sepal.Length_mean Sepal.Width_mean Petal.Length_mean Petal.Width_mean Sepal.Length_sum1          5.843333        3.057333            3.758        1.199333            876.5  Sepal.Width_sum Petal.Length_sum Petal.Width_sum1          458.6            563.7          179.9

$ group_by()分组动作

此group_by的语法意义几乎与SQL中的group by完全一样,其也是针对被group by的变量进行分组的操作与计算,前提是有这样的操作与计算。summarise配合使用分组计算能做到很大部分的数据透视表可以做的事情:

> w<-group_by(iris,Species)%>%

+    summarise(mean=mean(Sepal.Length),max=max(Sepal.Width),

+              min=min(Sepal.Width),sd=sd(Petal.Width))%>%

+    ungroup%>%

+    mutate(distTest = max-min)

$join合并

假设其形式均为join(x,y)

inner_join 返回所有在y中能查找到的x的行,且包含x和y的所有列;

left_join 返回所有x的行,且包含x和y的所有列,在y中没有查找到的x的行新增的列的值会以NA填充;

right_join 同上,只是x和y调换了一下;

full_join 返回所有x和y的行和列,未查找的部分同样会被NA填充;

anti_join 返回所有未能在y中能查找到的x的行,也只返回x的列

semi_join 返回所有在y中能查找到的x的行,也只返回x的列

$row wise $col wise 分别为按行和按列分组

其实就是apply(x,1,FUN)与,apply(x,2,FUN)但是比apply的效率高(不一定,亲自测一下比较好)

> m=matrix(1:16000000,ncol=2)%>%data.frame

> system.time(m%>%rowwise%>%summarise(sum(X1,X2))) 用户  系统  流逝 10.52  0.00 10.52

 > system.time(m%>%apply(1,sum)) 用户  系统  流逝 55.87  0.10 55.97

$bind_cols( ) $bind_rows( )数据合并

mydf1 <- data.frame(x = c(1,2,3,4), y = c(10,20,30,40))

mydf2 <- data.frame(x = c(5,6), y = c(50,60))

mydf3 <- data.frame(z = c(100,200,300,400))

bind_rows(mydf1, mydf2)

bind_cols(mydf1, mydf3)

需要说明的是,bind_rows()函数需要两个数据框或tbl对象有相同的列数,而bind_cols()函数则需要两个数据框或tbl对象有相同的行数。

你可能感兴趣的:(R语言数据处理之dplyr包)