R语言数据处理之dplyr包

数据准备

> library(hflights)

> library(dplyr)

> data("hflights",package = "hflights")

> hflights_df<-tbl_df(hflights)

$filter筛选

按给定的逻辑判断筛选出符合要求的子数据集

除了代码简洁外, 还支持对同一对象的任意个条件组合, 如:

> filter(hflights_df,Month == 1,DayofMonth ==1)

> filter(hflights_df, Month == 1 | Month == 2)

> filter(tbl_hflights,Year == 2011, Month == 1, DepTime == 1400)

> filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime == 1400)

> filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime <= 1400)

> filter(tbl_hflights,Year == 2011 & Month == 1 & (DepTime == 1400 | DepTime == 1430) & UniqueCarrier == 'AA')

$select选择列

> b<-select(hflights_df,Year,Month,DayofMonth,FlightNum,Distance)

> c<-select(hflights_df,Year:ArrTime)

> w<-select(hflights_df,ArrTime:Year)

> v<-select(hflights_df,-Year,-Month,-DayofMonth,-FlightNum,-Distance)

> e<-select(hflights_df,-(Year:ArrTime))

$%>%管道函数

是最常用的一个操作符，就是把左侧准备的数据或表达式，传递给右侧的函数调用或表达式进行运行，可以连续操作就像一个链条一样。

# 设置随机种子

> set.seed(1)

# 开始

> n1<-rnorm(10000) # 第1步

> n2<-abs(n1)*50 # 第2步

> n3<-matrix(n2,ncol = 100) # 第3步

> n4<-round(rowMeans(n3)) # 第4步

> hist(n4%%7) # 第5步# 设置随机种子

> set.seed(1)

# 开始

> rnorm(10000) %>%

+ abs %>% `*` (50) %>%

+ matrix(ncol=100) %>%

+ rowMeans %>% round %>%

+ `%%`(7) %>% hist

$arrange数据排序

arrange可以根据变量名依次对数据框进行排序，靠前的变量优先级越高，对变量名使用desc函数即为倒序。plyr（我们以后会介绍的一个包，同样出品自Hadley Wickham）中也有一个相同的此函数。

hflights1<-select(filter(hflights_df,Year == 2011 & Month == 1 & DepTime == 1400),Year:ArrTime,AirTime)

arrange(hflights_df1,ArrTime)

arrange(hflights_df1,desc(AirTime),ArrTime)

$mutate变形

对已有列进行数据运算并添加为新列，值得称赞的是，一段mutate的代码中，靠后的变量操作可以操作前期新添加或改变的变量

c<-mutate(hflights_df, gain = ArrDelay - DepDelay, speed = Distance / AirTime * 60)

$summarise汇总

summarise是对数据框中的变量调用函数进行数据汇总，分组计算，使用分组计算的summarise能做的事情就多了非常多，其可以实现几乎所有的类似于Excel中数据透视表的汇总功能。

summarise(hflights_df, delay = mean(DepDelay, na.rm = TRUE))

> iris[1:4]%>%summarise_each(funs(mean,sum))

Sepal.Length_mean Sepal.Width_mean Petal.Length_mean Petal.Width_mean Sepal.Length_sum1 5.843333 3.057333 3.758 1.199333 876.5 Sepal.Width_sum Petal.Length_sum Petal.Width_sum1 458.6 563.7 179.9

$ group_by()分组动作

此group_by的语法意义几乎与SQL中的group by完全一样，其也是针对被group by的变量进行分组的操作与计算，前提是有这样的操作与计算。summarise配合使用分组计算能做到很大部分的数据透视表可以做的事情：

> w<-group_by(iris,Species)%>%

+ summarise(mean=mean(Sepal.Length),max=max(Sepal.Width),

+ min=min(Sepal.Width),sd=sd(Petal.Width))%>%

+ ungroup%>%

+ mutate(distTest = max-min)

$join合并

假设其形式均为join（x，y）

inner_join 返回所有在y中能查找到的x的行，且包含x和y的所有列；

left_join 返回所有x的行，且包含x和y的所有列，在y中没有查找到的x的行新增的列的值会以NA填充；

right_join 同上，只是x和y调换了一下；

full_join 返回所有x和y的行和列，未查找的部分同样会被NA填充；

anti_join 返回所有未能在y中能查找到的x的行，也只返回x的列

semi_join 返回所有在y中能查找到的x的行，也只返回x的列

$row wise $col wise 分别为按行和按列分组

其实就是apply(x,1,FUN)与，apply(x,2,FUN)但是比apply的效率高(不一定，亲自测一下比较好)

> m=matrix(1:16000000,ncol=2)%>%data.frame

> system.time(m%>%rowwise%>%summarise(sum(X1,X2))) 用户系统流逝 10.52 0.00 10.52

> system.time(m%>%apply(1,sum)) 用户系统流逝 55.87 0.10 55.97

$bind_cols( ) $bind_rows( )数据合并

mydf1 <- data.frame(x = c(1,2,3,4), y = c(10,20,30,40))

mydf2 <- data.frame(x = c(5,6), y = c(50,60))

mydf3 <- data.frame(z = c(100,200,300,400))

bind_rows(mydf1, mydf2)

bind_cols(mydf1, mydf3)

需要说明的是，bind_rows()函数需要两个数据框或tbl对象有相同的列数，而bind_cols()函数则需要两个数据框或tbl对象有相同的行数。

R语言数据处理之dplyr包

你可能感兴趣的:(R语言数据处理之dplyr包)