转自https://blog.csdn.net/zhaozhn5/article/details/79001384
magrittr介绍
magrittr包是一个高效的管道操作工具,让数据传递更高效。使用操作符%>%,直接把数据传递给下一个函数或表达式。magrittr的使用
4个管道操作符:
%>%, %T>%, %$% 和 %<>%
2.1 向右操作符%>%, 向左操作符%T>%, 解释操作符%$% 和 复合赋值操作符%<>%
比如:
取10000个随机数符合,符合正态分布。
求这个10000个数的绝对值,同时乘以50。
把结果组成一个100*100列的方阵。
计算方阵中每行的均值,并四舍五入保留到整数。
把结果除以7求余数,并话出余数的直方图。
正常代码:
# 设置随机种子
> set.seed(1)
# 开始
> n1<-rnorm(10000) # 第1步
> n2<-abs(n1)*50 # 第2步
> n3<-matrix(n2,ncol = 100) # 第3步
> n4<-round(rowMeans(n3)) # 第4步
> hist(n4%%7) # 第5步
另外一种写法是括号包含
# 设置随机种子
> set.seed(1)
>hist(round(rowMeans(matrix(abs(rnorm(10000))*50,ncol=100)))%%7)
使用管道函数
# 设置随机种子
> set.seed(1)
# 开始
> rnorm(10000) %>%
+ abs %>% `*` (50) %>%
+ matrix(ncol=100) %>%
+ rowMeans %>% round %>%
+ `%%`(7) %>% hist
2.2
%T>%向左操作符
把数值向左边传递,接着又可以向右边传递。
比如,在数据处理中间过程们需要打印输出或图片输出,这时整个过程就会被中断,用左侧操作符,就可以解决这个问题。
- 取10000个随机数,符合正态分布。
- 求这个10000个数的绝对值,同时乘以50。
- 把结果组成一个100*100的方阵
- 计算方阵中每行的均值,并四舍五入保留至整数
- 把结果除以7求余数,并画出直方图
- 对余数求和
由于输出直方图后,返回值为空,那么再继续管道,就会把空值向右进行传递,所以会报错。所以先向左,然后可以再进行向右传递。
> rnorm(10000) %>%
+ abs %>% `*` (50) %>%
+ matrix(ncol=100) %>%
+ rowMeans %>% round %>%
+ `%%`(7) %T>% hist %>% sum
[1] 328
2.3 %$% 解释操作符(exposition pipe-operator)
%$% 的作用是把左侧数据的属性名传递给右侧,让右侧的调用函数直接通过名字就可以获得左侧数据。
下面定义一个3列10行的data.frame,列名分别为x,y,z,或缺x列大于5的数据集。使用 %$% 把列名x直接传到右侧进行判断。这里.代表左侧的完整数据对象。一行代码就实现了需求,而且这里不需要显示的定义中间变量。
> set.seed(1)
> data.frame(x=1:10,y=rnorm(10),z=letters[1:10]) %$% .[which(x>5),]
x y z
6 6 -0.8204684 f
7 7 0.4874291 g
8 8 0.7383247 h
9 9 0.5757814 i
10 10 -0.3053884 j
如果不使用%$%,通常代码的写法为定义变量df,df出现3次。
> set.seed(1)
> df<-data.frame(x=1:10,y=rnorm(10),z=letters[1:10])
> df[which(df$x>5),]
x y z
6 6 -0.8204684 f
7 7 0.4874291 g
8 8 0.7383247 h
9 9 0.5757814 i
10 10 -0.3053884 j
2.4 %<>%复合复制操作符(compound assignment pipe-operator)
%<>%复合赋值操作符,功能与%>%基本是一样的,多了一项额外的操作,就是把结果写到左侧对象。比如,我们需要对一个数据集进行排序,那么需要获得排序的结果,用%<>%就是非常方便的。
现实原理如下图所示,使用%<>%把左侧的程序的数据集A传递右侧程序的B函数,B函数的结果数据集再向右侧传递给C函数,C函数结果的数据集再重新赋值给A,完成整个过程。
> set.seed(1)
> x<-rnorm(100) %<>% abs %>% sort %>% head(10)
> x
[1] 0.001105352 0.016190263 0.028002159 0.039240003 0.044933609 0.053805041 0.056128740
[8] 0.059313397 0.074341324 0.074564983
但是这里同时有一个陷阱,需要** 注意一下 %<>% 必须要用在第一个管道的对象处,才能完成赋值的操作 ** ,如果不是左侧第一个位置,那么赋值将不起作用。
> set.seed(1)
> x<-rnorm(100)
# 左侧第一个位置,赋值成功
> x %<>% abs %>% sort %>% head(10)
> x
[1] 0.001105352 0.016190263 0.028002159 0.039240003 0.044933609 0.053805041 0.056128740
[8] 0.059313397 0.074341324 0.074564983
# 左侧第二个位置,结果被直接打印出来,但是x的值没有变
> x %>% abs %<>% sort %>% head(10)
[1] 0.001105352 0.016190263 0.028002159 0.039240003 0.044933609 0.053805041 0.056128740
[8] 0.059313397 0.074341324 0.074564983
> length(x)
[1] 10
# 左侧第三个位置,结果被直接打印出来,但是x的值没有变
> x %>% abs %>% sort %<>% head(10)
[1] 0.001105352 0.016190263 0.028002159 0.039240003 0.044933609 0.053805041 0.056128740
[8] 0.059313397 0.074341324 0.074564983
> length(x)
[1] 10
- magrittr包的扩展功能
%>%对代码块的传递
%>%对函数的传递
magrittr对常见计算符号操作符进行的重新定义,让每个操作对应一个函数。
extract `[`
extract2 `[[`
inset `[<-`
inset2 `[[<-`
use_series `$`
add `+`
subtract `-`
multiply_by `*`
raise_to_power `^`
multiply_by_matrix `%*%`
divide_by `/`
divide_by_int `%/%`
mod `%%`
is_in `%in%`
and `&`
or `|`
equals `==`
is_greater_than `>`
is_weakly_greater_than `>=`
is_less_than `<`
is_weakly_less_than `<=`
not (`n'est pas`) `!`
set_colnames `colnames<-`
set_rownames `rownames<-`
set_names `names<-`
符号与函数写法的对比
# 使用符号的写法
> set.seed(1)
> rnorm(10) %>% `*`(5) %>% `+`(5)
[1] 1.8677309 5.9182166 0.8218569 12.9764040 6.6475389 0.8976581 7.4371453 8.6916235
[9] 7.8789068 3.4730581
# 使用函数的写法
> set.seed(1)
> rnorm(10) %>% multiply_by(5) %>% add(5)
[1] 1.8677309 5.9182166 0.8218569 12.9764040 6.6475389 0.8976581 7.4371453 8.6916235
[9] 7.8789068 3.4730581
3.2 %>%传递到代码块
对同一个数据块要进行多次处理,可以使用一个代码块一次性解决。把数据集传递到{}代码块中, 传入的数据集用.来表示。
以下对一个包括10个随机数的向量的先*5再+5,求出向量的均值和标准差,并从小到大排序后返回前5条。
set.seed(1)
rnorm(10) %>%
multiply_by(5) %>%
add(5) %>%
{
cat("Mean:", mean(.),
"Var:", var(.), "\n")
sort(.) %>% head(5)
}
Mean: 5.661014 Var: 15.23286
[1] 0.8218569 0.8976581 1.8677309 3.4730581 5.9182166
3.3 %>%传递到函数
传递到函数和传递到代码块设计是类似的,是把一个数据集传给一个匿名函数,进行复杂的数据数据的操作。在这里,我们会显示的定义数据集的名字作为匿名函数的参数。
比如,对鸢尾花数据集进行处理,只保留第一行和最后一行作为结果。
iris %>%
( function(x)rbind(head(x, 2), tail(x, 2)) )
这里的代码有点不太懂,好像很容易就能取到上下两行。