R管道操作

转自https://blog.csdn.net/zhaozhn5/article/details/79001384

magrittr介绍
magrittr包是一个高效的管道操作工具，让数据传递更高效。使用操作符%>%，直接把数据传递给下一个函数或表达式。
magrittr的使用
4个管道操作符：
%>%, %T>%, %$% 和 %<>%

2.1 向右操作符%>%, 向左操作符%T>%, 解释操作符%$% 和复合赋值操作符%<>%

比如：

取10000个随机数符合，符合正态分布。
求这个10000个数的绝对值，同时乘以50。
把结果组成一个100*100列的方阵。
计算方阵中每行的均值，并四舍五入保留到整数。
把结果除以7求余数，并话出余数的直方图。

正常代码：


# 设置随机种子
> set.seed(1)
 
# 开始 
> n1<-rnorm(10000)            # 第1步
> n2<-abs(n1)*50              # 第2步
> n3<-matrix(n2,ncol = 100)   # 第3步
> n4<-round(rowMeans(n3))     # 第4步
> hist(n4%%7)                 # 第5步

另外一种写法是括号包含


# 设置随机种子

> set.seed(1)
>hist(round(rowMeans(matrix(abs(rnorm(10000))*50,ncol=100)))%%7)

使用管道函数


# 设置随机种子
> set.seed(1)
# 开始
> rnorm(10000) %>%
+ abs %>% `*` (50) %>%
+ matrix(ncol=100) %>%
+ rowMeans %>% round %>%
+ `%%`(7) %>% hist

2.2
%T>%向左操作符
把数值向左边传递，接着又可以向右边传递。

比如，在数据处理中间过程们需要打印输出或图片输出，这时整个过程就会被中断，用左侧操作符，就可以解决这个问题。

取10000个随机数，符合正态分布。
求这个10000个数的绝对值，同时乘以50。
把结果组成一个100*100的方阵
计算方阵中每行的均值，并四舍五入保留至整数
把结果除以7求余数，并画出直方图
对余数求和

由于输出直方图后，返回值为空，那么再继续管道，就会把空值向右进行传递，所以会报错。所以先向左，然后可以再进行向右传递。

 
> rnorm(10000) %>%
+   abs %>% `*` (50)  %>%
+   matrix(ncol=100)  %>%
+   rowMeans %>% round %>% 
+   `%%`(7) %T>% hist %>% sum
[1] 328

2.3 %$% 解释操作符（exposition pipe-operator）

%$% 的作用是把左侧数据的属性名传递给右侧，让右侧的调用函数直接通过名字就可以获得左侧数据。

下面定义一个3列10行的data.frame，列名分别为x,y,z，或缺x列大于5的数据集。使用 %$% 把列名x直接传到右侧进行判断。这里.代表左侧的完整数据对象。一行代码就实现了需求，而且这里不需要显示的定义中间变量。

 > set.seed(1)
> data.frame(x=1:10,y=rnorm(10),z=letters[1:10]) %$% .[which(x>5),]
    x          y z
6   6 -0.8204684 f
7   7  0.4874291 g
8   8  0.7383247 h
9   9  0.5757814 i
10 10 -0.3053884 j

如果不使用%$%,通常代码的写法为定义变量df，df出现3次。

 
> set.seed(1)
> df<-data.frame(x=1:10,y=rnorm(10),z=letters[1:10])
> df[which(df$x>5),]
    x          y z
6   6 -0.8204684 f
7   7  0.4874291 g
8   8  0.7383247 h
9   9  0.5757814 i
10 10 -0.3053884 j

2.4 %<>%复合复制操作符（compound assignment pipe-operator）
%<>%复合赋值操作符，功能与%>%基本是一样的，多了一项额外的操作，就是把结果写到左侧对象。比如，我们需要对一个数据集进行排序，那么需要获得排序的结果，用%<>%就是非常方便的。

现实原理如下图所示，使用%<>%把左侧的程序的数据集A传递右侧程序的B函数，B函数的结果数据集再向右侧传递给C函数，C函数结果的数据集再重新赋值给A，完成整个过程。

 
> set.seed(1)
> x<-rnorm(100) %<>% abs %>% sort %>% head(10)
> x
 [1] 0.001105352 0.016190263 0.028002159 0.039240003 0.044933609 0.053805041 0.056128740
 [8] 0.059313397 0.074341324 0.074564983

但是这里同时有一个陷阱，需要** 注意一下 %<>% 必须要用在第一个管道的对象处，才能完成赋值的操作 ** ，如果不是左侧第一个位置，那么赋值将不起作用。

 
> set.seed(1)
> x<-rnorm(100)
 
# 左侧第一个位置，赋值成功
> x %<>% abs %>% sort %>% head(10)
> x
 [1] 0.001105352 0.016190263 0.028002159 0.039240003 0.044933609 0.053805041 0.056128740
 [8] 0.059313397 0.074341324 0.074564983
 
# 左侧第二个位置，结果被直接打印出来，但是x的值没有变
> x %>% abs %<>% sort %>% head(10)
 [1] 0.001105352 0.016190263 0.028002159 0.039240003 0.044933609 0.053805041 0.056128740
 [8] 0.059313397 0.074341324 0.074564983
> length(x)
[1] 10
 
# 左侧第三个位置，结果被直接打印出来，但是x的值没有变
> x %>% abs %>% sort %<>% head(10)
 [1] 0.001105352 0.016190263 0.028002159 0.039240003 0.044933609 0.053805041 0.056128740
 [8] 0.059313397 0.074341324 0.074564983
> length(x)
[1] 10

magrittr包的扩展功能
%>%对代码块的传递
%>%对函数的传递

magrittr对常见计算符号操作符进行的重新定义，让每个操作对应一个函数。

 
extract                   `[`
extract2              `[[`
inset                     `[<-`
inset2                    `[[<-`
use_series            `$`
add                   `+`
subtract              `-`
multiply_by           `*`
raise_to_power            `^`
multiply_by_matrix    `%*%`
divide_by             `/`
divide_by_int             `%/%`
mod                   `%%`
is_in                     `%in%`
and                   `&`
or                    `|`
equals                    `==`
is_greater_than           `>`
is_weakly_greater_than    `>=`
is_less_than              `<`
is_weakly_less_than   `<=`
not (`n'est pas`)     `!`
set_colnames              `colnames<-`
set_rownames              `rownames<-`
set_names             `names<-`

符号与函数写法的对比

 
# 使用符号的写法
> set.seed(1)
> rnorm(10) %>% `*`(5) %>% `+`(5)
 [1]  1.8677309  5.9182166  0.8218569 12.9764040  6.6475389  0.8976581  7.4371453  8.6916235
 [9]  7.8789068  3.4730581
 
# 使用函数的写法
> set.seed(1)
> rnorm(10) %>% multiply_by(5) %>% add(5)
 [1]  1.8677309  5.9182166  0.8218569 12.9764040  6.6475389  0.8976581  7.4371453  8.6916235
 [9]  7.8789068  3.4730581

3.2 %>%传递到代码块

对同一个数据块要进行多次处理，可以使用一个代码块一次性解决。把数据集传递到{}代码块中，传入的数据集用.来表示。

以下对一个包括10个随机数的向量的先*5再+5，求出向量的均值和标准差，并从小到大排序后返回前5条。

set.seed(1)
 rnorm(10)    %>%
      multiply_by(5) %>%
      add(5)         %>%
      { 
          cat("Mean:", mean(.), 
                        "Var:", var(.), "\n")
          sort(.) %>% head(5)
        }
 Mean: 5.661014 Var: 15.23286 
 [1] 0.8218569 0.8976581 1.8677309 3.4730581 5.9182166

3.3 %>%传递到函数
传递到函数和传递到代码块设计是类似的，是把一个数据集传给一个匿名函数，进行复杂的数据数据的操作。在这里，我们会显示的定义数据集的名字作为匿名函数的参数。

比如，对鸢尾花数据集进行处理，只保留第一行和最后一行作为结果。

 iris %>%
        ( function(x)rbind(head(x, 2), tail(x, 2)) )

这里的代码有点不太懂，好像很容易就能取到上下两行。

R管道操作

你可能感兴趣的:(R管道操作)