R管道操作

转自https://blog.csdn.net/zhaozhn5/article/details/79001384

  1. magrittr介绍
    magrittr包是一个高效的管道操作工具,让数据传递更高效。使用操作符%>%,直接把数据传递给下一个函数或表达式。

  2. magrittr的使用
    4个管道操作符:
    %>%, %T>%, %$% 和 %<>%

2.1 向右操作符%>%, 向左操作符%T>%, 解释操作符%$% 和 复合赋值操作符%<>%

比如:

取10000个随机数符合,符合正态分布。
求这个10000个数的绝对值,同时乘以50。
把结果组成一个100*100列的方阵。
计算方阵中每行的均值,并四舍五入保留到整数。
把结果除以7求余数,并话出余数的直方图。

正常代码:


# 设置随机种子
> set.seed(1)
 
# 开始 
> n1<-rnorm(10000)            # 第1步
> n2<-abs(n1)*50              # 第2步
> n3<-matrix(n2,ncol = 100)   # 第3步
> n4<-round(rowMeans(n3))     # 第4步
> hist(n4%%7)                 # 第5步

另外一种写法是括号包含


# 设置随机种子

> set.seed(1)
>hist(round(rowMeans(matrix(abs(rnorm(10000))*50,ncol=100)))%%7)

使用管道函数


# 设置随机种子
> set.seed(1)
# 开始
> rnorm(10000) %>%
+ abs %>% `*` (50) %>%
+ matrix(ncol=100) %>%
+ rowMeans %>% round %>%
+ `%%`(7) %>% hist

2.2
%T>%向左操作符
把数值向左边传递,接着又可以向右边传递。

比如,在数据处理中间过程们需要打印输出或图片输出,这时整个过程就会被中断,用左侧操作符,就可以解决这个问题。

  1. 取10000个随机数,符合正态分布。
  2. 求这个10000个数的绝对值,同时乘以50。
  3. 把结果组成一个100*100的方阵
  4. 计算方阵中每行的均值,并四舍五入保留至整数
  5. 把结果除以7求余数,并画出直方图
  6. 对余数求和

由于输出直方图后,返回值为空,那么再继续管道,就会把空值向右进行传递,所以会报错。所以先向左,然后可以再进行向右传递。

 
> rnorm(10000) %>%
+   abs %>% `*` (50)  %>%
+   matrix(ncol=100)  %>%
+   rowMeans %>% round %>% 
+   `%%`(7) %T>% hist %>% sum
[1] 328

2.3 %$% 解释操作符(exposition pipe-operator)

%$% 的作用是把左侧数据的属性名传递给右侧,让右侧的调用函数直接通过名字就可以获得左侧数据。

下面定义一个3列10行的data.frame,列名分别为x,y,z,或缺x列大于5的数据集。使用 %$% 把列名x直接传到右侧进行判断。这里.代表左侧的完整数据对象。一行代码就实现了需求,而且这里不需要显示的定义中间变量。

 > set.seed(1)
> data.frame(x=1:10,y=rnorm(10),z=letters[1:10]) %$% .[which(x>5),]
    x          y z
6   6 -0.8204684 f
7   7  0.4874291 g
8   8  0.7383247 h
9   9  0.5757814 i
10 10 -0.3053884 j

如果不使用%$%,通常代码的写法为定义变量df,df出现3次。

 
> set.seed(1)
> df<-data.frame(x=1:10,y=rnorm(10),z=letters[1:10])
> df[which(df$x>5),]
    x          y z
6   6 -0.8204684 f
7   7  0.4874291 g
8   8  0.7383247 h
9   9  0.5757814 i
10 10 -0.3053884 j

2.4 %<>%复合复制操作符(compound assignment pipe-operator)
%<>%复合赋值操作符,功能与%>%基本是一样的,多了一项额外的操作,就是把结果写到左侧对象。比如,我们需要对一个数据集进行排序,那么需要获得排序的结果,用%<>%就是非常方便的。

现实原理如下图所示,使用%<>%把左侧的程序的数据集A传递右侧程序的B函数,B函数的结果数据集再向右侧传递给C函数,C函数结果的数据集再重新赋值给A,完成整个过程。


R管道操作_第1张图片
 
> set.seed(1)
> x<-rnorm(100) %<>% abs %>% sort %>% head(10)
> x
 [1] 0.001105352 0.016190263 0.028002159 0.039240003 0.044933609 0.053805041 0.056128740
 [8] 0.059313397 0.074341324 0.074564983

但是这里同时有一个陷阱,需要** 注意一下 %<>% 必须要用在第一个管道的对象处,才能完成赋值的操作 ** ,如果不是左侧第一个位置,那么赋值将不起作用。

 
> set.seed(1)
> x<-rnorm(100)
 
# 左侧第一个位置,赋值成功
> x %<>% abs %>% sort %>% head(10)
> x
 [1] 0.001105352 0.016190263 0.028002159 0.039240003 0.044933609 0.053805041 0.056128740
 [8] 0.059313397 0.074341324 0.074564983
 
# 左侧第二个位置,结果被直接打印出来,但是x的值没有变
> x %>% abs %<>% sort %>% head(10)
 [1] 0.001105352 0.016190263 0.028002159 0.039240003 0.044933609 0.053805041 0.056128740
 [8] 0.059313397 0.074341324 0.074564983
> length(x)
[1] 10
 
# 左侧第三个位置,结果被直接打印出来,但是x的值没有变
> x %>% abs %>% sort %<>% head(10)
 [1] 0.001105352 0.016190263 0.028002159 0.039240003 0.044933609 0.053805041 0.056128740
 [8] 0.059313397 0.074341324 0.074564983
> length(x)
[1] 10
  1. magrittr包的扩展功能
    %>%对代码块的传递
    %>%对函数的传递

magrittr对常见计算符号操作符进行的重新定义,让每个操作对应一个函数。

 
extract                   `[`
extract2              `[[`
inset                     `[<-`
inset2                    `[[<-`
use_series            `$`
add                   `+`
subtract              `-`
multiply_by           `*`
raise_to_power            `^`
multiply_by_matrix    `%*%`
divide_by             `/`
divide_by_int             `%/%`
mod                   `%%`
is_in                     `%in%`
and                   `&`
or                    `|`
equals                    `==`
is_greater_than           `>`
is_weakly_greater_than    `>=`
is_less_than              `<`
is_weakly_less_than   `<=`
not (`n'est pas`)     `!`
set_colnames              `colnames<-`
set_rownames              `rownames<-`
set_names             `names<-`

符号与函数写法的对比

 
# 使用符号的写法
> set.seed(1)
> rnorm(10) %>% `*`(5) %>% `+`(5)
 [1]  1.8677309  5.9182166  0.8218569 12.9764040  6.6475389  0.8976581  7.4371453  8.6916235
 [9]  7.8789068  3.4730581
 
# 使用函数的写法
> set.seed(1)
> rnorm(10) %>% multiply_by(5) %>% add(5)
 [1]  1.8677309  5.9182166  0.8218569 12.9764040  6.6475389  0.8976581  7.4371453  8.6916235
 [9]  7.8789068  3.4730581

3.2 %>%传递到代码块

对同一个数据块要进行多次处理,可以使用一个代码块一次性解决。把数据集传递到{}代码块中, 传入的数据集用.来表示。

以下对一个包括10个随机数的向量的先*5再+5,求出向量的均值和标准差,并从小到大排序后返回前5条。

set.seed(1)
 rnorm(10)    %>%
      multiply_by(5) %>%
      add(5)         %>%
      { 
          cat("Mean:", mean(.), 
                        "Var:", var(.), "\n")
          sort(.) %>% head(5)
        }
 Mean: 5.661014 Var: 15.23286 
 [1] 0.8218569 0.8976581 1.8677309 3.4730581 5.9182166 
 

3.3 %>%传递到函数
传递到函数和传递到代码块设计是类似的,是把一个数据集传给一个匿名函数,进行复杂的数据数据的操作。在这里,我们会显示的定义数据集的名字作为匿名函数的参数。

比如,对鸢尾花数据集进行处理,只保留第一行和最后一行作为结果。

 iris %>%
        ( function(x)rbind(head(x, 2), tail(x, 2)) )

这里的代码有点不太懂,好像很容易就能取到上下两行。

你可能感兴趣的:(R管道操作)