R-apply()函数

Content

  1. Summary
  2. apply()
  3. lapply() & sapply()
  4. tapply() & by() & aggregate()
  5. Examples

1. Summary

函数 对象 操作顺序 返回对象 描述
apply() matrix/dataframe/list 1:行;2:列 vector 用于行或列
lapply() list/dataframe list 用于列
sapply() list/dataframe vector/matrix 用于列
tapply() vector - array/matrix 分组,用于列
by() matrix/dataframe list 分组;变量间关系
aggregate() matrix/dataframe dataframe 分组;应用于所有列

2. apply()

apply()函数允许在矩阵的各行或各列上调用指定函数

apply(m, dimcode, f, fargs)

  • m 矩阵
  • dimcode 维度编号,对行或列应用函数。1代表行,2代表列
  • f 应用的函数
  • fargs 函数 f 的可选参数

e.g.

> z <- matrix(nrow = 3, ncol = 2, 1:6)
> z
     [,1] [,2]
[1,]    1    4
[2,]    2    5
[3,]    3    6

> f <- function(x) x/c(2, 8)
> y <- apply(z, 1, f)
> y
     [,1]  [,2] [,3]
[1,]  0.5 1.000 1.50
[2,]  0.5 0.625 0.75

函数 f 将矩阵 z 的元素按行的顺序除以向量(2, 8)(向量(2,8)只有两个元素,所以会循环使用)。返回的结果 y 是一个2行3列的矩阵,因为所调用的函数 f 每次返回的是一个包含2个元素的向量(因为矩阵 z 每行有2个元素),apply()的结果按列进行填充,所以只有2行。

  • 向待调用函数添加参数:

    e.g. 存在一个由0和1组成的矩阵,生成如下向量:取对应矩阵的每行,如果该行前d个元素中1较多,向量对应的元素就取1,反之取0。其中d是可以变的参数

    > x
         [,1] [,2] [,3] [,4] [,5]
    [1,]    1    0    1    1    0
    [2,]    1    1    1    1    0
    [3,]    1    0    0    1    1
    [4,]    0    1    1    1    0
    
    > copymaj <- function(rw,d){
    +   maj <- sum(rw[1:d])/d  #计算每行前d个元素的平均值
    +   ifelse(maj < 0.5, 0, 1)
    + }
    
    > apply(x, 1, copymaj, 3)
    [1] 1 1 0 1
    > apply(x, 1, copymaj, 2)
    [1] 1 1 1 1
    

    通过制定参数d的值,分别计算每行前3个和前2个元素中0和1的占比。

3. lapply() & sapply()

  • lapply

    代表 list apply 与矩阵的 apply 用法类似。对 列表(list)数据框(dataframe)中每个组件执行给定的函数,并返回列表

    > lapply(list(1:3, 25:29), median)
    [[1]]
    [1] 2
    
    [[2]]
    [1] 27
    
  • sapply

    lapply()类似,返回值为矩阵或向量

    > sapply(list(1:3, 25:29), median)
    [1]  2 27
    

    数据框(dataframe)是列表的特例,故lapply sapply 也可应用于数据框。

    对数据框应用 f() 函数,f() 会作用于数据框的每一列

4. tapply() & by() & aggregate()

tapply() 多用于处理因子(factor); by() 函数与 tapply() 类似,但可用于处理矩阵或数据框。

  • tapply(x, f, g)

x 向量,不能为数据框或矩阵;

f 因子或因子列表; g 函数

将 x 暂时分组,每组对应一个因子水平(或对应一组因子水平的组合),将 g() 函数应用到得到的子向量。结果返回表(table)。

> ages <- c(25, 26, 55, 37, 41, 42)
> affils <- c("R", "D", "D", "R", "U", "D")
> tapply(ages, affils, mean)
 D  R  U 
41 31 41 

若存在两个及以上因子:e.g. 以25岁为分界,计算男女员工的平均薪水:

> d <- data.frame(gender = c('M', 'M', 'F', 'M', 'F', 'F'),
+                 age = c(47, 59, 21, 32, 33, 24),
+                 income = c(55000, 88000, 32450, 76500, 123000, 45650))
> d$over25 <- ifelse(d$age > 25, 1, 0)
> d
  gender age income over25
1      M  47  55000      1
2      M  59  88000      1
3      F  21  32450      0
4      M  32  76500      1
5      F  33 123000      1
6      F  24  45650      0

> tapply(d$income, list(d$gender, d$over25), mean)
      0         1
F 39050 123000.00
M    NA  73166.67
  • by(x, f, g)

    x 指定数据,可为矩阵或数据框;f 因子或因子列表; g 函数

    by() 函数可对矩阵或数据框进行分组,并接收对象 x 的多个参数执行函数。结果返回列表(list)。

    e.g. 以数据框d为对象,按性别进行分组,计算收入与年龄间的回归关系:

    > by(d, d$gender, function(g) lm(g[, 3] ~ g[, 2]))
    d$gender: F
    
    Call:
    lm(formula = g[, 3] ~ g[, 2])
    
    Coefficients:
    (Intercept)       g[, 2]  
        -135450         7788  
    
    ------------------------------------------------------ 
    d$gender: M
    
    Call:
    lm(formula = g[, 3] ~ g[, 2])
    
    Coefficients:
    (Intercept)       g[, 2]  
        57079.2        349.7  
    

    同样,用 by() 函数也能完成如上以 tapply() 函数完成的例子:以25岁为分界,计算男女员工的平均薪水

    > by(d$income, list(d$gender, d$over25), mean)
    : F
    : 0
    [1] 39050
    ------------------------------------------------------ 
    : M
    : 0
    [1] NA
    ------------------------------------------------------ 
    : F
    : 1
    [1] 123000
    ------------------------------------------------------ 
    : M
    : 1
    [1] 73166.67
    # 与 tapply() 不同,by() 返回 list 
    
    • aggregate

      aggregate(x, f, g)

      x 列表或数据框对象; f 分组依据; g 作用函数

      aggregate() 可对分组中的每一个变量调用 tapply() 函数。e.g. 按性别分组计算平均年龄与平均工资:

      > d
        gender age income over25
      1      M  47  55000      1
      2      M  59  88000      1
      3      F  21  32450      0
      4      M  32  76500      1
      5      F  33 123000      1
      6      F  24  45650      0
      
      > aggregate(d[, c(2, 3)], list(d$gender), mean)
        Group.1 age   income
      1       F  26 67033.33
      2       M  46 73166.67
      
      # sapply() 与 tapply() 也能作用于对象的每个元素,但不能对对象进行分组
      > sapply(d[, c(2, 3)], mean)
         age income 
          36  70100 
      # 同样可用 apply() 函数
      > apply(d[, c(2, 3)], 2, mean)
         age income 
          36  70100 
      

5. Examples

使用 apply() 族函数对 dataframe d 进行如下操作:

  1. 添加分组:25岁以上为1,以下为0 ( apply()
  2. 计算员工的平均年龄;平均工资( sapply()/tapply()/apply()
  3. 以25岁为标准分组,计算各组的平均工资(tapply()
  4. 以25岁和性别为标准分组,计算各组的平均工资(tapply()
  5. 以性别为标准进行分组,计算收入与年龄间的回归关系(by()
  6. 以25岁和性别为标准分组,计算各组的平均工资和平均年龄(aggregate()
> d <- data.frame(gender = c('M', 'M', 'F', 'M', 'F', 'F'),
+                 age = c(47, 59, 21, 32, 33, 24),
+                 income = c(55000, 88000, 32450, 76500, 123000, 45650))
> d
  gender age income
1      M  47  55000
2      M  59  88000
3      F  21  32450
4      M  32  76500
5      F  33 123000
6      F  24  45650

# 1. 添加分组:25岁以上为1,以下为0 ( `apply()` )
> d$over25 <- apply(d[, 2, drop = F], 1, function(x) ifelse(x > 25, 1, 0))

> d
  gender age income over25
1      M  47  55000      1
2      M  59  88000      1
3      F  21  32450      0
4      M  32  76500      1
5      F  33 123000      1
6      F  24  45650      0
# 这里不使用 apply() 函数会更简洁:
# d$over25 <- ifelse(d$age > 25, 1, 0)

# 2. 计算员工的平均年龄;平均工资( `sapply()`/`tapply()`/`apply()` )
> lapply(d[, c(2, 3)], mean)
$age
[1] 36

$income
[1] 70100

> sapply(d[, c(2, 3)], mean)
   age income 
    36  70100 

> apply(d[, c(2, 3)], 2, mean)
   age income 
    36  70100 
                    
# 3. 以25岁为标准分组,计算各组的平均工资(`tapply()`)
> tapply(d$income, list(d$over25), mean)
    0     1 
39050 85625 
                    
# 4. 以25岁和性别为标准分组,计算各组的平均工资(`tapply()`)
> tapply(d[, 3], list(d$over25, d$gender), mean)
       F        M
0  39050       NA
1 123000 73166.67
                    
# 5. 以性别为标准进行分组,计算收入与年龄间的回归关系(`by()`)
> by(d, d$gender, function(x) lm(x[, 3] ~ x[, 2]))
d$gender: F

Call:
lm(formula = x[, 3] ~ x[, 2])

Coefficients:
(Intercept)       x[, 2]  
    -135450         7788  

------------------------------------------------------ 
d$gender: M

Call:
lm(formula = x[, 3] ~ x[, 2])

Coefficients:
(Intercept)       x[, 2]  
    57079.2        349.7  
                    
# 6. 以25岁和性别为标准分组,计算各组的平均工资和平均年龄(`aggregate()`)
> aggregate(d[, c(2, 3)], list(d$over25, d$gender), mean) 
  Group.1 Group.2  age    income
1       0       F 22.5  39050.00
2       1       F 33.0 123000.00
3       1       M 46.0  73166.67
                    

你可能感兴趣的:(R-apply()函数)