R语言:Purrr包探索

看统计书,有一道题问n人之中至少有两人生日相同的概率。感觉这道题非常适合用来练习purrr包的基本用法,于是就试了下。

对于这道题,可以先算出所有人的生日都不相同的概率,然后再用1减去这个概率。当人数为2人时,概率是:

1 - (365 / 365) * (364 / 365)

## [1] 0.002739726

当人数为3人时,概率是:

1 - (365 / 365) * (364 / 365) * (363 / 365)

## [1] 0.008204166

写成数学公式的话,大概是这样:

image

为了方便使用,可以写成函数:

samebirth <- function(n) {
  
  temp <- 1 - prod(365:(366 - n)) / 365 ^ n 
  
  print(temp)
  
}

试一下:

samebirth(2)

## [1] 0.002739726

samebirth(3)

## [1] 0.008204166

没有问题。但是要想同时计算2人和3人的概率,就会出现问题:

samebirth(2:3)

## Warning in 365:(366 - n): numerical expression has 2 elements: only the
## first used

## [1] 0.002739726 0.997267780

此时就可以利用purrr包中的map函数,把.x参数所代表的数据中的每一个元素映射到.f位置的函数上:

library(purrr)

map(2:3, samebirth)

## [1] 0.002739726
## [1] 0.008204166

## [[1]]
## [1] 0.002739726
## 
## [[2]]
## [1] 0.008204166

这次同时算出了2人和3人情况下的概率,而且数值是正确的了,但不知道为什么数值都显示了两遍。因为samebirth函数比较短,所以可以直接在map中使用匿名函数。当然,也可以使用apply家族的函数,但map中可以写成公式式匿名函数,进而使代码更简洁:

map(2:3, ~ 1 - prod(365:(366 - .x)) / 365 ^ .x)

## [[1]]
## [1] 0.002739726
## 
## [[2]]
## [1] 0.008204166

这里的prod函数的作用是累乘,2和3依次被映射到了.x处,然后计算出概率。

如果要计算更多的人数,比如50,可以将3改为50,但因为map函数默认产生列表,结果输出会很长,这是可以将map函数改为map_dbl,指定输出数值型的结果:

map_dbl(2:50, ~ 1 - prod(365 : (366 - .x)) / 365 ^ .x)

##  [1] 0.002739726 0.008204166 0.016355912 0.027135574 0.040462484
##  [6] 0.056235703 0.074335292 0.094623834 0.116948178 0.141141378
## [11] 0.167024789 0.194410275 0.223102512 0.252901320 0.283604005
## [16] 0.315007665 0.346911418 0.379118526 0.411438384 0.443688335
## [21] 0.475695308 0.507297234 0.538344258 0.568699704 0.598240820
## [26] 0.626859282 0.654461472 0.680968537 0.706316243 0.730454634
## [31] 0.753347528 0.774971854 0.795316865 0.814383239 0.832182106
## [36] 0.848734008 0.864067821 0.878219664 0.891231810 0.903151611
## [41] 0.914030472 0.923922856 0.932885369 0.940975899 0.948252843
## [46] 0.954774403 0.960597973 0.965779609 0.970373580

这时任务就完成了,但一开始我并不知道prod函数的存在,所以写的稍微复杂了一些:

不过在展示最初写法之前,还要介绍下reduce函数。

reduce函数常用于合并列表中的数据框,如:

reduce(list(iris, iris, iris), rbind) %>% dim()

## [1] 450   5

3个本来只有150行iris数据框合并到一起变成了450行。另外,reduce配合*函数使用,就实现了prod函数的功能,如:

reduce(1:5, `*`)

## [1] 120

prod(1:5)

## [1] 120

R中的一些运算符号,如上面用到的*,加上反引号(backtick,键盘esc下面那个符号),就可以像普通函数那样使用,如:

5 + 6

## [1] 11

`+`(5, 6)

## [1] 11

sum(5, 6)

## [1] 11

最初的代码是这样的:

map_dbl(2:50, ~ 1 - map(1:.x, ~ (366 - .x) / 365) %>% reduce(`*`))

##  [1] 0.002739726 0.008204166 0.016355912 0.027135574 0.040462484
##  [6] 0.056235703 0.074335292 0.094623834 0.116948178 0.141141378
## [11] 0.167024789 0.194410275 0.223102512 0.252901320 0.283604005
## [16] 0.315007665 0.346911418 0.379118526 0.411438384 0.443688335
## [21] 0.475695308 0.507297234 0.538344258 0.568699704 0.598240820
## [26] 0.626859282 0.654461472 0.680968537 0.706316243 0.730454634
## [31] 0.753347528 0.774971854 0.795316865 0.814383239 0.832182106
## [36] 0.848734008 0.864067821 0.878219664 0.891231810 0.903151611
## [41] 0.914030472 0.923922856 0.932885369 0.940975899 0.948252843
## [46] 0.954774403 0.960597973 0.965779609 0.970373580

虽然要复杂一些,但也说明map函数是可以嵌套的。

你可能感兴趣的:(R语言:Purrr包探索)