看统计书,有一道题问n人之中至少有两人生日相同的概率。感觉这道题非常适合用来练习purrr
包的基本用法,于是就试了下。
对于这道题,可以先算出所有人的生日都不相同的概率,然后再用1减去这个概率。当人数为2人时,概率是:
1 - (365 / 365) * (364 / 365)
## [1] 0.002739726
当人数为3人时,概率是:
1 - (365 / 365) * (364 / 365) * (363 / 365)
## [1] 0.008204166
写成数学公式的话,大概是这样:
为了方便使用,可以写成函数:
samebirth <- function(n) {
temp <- 1 - prod(365:(366 - n)) / 365 ^ n
print(temp)
}
试一下:
samebirth(2)
## [1] 0.002739726
samebirth(3)
## [1] 0.008204166
没有问题。但是要想同时计算2人和3人的概率,就会出现问题:
samebirth(2:3)
## Warning in 365:(366 - n): numerical expression has 2 elements: only the
## first used
## [1] 0.002739726 0.997267780
此时就可以利用purrr
包中的map
函数,把.x
参数所代表的数据中的每一个元素映射到.f
位置的函数上:
library(purrr)
map(2:3, samebirth)
## [1] 0.002739726
## [1] 0.008204166
## [[1]]
## [1] 0.002739726
##
## [[2]]
## [1] 0.008204166
这次同时算出了2人和3人情况下的概率,而且数值是正确的了,但不知道为什么数值都显示了两遍。因为samebirth
函数比较短,所以可以直接在map
中使用匿名函数。当然,也可以使用apply
家族的函数,但map
中可以写成公式式匿名函数,进而使代码更简洁:
map(2:3, ~ 1 - prod(365:(366 - .x)) / 365 ^ .x)
## [[1]]
## [1] 0.002739726
##
## [[2]]
## [1] 0.008204166
这里的prod
函数的作用是累乘,2和3依次被映射到了.x
处,然后计算出概率。
如果要计算更多的人数,比如50,可以将3改为50,但因为map
函数默认产生列表,结果输出会很长,这是可以将map
函数改为map_dbl
,指定输出数值型的结果:
map_dbl(2:50, ~ 1 - prod(365 : (366 - .x)) / 365 ^ .x)
## [1] 0.002739726 0.008204166 0.016355912 0.027135574 0.040462484
## [6] 0.056235703 0.074335292 0.094623834 0.116948178 0.141141378
## [11] 0.167024789 0.194410275 0.223102512 0.252901320 0.283604005
## [16] 0.315007665 0.346911418 0.379118526 0.411438384 0.443688335
## [21] 0.475695308 0.507297234 0.538344258 0.568699704 0.598240820
## [26] 0.626859282 0.654461472 0.680968537 0.706316243 0.730454634
## [31] 0.753347528 0.774971854 0.795316865 0.814383239 0.832182106
## [36] 0.848734008 0.864067821 0.878219664 0.891231810 0.903151611
## [41] 0.914030472 0.923922856 0.932885369 0.940975899 0.948252843
## [46] 0.954774403 0.960597973 0.965779609 0.970373580
这时任务就完成了,但一开始我并不知道prod
函数的存在,所以写的稍微复杂了一些:
不过在展示最初写法之前,还要介绍下reduce
函数。
reduce
函数常用于合并列表中的数据框,如:
reduce(list(iris, iris, iris), rbind) %>% dim()
## [1] 450 5
3个本来只有150行iris
数据框合并到一起变成了450行。另外,reduce
配合*
函数使用,就实现了prod
函数的功能,如:
reduce(1:5, `*`)
## [1] 120
prod(1:5)
## [1] 120
R中的一些运算符号,如上面用到的*,加上反引号(backtick,键盘esc下面那个符号),就可以像普通函数那样使用,如:
5 + 6
## [1] 11
`+`(5, 6)
## [1] 11
sum(5, 6)
## [1] 11
最初的代码是这样的:
map_dbl(2:50, ~ 1 - map(1:.x, ~ (366 - .x) / 365) %>% reduce(`*`))
## [1] 0.002739726 0.008204166 0.016355912 0.027135574 0.040462484
## [6] 0.056235703 0.074335292 0.094623834 0.116948178 0.141141378
## [11] 0.167024789 0.194410275 0.223102512 0.252901320 0.283604005
## [16] 0.315007665 0.346911418 0.379118526 0.411438384 0.443688335
## [21] 0.475695308 0.507297234 0.538344258 0.568699704 0.598240820
## [26] 0.626859282 0.654461472 0.680968537 0.706316243 0.730454634
## [31] 0.753347528 0.774971854 0.795316865 0.814383239 0.832182106
## [36] 0.848734008 0.864067821 0.878219664 0.891231810 0.903151611
## [41] 0.914030472 0.923922856 0.932885369 0.940975899 0.948252843
## [46] 0.954774403 0.960597973 0.965779609 0.970373580
虽然要复杂一些,但也说明map
函数是可以嵌套的。