R-并行计算

啊。。。找了一下,R 居然真的有办法可以多cpu平行运算!!!snowfall包!先在这里寄存一下。明天实验。太棒了!

转贴自:不周山

R本身虽然只能以单线程的方式运行与计算,但它有大量的包提供了方便而多样的并行计算方式,支持包括SOCKET、MPI、PVM、NWS等等多种 线程沟通方式。最流行最成熟的当然是MPI了,Rmpi包也因此相当受欢迎,在它的基础上可以实现各种MPI支持的并行编程范式。但要论简单易用,支持协 议的多样性,就得说说snow包及其简化包装版snowfall包了。snow支持上面提到的四种线程沟通协议,所以即使没有安装MPI或者对MPI了解 不多,最基本的也可以直接使用SOCKET方式快速上手。而有了snowfall,更是使得并行化的计算变得如同平常编程一般的简单。

由于这些包是为R而扩展的,所以跟R的矢量式编程思想能无缝地结合,只要你的程序已经用矢量化语言描述出来(比如R的apply系列函数或简单矩阵运算),再移植到snowfall并行计算平台几乎就是0成本。

下面通过两个简单的函数来说明snowfall的使用及其性能。在运行测试函数之前都需要先载入snowfall包,即library(snowfall)

测试函数1:

   
 
foo <- function(i){
cat(sprintf('log: item %s', i)) return(2^i)
} test.base <- function(){ x = 1:10 sfInit(parallel=TRUE, cpus=2, slaveOutfile='snowfall.log') sfExport('foo') res = sfClusterApplyLB(x, fun='foo') sfStop()
cat(unlist(res))
}

这个函数说明了snowfall包的基本使用:

  1. 先通过第7行代码初始化计算集群,参数分明指明了运行并行模式、使用本地的两个cpu作运算、定位各slave的日志输出;
  2. 第8行代码把foo这个函数发布到各slave;
  3. 第9行代码把x传给foo函数计算,对x这个向量中不同的元素作并行,这里sfClusterApplyLB的作用类似于R里的apply函数;
  4. 第10行停止计算集群;
  5. 第2行的打印信息会输出到slaveOutfile指定的日志文件中。

测试函数2:

 
mysort <- function(x){
replicate(5, sort(x))
 return(sort(x)[1:10]) } test.apply <- function(cpus=4){
M = matrix(rnorm(10000000), 100, 100000) print('sequence run:')
print(system.time(x<-apply(M, 2, mysort))) t = Sys.time() # sfInit(parallel=TRUE, socketHosts=c(rep('balin',2), rep('dwalin',2)))
sfInit(parallel=TRUE, cpus=cpus) print(sprintf('%s cpus to be used', sfCpus()))
print('parallel time cost:') print(system.time(x<-sfApply(M, 2, mysort))) sfStop()
print(paste('total parallel time cost:', Sys.time()-t))
}

这个函数展示了一个实际的有一定负载量的计算过程。

  1. 第6行生成一个100*100000的测试矩阵M;
  2. 第8行对M的每一列应用mysort这个函数,mysort函数在上面有定义,除了排序之外,还做了一些额外的无用功,增加计算负载,这是单线程计算范式,用于作对比;
  3. 第14行进行实际计算,作用跟第8行一样,不同之处在于这里是利用并行计算范式进行计算,使用的slave数量由cpus参数指定;
  4. 可以尝试拿第10行置换第11行,第11行是单机多核并行,第10行是多机多核并行,各机器使用cpu的数量由socketHosts里该机器名出现次数而定(balin和dwalin都是机器名);
  5. 在使用同样多的slave的情况下,多机多核通常会比单机多核要慢一点,因为涉及到网络IO。

测试函数2的性能测试如下:

  • 非并行情况下,总耗时31秒多;
  • 2 slave的情况下,总耗时22秒多;
  • 4 slave的情况下,总耗时接近15秒。
  • 补:在sfInit函数初始化时,设置type=’MPI’,使用MPI方式并行,4 slave情况下,比SOCKET方式稍慢,耗时17秒多。

即slave增加4倍时,计算时间减少一半。

你可能感兴趣的:(并行计算)