R语言如何多线程

相对于python或者perl来说，R给我的感觉是速度不是太快，有时候部分程序是可以用多线程进行并行运算的。

这里介绍一个包parallel。

方法1： `parallel`包

parallel包的常见函数

函数	作用
detectCores()	检查当前的可用核数
clusterExport()	配置当前环境
makeCluster()	分配核数
stopCluster()	关闭集群
parLapply()	lapply()函数的并行版本

这里说一下parLapply()这个函数，这个函数相当于R 内置的lapply()函数，这个函数据说速度快于for循环

# 使用lapply()
square <- function(x){
    x^2
}

# 结果会返回一个列表（因为列表能包纳各种数据结构）
lapply(c(1, 2, 3, 4, 5), square)

# 使用for
for(i in c(1, 2, 3, 4, 5)){
    square(i)
}

parLapply()函数与lapply()函数一样的用法，只不过多了一个多核的参数，另外它也是返回的一个列表list()。至于为什么返回的是列表，之前的我的文章中提到过R语言函数如何返回多个值

有关并行

在有时候的并行很简单，就是同一套操作流程，只是输入的文件或者数据不同

文件1    文件2    文件3
 或       或       或
数据1    数据2    数据3
 |        |        |
 +----+   |   +----+
      |   |   |
      v   v   v
    +------------+
    |    一套     |
    |    处理     |  function
    |    方式     |
    +------------+
      |   |   |
  +---+   |   +----+
  |       |        |
  v       v        v
结果1    结果2    结果3

那这个时候就可以把这一套的功能写为一个函数。对于后一步需要前一步的结果在分析，那么这样进行多线程就不行了，那么就比较复杂。

围观.jpeg

有时候数据量大，用for循环感觉亏了，一个人干活其他人围观这种，使用并行吧，哈哈～

开始使用

首先可以查看一下机器的核数

detectCores()

[1] 16

这里可以看到核数是16

之后设置使用多少个核

# 这里初始化8个核
cl <- makeCluster(8)

申明一个函数，这个函数被用于多线程的时候执行的步骤

注意：在执行的过程中，先前导入的外部的包是没有用的，也就是只有在执行的过程中导入才有用。也就是说需要在parLapply()执行的函数中导入那些需要的包才有用，另外最好不将数据以返回值返还，最好存为文件

test_funciton <- function(file){
    # 导入某某包
    library(packages)
    # 读取
    raw.data <- read.table(file)
    data <- somefunction(raw.data)
    # 存为文件
    write.csv(data, "out.csv")
}

导入需要的包

除了上述在函数体中加载包之外，也可以在事先用parallel的专门的函数进行加载

clusterExport(cl, library(packages))

开始多线程

parLapply(cl, c(file1, file2, file3), test_funciton)

归还核和内存给系统

运行完毕之后，需要释放，不然会一直占据资源

stopCluster(cl)

但是在有的时候可能因为数据量过大，虽然线程数合适，但是内存爆满错误，这个时候R中两种常用并行方法——1. parallel中提到了解决办法，下面的话引用自这篇博客

使用更少的线程进行并行

如果你的电脑内存非常小，有一个简单的方法确定你的最大使用线程：max cores = memory.limit() / memory.size()

将大量的并行分小部分进行

在代码中多使用rm()删除没用的变量，使用gc()回收内存空间

另外也可以采用snowfall包

其他

如果你打开资源管理器查看，你会发现在多线程过程中其中R出现了多个

R --slave --no-restore -e parallel:::.slaveRSOCK() --args MASTER=localhiost PORT=11288 OUT=/dev/null

这个不就是之前看到的命令行吗，难道是将函数作为一个R脚本然后执行相应的数据？

方法2：使用`bash`脚本结合`R`语言命令行

实际上，在将上述的功能整合为一个function，其实也可以将整个过程写为一个R脚本，在之前的一篇文章中我介绍了R语言接受命令行参数的三种方式，参照这篇文章将输入的文件放在命令行上作为R脚本的参数传输进去，当然了，这样的处理可能局限于文件，对于读取到内存中的数据就不能使用了。

比如写一个简单的R脚本吧test.r，这个就是做一下列表的转置。

# 读入命令行参数
args <- commandArgs(trailingOnly = TRUE)
# 按照顺序第一个是文件
file_path <- args[1]
# 第二个是输出文件路径
out_path <- args[2]

data <- read.table(file_path)
data.T <- t(data)

write.table(out_path, data.T)

下面用bash进行多线程

file_list=("file1" "file2" "file3")

parallel -j 3 "
    Rscript test.r {1}
" ::: ${file_list[@]}

参考

R语言并行化基础与提高
R语言通过parallel包实现多线程运行
R 语言多线程操作
R中两种常用并行方法——1. parallel
How-to go parallel in R – basics + tips

R语言如何多线程

R语言如何多线程

方法1： parallel包

开始使用

其他

方法2：使用bash脚本结合R语言命令行

参考

你可能感兴趣的:(R语言如何多线程)

方法1： `parallel`包

方法2：使用`bash`脚本结合`R`语言命令行