Joblib是一个可以简单地将Python代码转换为并行计算模式的软件包,它可非常简单并行我们的程序,从而提高计算速度。
Joblib是一组用于在Python中提供轻量级流水线的工具。 它具有以下功能:
透明的磁盘缓存功能和“懒惰”执行模式,简单的并行计算
Joblib对numpy大型数组进行了特定的优化,简单,快速。
from joblib import Parallel, delayed
def func(param1, param2):
return param1 + param2
res_list = Parallel(n_jobs=job_num)(delayed(func)(param1, param2) for param1 in param1_list)
使用joblib库的Parallel,delayed。其中n_jobs代表并行的进程数,一般不超过设备CPU的个数,func是执行的子函数,传入的参数param1可以来自一个参数list或者任何可迭代对象,也可以传入固定的参数例如param2。
函数的返回值按照遍历的参数list的顺序依次以列表的形式返回到reslist中。
joblib还具有快速磁盘缓存和快速压缩的功能。使用joblib.dump和joblib.load可以提高大数据的读取和存储效率。