joblib 并行处理 Pandas 数据

直接使用 apply

import pandas as pd

def double_func(data):
    return pow(data,2)

data["double"] = data["source"].apply(double_func)

并行实现

import pandas as pd
from joblib import Parallel, delayed
from tqdm import tqdm, tqdm_notebook

tqdm_notebook().pandas()

def double_func(data):
    return pow(data,2)

def key_func(subset):
    subset["double"] = subset["source"].apply(double_func)

data_grouped = data.groupby(data.index)
results = Parallel(n_jobs=8)(delayed(key_func)(group) for name, group in tqdm(data_grouped))
data = pd.concat(results)

把整个 dataframe 根据 index,每行生成了一个子数据集,而把每个子数据集作为子任务使用多进程运行,最终生成 results 是多进程运行生成的结果的 list,使用 concat 重新组合就是我们最终想要的结果了。n_jobs 参数就是需要使用几个进程池来运行程序。

你可能感兴趣的:(Python,pandas,python)