multiprocessing.Pool中initializer的利用

multiprocessing.Pool在初始化一个pool对象时,可以传initializer和initargs两个参数,在task开始进行运行前,进行一些初始化的工作。

p = Pool(processes=3, initializer=init_func, initargs=('test',))

initializer()在进程的woker方法中间被调用的,这里如果仅仅透传一些变量过去,initializer函数执行完之后,变量并不能被task执行时利用。

def worker(...):
    ...
    if initializer is not None:
        initializer(*args)
    ...
    # do task()

例如,下面这个例子中的conn不能被process_data方法利用。

def get_cursor():
    conn = psycopg2.connect(...).cursor()

def process_data(data):
    # here I'd like to have the cursor so that I can do things with the data

if __name__ == "__main__":
    pool = Pool(initializer=get_cursor, initargs=())
    pool.map(process_data, get_some_data_iterator())

每一个子进程都是父进程的完整拷贝,我们可以使用global让每一个子进程有独立的database connection。

conn = None
def init():
    global conn
    conn = psycopg2.connect(...).cursor()

def task(i):
    # do sth with conn

p = Pool(processes=3, initializer=init)
for i in range(5):
    p.apply_async(func=task, args=(i,))

p.close()
p.join()

这样,数据库连接在子进程创建之后进行初始化,每个子进程都有自己的数据库链接。当其中一个子进程断掉连接的时候,不会影响其他子进程。

你可能感兴趣的:(python,并发,多进程,Python基础)