multiprocessing.Pool在初始化一个pool对象时,可以传initializer和initargs两个参数,在task开始进行运行前,进行一些初始化的工作。
p = Pool(processes=3, initializer=init_func, initargs=('test',))
initializer()在进程的woker方法中间被调用的,这里如果仅仅透传一些变量过去,initializer函数执行完之后,变量并不能被task执行时利用。
def worker(...):
...
if initializer is not None:
initializer(*args)
...
# do task()
例如,下面这个例子中的conn不能被process_data方法利用。
def get_cursor():
conn = psycopg2.connect(...).cursor()
def process_data(data):
# here I'd like to have the cursor so that I can do things with the data
if __name__ == "__main__":
pool = Pool(initializer=get_cursor, initargs=())
pool.map(process_data, get_some_data_iterator())
每一个子进程都是父进程的完整拷贝,我们可以使用global让每一个子进程有独立的database connection。
conn = None
def init():
global conn
conn = psycopg2.connect(...).cursor()
def task(i):
# do sth with conn
p = Pool(processes=3, initializer=init)
for i in range(5):
p.apply_async(func=task, args=(i,))
p.close()
p.join()
这样,数据库连接在子进程创建之后进行初始化,每个子进程都有自己的数据库链接。当其中一个子进程断掉连接的时候,不会影响其他子进程。