在学习python多进程时,进程上运行的方法接收多个参数和多个结果时遇到了问题,现在经过学习在这里总结一下
Pool.map()多参数任务
在给map方法传入带多个参数的方法不能达到预期的效果,像下面这样
def job(x ,y):
return x * y
if __name__ == "__main__":
pool = multiprocessing.Pool()
res = pool.map(job, 2, 3)
print res
所以只能通过对有多个参数的方法进行封装,在进程中运行封装后的方法如下
def job(x ,y):
return x * y
def job1(z):
return job(z[0], z[1])
if __name__ == "__main__":
pool = multiprocessing.Pool()
res = pool.map(job1, [(2, 3), (3, 4)])
print res
这样就能达到传递多个参数的效果
ps:如果需要得到多个结果可以传入多个元组在一个列表中
Pool.apply_async()输出多个迭代结果
在使用apply_async()方法接收多个参数的方法时,在任务方法中正常定义多个参数,参数以元组形式传入即可
但是给apply_async()方法传入多个值获取多个迭代结果时就会报错,因为该方法只能接收一个值,所以可以将该方法放入一个列表生成式中,如下
def job(x):
return x * x
if __name__ == "__main__":
pool multiprocessing.Pool()
res = [pool.apply_async(target=job, (i,)) for i in range(3)]
print [r.get() for r in res]
当想要提高一个任务的执行效率时,我们可以通过拆分任务,把这个任务拆分成多个子任务,然后利用多进程进行异步执行,即同时处理,缩短整体的任务时间。在python的multiprocessing包中,有两个可以构造异步执行的进程任务方法,apply_async()和map_async(),两者都可以分别添加任务,然后多进程同时执行。但是两者有着重要区别,下面进行说明。
对于apply_async(func,args),func为要执行任务的函数名,args为一个列表或元组这样的可迭代对象,里面包含的是要传递给func的参数,对于多个子任务,要分别多次调用apply_async()一一添加,不过这可以通过列表解析实现,以让多个进程的结果返回保存在一个列表中。而对于map_async(func,iterable,chunksize),如果多个子任务通过同一函数执行,只是参数不同,那么可以把拆分后的参数以列表形式通过iterable传入,并通过chunksize参数指定进程数(实际上这里的chunksize表示的是对iterable的拆分数,但最好让其等于进程数),这样就不需要一一添加。
以上只是两者细微的差别,更重要的差别在于,若是通过apply_async()方法,由于是手动指定进程并添加任务,这样每个进程的执行结果之间是独立的,会分别保存,这样的好处在于,尽管可能其中某几个进程出现了错误,抛出异常,但是并不会导致其他的进程也失败,其他的进程并不会受影响,而且当获取这个抛出异常的进程的结果时,还会返回异常信息;但是如果是map_async()方法,其子参数任务并不是独立的,如果其中的某个子参数任务抛出异常,同时也会导致其他的子参数任务停止,也就是说,并不是通过独立线程来执行不同的子参数任务的。
通过上述的对比,可知当拆分任务一提高执行效率时,通过列表解析使用apply_async()方法添加子任务,使用独立多进程去执行是比map_async()方法更好的,因此这种情况下,apply_async()是最优选择。