程序:例如xxx.py这是程序,是一个静态的。
进程:一个程序运行起来后,代码+用到的资源 称之为进程,它是操作系统分配资源的基本单元。
不仅可以通过线程完成多任务,进程也是可以的。
工作中,任务数往往大于cpu的核数,即一定有一些任务正在执行,而另外一些任务在等待cpu进行执行,因此导致了有了不同的状态。
multiprocessing模块就是跨平台版本的多进程模块,提供了一个Process类来代表一个进程对象,这个对象可以理解为是一个独立的进程,可以执行另外的事情。
示例:创建一个进程,执行两个死循环。
from multiprocessing
import Process
import time
def run_proc():
"""子进程要执行的代码"""
while
True:
print(
"----2----")
time.sleep(
1)
if __name__==
'__main__':
p = Process(target=run_proc)
p.start()
while
True:
print(
"----1----")
time.sleep(
1)
Process( target [, name [, args [, kwargs]]])
Process创建的实例对象的常用方法:
Process创建的实例对象的常用属性:
示例:
from multiprocessing
import Process
import os
from time
import sleep
def run_proc(name, age, **kwargs):
for i
in range(
10):
print(
'子进程运行中,name= %s,age=%d ,pid=%d...' % (name, age, os.getpid()))
print(kwargs)
sleep(
0.2)
if __name__==
'__main__':
p = Process(target=run_proc, args=(
'test',
18), kwargs={
"m":
20})
p.start()
sleep(
1)
# 1秒中之后,立即结束子进程
p.terminate()
p.join()
开启过多的进程并不能提高你的效率,反而会降低你的效率,假设有500个任务,同时开启500个进程,这500个进程除了不能一起执行之外(cpu没有那么多核),操作系统调度这500个进程,让他们平均在4个或8个cpu上执行,这会占用很大的空间。
如果要启动大量的子进程,可以用进程池的方式批量创建子进程:
def task(n):
print(
'{}----->start'.format(n))
time.sleep(
1)
print(
'{}------>end'.format(n))
if __name__ ==
'__main__':
p = Pool(
8)
# 创建进程池,并指定线程池的个数,默认是CPU的核数
for i
in range(
1,
11):
# p.apply(task, args=(i,)) # 同步执行任务,一个一个的执行任务,没有并发效果
p.apply_async(task, args=(i,))
# 异步执行任务,可以达到并发效果
p.close()
p.join()
进程池获取任务的执行结果:
def task(n):
print(
'{}----->start'.format(n))
time.sleep(
1)
print(
'{}------>end'.format(n))
return n **
2
if __name__ ==
'__main__':
p = Pool(
4)
for i
in range(
1,
11):
res = p.apply_async(task, args=(i,))
# res 是任务的执行结果
print(res.get())
# 直接获取结果的弊端是,多任务又变成同步的了
p.close()
# p.join() 不需要再join了,因为 res.get()本身就是一个阻塞方法
异步获取线程的执行结果:
import time
from multiprocessing.pool
import Pool
def task(n):
print(
'{}----->start'.format(n))
time.sleep(
1)
print(
'{}------>end'.format(n))
return n **
2
if __name__ ==
'__main__':
p = Pool(
4)
res_list = []
for i
in range(
1,
11):
res = p.apply_async(task, args=(i,))
res_list.append(res)
# 使用列表来保存进程执行结果
for re
in res_list:
print(re.get())
p.close()
from multiprocessing
import Process
import os
nums = [
11,
22]
def work1():
"""子进程要执行的代码"""
print(
"in process1 pid=%d ,nums=%s" % (os.getpid(), nums))
for i
in range(
3):
nums.append(i)
print(
"in process1 pid=%d ,nums=%s" % (os.getpid(), nums))
def work2():
"""子进程要执行的代码"""
nums.pop()
print(
"in process2 pid=%d ,nums=%s" % (os.getpid(), nums))
if __name__ ==
'__main__':
p1 = Process(target=work1)
p1.start()
p1.join()
p2 = Process(target=work2)
p2.start()
print(
'in process0 pid={} ,nums={}'.format(os.getpid(),nums))
运行结果:
in process1 pid=
2707 ,nums=[
11,
22]
in process1 pid=
2707 ,nums=[
11,
22,
0]
in process1 pid=
2707 ,nums=[
11,
22,
0,
1]
in process1 pid=
2707 ,nums=[
11,
22,
0,
1,
2]
in process0 pid=
2706 ,nums=[
11,
22]
in process2 pid=
2708 ,nums=[
11]
线程和进程在使用上各有优缺点:线程执行开销小,但不利于资源的管理和保护;而进程正相反。
from multiprocessing
import Queue
q=Queue(
3)
#初始化一个Queue对象,最多可接收三条put消息
q.put(
"消息1")
q.put(
"消息2")
print(q.full())
#False
q.put(
"消息3")
print(q.full())
#True
#因为消息列队已满下面的try都会抛出异常,第一个try会等待2秒后再抛出异常,第二个Try会立刻抛出异常try:
q.put(
"消息4",
True,
2)
except:
print(
"消息列队已满,现有消息数量:%s"%q.qsize())
try:
q.put_nowait(
"消息4")
except:
print(
"消息列队已满,现有消息数量:%s"%q.qsize())
#推荐的方式,先判断消息列队是否已满,再写入if
not q.full():
q.put_nowait(
"消息4")
#读取消息时,先判断消息列队是否为空,再读取if
not q.empty():
for i
in range(q.qsize()):
print(q.get_nowait())
初始化Queue()对象时(例如:q=Queue()),若括号中没有指定最大可接收的消息数量,或数量为负值,那么就代表可接受的消息数量没有上限(直到内存的尽头);
1)如果block使用默认值,且没有设置timeout(单位秒),消息列队如果为空,此时程序将被阻塞(停在读取状态),直到从消息列队读到消息为止,如果设置了timeout,则会等待timeout秒,若还没读取到任何消息,则抛出"Queue.Empty"异常;
2)如果block值为False,消息列队如果为空,则会立刻抛出"Queue.Empty"异常;
1)如果block使用默认值,且没有设置timeout(单位秒),消息列队如果已经没有空间可写入,此时程序将被阻塞(停在写入状态),直到从消息列队腾出空间为止,如果设置了timeout,则会等待timeout秒,若还没空间,则抛出"Queue.Full"异常;
2)如果block值为False,消息列队如果没有空间可写入,则会立刻抛出"Queue.Full"异常;
我们以Queue为例,在父进程中创建两个子进程,一个往Queue里写数据,一个从Queue里读数据:
from multiprocessing
import Process, Queue
import os, time, random
# 写数据进程执行的代码:def write(q):
for value
in [
'A',
'B',
'C']:
print(
'Put %s to queue...' % value)
q.put(value)
time.sleep(random.random())
# 读数据进程执行的代码:def read(q):
while
True:
if
not q.empty():
value = q.get(
True)
print(
'Get %s from queue.' % value)
time.sleep(random.random())
else:
break
if __name__==
'__main__':
# 父进程创建Queue,并传给各个子进程:
q = Queue()
pw = Process(target=write, args=(q,))
pr = Process(target=read, args=(q,))
# 启动子进程pw,写入:
pw.start()
# 等待pw结束:
pw.join()
# 启动子进程pr,读取:
pr.start()
pr.join()
print(
'所有数据都写入并且读完')
当需要创建的子进程数量不多时,可以直接利用multiprocessing中的Process动态成生多个进程,但如果是上百甚至上千个目标,手动的去创建进程的工作量巨大,此时就可以用到multiprocessing模块提供的Pool方法。
初始化Pool时,可以指定一个最大进程数,当有新的请求提交到Pool中时,如果池还没有满,那么就会创建一个新的进程用来执行该请求;但如果池中的进程数已经达到指定的最大值,那么该请求就会等待,直到池中有进程结束,才会用之前的进程来执行新的任务,请看下面的实例:
from multiprocessing
import Pool
import os, time, random
def worker(msg):
t_start = time.time()
print(
"%s开始执行,进程号为%d" % (msg,os.getpid()))
# random.random()随机生成0~1之间的浮点数
time.sleep(random.random()*
2)
t_stop = time.time()
print(msg,
"执行完毕,耗时%0.2f" % (t_stop-t_start))
po = Pool(
3)
# 定义一个进程池,最大进程数3for i
in range(
0,
10):
# Pool().apply_async(要调用的目标,(传递给目标的参数元祖,))
# 每次循环将会用空闲出来的子进程去调用目标
po.apply_async(worker,(i,))
print(
"----start----")
po.close()
# 关闭进程池,关闭后po不再接收新的请求
po.join()
# 等待po中所有子进程执行完成,必须放在close语句之后
print(
"-----end-----")
运行效果:
----start----
0开始执行,进程号为
214661开始执行,进程号为
214682开始执行,进程号为
214670
执行完毕,耗时
1.013开始执行,进程号为
214662
执行完毕,耗时
1.244开始执行,进程号为
214673
执行完毕,耗时
0.565开始执行,进程号为
214661
执行完毕,耗时
1.686开始执行,进程号为
214684
执行完毕,耗时
0.677开始执行,进程号为
214675
执行完毕,耗时
0.838开始执行,进程号为
214666
执行完毕,耗时
0.759开始执行,进程号为
214687
执行完毕,耗时
1.038
执行完毕,耗时
1.059
执行完毕,耗时
1.69
-----end-----
multiprocessing.Pool常用函数解析:
如果要使用Pool创建进程,就需要使用multiprocessing.Manager()中的Queue(),而不是multiprocessing.Queue(),否则会得到一条如下的错误信息:
RuntimeError: Queue objects should only be shared between processes through inheritance.
下面的实例演示了进程池中的进程如何通信:
# 修改import中的Queue为Managerfrom multiprocessing
import Manager, Pool
import os, time, random
def reader(q):
print(
"reader启动(%s),父进程为(%s)" % (os.getpid(), os.getppid()))
for i
in range(q.qsize()):
print(
"reader从Queue获取到消息:%s" % q.get(
True))
def writer(q):
print(
"writer启动(%s),父进程为(%s)" % (os.getpid(), os.getppid()))
for i
in
"helloworld":
q.put(i)
if __name__ ==
"__main__":
print(
"(%s) start" % os.getpid())
q = Manager().Queue()
# 使用Manager中的Queue
po = Pool()
po.apply_async(writer, (q,))
time.sleep(
1)
# 先让上面的任务向Queue存入数据,然后再让下面的任务开始从中取数据
po.apply_async(reader, (q,))
po.close()
po.join()
print(
"(%s) End" % os.getpid())
运行结果:
(
4171) start
writer
启动(
4173),
父进程为(
4171)
reader
启动(
4174),
父进程为(
4171)
reader
从Queue获取到消息:h
reader
从Queue获取到消息:e
reader
从Queue获取到消息:l
reader
从Queue获取到消息:l
reader
从Queue获取到消息:o
reader
从Queue获取到消息:w
reader
从Queue获取到消息:o
reader
从Queue获取到消息:r
reader
从Queue获取到消息:l
reader
从Queue获取到消息:d
(
4171) End