在现实生活中,有很多的场景中的事情是同时进行的,比如跳舞和唱歌是同时进行的。
在程序中,可以使用代码来模拟唱歌和跳舞的功能:
from time
import sleep
def sing():
for i
in range(
3):
print(
"正在唱歌...%d"%i)
sleep(
1)
def dance():
for i
in range(
3):
print(
"正在跳舞...%d"%i)
sleep(
1)
if __name__ ==
'__main__':
sing()
#唱歌
dance()
#跳舞
什么叫“多任务”呢?简单地说,就是操作系统可以同时运行多个任务。打个比方,你一边在用浏览器上网,一边在听MP3,一边在用Word赶作业,这就是多任务,至少同时有3个任务正在运行。还有很多任务悄悄地在后台同时运行着,只是桌面上没有显示而已。
现在,多核CPU已经非常普及了,但是,即使过去的单核CPU,也可以执行多任务。由于CPU执行代码都是顺序执行的,那么,单核CPU是怎么执行多任务的呢?
答案就是操作系统轮流让各个任务交替执行,任务1执行0.01秒,切换到任务2,任务2执行0.01秒,再切换到任务3,执行0.01秒……这样反复执行下去。表面上看,每个任务都是交替执行的,但是,由于CPU的执行速度实在是太快了,我们感觉就像所有任务都在同时执行一样。
真正的并行执行多任务只能在多核CPU上实现,但是,由于任务数量远远多于CPU的核心数量,所以,操作系统也会自动把很多任务轮流调度到每个核心上执行。
对于操作系统来说,一个任务就是一个进程(Process),比如打开一个浏览器就是启动一个浏览器进程,打开一个记事本就启动了一个记事本进程,打开两个记事本就启动了两个记事本进程,打开一个Word就启动了一个Word进程。
有些进程还不止同时干一件事,比如Word,它可以同时进行打字、拼写检查、打印等事情。在一个进程内部,要同时干多件事,就需要同时运行多个“子任务”,我们把进程内的这些“子任务”称为线程(Thread)。
由于每个进程至少要干一件事,所以,一个进程至少有一个线程。当然,像Word这种复杂的进程可以有多个线程,多个线程可以同时执行,多线程的执行方式和多进程是一样的,也是由操作系统在多个线程之间快速切换,让每个线程都短暂地交替运行,看起来就像同时执行一样。当然,真正地同时执行多线程需要多核CPU才可能实现。
我们前面编写的所有的Python程序,都是执行单任务的进程,也就是只有一个线程。如果我们要同时执行多个任务怎么办?
有两种解决方案:
一种是启动多个进程,每个进程虽然只有一个线程,但多个进程可以一块执行多个任务。
还有一种方法是启动一个进程,在一个进程内启动多个线程,这样,多个线程也可以一块执行多个任务。
当然还有第三种方法,就是启动多个进程,每个进程再启动多个线程,这样同时执行的任务就更多了,当然这种模型更复杂,实际很少采用。
总结一下就是,多任务的实现有3种方式:
import threading
g_num =
0def test(n):
global g_num
for x
in range(n):
g_num += x
g_num -= x
print(g_num)
if __name__ ==
'__main__':
t1 = threading.Thread(target=test, args=(
10,))
t2 = threading.Thread(target=test, args=(
10,))
t1.start()
t2.start()
在一个进程内的所有线程共享全局变量,很方便在多个线程间共享数据。缺点就是,线程是对全局变量随意遂改可能造成多线程之间对全局变量的混乱(即线程非安全)。
import threading
import time
ticket =
20
def sell_ticket():
global ticket
while
True:
if ticket >
0:
time.sleep(
0.5)
ticket -=
1
print(
'{}卖了一张票,还剩{}'.format(threading.current_thread().name, ticket))
else:
print(
'{}票卖完了'.format(threading.current_thread().name))
break
for i
in range(
5):
t = threading.Thread(target=sell_ticket, name=
'thread-{}'.format(i +
1))
t.start()
当多个线程几乎同时修改某一个共享数据的时候,需要进行同步控制。同步就是协同步调,按预定的先后次序进行运行。线程同步能够保证多个线程安全访问竞争资源,最简单的同步机制是引入互斥锁。
互斥锁为资源引入一个状态:锁定/非锁定
某个线程要更改共享数据时,先将其锁定,此时资源的状态为“锁定”,其他线程不能更改;直到该线程释放资源,将资源的状态变成“非锁定”,其他的线程才能再次锁定该资源。互斥锁保证了每次只有一个线程进行写入操作,从而保证了多线程情况下数据的正确性。
threading模块中定义了Lock类,可以方便的处理锁定:
# 创建锁
mutex = threading.Lock()
# 锁定
mutex.acquire()
# 释放
mutex.release()
如果在调用acquire对这个锁上锁之前 它已经被 其他线程上了锁,那么此时acquire会堵塞,直到这个锁被解锁为止。
和文件操作一样,Lock也可以使用with语句快速的实现打开和关闭操作。
import threading
import time
ticket =
20
lock = threading.Lock()
def sell_ticket():
global ticket
while
True:
lock.acquire()
if ticket >
0:
time.sleep(
0.5)
ticket -=
1
lock.release()
print(
'{}卖了一张票,还剩{}'.format(threading.current_thread().name, ticket))
else:
print(
'{}票卖完了'.format(threading.current_thread().name))
lock.release()
break
for i
in range(
5):
t = threading.Thread(target=sell_ticket, name=
'thread-{}'.format(i +
1))
t.start()
当一个线程调用锁的acquire()方法获得锁时,锁就进入“locked”状态。
每次只有一个线程可以获得锁。如果此时另一个线程试图获得这个锁,该线程就会变为“blocked”状态,称为“阻塞”,直到拥有锁的线程调用锁的release()方法释放锁之后,锁进入“unlocked”状态。
线程调度程序从处于同步阻塞状态的线程中选择一个来获得锁,并使得该线程进入运行(running)状态。
锁的好处:
锁的坏处:
线程之间有时需要通信,操作系统提供了很多机制来实现进程间的通信,其中我们使用最多的是队列Queue.
Queue是一个先进先出(First In First Out)的队列,主进程中创建一个Queue对象,并作为参数传入子进程,两者之间通过put( )放入数据,通过get( )取出数据,执行了get( )函数之后队列中的数据会被同时删除,可以使用multiprocessing模块的Queue实现多进程之间的数据传递。
import threading
import time
from queue
import Queue
def producer(queue):
for i
in range(
100):
print(
'{}存入了{}'.format(threading.current_thread().name, i))
queue.put(i)
time.sleep(
0.1)
return
def consumer(queue):
for x
in range(
100):
value = queue.get()
print(
'{}取到了{}'.format(threading.current_thread().name, value))
time.sleep(
0.1)
if
not value:
return
if __name__ ==
'__main__':
queue = Queue()
t1 = threading.Thread(target=producer, args=(queue,))
t2 = threading.Thread(target=consumer, args=(queue,))
t3 = threading.Thread(target=consumer, args=(queue,))
t4 = threading.Thread(target=consumer, args=(queue,))
t6 = threading.Thread(target=consumer, args=(queue,))
t1.start()
t2.start()
t3.start()
t4.start()
t6.start()
import socket
import threading
s = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
s.bind(('0.0.0.0', 8080))
def send_msg():
ip = input('请输入您要聊天的ip:')
port = int(input('请输入对方的端口号:'))
while True:
msg = input('请输入聊天内容:')
s.sendto(msg.encode('utf-8'), (ip, port))
if msg == "bye":
ip = input('请输入您要聊天的ip:')
port = int(input('请输入对方的端口号:'))
def recv_msg():
while True:
content, addr = s.recvfrom(1024)
print('接收到了{}主机{}端口的消息:{}'.format(addr[0], addr[1], content.decode('utf-8')),file=open('history.txt', 'a', encoding='utf-8'))
send_thread = threading.Thread(target=send_msg)
recv_thread = threading.Thread(target=recv_msg)
send_thread.start()
recv_thread.start()
程序:例如xxx.py这是程序,是一个静态的。
进程:一个程序运行起来后,代码+用到的资源 称之为进程,它是操作系统分配资源的基本单元。
不仅可以通过线程完成多任务,进程也是可以的。
工作中,任务数往往大于cpu的核数,即一定有一些任务正在执行,而另外一些任务在等待cpu进行执行,因此导致了有了不同的状态。
multiprocessing模块就是跨平台版本的多进程模块,提供了一个Process类来代表一个进程对象,这个对象可以理解为是一个独立的进程,可以执行另外的事情。
示例:创建一个进程,执行两个死循环。
from multiprocessing
import Process
import time
def run_proc():
"""子进程要执行的代码"""
while
True:
print(
"----2----")
time.sleep(
1)
if __name__==
'__main__':
p = Process(target=run_proc)
p.start()
while
True:
print(
"----1----")
time.sleep(
1)
Process( target [, name [, args [, kwargs]]])
Process创建的实例对象的常用方法:
Process创建的实例对象的常用属性:
示例:
from multiprocessing
import Process
import os
from time
import sleep
def run_proc(name, age, **kwargs):
for i
in range(
10):
print(
'子进程运行中,name= %s,age=%d ,pid=%d...' % (name, age, os.getpid()))
print(kwargs)
sleep(
0.2)
if __name__==
'__main__':
p = Process(target=run_proc, args=(
'test',
18), kwargs={
"m":
20})
p.start()
sleep(
1)
# 1秒中之后,立即结束子进程
p.terminate()
p.join()
开启过多的进程并不能提高你的效率,反而会降低你的效率,假设有500个任务,同时开启500个进程,这500个进程除了不能一起执行之外(cpu没有那么多核),操作系统调度这500个进程,让他们平均在4个或8个cpu上执行,这会占用很大的空间。
如果要启动大量的子进程,可以用进程池的方式批量创建子进程:
def task(n):
print(
'{}----->start'.format(n))
time.sleep(
1)
print(
'{}------>end'.format(n))
if __name__ ==
'__main__':
p = Pool(
8)
# 创建进程池,并指定线程池的个数,默认是CPU的核数
for i
in range(
1,
11):
# p.apply(task, args=(i,)) # 同步执行任务,一个一个的执行任务,没有并发效果
p.apply_async(task, args=(i,))
# 异步执行任务,可以达到并发效果
p.close()
p.join()
进程池获取任务的执行结果:
def task(n):
print(
'{}----->start'.format(n))
time.sleep(
1)
print(
'{}------>end'.format(n))
return n **
2
if __name__ ==
'__main__':
p = Pool(
4)
for i
in range(
1,
11):
res = p.apply_async(task, args=(i,))
# res 是任务的执行结果
print(res.get())
# 直接获取结果的弊端是,多任务又变成同步的了
p.close()
# p.join() 不需要再join了,因为 res.get()本身就是一个阻塞方法
异步获取线程的执行结果:
import time
from multiprocessing.pool
import Pool
def task(n):
print(
'{}----->start'.format(n))
time.sleep(
1)
print(
'{}------>end'.format(n))
return n **
2
if __name__ ==
'__main__':
p = Pool(
4)
res_list = []
for i
in range(
1,
11):
res = p.apply_async(task, args=(i,))
res_list.append(res)
# 使用列表来保存进程执行结果
for re
in res_list:
print(re.get())
p.close()
from multiprocessing
import Process
import os
nums = [
11,
22]
def work1():
"""子进程要执行的代码"""
print(
"in process1 pid=%d ,nums=%s" % (os.getpid(), nums))
for i
in range(
3):
nums.append(i)
print(
"in process1 pid=%d ,nums=%s" % (os.getpid(), nums))
def work2():
"""子进程要执行的代码"""
nums.pop()
print(
"in process2 pid=%d ,nums=%s" % (os.getpid(), nums))
if __name__ ==
'__main__':
p1 = Process(target=work1)
p1.start()
p1.join()
p2 = Process(target=work2)
p2.start()
print(
'in process0 pid={} ,nums={}'.format(os.getpid(),nums))
运行结果:
in process1 pid=
2707 ,nums=[
11,
22]
in process1 pid=
2707 ,nums=[
11,
22,
0]
in process1 pid=
2707 ,nums=[
11,
22,
0,
1]
in process1 pid=
2707 ,nums=[
11,
22,
0,
1,
2]
in process0 pid=
2706 ,nums=[
11,
22]
in process2 pid=
2708 ,nums=[
11]
线程和进程在使用上各有优缺点:线程执行开销小,但不利于资源的管理和保护;而进程正相反。
from multiprocessing
import Queue
q=Queue(
3)
#初始化一个Queue对象,最多可接收三条put消息
q.put(
"消息1")
q.put(
"消息2")
print(q.full())
#False
q.put(
"消息3")
print(q.full())
#True
#因为消息列队已满下面的try都会抛出异常,第一个try会等待2秒后再抛出异常,第二个Try会立刻抛出异常try:
q.put(
"消息4",
True,
2)
except:
print(
"消息列队已满,现有消息数量:%s"%q.qsize())
try:
q.put_nowait(
"消息4")
except:
print(
"消息列队已满,现有消息数量:%s"%q.qsize())
#推荐的方式,先判断消息列队是否已满,再写入if
not q.full():
q.put_nowait(
"消息4")
#读取消息时,先判断消息列队是否为空,再读取if
not q.empty():
for i
in range(q.qsize()):
print(q.get_nowait())
初始化Queue()对象时(例如:q=Queue()),若括号中没有指定最大可接收的消息数量,或数量为负值,那么就代表可接受的消息数量没有上限(直到内存的尽头);
1)如果block使用默认值,且没有设置timeout(单位秒),消息列队如果为空,此时程序将被阻塞(停在读取状态),直到从消息列队读到消息为止,如果设置了timeout,则会等待timeout秒,若还没读取到任何消息,则抛出"Queue.Empty"异常;
2)如果block值为False,消息列队如果为空,则会立刻抛出"Queue.Empty"异常;
1)如果block使用默认值,且没有设置timeout(单位秒),消息列队如果已经没有空间可写入,此时程序将被阻塞(停在写入状态),直到从消息列队腾出空间为止,如果设置了timeout,则会等待timeout秒,若还没空间,则抛出"Queue.Full"异常;
2)如果block值为False,消息列队如果没有空间可写入,则会立刻抛出"Queue.Full"异常;
我们以Queue为例,在父进程中创建两个子进程,一个往Queue里写数据,一个从Queue里读数据:
from multiprocessing
import Process, Queue
import os, time, random
# 写数据进程执行的代码:def write(q):
for value
in [
'A',
'B',
'C']:
print(
'Put %s to queue...' % value)
q.put(value)
time.sleep(random.random())
# 读数据进程执行的代码:def read(q):
while
True:
if
not q.empty():
value = q.get(
True)
print(
'Get %s from queue.' % value)
time.sleep(random.random())
else:
break
if __name__==
'__main__':
# 父进程创建Queue,并传给各个子进程:
q = Queue()
pw = Process(target=write, args=(q,))
pr = Process(target=read, args=(q,))
# 启动子进程pw,写入:
pw.start()
# 等待pw结束:
pw.join()
# 启动子进程pr,读取:
pr.start()
pr.join()
print(
'所有数据都写入并且读完')
当需要创建的子进程数量不多时,可以直接利用multiprocessing中的Process动态成生多个进程,但如果是上百甚至上千个目标,手动的去创建进程的工作量巨大,此时就可以用到multiprocessing模块提供的Pool方法。
初始化Pool时,可以指定一个最大进程数,当有新的请求提交到Pool中时,如果池还没有满,那么就会创建一个新的进程用来执行该请求;但如果池中的进程数已经达到指定的最大值,那么该请求就会等待,直到池中有进程结束,才会用之前的进程来执行新的任务,请看下面的实例:
from multiprocessing
import Pool
import os, time, random
def worker(msg):
t_start = time.time()
print(
"%s开始执行,进程号为%d" % (msg,os.getpid()))
# random.random()随机生成0~1之间的浮点数
time.sleep(random.random()*
2)
t_stop = time.time()
print(msg,
"执行完毕,耗时%0.2f" % (t_stop-t_start))
po = Pool(
3)
# 定义一个进程池,最大进程数3for i
in range(
0,
10):
# Pool().apply_async(要调用的目标,(传递给目标的参数元祖,))
# 每次循环将会用空闲出来的子进程去调用目标
po.apply_async(worker,(i,))
print(
"----start----")
po.close()
# 关闭进程池,关闭后po不再接收新的请求
po.join()
# 等待po中所有子进程执行完成,必须放在close语句之后
print(
"-----end-----")
运行效果:
----start----
0开始执行,进程号为
214661开始执行,进程号为
214682开始执行,进程号为
214670
执行完毕,耗时
1.013开始执行,进程号为
214662
执行完毕,耗时
1.244开始执行,进程号为
214673
执行完毕,耗时
0.565开始执行,进程号为
214661
执行完毕,耗时
1.686开始执行,进程号为
214684
执行完毕,耗时
0.677开始执行,进程号为
214675
执行完毕,耗时
0.838开始执行,进程号为
214666
执行完毕,耗时
0.759开始执行,进程号为
214687
执行完毕,耗时
1.038
执行完毕,耗时
1.059
执行完毕,耗时
1.69
-----end-----
multiprocessing.Pool常用函数解析:
如果要使用Pool创建进程,就需要使用multiprocessing.Manager()中的Queue(),而不是multiprocessing.Queue(),否则会得到一条如下的错误信息:
RuntimeError: Queue objects should only be shared between processes through inheritance.
下面的实例演示了进程池中的进程如何通信:
# 修改import中的Queue为Managerfrom multiprocessing
import Manager, Pool
import os, time, random
def reader(q):
print(
"reader启动(%s),父进程为(%s)" % (os.getpid(), os.getppid()))
for i
in range(q.qsize()):
print(
"reader从Queue获取到消息:%s" % q.get(
True))
def writer(q):
print(
"writer启动(%s),父进程为(%s)" % (os.getpid(), os.getppid()))
for i
in
"helloworld":
q.put(i)
if __name__ ==
"__main__":
print(
"(%s) start" % os.getpid())
q = Manager().Queue()
# 使用Manager中的Queue
po = Pool()
po.apply_async(writer, (q,))
time.sleep(
1)
# 先让上面的任务向Queue存入数据,然后再让下面的任务开始从中取数据
po.apply_async(reader, (q,))
po.close()
po.join()
print(
"(%s) End" % os.getpid())
运行结果:
(
4171) start
writer
启动(
4173),
父进程为(
4171)
reader
启动(
4174),
父进程为(
4171)
reader
从Queue获取到消息:h
reader
从Queue获取到消息:e
reader
从Queue获取到消息:l
reader
从Queue获取到消息:l
reader
从Queue获取到消息:o
reader
从Queue获取到消息:w
reader
从Queue获取到消息:o
reader
从Queue获取到消息:r
reader
从Queue获取到消息:l
reader
从Queue获取到消息:d
(
4171) End