本节内容
-
线程池
- 进程池
-
协程
-
try异常处理
-
IO多路复用
- 线程的继承调用
1.线程池
线程池帮助你来管理线程,不再需要每个任务都创建一个线程进行处理任务。
任务需要执行时,会从线程池申请线程,有则使用线程池的线程执行任务,如果没有就等着,其他在执行的任务执行完毕后释放线程,等待的任务就可以使用释放的线程来执行操作了。
from concurrent.futures import ThreadPoolExecutor
import requests
import time
def taks(url): # 线程的回调函数,处理消息
time.sleep(1)
response = requests.get(url)
print(response.url,response.status_code)
pool = ThreadPoolExecutor(2) # 线程池中有两个线程轮流工作
url_list = [
'http://www.baidu.com', # 数据是了看清楚程序是同时执行两个。
'http://www.baidu.com',
'http://www.baidu.com',
'http://www.baidu.com',
'http://www.baidu.com',
'http://www.baidu.com',
'http://www.baidu.com',
'http://www.baidu.com',
]
for url in url_list:
# 去线程池中去线程工作
pool.submit(taks,url)
2.进程池
进程池和线程池在我看来其实是差不多的。
下面使用进程池来实现和上面同样的效果。
from concurrent.futures import ProcessPoolExecutor
import time
import requests
def task(url):
time.sleep(1)
response = requests.get(url)
print(response.url,response.status_code)
pool = ProcessPoolExecutor(2) # 定义进程池
url_list = [
'http://www.baidu.com', # 数据是了看清楚程序是同时执行两个。
'http://www.baidu.com',
'http://www.baidu.com',
'http://www.baidu.com',
'http://www.baidu.com',
'http://www.baidu.com',
'http://www.baidu.com',
'http://www.baidu.com',
]
if __name__ == '__main__':
for url in url_list:
pool.submit(task,url)
进程池回调函数的使用:
# pip3 install requests
from concurrent.futures import ThreadPoolExecutor
import requests
import time
def txt(futer): # 负责处理数据
down_txt = futer.result()
print("处理后的信息:",down_txt.url,down_txt.status_code)
def down(url):# 负责下载
print('开始请求:', url)
response = requests.get(url)
return response
pool = ThreadPoolExecutor(2)
url_list=[
'http://www.sina.com.cn',
'http://www.autohome.com.cn',
'http://www.oldboyedu.com',
'http://www.qq.com',
'http://www.taobao.com',
'http://www.baidu.com',
]
for url in url_list:
futer = pool.submit(down,url)
futer.add_done_callback(txt)
3.协程
线程和进程的操作是由程序触发系统接口,最后的执行者是系统;协程的操作则是程序员。
协程存在的意义:对于多线程应用,CPU通过切片的方式来切换线程间的执行,线程切换时需要耗时(保存状态,下次继续)。协程,则只使用一个线程,在一个线程中规定某个代码块执行顺序。
协程的适用场景:当程序中存在大量不需要CPU的操作时(IO),适用于协程;
协程的好处:
- 无需线程上下文切换的开销
- 无需原子操作锁定及同步的开销
- "原子操作(atomic operation)是不需要synchronized",所谓原子操作是指不会被线程调度机制打断的操作;这种操作一旦开始,就一直运行到结束,中间不会有任何 context switch (切换到另一个线程)。原子操作可以是一个步骤,也可以是多个操作步骤,但是其顺序是不可以被打乱,或者切割掉只执行部分。视作整体是原子性的核心。
- 方便切换控制流,简化编程模型
- 高并发+高扩展性+低成本:一个CPU支持上万的协程都不是问题。所以很适合用于高并发处理。
缺点:
- 无法利用多核资源:协程的本质是个单线程,它不能同时将 单个CPU 的多个核用上,协程需要和进程配合才能运行在多CPU上.当然我们日常所编写的绝大部分应用都没有这个必要,除非是cpu密集型应用。
- 进行阻塞(Blocking)操作(如IO时)会阻塞掉整个程序
我们先给协程一个标准定义,即符合什么条件就能称之为协程:
- 必须在只有一个单线程里实现并发
- 修改共享数据不需加锁
- 用户程序里自己保存多个控制流的上下文栈
- 一个协程遇到IO操作自动切换到其它协程
3.1 greenlet
greenlet是一个用C实现的协程模块,相比与python自带的yield,它可以使你在任意函数之间随意切换,而不需把这个函数先声明为generator
from greenlet import greenlet def test1(): print(12) gr2.switch() print(34) gr2.switch() def test2(): print(56) gr1.switch() print(78) gr1 = greenlet(test1) gr2 = greenlet(test2) gr1.switch()
3.2 gevent
Gevent 是一个第三方库,可以轻松通过gevent实现并发同步或异步编程,在gevent中用到的主要模式是Greenlet, 它是以C扩展模块形式接入Python的轻量级协程。 Greenlet全部运行在主程序操作系统进程的内部,但它们被协作式地调度。
import gevent
def task(pid):
gevent.sleep(0.5)
print('Task %s done' % pid)
def synchronous():
for i in range(1, 10):
task(i)
def asynchronous():
threads = [gevent.spawn(task, i) for i in range(10)]
gevent.joinall(threads)
print('Synchronous:')
synchronous()
print('Asynchronous:')
asynchronous()
上面程序的重要部分是将task函数封装到Greenlet内部线程的gevent.spawn
。 初始化的greenlet列表存放在数组threads
中,此数组被传给gevent.joinall
函数,后者阻塞当前流程,并执行所有给定的greenlet。执行流程只会在 所有greenlet执行完后才会继续向下走。
遇到IO阻塞时会自动切换任务
import gevent
import requests
def func(url):
response = requests.get(url)
print(response.url,response.status_code)
gevent.joinall([
gevent.spawn(func, 'http://www.oldboyedu.com/'),
gevent.spawn(func, 'http://www.baidu.com/'),
gevent.spawn(func, 'http://autohome.com/'),
])
协程的详细使用:
http://www.cnblogs.com/aylin/p/5601969.html
http://www.cnblogs.com/alex3714/articles/5248247.html
4. try异常处理
异常处理的注意事项
缩进错误和语法错误无法捕捉到。
IndentationError:缩进错误
SyntaxError:语法错误
Exception 相当于 BaseException 都是万能异常
try:
print(name)
except NameError as e:
print(e)
else:
print("如果什么错误也没有会执行else下的代码")
finally:
print("无论有没有错都执行finally下的代码")
# 输出
# name 'name' is not defined
# 无论有没有错都执行finally下的代码
1.name变量不存在,捕捉NameErrot异常,打印异常信息
try:
print(name)
except NameError as e:
print(e)
2.抓多个异常(只能抓一个)
try:
name=[1,2,3]
print(names)
print(name[4])
except NameError as e:
print(e)
except IndexError as e:
print(e)
3.抓多个异常(一次也只能抓到一个异常)
try:
name=[1,2,3]
print(names)
print(name[4])
except (NameError,IndexError) as e:
print(e)
4.万能异常(Exception)
try:
name=[1,2,3]
print(names)
print(name[4])
except Exception as e:
print(e)
5.异常用法
try:
pass
except NameError as e:
print(e)
except IndexError as e:
print(e)
except Exception as e:
print(e)
6.自定义异常
class helei(Exception): # 继承 Exception
def __init__(self,msg):
self.message = msg
# def __str__(self): #被print调用时执行,可以不写
# return self.message
try:
raise helei('我的异常') # 触发异常
except helei as e:
print(e)
5.IO多路复用
I/O多路复用指:通过一种机制,可以监视多个描述符,一旦某个描述符就绪(一般是读就绪或者写就绪),能够通知程序进行相应的读写操作。
select select最早于1983年出现在4.2BSD中,它通过一个select()系统调用来监视多个文件描述符的数组,当select()返回后,该数组中就绪的文件描述符便会被内核修改标志位,使得进程可以获得这些文件描述符从而进行后续的读写操作。 select目前几乎在所有的平台上支持,其良好跨平台支持也是它的一个优点,事实上从现在看来,这也是它所剩不多的优点之一。 select的一个缺点在于单个进程能够监视的文件描述符的数量存在最大限制,在Linux上一般为1024,不过可以通过修改宏定义甚至重新编译内核的方式提升这一限制。 另外,select()所维护的存储大量文件描述符的数据结构,随着文件描述符数量的增大,其复制的开销也线性增长。同时,由于网络响应时间的延迟使得大量TCP连接处于非活跃状态,但调用select()会对所有socket进行一次线性扫描,所以这也浪费了一定的开销。 poll poll在1986年诞生于System V Release 3,它和select在本质上没有多大差别,但是poll没有最大文件描述符数量的限制。 poll和select同样存在一个缺点就是,包含大量文件描述符的数组被整体复制于用户态和内核的地址空间之间,而不论这些文件描述符是否就绪,它的开销随着文件描述符数量的增加而线性增大。 另外,select()和poll()将就绪的文件描述符告诉进程后,如果进程没有对其进行IO操作,那么下次调用select()和poll()的时候将再次报告这些文件描述符,所以它们一般不会丢失就绪的消息,这种方式称为水平触发(Level Triggered)。 epoll 直到Linux2.6才出现了由内核直接支持的实现方法,那就是epoll,它几乎具备了之前所说的一切优点,被公认为Linux2.6下性能最好的多路I/O就绪通知方法。 epoll可以同时支持水平触发和边缘触发(Edge Triggered,只告诉进程哪些文件描述符刚刚变为就绪状态,它只说一遍,如果我们没有采取行动,那么它将不会再次告知,这种方式称为边缘触发),理论上边缘触发的性能要更高一些,但是代码实现相当复杂。 epoll同样只告知那些就绪的文件描述符,而且当我们调用epoll_wait()获得就绪文件描述符时,返回的不是实际的描述符,而是一个代表就绪描述符数量的值,你只需要去epoll指定的一个数组中依次取得相应数量的文件描述符即可,这里也使用了内存映射(mmap)技术,这样便彻底省掉了这些文件描述符在系统调用时复制的开销。 另一个本质的改进在于epoll采用基于事件的就绪通知方式。在select/poll中,进程只有在调用一定的方法后,内核才对所有监视的文件描述符进行扫描,而epoll事先通过epoll_ctl()来注册一个文件描述符,一旦基于某个文件描述符就绪时,内核会采用类似callback的回调机制,迅速激活这个文件描述符,当进程调用epoll_wait()时便得到通知。
Python中有一个select模块,其中提供了:select、poll、epoll三个方法,分别调用系统的 select,poll,epoll 从而实现IO多路复用。
Windows Python:
提供: select
Mac Python:
提供: select
Linux Python:
提供: select、poll、epoll
注意:网络操作、文件操作、终端操作等均属于IO操作,对于windows只支持Socket操作,其他系统支持其他IO操作,但是无法检测 普通文件操作 自动上次读取是否已经变化。
对于select方法:
句柄列表11, 句柄列表22, 句柄列表33 = select.select(句柄序列1, 句柄序列2, 句柄序列3, 超时时间) 参数: 可接受四个参数(前三个必须) 返回值:三个列表 select方法用来监视文件句柄,如果句柄发生变化,则获取该句柄。 1、当 参数1 序列中的句柄发生可读时(accetp和read),则获取发生变化的句柄并添加到 返回值1 序列中 2、当 参数2 序列中含有句柄时,则将该序列中所有的句柄添加到 返回值2 序列中 3、当 参数3 序列中的句柄发生错误时,则将该发生错误的句柄添加到 返回值3 序列中 4、当 超时时间 未设置,则select会一直阻塞,直到监听的句柄发生变化 当 超时时间 = 1时,那么如果监听的句柄均无任何变化,则select会阻塞 1 秒,之后返回三个空列表,如果监听的句柄有变化,则直接执行。
import socket import select sk1 = socket.socket() sk1.bind(('127.0.0.1',8001)) sk1.listen(5) sk2 = socket.socket() sk2.bind(('127.0.0.1',8002)) sk2.listen(5) inputs = [sk1,sk2] while True: r, w, e = select.select(inputs, [], [], 5) for obj in r: if obj in [sk1,sk2]: print('新连接来了。。') conn,addr = obj.accept() inputs.append(conn) else: print('有用户发消息来了。。') data = obj.recv(1024) obj.sendall(data)
import socket import select client = socket.socket() client.connect(('127.0.0.1', 8001,)) while True: # v = input('>>>') # client.sendall(bytes(v,encoding='utf-8')) # ret = client.recv(1024) # print('服务器返回:',ret) read_list = [client] write_list = [] # print('select') for obj in read_list: if obj: data = input(":>>") obj.send(data.encode()) read_list.remove(obj) write_list.append(obj) else: pass r, w, e = select.select(read_list, write_list, read_list) # print('r',r) # print('w',w) for obj in write_list: data = obj.recv(1024) print(data)
import socket client = socket.socket() client.connect(('127.0.0.1',8002,)) while True: v = input('>>>') client.sendall(bytes(v,encoding='utf-8')) ret = client.recv(1024) print('服务器返回:',ret)
抄袭地址:http://www.cnblogs.com/wupeiqi/articles/5040823.html
select,poll,epoll详细看这里:
http://www.cnblogs.com/alex3714/p/4372426.html
https://segmentfault.com/a/1190000003063859
https://my.oschina.net/moooofly/blog/147297
6. 线程的继承调用
忘了,下次补。
adfsaf