协程

协程是一种用户轻量级线程。协程拥有自己的寄存器上下文和栈,协程调度切换时寄存器上下文和栈保存到其它地方,在切回来的时候恢复先前保存的寄存器上下文和栈,因此协程能保留上一次调用时的状态,每次过程重入时进入上一次离开时所处逻辑流的位置。协程的好处:
1、无需线程上下文切换的开销
2、无需原子操作锁定及同步的开销
3、方便切换控制流,简化编程模型
4、高并发+高扩展+低成本:一个cpu支持上万的协程都不是问题,适合高并发处理
缺点:
1、无法利用多核资源,协程的本质是个单线程,它不能同时将单个cpu的多个核用上,协程需要和进程配合才能在多cpu上运行
2、进行阻塞(blocking)操作(如IO)时会阻塞掉整个程序

greenlet模块:

from greenlet import greenlet
def test1():
    print('test1-1')
    gr2.switch()
    print('test1-2')
    gr2.switch()

def test2():
    print('test2-1')
    gr1.switch()
    print('test2-2')
gr1 = greenlet(test1) #启动一个协程
gr2 = greenlet(test2)
gr1.switch()
test1-1
test2-1
test1-2
test2-2

greenlet是手动切换线程上下文。greenlet(test1)启动一个协程后,gr1.switch()切换到test1执行,test1打印test1-1后切换到test2,test2打印test2-1后又切回test1,并记录到了上一次执行的位置,打印test1-2

gevent模块:gevent模块封装了greenlet,实现自动切换:

import gevent

def foo():
    print('in foo')
    gevent.sleep(2)#触发切换
    print('in foo 2')

def bar():
    print('in bar 1')
    gevent.sleep(1)
    print('in bar 2')

def func3():
    print('in func3 1')
    gevent.sleep(0)
    print('in func3 2')

gevent.joinall(
    [
        gevent.spawn(foo), #启动一个协程
        gevent.spawn(bar),
        gevent.spawn(func3)
    ]
)
in foo
in bar 1
in func3 1
in func3 2
in foo 2
in bar 2

启动三个协程,打印in foo后执行gevent.sleep(2),此时会切换至打印in bar 1,此时又遇切换,执行打印in func3 1和in func3 2,之后回到foo函数gevent.sleep(2)还未到达2秒,到达1秒后打印in bar 2,到达2秒后再打印in foo 2,总耗时2秒

协程爬虫简单例子:

from urllib import request
import gevent
from gevent import monkey
import time

# monkey.patch_all()#gevent检测不到urllib的IO操作,所以不会进行切换。monkey.patch_all()是给当前程序所有IO操作单独做上标记

def fun(url):
    res = request.urlopen(url)
    data = res.read()
    f = open('url.html','wb')
    f.write(data)
    f.close()
    print("%d bytes recived from %s" % (len(data),url))


urls = [ 'https://github.com/',
        'https://zz.253.com/v5.html#/yun/index'
         ]
sync_all_time = time.time()
for url in urls:
    fun(url)
print('同步总耗时:',time.time()-sync_all_time)

async_start_time = time.time()
gevent.joinall(
    [
        gevent.spawn(fun,'https://github.com/'),
        gevent.spawn(fun,'https://zz.253.com/v5.html#/yun/index'),
        # gevent.spawn(fun,'https://www.jianshu.com/'),
    ]
)
print('异步总耗时:',time.time()-async_start_time)
59864 bytes recived from https://github.com/
1175 bytes recived from https://zz.253.com/v5.html#/yun/index
同步总耗时: 2.9010000228881836
59854 bytes recived from https://github.com/
1175 bytes recived from https://zz.253.com/v5.html#/yun/index
异步总耗时: 7.056999921798706

gevent检测不到urllib的IO操作,不会进行切换,所以为串行。monkey.patch_all()是给当前程序所有IO操作单独做上标记,如此才并行。

你可能感兴趣的:(协程)