在说协程之前,先来说一下GIL的问题.
以下是对于知乎上 https://zhuanlan.zhihu.com/p/20953544 以及 http://cenalulu.github.io/python/gil-in-python/ 这2篇文章的理解:
首先GIL, 全称是Global interpreter lock, 全局解释器锁, 它是一种概念, 存在于python的解释器cpython中(其实还有其他的解释器, pypy, jpython, 他们不一定有GIL的问题, jpython就是没有gil问题的), 就是在多线程执行代码的时候, 只有拿到GIL的线程才会在cpu中执行( 拿到GIL ---> 执行代码直到sleep或者被挂起 --> 释放GIL), 在python2.X中线程在执行100条微语句时被挂起, 每个线程都有一个计数器, 每次释放GIL时清0, python3中是倒计时, 所有的python进程里都有一个GIL, 也就是说同一个进程里的线程都会去竞争这个GIL, 然后每次也只会有一个线程在cpu中跑, 那么在cpu多核的情况下, 单进程下也只有一个线程在跑, 所以说cpython下的python的线程相当于一个伪线程, 然后通常我们改用多进程, 因为多进程的情况下, 每个进程之间不会去竞争其他进程的GIL, 才能达到并行的效果(多核同时处理任务).
然后来说说协程:
"协程是一种用户级的轻量级线程", 这个是大多数文章里对协程的唯一描述....然后应用场景多用于 IO密集型, 他有高并发的特点, 但是在cpu密集型的环境里会死的不要不要的.
然后根据我搜到的资料, 协程主要是利用迭代器来实现多线程的效果, 相对于多线程的优势在于: 1. 减少系统调用(切换线程需要系统级调用)的开销, 2. 多协程运行于单线程中, 所以内存安全的, 不会产生脏数据, 也不会去竞争GIL. 然后多进程+多协程可以达到充分利用cpu的效果.
然后根据 http://python.jobbole.com/86069/ 和 http://python.jobbole.com/86481/ 这2篇文章, 大概的说一下我理解的协程:
首先要讲到 迭代器 这个东西, 协程是基于 迭代器 实现的.
迭代器, 可以认为是 "有暂停功能的函数", 第一个关键词就是 yield, 如果在某个函数 foo 中出现了yield, 那么 foo 就会变成 迭代器(generator), 然后在 yield 的地方会 "暂停" foo, 我的理解就是在这个时候保存 foo 的上下文, 然后把 之前在外部调用 foo 处的上下文导进来, 并且返回 yield 后面的变量.
def foo():
for i in range(10):
yield i
print ("next")
a = foo
for j in a():
print(j)
第二个关键词是send, yield是把迭代器里的值返回出来, send就是把值写进迭代器,
def foo():
for i in range(10):
b = yield i
print ("b:", b)
print ("-----")
a = foo()
index = 1
b = next(a)
while True:
try:
print(b)
a.send(-index)
index += 1
except:
break
其实协程可以认为是 接受send的 函数.
第三个关键词是 yield from, "yield from iterable本质上等于for item in iterable: yield item的缩写版", yield from的出现是为了解决 嵌套的迭代器问题, yield 的消息传递只能是调用者和迭代器之间的传递, 如果迭代器里还有一个迭代器, 那么最外层的 调用者 要把消息传递给里面那层的 迭代器会非常复杂, 于是就 "就有人想让python把消息传递 封装起来", 于是就有了yield from.(参考http://blog.theerrorlog.com/yield-from-in-python-3.html).
第四个关键词是asyncio, 一个基于事件循环的异步I/O模块, 类似的有gevent, tornado等, 在asyncio中, yield from就发挥了很大的作用, 因为有大量的消息需要隔层传递. 在asyncio中, 主要这样几个概念, 首先有一个event_loop 事件循环, 它是一个无限循环程序, 协程程序需要先注册到主循环中才会被调用执行; coroutine 协程, 在python3.5开始用 async def XXX来定义协程函数; task 任务是feature的子类, 是对协程的进一步封装, 协程里是所要执行的任务, 封装成task会包含各种状态(pending, running, done, cancelled), 绑定回调函数, 以及协程的结果等; future, 和task差不多是同一个东西. await, 用于挂起阻塞的异步调用接口 (面试时候遇到的问题, 如何挂起请求).
asyncio 主要流程应该是: 定义协程函数, 如果有耗时的操作用await挂起 ---> 创建一个事件循环 ----> 创建task ----> 绑定回调 ---> 注册task ---> 从task的result获取结果.
搭配进程可以开多条 事件循环, 多核的并行操作.
搭配线程还可以动态的注册task.
搭配aiohttp进行异步的http请求.
( 参考http://python.jobbole.com/87310/ )