前言:最近转技术栈,需要学习Python的gevent框架,为了能看懂怎么用DAG图来优化复杂并有依赖关系的初始化。我寻思这不就是Java的CompletableFuture功能吗,只不过Python对于多线程的支持不太好,所以才需要引入gevent框架。
一、Python协程
学习gevent之前,就得先了解一下Python原生协程的支持,以及它的局限性以及不完善,要不也不需要引入框架嘛。
协程与线程
线程是操作系统级别的调用,线程切换时需要操作系统,保存线程的上下文。
协程程序级别的调用,协程何时需要切换,是由程序员决定的。协程上下文切换的开销更小,而且不需要解决线程安全问题。
我们可以分别用协程和线程写消费者与生产者对比下:
协程实现:
def consumer():
r = ''
while True:
n = yield r
if not n:
return
print('[CONSUMER] Consuming %s...' % n)
r = '200 OK'
def produce(c):
c.send(None)
n = 0
while n < 5:
n = n + 1
print('[PRODUCER] Producing %s...' % n)
r = c.send(n)
print('[PRODUCER] Consumer return: %s' % r)
c.close()
c = consumer()
produce(c)
线程实现,参考这篇博客:
https://blog.csdn.net/ldx19980108/article/details/81707751
对比两种实现方式,可以看出来如果用线程来实现,那么就需要用锁来保护共享资源,但是协程就是函数执行过程中,通过yield来暂停等待其他函数的输入,通过send函数跑到yield处执行。开销要小很多。当然Python也有线程,但是受到GIL(全局解释器锁)的局限,也就是说在线程执行的时候,需要获取GIL锁,因此退化为单线程了,也就是说可以在多个线程中切换,但是不能多个线程同时执行,这样的话只能并发不能并行,对于多核CPU来说无疑是一种浪费。
Python 协程的实现
mark 晚点再补 https://zhuanlan.zhihu.com/p/45168167
1、yield/send
2、select
3、yield from
yield from iterable本质上等于for item in iterable: yield item的缩写版
4、asyncio
5、async/await
二、gevent的使用方式
gevent是用的比较多的Python框架,以协程为核心,结合epoll的多路复用,解决了GIL锁的问题??比起原生的Python来说是封装的更好?还是存在的优化比较多?可以让python代码很方便的使用线程?这块不是很理解。
spawn方法注册方法到gevent实例上,joinall函数循环事件,当遇到IO的时候,会自动切换其他事件。
from gevent import monkey; monkey.patch_all()
import gevent
import requests
from datetime import datetime
def f(url):
print 'time: %s, GET: %s' % (datetime.now(), url)
resp = requests.get(url)
print 'time: %s, %d bytes received from %s.' % (
datetime.now(), len(resp.text), url)
gevent.joinall([
gevent.spawn(f, 'https://www.python.org/'),
gevent.spawn(f, 'https://www.yahoo.com/'),
gevent.spawn(f, 'https://github.com/'),
])
此外,加锁也是十分方便的。
# -*- coding: utf-8 -*-
import gevent
from gevent.lock import Semaphore
sem = Semaphore(1)
def f1():
for i in range(5):
sem.acquire()
print 'run f1, this is ', i
sem.release()
gevent.sleep(1)
def f2():
for i in range(5):
sem.acquire()
print 'run f2, that is ', i
sem.release()
gevent.sleep(0.3)
t1 = gevent.spawn(f1)
t2 = gevent.spawn(f2)
gevent.joinall([t1, t2])
三、greenlet的内部原理
greenlet是gevent的基础,用来实现从协程到协程之间的切换。切换使用的方法是switch。
from greenlet import greenlet
def test1():
print 12
gr2.switch()
print 34
def test2():
print 56
gr1.switch()
print 78
gr1 = greenlet(test1)
gr2 = greenlet(test2)
gr1.switch()
用ppt画了个很丑陋的图,为了是将代码的执行过程描述清楚,greenlet初始化的时候初始化一个空栈,当执行gr1.switch时候,会执行test1的代码,打印12,然后当前协程挂起,保存当前栈和寄存器。之后执行gr2.switch切换到另一个栈,执行print56,然后gr1.switch的时候又切回gr1栈,恢复栈和寄存器,执行print34。
输出结果如下所示:
从这个例子来看栈的执行似乎,switch跟函数调用很相似。但是switch not call。每个greenlet都有一个parent,greenlet的创生环境就是它的Parent,所有的greenlet形成一棵树。从下面的例子可以看出来。从test2返回后回到的是main,而不是test1,从这也能看出来他们的区别。
import greenlet
def test1(x, y):
print id(greenlet.getcurrent()), id(greenlet.getcurrent().parent) # 40240272 40239952
z = gr2.switch(x+y)
print 'back z', z
def test2(u):
print id(greenlet.getcurrent()), id(greenlet.getcurrent().parent) # 40240352 40239952
return 'hehe'
gr1 = greenlet.greenlet(test1)
gr2 = greenlet.greenlet(test2)
print id(greenlet.getcurrent()), id(gr1), id(gr2) # 40239952, 40240272, 40240352
print gr1.switch("hello", " world"), 'back to main' # hehe back to main
四、gevent源码分析
源码这块功底不够,确实有些看不懂了,先mark一下
https://www.jianshu.com/p/f55148c41f54