Python使用 生成器(generator) 对延迟操作提供了支持。所谓延迟操作,是指在需要的时候才产生结果,而不是立即产生结果。这也是生成器的主要好处。
生成器其实是一种特殊的迭代器(iterator),但是不需要像迭代器一样自己去实现__iter__()和__next__()方法,简单的说生成器是通过一个或多个yield
表达式构成的函数,如果一个函数包含yield
关键字,这个函数就会变为一个生成器。生成器并不会一次返回所有结果,而是每次遇到yield
关键字后返回相应结果,并保留函数当前的运行状态,等待下一次的调用。
由于 生成器(generator) 自动实现了迭代器协议,而迭代器协议对很多人来说,也是一个较为抽象的概念。所以,为了更好的理解生成器,我们需要简单的梳理一下迭代器协议的概念。
迭代器协议是指:对象需要提供next方法,它要么返回迭代中的下一项,要么就引起一个StopIteration异常,以终止迭代。
可迭代对象就是:实现了迭代器协议的对象。
协议是一种约定,可迭代对象实现迭代器协议,Python的内置工具 (如for循环,sum,min,max函数等) 使用迭代器协议访问对象。
我们主要说的就是如何使用yeild关键字创建的生成器。如下例子是一个关于计算斐波那契数列的生成器。其中 fibonacci 函数中我们没有用 return 关键字。你也可以看到当运行 fib = fibonacci(20) 的时候,我们打印出它的类型信息显示它返回的是一个生成器对象。如果你直接调用这个(生成器的)实例对象fib,并不会运行 fibonacci 函数中的代码。前面我们提到过,因为生成器其实是一种特殊的迭代器(iterator),所以我们可以看到在代码最后部分只有当循环调用 next() 的时候才会真正运行其中的代码。而且用这种方式,我们可以不用担心它会使用大量的内存资源。
def fibonacci(n):
x, y = 0, 1
for _ in range(n):
yield x
x, y = y, x + y
fib = fibonacci(20)
print(type(fib))
# 输出如下:
#
for _ in fib:
print(next(fib))
# 输出如下:
# 1
# 2
# 5
# 13
# 34
# 89
# 233
# 610
# 1597
# 4181
相反,如果不用生成器,我们用常规函数定义的话就会像下面这样写。如果我们传入的参数n值增大,返回的列表占用的空间将会显著提升,这显然是我们不希望看到的。
def fibonacci(n):
i, a, b = 1, 0, 1
L = []
while i < n:
L.append(b)
a, b = b, a + b
i = i + 1
return L
fib = fibonacci(20)
print(type(fib))
for f in fib:
print(f)
我们可以用inspect类里的isgeneratorfunction
类方法判断是否是一个生成器函数,以及使用 isgenerator
类方法判断是否是一个生成器。
from inspect import isgeneratorfunction, isgenerator
print(f'fibonacci is a generator function: {isgeneratorfunction(fibonacci)}')
print(f'f is a generator: {isgenerator(f)}')
# 输出如下:
# fibonacci is a generator function: True
# f is a generator: True
使用生成器的好处当然不仅限于此,让我们来看一下下面的例子,我们打算读取小说《三国演义》的所有文字内容,如果直接对文件对象调用 read() 方法,会导致不可预测的内存占用。好的方法是利用固定长度的缓冲区来不断读取文件内容。而且同时通过 yield来执行每次输出,就可以轻松实现文件读取。
from pathlib import Path
file = Path('三国演义.txt')
def read_file(fpath):
BLOCK_SIZE = 1024
with file.open(encoding='GB18030') as f:
while True:
block_content = f.read(BLOCK_SIZE)
if block_content:
yield block_content
else:
return
for c in read_file(file):
print(c)