我们知道我们可以用列表储存数据,可是当我们的数据特别大的时候建立一个列表的储存数据就会很占内存的。如通过列表生成式,我们可以直接创建一个列表,但是,受到内存限制,列表容量肯定是有限的,而且创建一个包含100万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问前面几个元素,那后面绝大多数元素占用的空间都白白浪费了。
这时生成器就派上用场了。为什么呢?
生成器工作原理
生成器是一类特殊的迭代器,可以被用作控制循环的迭代行为,这种一边循环一边计算的机制,生成器返回按需产生结果的一个对象,而不是一次构建一个结果列表,也是用在迭代操作中,因此它有和迭代器一样的特性,唯一的区别在于实现方式上不一样。
Python有两种不同的方式提供生成器:生成器表达式、yield。
生成器表达式
类似于列表推导,是列表解析的一个拓展。格式为
(expr for
iter_var in iterable if cond_expr)
它与列表解析器非常相似,且语法基本相同,但不是真正创建列表而是返回一个生成器。括号里面的就称为生成器表达式。这个生成器在每次计算出一个条目后,把这个条目“产生(yield)出来”,实际上生成器表达式使用了“延迟计算(lazy evaluation)”算法。
>>>from collections import Iterator
>>>ge = (2*i for i in range(5))
>>>
>>>ge
at 0x7fda46166410>
>>>isinstance(ge,Iterator)
True
>>>
由此可见,调用一个生成器函数,返回的是一个迭代器对象,生成器本身就是一个迭代器 。
每次调用next(ge)就计算出他的下一个元素的值,直到计算出最后一个元素,没有更多的元素时,抛出StopIteration的错误。
>>>next(ge)
0
>>>next(ge)
2
>>>
同迭代器一样,我们可以用for循环或list()迭代获取生成器对象中的每个元素,并且不会产生StopIteration异常。
如可以使用list()取出生成器每个元素的值,返回一个列表。
>>>ge = (2*i for i in range(5))
>>>ge
at 0x000001DE8B263FC0>
>>>list(ge)
[0, 2,4, 6, 8]
>>>
生成器表达式可以作为一个单独参数传递给函数,这些函数通常是min()\max()\sum()和join()\any()。这样做的好处是在过滤数据的时候,同时进行计算,它和使用列表作为参数达到的效果一样,如
>>>nums = [1, 2, 3, 4, 5]
>>>s = sum([x * x for x in nums])
>>>s
55
>>>
使用生成器表达式作为参数
>>>s
= sum((x * x for x in nums)) # 显示的传递一个生成器表达式对象
>>>s
= sum(x * x for x in nums) # 更加优雅的实现方式,省略了括号
>>>s
55
>>>
上面示例中如果元素数量非常大的时候,它会创建一个巨大的仅仅被使用一次就被丢弃的临时数据结构(转换数据生成数据的花销)。而生成器方案会以迭代的方式转换数据,因此更省内存。
withopen(filename) as f:
lines = (line.strip() for line in f) #生成器
for line in lines:
print(line)
在这里,表达式lines = (line.strip() for line in f)执行数据转换操作。这种方式非常高效,因为它不需要预先读取所有数据放到一个临时的列表中去。它仅仅只是创建一个生成器,并且每次返回行之前会先执行strip操作。
生成器函数
常规函数一般通过return语句返回结果,跟普通函数不同的是,生成器函数通过yield语句一次返回一个结果给调用者,在每个结果中间,挂起函数的状态,以便下次从它离开的地方继续执行(yield下面一条语句),直到遇到下一个yield或者满足结束条件结束函数为止。一个函数中需要有一个yield语句即可将其转换为一个生成器。它只能用于迭代操作。生成器函数可以通过常规的def语句来定义,如
>>>def gefun(stop):
x=1
while x
print("start... " +str(x))
yield x
x+=1
print("go on..."+str(x))
>>>ge=gefun(5) #此处不会导致函数运行,即第一个print函数不会执行
>>>ge
>>>next(ge)
start...1
1
>>>next(ge)
goon... 2
start...2
2
>>>
生成器通过生成器函数产生(内部支持了生成器协议,不需要明确定义__iter__()和next()方法)。yield之前的语句在不使用next()函数调用的话,也不会执行。
除了next()函数,还有一个send()函数可以达到同样的效果,只不过该函数可以给yield表达式传递参数。但不会改变原有迭代的逻辑。
>>>def gefun(stop):
x=1
while x
print("start... " +str(x))
num=yield x
x+=1
print("go on..."+str(x))
print(num)
>>>ge=gefun(5)
>>>next(ge)
start...1
1
>>>ge.send(12)
goon... 2
12
start...2
2
注意在调用send方法前需要先调用next()一次,以便yield接收参数,或使用send(None)代替第一次的next()调用。
一个生成器函数主要特征是它里面的语句只会回应在迭代中使用到的next操作。一旦生成器函数返回退出,迭代终止。不过我们在迭代中通常使用的for 语句会自动处理这些细节。
>>>for n in gefun(5):
print(n)
1
goon... 1
2
goon... 2
3
goon... 3
4
goon... 4