前言
按需获取数据的模式,就是迭代模式,数据不会一下子全部加载到内存。所有的生成器都是迭代器,因为生成器都实现了迭代器接口,在python中,生成器和迭代器两者十分相近,大多数时候可以视为同一概念。
总所周知,在python中,序列类型是可以迭代的,这是因为iter函数,解释器迭代对象时,会调用iter(x)函数,iter函数会有以下作用:
- 检查对象x是否实现了
__iter__
方法,实现的话就调用,获得一个迭代器 - 没有实现的话,如果实现了
__getitem__
方法,python会创建一个迭代器,尝试按顺序获取元素 - 尝试失败的话会抛出异常,不可迭代
python序列之所以能够迭代,是因为都实现了__getitem__
方法,其实标准的序列也都实现了__iter__
方法,检查一个对象是否迭代,准确的方法:调用iter(x)方法,如果不可迭代,再处理异常,比使用isinstance(x,abc.Iterable)更准确,因为iter(x)会考虑遗留的__getitem__
方法。其实判断是否迭代没有必要
1 可迭代对象与迭代器
python从可迭代对象中获取迭代器
>>> l=[1,2,3]
>>> l
[1, 2, 3]
>>> l1=iter(l)
>>> l1
>>> next(l1)
1
>>> next(l1)
2
上述例子中,l是可迭代对象,l1是迭代器。
标准的迭代器有两个方法:
-
__next__
:返回下一个可用元素,若没有,抛出 StopIteration 异常 -
__iter__
:返回self,以便使用迭代器
因此:
- 迭代器
迭代器:实现了无参数的__next__
方法,返回下一个元素,也实现了方法__iter__
,使得可迭代。
下面我们根据迭代器的特性,实现一个迭代器。
class Test(object):
def __init__(self,l):
self.l = l
self.index = 0
def __next__(self):
try:
item = self.l[self.index]
except:
raise StopIteration
self.index += 1
return item
def __iter__(self):
return self
t = Test(['d','g','w'])
print(next(t))
print(next(t))
print(next(t))
print(next(t))
输出结果:
d
g
w
Traceback (most recent call last):
File "c:/Users/DELL/Desktop/ssj/search/descrip.py", line 9, in __next__
item = self.l[self.index]
IndexError: list index out of range
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
File "c:/Users/DELL/Desktop/ssj/search/descrip.py", line 22, in
print(next(t))
File "c:/Users/DELL/Desktop/ssj/search/descrip.py", line 11, in __next__
raise StopIteration
StopIteration
对象t能被next调用,是因为实现了__next__
,依次返回下一个元素,直到抛出异常,另外,对象t也能使用for循环进行遍历,这是因为实现了 __iter__
方法。
可迭代对象实现了 __iter__
方法,每次都实例化一个新的迭代器,而迭代器实现了__next__
,返回单个元素,而且还要实现 __iter__
方法,返回迭代器本身。因此,迭代器可以迭代,但是可迭代的对象不是迭代器。
另一方面,可迭代的对象一定不能是自身的迭代器,也就是说,可迭代对象必须实现 __iter__
方法,但是不能实现__next__
方法。
2 生成器
在python中,只有函数中有yield关键字,这个函数就是生成器函数,调用生成器函数时会返回一个生成器。
看下面例子:
>>> def gen():
... yield 4
... yield 8
...
>>> g=gen()
>>> g
>>> for i in g:
... print(i)
...
4
8
>>> g1=gen()
>>> next(g1)
4
>>> next(g1)
8
>>> next(g1)
Traceback (most recent call last):
File "", line 1, in
StopIteration
- 生成器表达式:
>>> g = (i for i in range(3))
>>> g
at 0x029CDDA0>
>>> next(g)
0
>>> for i in g:
... print(i)
...
1
2
- itertools模块
python的itertools模块提供了一些有用的生成器函数:
>>> import itertools
>>> gen = itertools.takewhile(lambda n: n < 3, itertools.count(1, .5))
>>> list(gen)
[1, 1.5, 2.0, 2.5]
利用takewhile和count生成等差数列并且限定长度。
3 yield from
如果生成器函数需要产出另一个生成器生成的值,传统方法使用嵌套for循环,如:
def gen(*l):
for item in l:
for i in item:
yield i
s='abcd'
n=(1,2,3,4)
l = list(gen(s,n))
print(l)
输出结果:
['a', 'b', 'c', 'd', 1, 2, 3, 4]
现在我们可以使用新语法yield from:
def gen(*l):
for item in l:
yield from item
s='abcd'
n=(1,2,3,4)
l = list(gen(s,n))
print(l)
输出结果:
['a', 'b', 'c', 'd', 1, 2, 3, 4]
yield from item代替了内层循环,yield from的详解,会在其他文章中介绍。
iter函数
前面我们简单介绍过iter函数,其实这个函数也可以接收两个参数:第一个参数必须是一个可调用对象。
from random import randint
def test():
return randint(1,6)
g = iter(test, 4)
for i in g:
print(i)
输出结果:
6
6
5
上述例子,意思是随机生成1到6的数字,直到遇到4为止。
这个用法有很多实用的场景,如:for line in iter(fp.readline, '\n'):读取文件时,遇到‘\n’为止。
参考
《流畅的python》