Python-迭代器相关概念

Python-迭代器相关概念_第1张图片
各概念关系图

一些基本概念


1 容器

可以询问某个元素是否包含其中,如list,set,tuples,dict等都是容器

2 迭代器(iterator)


1)迭代器是一个带状态的对象,任何实现了iter和next__方法的对象都是迭代器(python2:任何实现next()方法的对象都是迭代器)。
2)其中iter返回迭代器本身,next返回容器中的下一个值。如果容器中没有更多元素了,则抛出Stopiteration异常。

因此,可以把迭代器理解成一个带有流水线的工程,我们每次询问他时,他就给我们返回下一个值。迭代器会把所有的值都存储在内存中。

2.1 next()

next()函数 用来返回文件的下一行/下一个值,直到促发STopIteration。
《Python File next() 方法》

2.2 iter()

用处:把可迭代对象变为迭代器。

3 可迭代对象(iterable)


凡是可以返回一个迭代器的对象都可以称之为可迭代对象(除了上面提到的list,tuples,dict等容器外,还有很多其他对象也是可迭代对象。比如,打开状态的files.
我的理解是所有可以使用 for .. in .. 语法的对象都可以叫做一个迭代对象。
但是迭代器把所有的值都存储到了内存中,如果有大量数据的话,这个方式就会占用大量内存。

注:很多容器都是可迭代对象,但并不是所有容器都是可迭代对象.

下面的例子可以帮助更好的理解可迭代对象。

 >>> x = [1, 2, 3]
>>> y = iter(x)
>>> z = iter(x)
>>> next(y)
1
>>> next(y)
2
>>> next(z)
1
>>> type(x)

>>> type(y)
 

上题中,x就是一个可迭代对象。可迭代对象和容器一样是一种通俗的叫法,并不是指某种具体的数据类型,列表是可迭代对象,字典是可迭代对象,集合也是可迭代对象。

我们用 liter() 函数可以把可迭代对象变为迭代器对象。

上面代码中,y和z是两个独立的迭代器。迭代器内部持有一个状态,该状态用于记录当前迭代所在的位置,以方便下次迭代的时候获取正确的元素。迭代器有一种具体的迭代器类型,比如list_iterator,set_iterator。可迭代对象实现了iter方法,该方法返回一个迭代器对象。
当运行以下代码时:

x = [1, 2, 3]
for elemments in x:
    ...

实际执行情况是:

Python-迭代器相关概念_第2张图片
迭代对象--->迭代器

4 生成器(generator)


生成器其实是一种特殊的迭代器。它和一般迭代器不同的地方在于,我们 只可以读取它一次,因为它并不把所有的值放在内存中,它是实时地生成数据:

>>> mygenerator = (x*x for x in range(3))  #range后面会介绍
>>> for i in mygenerator :
...    print(i)

结果:
0
1
4

生成器只能读取一次是什么意思?举个例子:

# -*- coding: UTF-8 -*-
def mygenerator(n):   #建一个生成器
     for x in range(n):
         yield int(x)


y = mygenerator(5) 
z = sum(y) # 使用一次生成器。遍历mygenerator中所有数,并相加

for i in y:    #第二次使用生成器
    print(i)   #print不会有任何结果,因为已经使用过一次生成器。

本节中其他相关函数的意思:

range()
range(y,x,z); y表示起始范围,x表示终止范围,z表示间隔值
1.range(x) 表示0-x范围内的数(不包含x)
2.range(y,x)表示y-x范围内的数(不包含x)
3.range(y,x,z)表示y-x范围内(不包含x),间隔为z的数.

更具体一点的说明:
《详细记录python的range()函数用法》

和range()函数相似的,还有个xrange()函数,具体见下面说明:

xrange()
参数与range()函数一样,不一样的地方在于,xrange()生成的不是一个数组,而是一个生成器。

xrange() 和 range()的区别可以参见以下详细资料:
《Python的range和xrange》

举例:

>>> range(5) 
[0, 1, 2, 3, 4] 
>>> xrange(5)
xrange(5)
>>> list(xrange(5))
[0, 1, 2, 3, 4]

由上面可以,range()会直接生成列表,而xrange()会生成一个生成器。因此,range相比于xrange会预先占用很多资源。

比如,如果是range(1000),那个range会直接生成0-1000的列表,预先占用内存;但是xrange只会生成xrange生成器,需要用到具体函数时,再占用相应的内存。所以xrange做循环的性能比range好,尤其是返回很大的时候,尽量用xrange。

生成器与迭代器的代码区分

例子:

>>> mylist = [x*x for x in range(3)]
>>> for i in mylist :
...    print(i)

>>> mygenerator = (x*x for x in range(3))
>>> for i in mygenerator :
...    print(i)

前一个[ ] 迭代器,后一个()生成器。

5 yield 关键词


yield 是一个类似 return 的关键字,只是这个函数返回的是个生成器。

>>> def createGenerator() :
...    mylist = range(3)
...    for i in mylist :
...        yield i*i
...
>>> mygenerator = createGenerator() # create a generator
>>> print(mygenerator) # mygenerator is an object!

>>> for i in mygenerator:
...     print(i)
0
1
4

当我们用print(mygenerator)调用createGenerator()这个函数的时候,函数内部的代码并不立马执行 ,这个函数只是返回一个生成器对象。

只有当我们使用for进行迭代的时候,函数内代码才会执行。

第一次迭代时,函数从开始一直执行到 yield这个 关键字,然后返回 yield 后的值(即ii)作为第一次迭代的返回值(即将0作为返回值).每次执行这个函数,都会继续执行你在函数内部定义的那个循环的下一次,再返回那个值。例如,第二次执行,迭代返回值为11=1。当我们不断调用,这个过程会一直持续,直到没有可以返回的值为止。
生成器下一次迭代是从上一次结束的地方开始,而不会从头开始。比如第一次迭代后。第二次迭代是从i=1开始,而不是从i=0开始。

如果生成器内部没有定义 yield 关键字,那么这个生成器被认为成空的。这种情况可能因为是循环进行没了,或者是没有满足 if/else 条件。

迭代器有关工具:itertools

itertools 是一个模块,集合了众多的迭代函数,功能非常强大,具体可以见以下内容

《PYTHON-进阶-ITERTOOLS模块小结》


参考资料

1《(译)Python关键字yield的解释》
2.《完全理解 Python 迭代对象、迭代器、生成器》
3.知乎:《如何更好地理解Python迭代器和生成器?》
4《PYTHON-进阶-ITERTOOLS模块小结》
5《Python的range和xrange》
6《详细记录python的range()函数用法》
7《Python File next() 方法》

你可能感兴趣的:(Python-迭代器相关概念)