[Scrapy-1] 如何理解yield关键字

为了理解什么是yield,你必须理解什么是生成器。在理解生成器之前,我们先来看看什么是迭代。

可迭代对象 Iterables

当你创建了一个列表,你可以逐项地读取它,这就叫做迭代:

>>> mylist = [1, 2, 3]
>>> for i in mylist:
...     print i
...
1
2
3

mylist是一个迭代对象,当你使用一个列表生成式来建立一个列表的时候,就建立了一个可迭代对象:

>>> mylist = [x*x for x in range(3)]
>>> for i in mylist:
...     print i
...
0
1
4

所以你可以使用for...in...语法的对象都是可迭代对象:lists, strings, files...

这些迭代对象你用起来很方便,因为你可以随时如你所愿地读取它们,但是这些对象数据都是存在内存中的,而当你的数据量非常大的时候,用这种方式去获取数据可能并不是你想要的了。

生成器 Generators

生成器是可以迭代的,但是你只能迭代它们一次,生成器并不把数据都放在内存中,它是实时地生成数据。

>>> mygenerator = (x*x for x in range(3))
>>> for i in mygenerator:
...     print i
...
0
1
4

这和数组生成式是一样的除了[]()的区别,由于生成器只能使用一次,所以你不能再次执行for i in mygenerator,先计算出0,再计算出1,然后一个接一个...

Yield 关键字

yield是一个关键字,作用和return差不多,差别在yield返回的是一个生成器。

>>> def createGenerator():
...     mylist = range(3)
...     for i in mylist:
...         yield i*i
...
>>> mygenerator = createGenerator()
>>> print mygenerator

>>> for i in mygenerator:
...     print i
...
0
1
4

这个例子可能没什么用,但是它让你知道,这个函数会返回一大批你只需要使用一次的数据。

为了深入理解yield,你必须理解:当你调用这个函数的时候,函数内部的生成器的代码并不立即执行,这个函数只是返回一个生成器对象。
那么你的生成器的代码什么时候执行呢?当你使用for...in...进行迭代的时候。

我来看看程序的执行情况:

def createGenerator():
    mylist = range(3)
    print('aaaa')
    for i in mylist:
        print('bbbb')
        yield i*i

mygenerator = createGenerator()

for i in mygenerator:
    print(str(i))


aaaa
bbbb
0
bbbb
1
bbbb
4

第一次for循环的时候,函数会执行,当遇到yield的时候,返回第一个结果,后续的迭代会返回函数中定义的循环的下一次的yield结果。所以,怎么理解呢?
一个生成器对应的就是一个循环,每一次对生成器对象进行迭代,都是在执行这个循环
如果生成器内没有yield关键字,那么这个生成器被认为是空的。

你可能感兴趣的:([Scrapy-1] 如何理解yield关键字)