python中的生成器

Python中的生成器

1. 什么是生成器:
在《Python核心编程》中有个定义:
《Python核心编程》 写道
挂起返回出中间值并多次继续的协同程序被称为生产器,那就是Python的生成器真正做的事情

那么什么是协同程序呢?
《Python核心编程》 写道
协同程序是可以运行的独立函数调用,可以暂停或者挂起,并从程序离开的地方继续或者重新开始

首先可以理解为:
  • 生成器是函数
  • 生成器可以在执行过程中返回中间值,并继续执行。


2. python中的生成器
在python中生成器就是一个带yield的函数,yield能返回一个值给调用者,并暂停运行,当生成器的next()方法被调用的时候,它会继续从离开的地方继续

3. 示例
def fab(max):
      n, a, b = 0, 0, 1
      while n < max:
            yield b
            a, b = b, a + b
            n = n + 1

>>> f = fab(5)
>>> f.next()
>>> 1
>>> f.next()
>>> 1
>>> f.next()
>>> 2
>>> f.next()
>>> 3
>>> f.next()
>>> 5

>>> f = fab(5)
>>> for i in f:
....   print i

1
1
2
3
5

4.运用场景
乍一看,生成器和迭代器差不多,功能也很相似,那么什么情况下用生成器呢。
一个明显的运用场景是要处理 一个大的数据集的时候,比如一个10G的文件,
如果用迭代的话,会产生很大的内存占用,如果用生成器的话就不会有这个问题

引用
列表解析式:
[expr for iter_var in iterable if cond_expr]

引用
生成器表达式:
(expr for iter_var in iterable if cond_expr)

比如一个10G的文件test_large
迭代式:
In [29]: f = open('test_large')
In [35]: sum([len(word) for line in f for word in line.split()])

在运行过程中用pmap查看其内存占用
total   294096K
这个结果是我在运行中查看的,只运行了10s左右
生成器:
In [32]: f.seek(0)
In [33]: sum(len(word) for line in f for word in line.split())

在运行过程中用pmap查看其内存占用
total    32024K
这个内存占用量直到运行结束都是这么多

引用
这仅仅是因为一个语言这样的特征不意味着你需要用它。如果在你程序里没有明显适合的话,那就别增加多余的复杂性!当你遇到合适的情况时,你便会知道什么时候生成器正是要使用的东西。


5. 在tornado中的运用
这个并没有详细的研究,只是遇到的时候使用,在tornado中主要是在异步机制中会用到yield。
        @tornado.gen.coroutine
        def get(self):
                res = yield self.db.welecome.find_one()
                res = res['message']
                self.render('index.html', message="hello world", tick=res)

内部机制如何没有仔细研究,这应该是生成器运动的一个场景, 需要长时间执行的程序

6. 总结
  • 大数据集使用生成器
  • 需要长时间运行的操作,防止阻塞,不过需要借助其它的机制转换成异步操作,如celery

你可能感兴趣的:(编程,python,生成器)