本文首发于:行者AI
python
中什么是闭包?闭包有什么用?为什么要用闭包?今天我们就带着这3个问题来一步一步认识闭包。
闭包和函数紧密联系在一起,介绍闭包前有必要先介绍一些背景知识,诸如嵌套函数、变量的作用域等概念。
1. 作用域
作用域是程序运行时变量可被访问的范围,定义在函数内的变量是局部变量,局部变量的作用范围只能是函数内部范围内,它不能在函数外引用。
定义在模块最外层的变量是全局变量,它是全局范围内可见的,当然在函数里面也可以读取到全局变量的。而在函数外部则不可以访问局部变量。例如:
a = 1
def foo():
print(a) # 1
def foo():
print(a) # NameError: name 'num' is not defined
2. 嵌套函数
函数不仅可以定义在模块的最外层,还可以定义在另外一个函数的内部,像这种定义在函数里面的函数称之为嵌套函数(nested function)
。对于嵌套函数,它可以访问到其外层作用域中声明的非局部(non-local)
变量,比如代码示例中的变量a
可以被嵌套函数printer
正常访问。
def foo():
#foo是外围函数
a = 1
# printer是嵌套函数
def printer():
print(a)
printer()
foo() # 1
那么有没有一种可能即使脱离了函数本身的作用范围,局部变量还可以被访问得到呢?
答案就是闭包!
我们将上述函数改成高阶函数(接受函数为参数,或者把函数作为结果返回的函数是高阶函数)的写法。
def foo():
#foo是外围函数
a = 1
# printer是嵌套函数
def printer():
print(a)
return printer
x = foo()
x() # 1
这段代码和前面例子的效果完全一样,同样输出 1
。不同的地方在于内部函数 printer
直接作为返回值返回了。
一般情况下,函数中的局部变量仅在函数的执行期间可用,一旦 foo()
执行过后,我们会认为变量a
将不再可用。然而,在这里我们发现 foo
执行完之后,在调用x
的时候a
变量的值正常输出了,这就是闭包的作用,闭包使得局部变量在函数外被访问成为可能。
3. 闭包
人们有时会把闭包和匿名函数弄混。这是有历史原因的:在函数内部定义函数 不常见,直到开始使用匿名函数才会这样做。而且,只有涉及嵌套函数时才有闭包问题。 因此,很多人是同时知道这两个概念的。
其实,闭包指延伸了作用域的函数,其中包含函数定义体中引用、但是不在定义体中定义的 非全局变量。函数是不是匿名的没有关系,关键是它能访问定义体之外定义的非全局变量。
通俗来讲闭包,顾名思义,就是一个封闭的包裹,里面包裹着自由变量,就像在类里面定义的属性值一样,自由变量的可见范围随同包裹,哪里可以访问到这个包裹,哪里就可以访问到这个自由变量。 那这个包裹是绑定在哪的呢?在上文代码追加一句打印:
def foo():
# foo是外围函数
a = 1
# printer是嵌套函数
def printer():
print(a)
return printer
x = foo()
print(x.__closure__[0].cell_contents) # 1
可以发现是在函数对象的__closure__
属性中,__closure__
是一个元祖对象函数负责闭包绑定,即自由变量的绑定。该属性值通常是None
,如果这个函数是一个闭包的话,那么它返回的是一个由cell
对象组成的元组对象。cell
对象的cell_contents
属性就是闭包中的自由变量。这解释了为什么局部变量脱离函数之后,还可以在函数之外被访问的原因的,因为它存储在了闭包的 cell_contents
中了。
4. 闭包的好处
闭包避免了使用全局变量,此外,闭包允许将函数与其所操作的某些数据(环境)关连起来。这一点与面向对象编程是非常类似的,在面对象编程中,对象允许我们将某些数据(对象的属性)与一个或者多个方法相关联。
一般来说,当对象中只有一个方法时,这时使用闭包是更好的选择。来看一个计算均值的例子,假如有个名为avg
的函数,它的作用是计算不断增加的系列值的均值;例如,整个历史中 某个商品的平均收盘价。每天都会增加新价格,因此平均值要考虑至目前为止所有的价格,如下所示:
>>> avg(10) #10.0
>>> avg(11) #10.5
>>> avg(12) #11.0
在以往,我们可以设计一个类:
class Averager():
def __init__(self):
self.series = []
def __call__(self, new_value):
self.series.append(new_value)
total = sum(self.series)
return total/len(self.series)
avg = Averager()
avg(10) #10.0
avg(11) #10.5
avg(12) #11.0
这时候我们使用闭包来实现。
def make_averager():
series = []
def averager(new_value):
series.append(new_value)
total = sum(series)
return total/len(series)
return averager
avg = make_averager()
avg(10) #10.0
avg(11) #10.5
avg(12) #11.0
调用make_averager
时,返回一个 averager
函数对象。每次调用 averager
时,它会把参数添加到列表中,然后计算当前平均值。 这比用类来实现更优雅,此外装饰器也是基于闭包的一中应用场景。
5. 闭包的坑
看了上述闭包的解释你以为闭包也不过如此?实际使用中往往在不经意间就会掉入陷阱,看看下面的例子:
def create_multipliers():
return [lambda x: x * i for i in range(5)]
for multiplier in create_multipliers():
print(multiplier(2))
# 期望输出0, 2, 4, 6, 8
# 结果是 8, 8, 8, 8, 8
我们期望是输出0, 2, 4, 6, 8
。结果却是8, 8, 8, 8, 8
。为什么会出现这问题呢?让我们改下代码:
def create_multipliers():
multipliers = [lambda x: x * i for i in range(5)]
print([m.__closure__[0].cell_contents for m in multipliers])
create_multipliers() # [4, 4, 4, 4, 4]
可以看到函数绑定的i
值都成了4
即循环后最终i的取值,这是因为Python
的闭包是延迟绑定 ,这意味着闭包中用到的变量的值,是在内部函数被调用时查询得到的。
正确的使用方式是将i的值利用参数的方式进行传递:
def create_multipliers():
return [lambda x,i=i: x * i for i in range(5)]
s = create_multipliers()
for multiplier in s:
print(multiplier(2)) # 0, 2, 4, 6, 8
我们利用默认参数来传递i
,同闭包一样默认参数是绑定在__defaults__
属性上。
print([f.__defaults__ for f in s]) # [(0,), (1,), (2,), (3,), (4,)]