本文翻译自 Assignment, Shallow Copy, Or Deep Copy?
作者:Weilin Li
译者:耐心的农夫2020
时间:2020-03-02 14:30:00
关于Python内存管理的故事
from copy import copy, deepcopy
本文的目的是解释当我们使用下面三个python语句时内存中发生了什么。
- 给一个变量赋值:
B = A
- 浅拷贝一个变量:
C = copy(A)
- 深拷贝一个变量:
D = deepcopy(A)
首先我会简单描述一下Python的内存管理和内存优化,有了这个背景之后,我会解释一下Python中赋值语句、浅拷贝和深拷贝的差异。最后我会在一张表格中总结它们之间的差异。
如果你喜欢观看视频而不是阅读文章,你可以在此处找到补充视频。
Python的内存管理
int, float, list, dict, class instances, … 这些都是Python中的对象。在CPython实现中,内置函数id()
可以返回一个对象的内存地址。
>>> L1 = [1, 2, 3]
>>> id(L1)
3061530120
如果我们创建了一个新的变量L2
,这个变量指向一个值与L1
相同的对象,那么L2
会有一个新的内存地址。
>>> L2 = [1, 2, 3]
>>> id(L2)
3061527304
除了下面三种情况,每次创建一个新的对象,这个对象都会有一个新的内存地址。
- 一个非常短的string
- 在[-5, 256]区间内的整数
- 一个空的不可改变的容器(例如 tuples)
让我们看一个整数对象的例子。变量x
和y
都指向同一个值10,尽管在上一个例子中变量L1
和L2
具有不同的内存地址,但是变量x
和y
的内存地址是相同的。
>>> x = 10
>>> y = 10
>>> id(x)
2301840
>>> id(y)
2301840
这是因为,在上面提到的三种特殊情况下,Python通过让第二个变量指向了内存中同一个对象优化了内存使用。一些人把这个机制称为“共享对象”。
先记住共享对象这个概念,我们一会儿将对象深拷贝的时候还会用到它。
变量赋值
Python文档中提到
Python中的赋值语句不会拷贝对象,而只会在目标和对象之间创建绑定关系 (binding) 。
上面这句话的意思是,当我们通过赋值语句创建一个变量的时候,新的变量和原来的变量指向同一个对象。
>>> A = [1, 2, [10, 11], 3, [20, 21]]
>>> B = A
>>> id(A)
3061527080
>>> id(B)
3061527080
因为新的变量B
和原始变量A
共享同一个对象 (也就是同一个list),它们也包含相同的元素。
>>> id(A[2])
3061527368
>>> id(B[2])
3061527368
如下图所示,A
和B
共享同一个id
,即它们指向内存中相同的对象,并且它们也包含相同的元素。
浅拷贝
当我们使用浅拷贝创建一个变量的时候,新变量指向一个新对象。
>>> A = [1, 2, [10, 11], 3, [20, 21]]
>>> C = copy(A)
>>> id(A)
3062428488
>>> id(C)
3062428520
尽管A
和C
指向不同的对象(即内存地址不同的两个list),但两个list中每个元素都指向相同的对象。
>>> id(A[0])
2301696
>>> id(C[0])
2301696
>>> id(A[2])
3062464904
>>> id(C[2])
3062464904
下图展示了A
中的元素和C
中的元素是如何指向相同对象的。
深拷贝
和浅拷贝相似,当我们使用深拷贝创建一个变量的时候,新变量指向一个新对象。
>>> A = [1, 2, [10, 11], 3, [20, 21]]
>>> D = deepcopy(A)
>>> id(A)
3062727496
>>> id(D)
3062428488
如 Python文档 所述
浅拷贝和深拷贝之间的区别仅与复合对象(包含其他对象的对象,像lists, 或者类实例 )有关。
- 浅拷贝会构建一个新的复合对象,并(尽可能地)将在原来复合对象中找到的对象的引用(references)插入新的复合对象。
- 深拷贝会构建一个新的符合对象,并且递归地将在原来复合对象中找到的对象的副本(copies)插入新的复合对象。
所以与浅拷贝不同,在两个list中的元素现在指向不同的对象。
>>> id(A[0])
2301696
>>> id(D[0])
2301696
>>> id(A[2])
3062464648
>>> id(D[2])
3062466376
但是为什么A[0]
和 D[0]
共享同一个对象(即拥有相同的内存地址)呢?因为它们都指向整数,这属于我们上面提到的内存优化三种特殊情况之一。
下图展示了A
和 D
是如何指向内存中两个不同的lists以及 A
和D
中的元素是如何指向不同的对象(排除因为内存优化的整数元素)。
总结
下表是本文的要点。变量赋值不会拷贝对象,所以A
和B
有相同的内存地址,并且包含相同的元素。浅拷贝为变量C
创建了新的对象,但C
中的元素和A
中的元素仍然指向相同的对象。深拷贝为变量D
创建了新的对象,并且除了三种特殊情况外,C
中的元素和A
中的元素都指向不同的对象。
本文的灵感来自
Python documentation on copy
Understanding Python variables and Memory Management