对比Python中的赋值, 浅拷贝与深拷贝

本文翻译自 Assignment, Shallow Copy, Or Deep Copy?
作者:Weilin Li
译者:耐心的农夫2020
时间:2020-03-02 14:30:00

关于Python内存管理的故事

from copy import copy, deepcopy

本文的目的是解释当我们使用下面三个python语句时内存中发生了什么。

  • 给一个变量赋值: B = A
  • 浅拷贝一个变量: C = copy(A)
  • 深拷贝一个变量: D = deepcopy(A)

首先我会简单描述一下Python的内存管理和内存优化,有了这个背景之后,我会解释一下Python中赋值语句、浅拷贝和深拷贝的差异。最后我会在一张表格中总结它们之间的差异。

如果你喜欢观看视频而不是阅读文章,你可以在此处找到补充视频。


Python的内存管理

int, float, list, dict, class instances, … 这些都是Python中的对象。在CPython实现中,内置函数id()可以返回一个对象的内存地址。

>>> L1 = [1, 2, 3]
>>> id(L1)
3061530120

如果我们创建了一个新的变量L2,这个变量指向一个值与L1相同的对象,那么L2会有一个新的内存地址。

>>> L2 = [1, 2, 3]
>>> id(L2)
3061527304

除了下面三种情况,每次创建一个新的对象,这个对象都会有一个新的内存地址。

  • 一个非常短的string
  • 在[-5, 256]区间内的整数
  • 一个空的不可改变的容器(例如 tuples)

让我们看一个整数对象的例子。变量xy都指向同一个值10,尽管在上一个例子中变量L1L2具有不同的内存地址,但是变量xy的内存地址是相同的。

>>> x = 10
>>> y = 10
>>> id(x)
2301840
>>> id(y)
2301840

这是因为,在上面提到的三种特殊情况下,Python通过让第二个变量指向了内存中同一个对象优化了内存使用。一些人把这个机制称为“共享对象”。

先记住共享对象这个概念,我们一会儿将对象深拷贝的时候还会用到它。


变量赋值

Python文档中提到

Python中的赋值语句不会拷贝对象,而只会在目标和对象之间创建绑定关系 (binding) 。

上面这句话的意思是,当我们通过赋值语句创建一个变量的时候,新的变量和原来的变量指向同一个对象。

>>> A = [1, 2, [10, 11], 3, [20, 21]]
>>> B = A
>>> id(A)
3061527080
>>> id(B)
3061527080

因为新的变量B和原始变量A共享同一个对象 (也就是同一个list),它们也包含相同的元素。

>>> id(A[2])
3061527368
>>> id(B[2])
3061527368

如下图所示,AB共享同一个id,即它们指向内存中相同的对象,并且它们也包含相同的元素。

变量赋值内存示意图

浅拷贝

当我们使用浅拷贝创建一个变量的时候,新变量指向一个新对象。

>>> A = [1, 2, [10, 11], 3, [20, 21]]
>>> C = copy(A)
>>> id(A)
3062428488
>>> id(C)
3062428520

尽管AC指向不同的对象(即内存地址不同的两个list),但两个list中每个元素都指向相同的对象。

>>> id(A[0])
2301696
>>> id(C[0])
2301696
>>> id(A[2])
3062464904
>>> id(C[2])
3062464904

下图展示了A中的元素和C中的元素是如何指向相同对象的。

浅拷贝内存示意图

深拷贝

和浅拷贝相似,当我们使用深拷贝创建一个变量的时候,新变量指向一个新对象。

>>> A = [1, 2, [10, 11], 3, [20, 21]]
>>> D = deepcopy(A)
>>> id(A)
3062727496
>>> id(D)
3062428488

如 Python文档 所述

浅拷贝和深拷贝之间的区别仅与复合对象(包含其他对象的对象,像lists, 或者类实例 )有关。

  • 浅拷贝会构建一个新的复合对象,并(尽可能地)将在原来复合对象中找到的对象的引用(references)插入新的复合对象。
  • 深拷贝会构建一个新的符合对象,并且递归地将在原来复合对象中找到的对象的副本(copies)插入新的复合对象。

所以与浅拷贝不同,在两个list中的元素现在指向不同的对象。

>>> id(A[0])
2301696
>>> id(D[0])
2301696
>>> id(A[2])
3062464648
>>> id(D[2])
3062466376

但是为什么A[0]D[0] 共享同一个对象(即拥有相同的内存地址)呢?因为它们都指向整数,这属于我们上面提到的内存优化三种特殊情况之一。

下图展示了AD 是如何指向内存中两个不同的lists以及 AD中的元素是如何指向不同的对象(排除因为内存优化的整数元素)。

深拷贝内存示意图

总结

下表是本文的要点。变量赋值不会拷贝对象,所以AB有相同的内存地址,并且包含相同的元素。浅拷贝为变量C创建了新的对象,但C中的元素和A中的元素仍然指向相同的对象。深拷贝为变量D创建了新的对象,并且除了三种特殊情况外,C中的元素和A中的元素都指向不同的对象。

赋值语句 vs. 浅拷贝 vs. 深拷贝

本文的灵感来自

Python documentation on copy
Understanding Python variables and Memory Management

你可能感兴趣的:(对比Python中的赋值, 浅拷贝与深拷贝)