python对象和垃圾回收

1. python对象

python使用对象模型来存储数据,python中万物皆对象。
python对象有三个特性:身份类型

  • 身份:身份是对象的唯一标识,可以看做是对象的内存地址。使用内建函数id()可以查看对象id。判断两个变量是否为指向相同对象,可以使用is操作符,例如:a is b,返回boolean
  • 类型:对象类型决定该对象保存什么类型的值,可以进行什么样的操作,遵循什么样的规则。使用内建函数type()可以返回对象类型。
  • :值就是对象存储的数据项。一个对象的身份和类型是不可变的,但值根据类型的不同具有不同可变性。
    不可变类型:数字(整型,浮点型,复数型),字符串类型,tuple,frozenset...
    可变类型:list,set,dict...

2. 内存管理

python变量无须显式声明,无须指定类型。python中变量第一次赋值时自动声明,解释器会根据右侧操作数决定对象的类型,在对象创建后,该对象的引用会赋值给左侧的变量,该变量会作为该对象的别名(即引用)。
python解释器使用gc模块自动管理内存,其内存管理采用的策略为:引用计数(Reference Counting),标记-清除(Mark—Sweep),分代回收。

2.1 引用计数

python解释器内部用引用计数器记录着所有对象的引用数量,当对象创建时就创建该对象的引用计数并置为1,当引用计数变为0时,该对象会被垃圾回收。

  • 增加引用计数

  1. 对象被创建时
    a = 1
  2. 对象另外的别名被创建
    b = a
  3. 对象作为参数传递给函数
    fun(a)
  4. 对象成为容器对象的一个元素
    my_list = [a,]
  • 减少引用计数

  1. 一个本地变量离开作用域
  2. 对象的一个别名被显示销毁
    del a
  3. 对象的别名从容器中移除
    my_list.remove(a)
  4. 含有该对象的容器被销毁(引用计数为0并被回收)
    del my_list
  • 引用计数的致命缺陷--循环引用

from sys import getrefcount

a = ['hello'] #对象list1引用计数为1
b = ['world'] #对象list2引用计数为1
print('a:', getrefcount(a)) #由于对象引用作为入参,因此引用计数加1
print('b:', getrefcount(b))
#循环引用
a.append(b) #对象list2引用计数加1
b.append(a) #对象list1引用计数加1
print('a:', getrefcount(a))
print('b:', getrefcount(b))
del a
del b
#销毁a,b后,任然未释放对象list1和list2的内存,会造成内存泄漏

循环引用发生在两个对象互相引用时(如上图代码);执行del a时,由于a为b中的元素,所以a的引用计数并没有变成0,因此a未被释放;同理,执行del b时,b的引用计数也未减少到0,因此b也未被释放。

2.2 标记-清除

gc模块还使用了类似“标记-清除”的算法来解决可能产生的循环引用。
gc会记录每个对象的引用计数,并用有向图记录对象之间的引用,当遍历a时,a指向b,b的引用计数会减1,同理遍历b时,b指向a,a的引用计数也会减1,最后确保互相引用的对象能够被回收。

2.3 分代

python中通过使用时间来将对象划分成3代。gc会更频繁地处理0代对象,即程序中刚刚创建的,而0代对象经过若干时间周期后仍然存在,则会移动到1代然后才是2代。这些可以通过阈值进行控制。
gc.get_threshold()会返回垃圾回收阈值(700,10,10),700为垃圾回收启动的阈值(即对象的分配次数和释放次数的差值),后面两个10,分别表示每10次0代垃圾回收,会有1次1代垃圾回收,每10次1代垃圾会有1次2代垃圾回收。
gc.get_count()会返回当前垃圾回收状态:

  • 当计数器从(699,0,0)增加到(700,0,0),gc模块就会执行gc.collect(0),即检查0代对象的垃圾,并重置计数器为(0,1,0)
  • 当计数器从(699,9,0)增加到(700,9,0),gc模块就会执行gc.collect(1),即检查0,1代对象的垃圾,并重置计数器为(0,0,1)
  • 当计数器从(699,9,9)增加到(700,9,9),gc模块就会执行gc.collect(2),即检查0,1,2代对象的垃圾,并重置计数器为(0,0,0)。

你可能感兴趣的:(python对象和垃圾回收)