Python 中的变量不需要提前声明,解释器解释到赋值时,会自动推导出变量内存储什么类型的值。每个变量在使用前都必须赋值,变量赋值以后该变量才会被创建。赋值即定义!
变量其实就是一个名字,或者说一个标签,赋值操作实际上就是将对象和这个名字绑定了起来。更准确的说,变量指向了对象的内存地址。 所以各种赋值操作实质传递的是内存地址。
所以变量其实没有数据类型,我们所说的"类型"是变量所指的内存中对象的数据类型。
赋值操作会在内存中开辟空间并存储对象的值,并创建一个id值,存储它在内存的地址。赋值符号将id地址绑定给变量名。
x = 10
y = 20
当我们执行x = y 时, x得到了y传递过来的内存地址,x就指向新内存地址的值。所以x的值也变成20
再举例
x = 10 # 值10在堆中开辟空间,地址为id1,变量x绑定内存地址id1,所以x指向值10
y = x # 前文有提到,赋值操作实质是内存地址的传递,
# 所以此步骤 y得到了x传递过来的内存地址id1,变量y也绑定内存地址id1,所以y指向值10
x = 30 # 值30在堆中开辟空间,地址为id2,变量x绑定内存地址id2,所以x指向值30
print(y) # 所以y打印是10
注:当然以上仅为举例,实际上,python为了性能优化,避免为整数频繁申请和销毁内存空间,小整数对象池(-5 ~ 256)中的整数都是在内存中一直开辟好的。这个后续细述。
x = '你好' # 字符串 你好 在堆中开辟空间,地址为id1,变量x绑定内存地址id1,所以x指向字符串 你好
y = ['a','b','c','d',x] # 前文有提到,赋值操作实质是内存地址的传递,
# 所以此步骤 列表['a','b','c','d',x]在堆中开辟空间,地址为id2,
# 其中每个成员也分别需要开辟空间,其中第五个成员得到了x传递的地址
# 所以第五个成员指向id1的值:你好
# ['a','b','c','d','你好']
x = '不好' # 字符串 不好 在堆中开辟空间,地址为id2,变量x绑定内存地址id3,所以x指向字符串 不好
print(y) # # ['a','b','c','d','你好']
python中经常使用的一些数值定义为小整数池,小整数池的范围是[-5,256],python对这些数值已经提前创建好了内存空间,即使多次重新定义也不会在重新开辟新的空间,但是小整数池外的数值在重新定义时都会再次开辟新的空间。
所以对于小整数池中的数,内存地址一定是相同的,小整数池中外的数,内存地址是不同的。
>>> a = 10
>>> b = 10
>>> print(a is b)
True
>>> a = 257
>>> b = 257
>>> print(a is b)
False
但你会发现,如果不在交互模式中,而是在 脚本模式 或者 IDE环境中,小整数池外的数,内存地址也是相同的
>>> a = 257;b = 257;print(a is b)
True
IDE环境
这是由于python的缓存机制,在同一代码块下,不可变数据类型的对象(数字,字符串,元祖)
被多个变量引用,不会重复开辟内存空间
a = 257
b = 257
print(a is b) # True
a = '123'
b = '123'
print(a is b) # True
a = (1, 2, 3)
b = (1, 2, 3)
print(a is b) # True
a = [1, 2]
b = [1, 2]
print(a is b) # False 可变数据类型,需要重新开辟空间
所以我们平时写代码,在同一代码块下,只要是不可变数据类型的对象(数字,字符串,元祖)
被多个变量引用,不会重复开辟内存空间,可变数据类型的对象会开辟不同空间
刚有提到,在命令行除了小整数池,都会开辟不同的内存地址。
但你会发现,在命令行模式中,有的字符串并没有开辟不同的空间:
>>> a = '123'
>>> b = '123'
>>> print(a is b)
True
这是由于字符串的intern机制,也就是说在命令行模式下,有个intern机制:如果当前变量引用的字符串对象已经存在的话,直接增加对应字符串对象的引用,而不去创建新的字符串对象。适用范围是:只包含[a-zA-Z0-9_],也就是说字符串只能包含字母数字下划线,如果有其他符号,就不使用intern机制。
>>> a = '12 3'
>>> b = '12 3'
>>> print(a is b)
False
# 定义一个列表
a = [10,20,30,40]
# 打印列表a的地址以及其元素
print(id(a)) # 4376650528
print(id(a[0])) # 10--4527943632
print(id(a[1])) # 20--4527943952
print(id(a[2])) # 30--4527944272
print(id(a[3])) # 40--4527944592
# 定义一个列表
a = [10,20,30,40]
# 使用a.append()
a.append(50)
print(a) # [10,20,30,40,50]
print(id(a)) #4376650528
列表是可变数据类型,地址不变,值可变。因此,添加新的值之后,地址也是不变的。
实参:调用函数时,小括号中的参数,用来把数据传递到函数内部
形参:定义函数时,小括号中的参数,用来接收参数,在函数内部作为变量使用
对于参数传递,函数中修改传参,到底影不影响外部变量,可以理解为 把实参 赋值 给了 形参 即: 形参 = 实参
即:形参和实参指同一个地址,至于形参的改变会不会影响实参, 就根据内存开辟相关的知识判断就可以, 和函数本身没有关系
不可变数据类型:数字,字符串,元祖
可变数据类型 :列表,集合,字典
可变指:地址不变的情况下,可以改变其内部元素。
不可变指:地址不变的情况下,其值不可变。
Python 深拷贝和浅拷贝概念理解
- 浅拷贝
拷贝的程度浅,重新分配一块内存,创建一个新的对象,但里面的元素是原对象中各个子对象的引用。
b = a.copy(): 浅拷贝, a 和 b 是一个独立的对象,但他们的子对象还是指向统一对象(是引用)
- 深拷贝
拷贝的程度深,重新分配一块内存,创建一个新的对象,并且将原对象中的元素,以递归的方式,通过创建新的子对象拷贝到新对象中。因此,新对象和原对象没有任何关联
b = copy.deepcopy(a): 深度拷贝, a 和 b 完全拷贝了父对象及其子对象,两者是完全独立的。
-直接赋值
b = a: 赋值引用,a 和 b 都指向同一个对象。
总结
使用浅拷贝:
浅拷贝在拷贝时,只会copy第一层,如果第一层是可变类型,就在内存中开辟一个空间复制下来,如果第一层是不可变数据类型,就沿用之前的引用。更深的层次(里面层)并没有copy,沿用之前的引用。
所以对于列表来讲,列表浅拷贝之后的新列表 和 原列表 的修改是否会影响对方,主要看列表内部的索引位有没指向新的引用,如果有,那么就不会互相影响。否则就会。
所以对于全是不可变数据类型元素的列表,浅拷贝得到的新列表 和 原列表 之间的修改 都不会影响对方
只有列表中包含了可变数据类型,且此可变数据类型进行了修改,没有改变此索引位的指向,才会影响对方。
使用深拷贝:
深拷贝时,会逐层进行拷贝,遇到可变类型,就开辟一块内存复制下来,遇到不可变类型就沿用之前的引用。
因为不可变数据修改会从新开辟新的空间,所以,深拷贝数据之间的修改都不会相互影响。
直接赋值
就是直接指向同一个对象,一切按照内存开辟来判断引用是否更换。
Python的GC模块主要运用了“引用计数”(reference counting)来跟踪和回收垃圾。在引用计数的基础上,还可以通过“标记-清除”(mark and sweep)解决容器对象可能产生的循环引用的问题,并且通过“分代回收”(generation collection)以空间换取时间的方式来进一步提高垃圾回收的效率
引用计数就是:变量值被变量名关联的次数
如:age=18
变量值18被关联了一个变量名age,称之为引用计数为1
引用计数增加:
age=18 (此时,变量值18的引用计数为1)
m=age (把age的内存地址给了m,此时,m,age都关联了18,所以变量值18的引用计数为2)
引用计数减少:
age=10(名字age先与值18解除关联,再与3建立了关联,变量值18的引用计数为1)
del m(del的意思是解除变量名x与变量值18的关联关系,此时,变量18的引用计数为0)
值18的引用计数一旦变为0,其占用的内存地址就应该被解释器的垃圾回收机制回收
引用计数机制存在着一个致命的弱点,即循环引用(也称交叉引用)
# 如下我们定义了两个列表,简称列表1与列表2,变量名l1指向列表1,变量名l2指向列表2
l1=['xxx'] # 列表1被引用一次,列表1的引用计数变为1
l2=['yyy'] # 列表2被引用一次,列表2的引用计数变为1
l1.append(l2) # 把列表2追加到l1中作为第二个元素,列表2的引用计数变为2
l2.append(l1) # 把列表1追加到l2中作为第二个元素,列表1的引用计数变为2
# l1与l2之间有相互引用
# l1 = ['xxx'的内存地址,列表2的内存地址]
# l2 = ['yyy'的内存地址,列表1的内存地址]
>>> l1
['xxx', ['yyy', [...]]]
>>> l2
['yyy', ['xxx', [...]]]
>>> l1[1][1][0]
'xxx'
循环引用会导致:值不再被任何名字关联,但是值的引用计数并不会为0,应该被回收但不能被回收,什么意思呢?试想一下,请看如下操作
>>> del l1 # 列表1的引用计数减1,列表1的引用计数变为1
>>> del l2 # 列表2的引用计数减1,列表2的引用计数变为1
但此时两个列表的引用计数均不为0,但两个列表不再被任何其他对象关联,没有任何人可以再引用到它们,所以它俩占用内存空间应该被回收,但由于相互引用的存在,每一个对象的引用计数都不为0,因此这些对象所占用的内存永远不会被释放,所以循环引用是致命的,这与手动进行内存管理所产生的内存泄露毫无区别。
所以Python引入了“标记-清除” 与“分代回收”来分别解决引用计数的循环引用与效率低的问题
容器对象(比如:list,set,dict,class,instance)都可以包含对其他对象的引用,所以都可能产生循环引用。而“标记-清除”计数就是为了解决循环引用的问题。
标记/清除算法的做法是当应用程序可用的内存空间被耗尽的时,就会停止整个程序,然后进行两项工作,第一项则是标记,第二项则是清除
#1、标记
通俗地讲就是:
栈区相当于“根”,凡是从根出发可以访达(直接或间接引用)的,都称之为“有根之人”,
有根之人当活,无根之人当死。
具体地:标记的过程其实就是,遍历所有的GC Roots对象(栈区中的所有内容或者线程都可以作为GC Roots对象),
然后将所有GC Roots的对象可以直接或间接访问到的对象标记为存活的对象,其余的均为非存活对象,应该被清除。
#2、清除
清除的过程将遍历堆中所有的对象,将没有标记的对象全部清除掉。
基于上例的循环引用,当我们同时删除l1与l2时,会清理到栈区中l1与l2的内容以及直接引用关系
这样在启用标记清除算法时,从栈区出发,没有任何一条直接或间接引用可以访达l1与l2,即l1与l2成了“无根之人”,于是l1与l2都没有被标记为存活,二者会被清理掉,这样就解决了循环引用带来的内存泄漏问题
基于引用计数的回收机制,每次回收内存,都需要把所有对象的引用计数都遍历一遍,这是非常消耗时间的,于是引入了分代回收来提高回收效率,分代回收采用的是用“空间换时间”的策略。
分代:
分代回收的核心思想是:在历经多次扫描的情况下,都没有被回收的变量,gc机制就会认为,该变量是常用变量,gc对其扫描的频率会降低,具体实现原理如下
分代指的是根据存活时间来为变量划分不同等级(也就是不同的代)
新定义的变量,放到新生代这个等级中,假设每隔1分钟扫描新生代一次,如果发现变量依然被引用,
那么该对象的权重(权重本质就是个整数)加一,当变量的权重大于某个设定得值(假设为3),
会将它移动到更高一级的青春代,青春代的gc扫描的频率低于新生代(扫描时间间隔更长),
假设5分钟扫描青春代一次,这样每次gc需要扫描的变量的总个数就变少了,节省了扫描的总时间,
接下来,青春代中的对象,也会以同样的方式被移动到老年代中。也就是等级(代)越高,
被垃圾回收机制扫描的频率越低
回收:
回收依然是使用引用计数作为回收的依据
虽然分代回收可以起到提升效率的效果,但也存在一定的缺点:
例如一个变量刚刚从新生代移入青春代,该变量的绑定关系就解除了,该变量应该被回收,
但青春代的扫描频率低于新生代,这就到导致了应该被回收的垃圾没有得到及时地清理。没有十全十美的方案:
毫无疑问,如果没有分代回收,即引用计数机制一直不停地对所有变量进行全体扫描,
可以更及时地清理掉垃圾占用的内存,但这种一直不停地对所有变量进行全体扫描的方式效率极低,
所以我们只能将二者中和。综上
垃圾回收机制是在清理垃圾&释放内存的大背景下,允许分代回收以极小部分垃圾不会被及时释放为代价,
以此换取引用计数整体扫描频率的降低,从而提升其性能,这是一种以空间换时间的解决方案