原文地址: http://derickrethans.nl/collecting-garbage-phps-take-on-variables.html
关于PHP垃圾回收机制(Garbage Collection . GC) ,原作者写了三篇文章。这是第一篇,主要讲解PHP如何处理变量。
第二篇和第三篇主要讲常用的GC方法,以及GC是如何实现的,以及一些其它的说明和评测。
PHP版本:5.3
进入正题:
PHP把变量保存在zval容器里面。容器,container,可以想像成一块存储区域,或者一个盒子。
如上图所示,zval容器保存了此变量的类型type,值value,还有其它二块东西。
其中一个叫做”is_ref”, 它是一个bool型的值,占用一个bit,表示该zval容器(也就是这个变量)是否被引用。
php就是使用这个bit来判断变量是个普通变量,或者是个引用(reference)。
说起来,PHP有二种引用:
其一是用户代码中的&
其二是PHP内部实现的引用计数机制(internal reference counting mechanism),用来优化内存使用的。
is_ref是指&
zval容器中的另外一部分,是”refcount”,引用计数。用来记录有多少个变量指向这个zval容器。
通常吧,这个时候我们只说symbol(符号),不说variables(变量),其实是同一个意思。
当refcount为1的时候,is_ref必须为0。
当refcount为0的时候,该容器会被删除掉,释放空间出来。
所有的symbol保存在一张symbol table里面(符号表)。
php维护了很多张这样的表,GLOBAL一张,每个函数一张。类的每个方法也有一张。
基本上是按照变量的作用域(scope)来建表的。
当我们用一个constant value(常量)来为变量赋值的时候,zval容器才会被创建出来。
举例:
如上图所示;在当前的作用域里面,符号a被创建出来,zval容器也被创建,
类型:string
值: this is
is_ref: 默认为0
refcount: 1 表示现在只有一个符号(a)指向这个容器。
如果你安装了Xdebug,可以使用如下的代码:
可以看到:
- a: (refcount=1, is_ref=0)="this is"
貌似看不到变量类型嘛。
再看下面的例子:
- $a = "this is";
- $b = $a;
- $c = $a;
- xdebug_debug_zval("a");
可以看到:
- a: (refcount=3, is_ref=0)="this is"
如上图所示, refcount 变成3了,表示有3个符号指向这个容器。
看来PHP还是蛮聪明的,它并没有给$b创建一个单独的容器出来,节省了内存。
只有到了必要的时候,才会创建新的容器。
如下:
- $a = "this is";
- $b = $a;
- $c = $a;
- $c = 42;
如上图所示, 在$c = 42的时候,一个新的容器被创建出来,原有容器的refcount减一。
如果我们unset一个变量呢?
- $a = "this is";
- $c = $b = $a;
- xdebug_debug_zval("a");
- $c = 42;
- unset( $b, $c );
- xdebug_debug_zval("a");
会显示:
- a: (refcount=3, is_ref=0)="this is"
- a: (refcount=1, is_ref=0)="this is"
如果我们再调用 unset($a),那么这个zval容器也就一起消失了。
接下来讲引用赋值:
- $a = "this is"
- $b = &$a;
- $c = &$b;
如图:符号a b和c都指向同一个容器,而且这个容器的is_ref位为1(因为&出现了)。
表示这是一个引用。refcount为3。
接下来
会把容器的值设置为42。
接下来unset一个变量
容器的refcount减一,c这个符号消失。
再unset($a)呢?
refcount继续减一,值为1。同时, is_ref变回0。引用消失。a符号消失。
您理解了吗?
引用赋值与普通赋值的区别就在于容器的is_ref位为1还是为0。
如果为1,改变任意一个变量的值,只是会更改容器的值。
如果为0,改变任意一个变量的值,都会创建一个新的容器出来。
如果把引用赋值与普通赋值混合起来会怎么样?
如图,二个符号都指向同一个容器。
继续
如图,一个新的容器被分配出来,b和c都指向它,而且is_ref=1。
没什么特殊的。想想也应该是这样。
总不可能abc都指向同一个容器吧。
这样呢?
- $a = "this is";
- $b = &$a;
如图,二个符号指向同一容器,is_ref=1,因为发生了引用赋值。
继续
如图,一个新的容器被分配出来,c指向了它。 原容器没发生变化。
看到这里,是不是有点乱了。慢慢体会一下吧。
但是,如果
则不会对zval有任何影响。
休息一下。
接下来讲PHP如何处理数组和对象。
以数组为例吧,对象也差不多。
每个数组都维护了一张自己的符号表,保存了自己的元素。
看代码:
- $a = array( "meaning" => "life", "number" => 42 );
- xdebug_debug_zval( "a" );
会显示:
- a: (refcount=1, is_ref=0)=array (
- "meaning" => (refcount=1, is_ref=0)="life",
- "number" => (refcount=1, is_ref=0)=42
- )
很合理,也很合逻辑。
如图所示,三个zval容器被创建了出来,”a”, “meaning”, “number”。
数组对refcount的处理,与普通的变量(标量 scalar)是相同的。演示一下看:
- $a = array( "meaning" => "life", "number" => 42 );
- $a["life"] = $a["meaning"];
- xdebug_debug_zval( "a" );
会显示:
- a: (refcount=1, is_ref=0)=array (
- "meaning" => (refcount=2, is_ref=0)="life",
- "number" => (refcount=1, is_ref=0)=42,
- "life" => (refcount=2, is_ref=0)="life"
- )
如图,life和meaning都指向同一个容器,容器的refcount为2。
和前面所讲的php处理标量的行为是完全一致的。
unset数组的一个元素,与unset一个普通变量的情况也是完全一致的,
删除这个符号,然后refcount减一,如果值为0了,就删除这个容器。不再举例。
最后来看一个奇怪的操作:
我们把数组自身作为它自己的元素,并且使用引用赋值。
好象说得不太明白,看代码:
- $a = array( "one" );
- $a[] =& $a;
- xdebug_debug_zval( "a" );
如果不是引用赋值,就简单多了。不表。
输出为:
- a: (refcount=2, is_ref=1)=array (
- 0 => (refcount=1, is_ref=0)="one",
- 1 => (refcount=2, is_ref=1)=...
- )
需要解释吗?
应该也算是蛮合理的吧。
如果unset a变量,会怎么样?
按照以前的经验,应该是会删除a这个符号,然后refcount减一。如果值为0了,就清理掉容器。
不过从直觉上来讲,$a被unset,那么这个数组也应该消失才对吧?
输出:
- (refcount=1, is_ref=1)=array (
- 0 => (refcount=1, is_ref=0)="one",
- 1 => (refcount=1, is_ref=1)=...
- )
虽然在当前的作用域里面,已经没有符号指向这个zval容器,但它并没有被释放出来,
只是因为array[1]还指向着它?
因为没有变量指向这个容器了,所以在php代码中,我们无法对其进行任何操作。
这就出现了内存泄漏(memory leak)。
不过,在脚本执行结束之后,php会把这块区域也释放出来的。
所以,使用引用的时候,一定要小心。
如果你想继续研究,php如何处理function参数,function局部变量,以及更多的引用赋值,请看这个PDF:
http://derickrethans.nl/files/phparch-php-variables-article.pdf
不过要注意,他讲的是php4.3。不知道在5.3的时候,会不会有什么变化。