关于PHP垃圾回收机制(Garbage Collection . GC) ,原作者写了三篇文章。这是第一篇,主要讲解PHP如何处理变量。
第二篇和第三篇主要讲常用的GC方法,以及GC是如何实现的,以及一些其它的说明和评测。
PHP版本:5.3
进入正题:
PHP把变量保存在zval容器里面。容器,container,可以想像成一块存储区域,或者一个盒子。
如上图所示,zval容器保存了此变量的类型type,值value,还有其它二块东西。
其中一个叫做”is_ref”, 它是一个bool型的值,占用一个bit,表示该zval容器(也就是这个变量)是否被引用。
php就是使用这个bit来判断变量是个普通变量,或者是个引用(reference)。
说起来,PHP有二种引用:
其一是用户代码中的&
其二是PHP内部实现的引用计数机制(internal reference counting mechanism),用来优化内存使用的。
is_ref是指&
zval容器中的另外一部分,是”refcount”,引用计数。用来记录有多少个变量指向这个zval容器。
通常吧,这个时候我们只说symbol(符号),不说variables(变量),其实是同一个意思。
当refcount为1的时候,is_ref必须为0。
当refcount为0的时候,该容器会被删除掉,释放空间出来。
所有的symbol保存在一张symbol table里面(符号表)。
php维护了很多张这样的表,GLOBAL一张,每个函数一张。类的每个方法也有一张。
基本上是按照变量的作用域(scope)来建表的。
当我们用一个constant value(常量)来为变量赋值的时候,zval容器才会被创建出来。
举例:
$a = "this is";
如上图所示;在当前的作用域里面,符号a被创建出来,zval容器也被创建,
类型:string
值: this is
is_ref: 默认为0
refcount: 1 表示现在只有一个符号(a)指向这个容器。
如果你安装了Xdebug,可以使用如下的代码:
xdebug_debug_zval("a");
可以看到:
a: (refcount=1, is_ref=0)="this is"
貌似看不到变量类型嘛。
再看下面的例子:
$a = "this is"; $b = $a; $c = $a; xdebug_debug_zval("a");
可以看到:
a: (refcount=3, is_ref=0)="this is"
如上图所示, refcount 变成3了,表示有3个符号指向这个容器。
看来PHP还是蛮聪明的,它并没有给$b创建一个单独的容器出来,节省了内存。
只有到了必要的时候,才会创建新的容器。
如下:
$a = "this is"; $b = $a; $c = $a; $c = 42;
如上图所示, 在$c = 42的时候,一个新的容器被创建出来,原有容器的refcount减一。
如果我们unset一个变量呢?
$a = "this is"; $c = $b = $a; xdebug_debug_zval("a"); $c = 42; unset( $b, $c ); xdebug_debug_zval("a");
会显示:
a: (refcount=3, is_ref=0)="this is" a: (refcount=1, is_ref=0)="this is"
如果我们再调用 unset($a),那么这个zval容器也就一起消失了。
接下来讲引用赋值:
$a = "this is" $b = &$a; $c = &$b;
如图:符号a b和c都指向同一个容器,而且这个容器的is_ref位为1(因为&出现了)。
表示这是一个引用。refcount为3。
接下来
$b = 42;
接下来unset一个变量
unset($c);
再unset($a)呢?
refcount继续减一,值为1。同时, is_ref变回0。引用消失。a符号消失。
您理解了吗?
引用赋值与普通赋值的区别就在于容器的is_ref位为1还是为0。
如果为1,改变任意一个变量的值,只是会更改容器的值。
如果为0,改变任意一个变量的值,都会创建一个新的容器出来。
如果把引用赋值与普通赋值混合起来会怎么样?
$a = "this is"; $b = $a;
继续
$c = &$b;
如图,一个新的容器被分配出来,b和c都指向它,而且is_ref=1。
没什么特殊的。想想也应该是这样。
总不可能abc都指向同一个容器吧。
这样呢?
$a = "this is"; $b = &$a;
如图,二个符号指向同一容器,is_ref=1,因为发生了引用赋值。
继续
$c = $a;
如图,一个新的容器被分配出来,c指向了它。 原容器没发生变化。
看到这里,是不是有点乱了。慢慢体会一下吧。
休息一下。
接下来讲PHP如何处理数组和对象。
以数组为例吧,对象也差不多。
每个数组都维护了一张自己的符号表,保存了自己的元素。
看代码:
$a = array( "meaning" => "life", "number" => 42 ); xdebug_debug_zval( "a" );
会显示:
a: (refcount=1, is_ref=0)=array ( "meaning" => (refcount=1, is_ref=0)="life", "number" => (refcount=1, is_ref=0)=42 )
很合理,也很合逻辑。
如图所示,三个zval容器被创建了出来,”a”, “meaning”, “number”。
数组对refcount的处理,与普通的变量(标量 scalar)是相同的。演示一下看:
$a = array( "meaning" => "life", "number" => 42 ); $a["life"] = $a["meaning"]; xdebug_debug_zval( "a" );
会显示:
a: (refcount=1, is_ref=0)=array ( "meaning" => (refcount=2, is_ref=0)="life", "number" => (refcount=1, is_ref=0)=42, "life" => (refcount=2, is_ref=0)="life" )
如图,life和meaning都指向同一个容器,容器的refcount为2。
和前面所讲的php处理标量的行为是完全一致的。
unset数组的一个元素,与unset一个普通变量的情况也是完全一致的,
删除这个符号,然后refcount减一,如果值为0了,就删除这个容器。不再举例。
最后来看一个奇怪的操作:
我们把数组自身作为它自己的元素,并且使用引用赋值。
好象说得不太明白,看代码:
$a = array( "one" ); $a[] =& $a; xdebug_debug_zval( "a" );
如果不是引用赋值,就简单多了。不表。
输出为:
a: (refcount=2, is_ref=1)=array ( 0 => (refcount=1, is_ref=0)="one", 1 => (refcount=2, is_ref=1)=... )
如果unset a变量,会怎么样?
按照以前的经验,应该是会删除a这个符号,然后refcount减一。如果值为0了,就清理掉容器。
不过从直觉上来讲,$a被unset,那么这个数组也应该消失才对吧?
unset($a);
输出:
(refcount=1, is_ref=1)=array ( 0 => (refcount=1, is_ref=0)="one", 1 => (refcount=1, is_ref=1)=... )
虽然在当前的作用域里面,已经没有符号指向这个zval容器,但它并没有被释放出来,
只是因为array[1]还指向着它?
因为没有变量指向这个容器了,所以在php代码中,我们无法对其进行任何操作。
这就出现了内存泄漏(memory leak)。
不过,在脚本执行结束之后,php会把这块区域也释放出来的。
所以,使用引用的时候,一定要小心。
如果你想继续研究,php如何处理function参数,function局部变量,以及更多的引用赋值,请看这个PDF:
http://derickrethans.nl/files/phparch-php-variables-article.pdf
不过要注意,他讲的是php4.3。不知道在5.3的时候,会不会有什么变化。
我就不再翻译了。