PHP数组底层实现原理

PHP 数组及其方法应该是每一个 PHPer 在编码过程中用到的最频繁的一种数据结构了,但是对于他的实现原理又了解多少呢 ?我在  中已经介绍过,PHP 数组的底层数据结构是 HashTable,今天我们就来看下它的实现原理。

首先看下 HashTable 的底层数据结构:

typedef struct _hashtable { 
    uint nTableSize; // 哈希槽的数量,初始化为8,以2倍扩容
    uint nTableMask; // 哈希表的取模值,为 nTableSize-1
    uint nNumOfElements; // 元素数量,即 Bucket 的数量,这个跟哈希槽数量并没有对应关系
    ulong nNextFreeElement; // 下一个可用的数字索引
    Bucket *pInternalPointer; // 内部链表指针,如经常用的 current,next 等方法
    Bucket *pListHead; // 指向整个数组的头部,可以方便实现 array_(un)shift 功能
    Bucket *pListTail; // 指向整个数组的尾部,可以方便实现 array_push/pop 功能
    Bucket **arBuckets; // 哈希槽的指针,每个槽可能会有一组Bucket
    ... // 其他元素暂时忽略
} HashTable;

再看下 Bucket 的数据结构:

typedef struct bucket {
    ulong h;            // 对char *key进行hash后的值,或者是用户指定的数字索引值
    uint nKeyLength;    // hash关键字的长度,如果数组索引为数字,此值为0
    void *pData;        // 指向value,一般是用户数据的副本,如果是指针数据,则指向pDataPtr
    void *pDataPtr;     // 如果是指针数据,此值会指向真正的value,同时上面pData会指向此值
    struct bucket *pListNext;   // 整个数组中该元素的下一个元素
    struct bucket *pListLast;   // 整个数组中该元素的上一个元素,即双向链表
    struct bucket *pNext;       // 被哈希到同一个槽的下一个元素
    struct bucket *pLast;       // 被哈希到同一个槽的上一个元素
    // 保存当前值所对于的key字符串,这个字段只能定义在最后,实现变长结构体
    char arKey[1];
} Bucket;

这里,我们不急着了解他们的各种组合关系,而是结合几个我们日常的例子来理解:

Part1:非关联数组($nums = [3, 1, 5, 2, 8],即 [0 => 3, 1 => 1, 2 => 5, 3 => 2, 4 => 8])

假设hash规则如下:下标 0 => 1号槽,下标 1 => 3号槽,下标 2 => 5号槽,下标 3 => 3号槽,下标 4 => 7号槽

为了整洁,我们把整个数据结构拆成两个图来看。

例1:获取 $nums[3] 的值,会通过图 1 进行,首先计算出下标 3 的 hash 值 x,然后进行取模后落到 3号槽,会从头遍历整个槽中的 Bucket,只有当 h(数字索引)= 3 时才会返回数据,同理,如果 $nums[1] 也也会通过 3号槽后进行遍历找到(图1的结构让 PHP 数组有了随机访问的能力)

例2:通过 for 遍历数组,即 $nums[0],$nums[1],$nums[2],$nums[3],$nums[4] 也会通过图 1 进行

例3:通过 foreach 遍历数组,会使用 图2 的结构,从 head 指向的节点开始遍历,直到 tail 节点

(可以看到,for 遍历数组和 foreach 遍历数组差别在于使用了不同的数据模型,理论上性能也会有差异)

例4:通过图 2 的模型,array_push/pop 和 array_(un)shift 就可以轻而易举完成操作了

到此,PHP数组的底层原理就分析清楚了。欢迎讨论和指正!

你可能感兴趣的:(深入PHP)