当表插入、删除操作频繁时,为维护表的有序性,需要移动表中很多记录。基于此,我们可以改用动态查找表——几种特殊的树。表结构在查找过程中动态生成。对于给定值key,若表中存在,则成功返回;否则,插入关键字key的记录。
二叉排序树(Binary Sort Tree)又称为二叉搜索树、二叉查找树;采用递归定义:
对左边的二叉树进行中序遍历(LDR),它正好是递增序列!中序遍历非空的二叉排序树所得到的数据元素序列是一个按关键字排列的递增有序序列。
下面我们研究在二叉排序树上的查找操作。若查找的关键字等于根结点,成功。否则。若小于根结点,查其左子树;大于根结点,查其右子树。在左右子树上的操作类似。
我们首先定义二叉排序树的存储结构:
typedef struct{
KeyType key; //关键字项
InfoType otherinfo; //其他数据域
}ElemType;
typedef struct BSTNode{
ElemType data; //数据域
struct BSTNode *lchild,*rchild; //左右孩子指针
}BSTNode,*BSTree;
BSTree T; //定义二叉排序树T
然后我们写出递归的算法:
BSTree SearchBST(BSTree T,KeyType key){
if((!T) || key==T->data.key) //“||”逻辑或
return T; //找不到的时候T是空,返回空指针,找到了就直接返回结点
else if(keydata.key)
return SearchBST(T->Ichild,key); //在左子树中继续查找
else
return SearchBST(T->rchild,key); //在右子树中继续查找
} //SearchBST
下面分析时间效率。二叉排序树上查找某关键字等于给定值的结点过程,其实就是走了一条从根到该结点的路径。比较的关键字次数=此结点所在层次数;最多的比较次数=树的深度;由下面的分析我们也可以看出,二叉排序树的平均比较长度和树结构本身有关。
最好情况:初始序列{45,24,53,12,37,93},,树的深度为:;与折半查找中的判定树相同,时间复杂度为O (lg n)。
最坏情况:初始序列{12,24,37,45,53,93},插入的n个元素从一开始就有序,变成单支树的形态。此时树的深度为n,,查找效率与顺序查找情况相同,均为O(n)。
我们研究二叉排序树的生成和插入操作。若二叉排序树为空,则插入结点作为根结点插入到空树中。否则,继续在其左、右子树上查找:树中已有,不再插入;树中没有,查找直至某个叶子结点的左子树或右子树为空为止。插入结点应为该叶子结点的左孩子或右孩子。
一个无序序列可通过构造二叉排序树而变成一个有序序列。构造树的过程就是对无序序列进行排序的过程。插入的结点均为叶子结点,故无需移动其他结点。相当于在有序序列上插入记录而无需移动其他记录。但是,输入序列的顺序不同,则生成的排序二叉树也不同。
最后我们讨论二叉排序树的删除操作。删除比插入麻烦的地方在于:从二叉排序树中删除一个结点,不能把以该结点为根的子树都删去,只能删掉该结点,并且还应保证删除后所得的二叉树仍然满足二叉排序树的性质不变。由于中序遍历二叉排序树可以得到一个递增有序的序列。那么,在二叉排序树中删去一个结点相当于删去有序序列中的一个结点。
由上面的讨论,二叉排序树的ASL变大是因为排序树不够“均衡”,如何提高形态不均衡的二叉排序树的查找效率?这就是我们下面要讲的平衡化和平衡二叉树。
平衡二叉树(balanced binary tree),又称AVL树(Adelson-Velskii and Landis)。一棵平衡二叉树或者是空树,或者是具有下列性质的二叉排序树:
为了方便起见,给每个结点附加一个数字,给出该结点左子树右子树的高度差。这个数字称为结点的平衡因子(BF):平衡因子=结点左子树的高度-结点右子树的高度;根据平衡二叉树的定义,平衡二叉树上所有结点的平衡因子只能是-1,0或1。
当我们在一棵AVL树上插入一个结点,就可能造成失衡。为了方便起见,我们先说明几个点:
所以我们可以划分出四种平衡调整类型:
例题:给定关键字序列(16,3,7,11,9,26,18,14,15),写出构造AVL树的过程。
基本思想:记录的存储位置与关键字之间存在对应关系。对应关系——hash(哈希)函数;LOC(i)=H(keyi)
例如:数据元素序列(21,23,39,9,25,11),若规定每个元素k的存储地址H(k)=k,画出存储结构图如下:
散列表的查找:根据散列函数H(key)=k,查找key=9,则访问H(9)=9号地址,若内容为9则成功;若查不到,则返回一个特殊值,如空指针或空记录。
散列表具有查找效率高,空间效率低的特点。所以我们后面的研究都是为了“省空间”。下面介绍一些散列表的有关术语:
例如:数据元素序列仍同上,但是散列函数,则有H(25)=25%7=4,H(11)=11%7=4。他们指向了同一块地址。因此,使用散列表应该解决好两个问题:
构造散列函数应该考虑以下几点:执行速度(即计算散列函数所需时间);关键字的长度;散列表的大小;关键字的分布情况;查找频率。
根据元素集合的特性构造:n个数据原仅占用n个地址虽然散列查找是以空间换时间,但仍希望散列的地址空间尽量小;无论用什么方法存储,目的都是尽量均匀地存放元素,以避免冲突。
常用的构造方法:直接定址法;数字分析法;平方取中法;折叠法;除留余数法;随机数法
直接定址法:Hash(key) = a*key + b (a、b为常数)
优点:以关键码key的某个线性函数值为散列地址,不会产生冲突。缺点:要占用连续地址空间,空间效率低。例如:给定数据{100,300,500,700,800,900},构造散列函数Hash(key)=key/100(a=1/100,b=0)。
除留余数法:Hash(key)= key mod p(p是一个整数)
选取余数应该小于表长,且尽量选质数。例如,给定数据{15,23,27,38,53,61,70},散列函数Hash(key)=key mod 7。
基本思想:有冲突时就去寻找下一个空的散列地址,只要散列表足够大,空的散列地址总能找到,并将数据元素存入。
例如:除留余数法可以改进为H_i=(Hash(key)+d_i)mod m;其中d_i为增量序列:
1.线性探测法:d_i为1,2,....m-1线性序列
例:关键码集为{47,7,29,11,16,92,22,8,3},散列表长度为m=11;散列函数为Hash(key)=key mod 11;拟用线性探测法处理冲突。建散列表如下:
过程:
本例中平均查找长度ASL=(1+2+1+1+1 +4+1 +2+2)/9=1.67,例如3,3mod11=3,然后依次找4,5,6发现6号能对上,所以查找3需要查找4次。
2.二次探测法:d_i为1^2,-1^2,2^2,-2^2,...,q^2二次序列
例:关键码集同上,当3位已经有元素47时,再存入3。Hash(3)=3 mod 11=3,散列地址冲突,由,仍然冲突;那么再计算,找到空的散列地址,存入。
3.伪随机探测法:d_i为伪随机数序列
基本思想:相同散列地址的记录链成一单链表,m个散列地址相同就设m个单链表,然后用一个数组将m个单链表的表头指针存储起来,形成一个动态的结构。
链地址法建立散列表的步骤:取数据元素的关键字key,计算其散列函数值(地址)。若该地址对应的链表为空,则将该元素插入此链表;否则根据选择的冲突处理方法,计算关键字key的下一个存储地址。若该地址对应的链表为不为空,则利用链表的前插法或后插法将该元素插入此链表。
链地址法的优点:非同义词不会冲突,无“聚集”现象(当发生哈希冲突时,开地址法会尝试将冲突的元素插入到哈希表中的下一个可用槽位。如果下一个槽位也被占用了,继续寻找下一个可用槽位,直到找到一个空槽位为止。这种方式可能导致冲突的元素在哈希表中形成一串聚集)。链表上结点空间动态申请,更适合于表长不确定的情况。
例如:一组关键字为{19,14,23,1,68,20,84,27,55,11,10,79},散列函数为Hash(key)=key mod 13。
例题:已知一组关键字(19,14,23,1,68,20,84,27,55,11,10,79),给定散列函数为:H(key)=key MOD 13,散列表长为m=16,设每个记录的查找概率相等。
(1)用线性探测再散列处理冲突,即Hi=(H(key)+di) MOD m,可得散列表如下:
从而计算得到ASL=(1*6+2+3*3+4+9)/12=2.5
(2)用链地址法解决冲突,计算ASL得到:ASL=(1*6+2*4+3+4)/12=1.75
使用平均查找长度ASL来衡量查找算法,ASL取决于:散列函数的选择,处理冲突的方法,散列表的装填因子α(装填因子=表中填入的记录数/哈希表的长度,α越大,表中记录数越多,说明表装得越满,发生冲突的可能性就越大,查找时比较次数就越多)。ASL与装填因子α有关,既不是严格的O(1),也不是O(n)。
最后做几点总结: