第七章 查找技术

7.1概述

7.1.1查找的基本概念

1.关键码

关键码:可以标识一个记录的某个数据项。 
 键值:关键码的值。
 主关键码:可以唯一地标识一个记录的关键码。
 次关键码:不能唯一地标识一个记录的关键码

2.查找

查找 :在具有相同类型的记录构成的集合中找出满足给定条件的记录。 
 给定的查找条件可能是多种多样的,为便于讨论,把查找条件限制为“匹配”,即查找关键码等于给定值的记录。 

查找的结果 :若在查找集合中找到了与给定值相匹配的记录,则称查找成功;否则,称查找失败

静态查找 :不涉及插入和删除操作的查找 。
 动态查找 :涉及插入和删除操作的查找。

静态查找适用于:查找集合一经生成,便只对其进行查找,而不进行插入和删除操作,或经过一段时间的查找之后,集中地进行插入和删除等修改操作;
动态查找适用于:查找与插入和删除操作在同一个阶段进行,例如当查找成功时,要删除查找到的记录,当查找不成功时,要插入被查找的记录。

查找结构 :面向查找操作的数据结构 ,即查找基于的数据结构。

 线性表:适用于静态查找,主要采用顺序查找技术和折半查找技术。
 树表:适用于动态查找,主要采用二叉排序树的查找技术。
 散列表:静态查找和动态查找均适用,主要采用散列技术。 

7.2线性表的查找顺序

1.顺序查找

基本思想:从线性表的一端向另一端逐个将关键码与给定值进行比较,若相等,则查找成功,给出该记录在表中的位置;若整个表检测完仍未找到与给定值相等的关键码,则查找失败,给出失败信息。


int SeqSearch1(int r[ ], int n, int k)
//数组r[1] ~ r[n]存放查找集合
{   
     i = n;
     while (i > 0 && r[i] != k)
         i--;
     return i;
}

顺序查找的优缺点:

优点:算法简单而且使用面广

对表中记录的存储没有任何要求,顺序存储和链接存储均可;
对表中记录的有序性也没有要求,无论记录是否按关键码有序均可。

缺点:平均查找长度较大,特别是当待查找集合中元素较多时,查找效率较低。

2.折半查找

基本思想:在有序表中,取中间记录作为比较对象,若给定值与中间记录的关键码相等,则查找成功;若给定值小于中间记录的关键码,则在中间记录的左半区继续查找;若给定值大于中间记录的关键码,则在中间记录的右半区继续查找。不断重复上述过程,直到查找成功,或所查找的区域无记录,查找失败。

折半查找——非递推算法

int BinSearch1(int r[ ], int n, int k)
{                                  //数组r[1] ~ r[n]存放查找集合
    low = 1; high = n;
    while (low <= high)                   
    {
       mid = (low + high) / 2;            
       if (k < r[mid])  high = mid - 1;
       else if (k > r[mid])  low = mid + 1; 
              else return mid;
    }
    return 0;
}

折半查找——递推算法

int BinSearch2(int r[ ], int low, int high, int k)
{                              //数组r[1] ~ r[n]存放查找集合
    if (low > high) return 0;  
    else {
       mid = (low + high) / 2;
       if (k < r[mid]) 
           return BinSearch2(r, low, mid-1, k);
       else  if (k > r[mid]) 
                   return BinSearch2(r, mid+1, high, k); 
               else return mid;
     }

 }

折半查找判定树

判定树:折半查找的过程可以用二叉树来描述,树中的每个结点对应有序表中的一个记录,结点的值为该记录在表中的位置。通常称这个描述折半查找过程的二叉树为折半查找判定树,简称判定树。

判定树的构造方法

⑴ 当n=0时,折半查找判定树为空;
⑵ 当n>0时,折半查找判定树的根结点是有序表中序号为mid=(n+1)/2的记录,根结点的左子树是与有序表r[1] ~ r[mid-1]相对应的折半查找判定树,根结点的右子树是与r[mid+1] ~ r[n]相对应的折半查找判定树。 

7.3数表的查找技术

1.二叉查找树

二叉排序树(也称二叉查找树):或者是一棵空的二叉树,或者是具有下列性质的二叉树:
⑴ 若它的左子树不空,则左子树上所有结点的值均小于根结点的值;
⑵ 若它的右子树不空,则右子树上所有结点的值均大于根结点的值;
⑶ 它的左右子树也都是二叉排序树。

二叉树的构造算法

BiSortTree::BiSortTree(int r[ ], int n)
{     
    for (i = 0; i < n; i++)
    {
       s = new BiNode
       s->data = r[i];
       s->lchild = s->rchild = NULL;
       InsertBST(root, s);
    }
}

小结

一个无序序列可以通过构造一棵二叉排序树而变成一个有序序列;
每次插入的新结点都是二叉排序树上新的叶子结点;
找到插入位置后,不必移动其它结点,仅需修改某个结点的指针;
在左子树/右子树的查找过程与在整棵树上查找过程相同;
新插入的结点没有破坏原有结点之间的关系。

二叉排序树的查找

BiNode *BiSortTree::SearchBST(BiNode *root, int k)
{
    if (root == NULL)
    return NULL;
    else if (root->data == k) 
              return root;
           else if (k < root->data) 
                      return SearchBST(root->lchild, k);
                  else return SearchBST(root->rchild, k);
}

2.平衡二叉树

平衡二叉树:或者是一棵空的二叉排序树,或者是具有下列性质的二叉排序树:
⑴ 根结点的左子树和右子树的深度最多相差1;
⑵ 根结点的左子树和右子树也都是平衡二叉树。

7.4散列表的查找技术

散列的基本思想:在记录的存储地址和它的关键码之间建立一个确定的对应关系。这样,不经过比较,一次读取就能得到所查元素的查找方法。

散列表:采用散列技术将记录存储在一块连续的存储空间中,这块连续的存储空间称为散列表。

散列函数:将关键码映射为散列表中适当存储位置的函数。

散列技术一般不适用于允许多个记录有同样关键码的情况。散列方法也不适用于范围查找,换言之,在散列表中,我们不可能找到最大或最小关键码的记录,也不可能找到在某一范围内的记录。

散列技术的关键问题:
⑴ 散列函数的设计。如何设计一个简单、均匀、存储利用率高的散列函数。
⑵ 冲突的处理。如何采取合适的处理冲突方法来解决冲突。

冲突:对于两个不同关键码ki≠kj,有H(ki)=H(kj),即两个不同的记录需要存放在同一个存储位置,ki和kj相对于H称做同义词。

设计散列函数一般应遵循以下原则:
⑴ 计算简单。散列函数不应该有很大的计算量,否则会降低查找效率。
⑵ 函数值即散列地址分布均匀。函数值要尽量均匀散布在地址空间,这样才能保证存储空间的有效利用并减少冲突。


你可能感兴趣的:(第七章 查找技术)