哈希表又称散列表,它用于快速查找。
查找,如果能够不经过比较,直接就能得到待查记录的存储位置,那效率必定很高。
通过在记录的存储位置和它的关键码之间建立一个确定的对应关系H,使得每个关键码key跟唯一的存储位置H(key)对应,那么当我们想查找关键码为k的记录时,直接到H(k)处取即可。这种查找技术叫做散列技术。
采用散列技术将记录存储在一块连续的存储空间中,这块连续的存储空间称为散列表,将关键码映射为散列表中适当存储位置的函数称为散列函数。
散列主要是面向查找的数据结构,它不适用于范围查找(如找最大最小值、某一个范围内的值等等)。它最适合回答的问题是:如果有的话,哪个记录的关键码等于待查值。
散列表有一个问题:对于两个不同的关键码k1 != k2,有H(k1) = H(k2),即两个不同的记录需要存放在同一个存储空间中,这种现象称为冲突。
散列技术需要考虑的两个主要问题:
设计原则:
散列函数为关键码的线性函数:
H(key) = a * key + b (a、b为常数)
特点:单调、均匀,不会产生冲突;
适用于事先知道关键码的分布,且关键码集合不是很大而连续性号的情况。
实际不常用。
H(key) = key mod p (p为正整数)
关键在于p的选取,一般情况下,若表长为m,通常选p为小于等于表长(最好接近m)的最小素数或与2的整数幂不太接近的质数或不包含小于20质因子的合数。
平方取中法将关键码平方后,按散列表的大小,取中间的若干位作为散列地址。因为一个数平方后,中间几位分布较均匀,从而冲突发生的概率较小。
折叠法将关键码从左到右分割成位数相等的几步分,最后一部分位数可以短些,然后将几部分折叠求和,并按散列表长度,取后几位作为散列地址。
以key=25346358705为例,散列表长为3位。
移位叠加:
253
463
587
+ 05
————
1308
H(key) = 308
间界叠加:
253
364
587
+ 50
————
1254
H(key) = 254
适用于:关键码位数多,每一位分布都不均匀。
全域散列保证了较好的平均性态。
它从预先设计好的一组函数中随机选择一个作为散列函数,随机化保证了没有哪一种输入会始终导致最坏情况形态。
关于散列函数还有很多,散列函数是不通用的,需要针对具体的应用场景来设计,这里作为入门,不一一介绍了。
用开放定址法处理冲突得到的散列表称为闭散列表,其做法是:一旦产生冲突,就去寻找下一个空的散列地址,只有散列表足够大,就能找到空的散列地址并将记录存入。
找下一个空的散列地址有多种方法,这里介绍三种:
线性探测法
设散列表长度为m,线性探测法从冲突位置的下一个位置起,依次寻找空的散列地址:
Hi = (H(key) + di) % m (di = 1,2,...,m-1)
这个方法将引入一个问题:不是同义词(即散列值不同的记录)可能争抢同一个散列地址,这称为堆积。
闭散列表查找算法:
int HashSearch(int ht[], int m, int k)
{
j = H(k); //计算散列地址
if (ht[j] == k) //没有冲突,一次查找成功
return j;
else if (ht[j] == empty)
{
ht[j] = k; //查找不成功,插入
return 0; //退出
}
//ht[j]不为空,且ht[j] != k,说明有冲突
i = (j+1) % m; //探测的起始下标
while (ht[i] != empty && i != j)
{
if (ht[j] == k) //有冲突,但是查找若干次后成功了
return i;
else
i = (i+1) % m; //往后探测
}
if (i == j) //找不到合适的地方插入了
throw "溢出";
else
{
ht[i] = k;
return 0;
}
}
删除
当从闭散列表中删除一个记录时,需要考虑以下两点:
假如有H(11)=H(22)=0,则将11删除后,22将查找不到,因此不能简单地将被删除的单元清空。
解决方法:在被删除记录的位置上放一个特殊标记,标记一个记录曾经占用该单元,于是查找22的时候将不会在11曾经占用的地方停止,而是继续查找下去。当插入遇到一个标记时,则该单元可以存储新记录。但是为了避免重复,查找过程仍然要继续探测下去,比如在删除11后,要插入22,因为后面已经有22了,所以22不应该插入到11的位置。
二次探测法
寻找下一个散列地址的公式:
Hi = (H(key) + di) % m (di = 1^2,-1^2,2^2,-2^2,...,q^2,-q^2且q<=sqrt(m))
随机探测法
Hi = (H(key) + di) % m (di为一个随机序列,i=1,2,...,m-1)
双重散列
双重散列是用于开放寻址法的最好方法之一:
Hi = (H1(key) + i*H2(key)) % m
用拉链法(chaining)处理冲突构造的散列表叫做开散列表。
其基本思想是:将所有散列地址相同的记录存储在一个单链表中,散列表中存储的是链表的头指针。设n个记录存储在长度为m的开散列表中,则链表平均长度为n/m。
开散列表查找算法:
Node<int> *HashSearch(Node<int> *ht[], int m, int k)
{
j = H(k); //计算散列地址
p = ht[j]; //工作指针p指向第j个链表头部
while (p && p->data !=k)
p = p->next;
if (p->data == k) //查找成功
return p;
else
{
q = new Node<int>; //查找失败则插入
q->data = k; //头插法
q->next = ht[j];
ht[j] = q;
}
}
另外还有再哈希等方法来解决冲突问题,此处不详述。
已知一个线性表(38,25,74,63,52,48),采用的散列函数为H(Key)=Key%7,将元素散列到表长为7的哈希表中存储。若采用线性探测的开放定址法解决冲突,则在该散列表上进行等概率成功查找的平均查找长度为多少?
解答:
38 25 74 63 52 48 mod 7分别是 3 4 4 0 3 6
所以采用线性探测的开放定址法解决冲突,表为:
63,48, ,38,25,74,52
找38,1次
找25,1次
找74,2次
找63,1次
找52,4次
找48,3次
所以成功查找的平均长度为(1+1+2+1+4+3)/6=2
建表复杂度O(n);
查找复杂度O(1)。
最后补充的一个问题
为什么一般hashtable的桶数会取一个素数?
如果不取素数的话是会有一定危险的,危险出现在当假设所选非素数m=x*y,如果需要hash的key正好跟这个约数x存在关系就惨了,最坏情况假设都为x的倍数,那么可以想象hash的结果为:1~y,而不是1~m。但是如果选桶的大小为素数是不会有这个问题。
关于哈希,暂时介绍到这里,哈希表的设计看似简单,实际上在实际应用中要设计的好还是挺复杂的。
刚刚查资料看到一个利用哈希进行攻击的事情:不断添加散列地址相同的记录,于是在拉链法中,哈希表将退化为链表,导致访问速度极慢,形成拒绝服务攻击。所以实际中需要考虑的问题还有很多。
接下来如果有空,我将开始阅读STL源码,看一看它的哈希表是如何实现的,有兴趣的读者也可以深入了解一下。
每天进步一点点,Come on!
(●’◡’●)
本人水平有限,如文章内容有错漏之处,敬请各位读者指出,谢谢!