哈希表详解

哈希表：即散列存储结构。
散列法存储的基本思想：建立记录关键码字与其存储位置的对应关系，或者说，由关键码的值决定数据的存储地址。
这样，不经过比较，一次存取就能得到所查元素的查找方法
优点：查找速度极快（O(1)）,查找效率与元素个数n无关！

哈希方法(杂凑法)
选取某个函数，依该函数按关键字计算元素的存储位置并按此存放；查找时也由同一个函数对给定值k计算地址，将k与地址中内容进行比较，确定查找是否成功。

哈希函数(杂凑函数)
哈希方法中使用的转换函数称为哈希函数(杂凑函数).在记录的关键码与记录的存储地址之间建立的一种对应关系

例：

有数据元素序列(14，23，39，9，25，11)，若规定每个元素k的存储地址H（k）＝k ， H(k)称为散列函数,画出存储结构图。

image.png

根据散列函数H（k）＝k ，可知元素14应当存入地址为14的单元，元素23应当存入地址为23的单元，……，

如何进行散列查找？

根据存储时用到的散列函数H(k)表达式，迅即可查到结果！
例如，查找key=9,则访问H(9)=9号地址，若内容为9则成功；
若查不到，应当设法返回一个特殊值，例如空指针或空记录。
很显然这种搜索方式空间效率过低。

哈希函数可写成：addr(ai)=H(ki)

选取某个函数，依该函数按关键字计算元素的存储位置并按此存放；查找时也由同一个函数对给定值k计算地址，将k与地址中内容进行比较，确定查找是否成功。哈希方法中使用的转换函数称为哈希函数(杂凑函数).在记录的关键码与记录的存储地址之间建立的一种对应关系。

可能导致的冲突

通常关键码的集合比哈希地址集合大得多，因而经过哈希函数变换后，可能将不同的关键码映射到同一个哈希地址上，这种现象称为冲突。

例.

有6个元素的关键码分别为：（14，23，39，9，25，11）。
选取关键码与元素位置间的函数为H(k)=k mod 7

image.png

根据哈希函数算出来发现同一个地址放了多个关键码，也就是冲突了。
在哈希查找方法中，冲突是不可能避免的，只能尽可能减少。
所以，哈希方法必须解决以下两个问题：

1）构造好的哈希函数
（a）所选函数尽可能简单，以便提高转换速度；
（b）所选函数对关键码计算出的地址，应在哈希地址内集中并大致均匀分布，以减少空间浪费。

2）制定一个好的解决冲突的方案
查找时，如果从哈希函数计算出的地址中查不到关键码，则应当依据解决冲突的规则，有规律地查询其它相关单元。

从上面两个例子可以得出如下结论：
哈希函数只是一种映象，所以哈希函数的设定很灵活，只要使任何关键码的哈希函数值都落在表长允许的范围之内即可
冲突：key1≠key2，但H(key1)=H(key2)
同义词：具有相同函数值的两个关键码
哈希函数冲突不可避免，只能尽量减少。所以，哈希方法解决两个问题：
构造好的哈希函数；

制定解决冲突基本要求：
要求一：n个数据原仅占用n个地址，虽然散列查找是以空间换时间，但仍希望散列的地址空间尽量小。
要求二：无论用什么方法存储，目的都是尽量均匀地存放元素，以避免冲突。

常用的哈希函数构造方法有：

直接定址法
除留余数法
乘余取整法
数字分析法
平方取中法
折叠法
随机数法

1、直接定址法

Hash(key) = a·key + b (a、b为常数)
优点：以关键码key的某个线性函数值为哈希地址，不会产生冲突.
缺点：要占用连续地址空间，空间效率低。

例.关键码集合为{100，300，500，700，800，900}，
选取哈希函数为Hash(key)=key/100，
则存储结构（哈希表）如下：

image.png

2、除留余数法

Hash(key)=key mod p (p是一个整数)
特点：以关键码除以p的余数作为哈希地址。
关键：如何选取合适的p？p选的不好，容易产生同义词
技巧：若设计的哈希表长为m，则一般取p≤m且为质数
（也可以是合数，但不能包含小于20的质因子）。

3、乘余取整法

Hash(key)= ⎣ B( Akey mod 1 ) ⎦
(A、B均为常数，且0 特点：以关键码key乘以A，取其小数部分，然后再放大B倍并取整，作为哈希地址。
例：欲以学号最后两位作为地址，则哈希函数应为：
H(k)=100(0.01k % 1 )
其实也可以用法2实现： H(k)=k % 100

4、数字分析法

特点：选用关键字的某几位组合成哈希地址。选用原则应当是：各种符号在该位上出现的频率大致相同。
例：有一组（例如80个）关键码，其样式如下：

image.png

讨论：
① 第1、2位均是“3和4”，第3位也只有“ 7、8、9”，因此，这几位不能用，余下四位分布较均匀，可作为哈希地址选用。

② 若哈希地址取两位（因元素仅80个），则可取这四位中的任意两位组合成哈希地址，也可以取其中两位与其它两位叠加求和后，取低两位作哈希地址。

5、平方取中法

特点：对关键码平方后，按哈希表大小，取中间的若干位作为哈希地址。(适于不知道全部关键码情况)
理由：因为中间几位与数据的每一位都相关。
例：2589的平方值为6702921，可以取中间的029为地址。

6、折叠法

特点：将关键码自左到右分成位数相等的几部分（最后一部分位数可以短些），然后将这几部分叠加求和，并按哈希表表长，取后几位作为哈希地址。
适用于：关键码位数很多,且每一位上各符号出现概率大致相同的情况。
法1：移位法 ── 将各部分的最后一位对齐相加。
法2：间界叠加法──从一端向另一端沿分割界来回折叠后，最后一位对齐相加。
例：元素42751896,
用法1： 427＋518＋96=1041
用法2： 427 518 96—> 724+518+69 =1311

7、随机数法
Hash(key) = random ( key ) (random为伪随机函数)
适用于：关键字长度不等的情况。造表和查找都很方便。

小结：构造哈希函数的原则：
① 执行速度（即计算哈希函数所需时间）；
② 关键字的长度；
③ 哈希表的大小；
④ 关键字的分布情况；
⑤ 查找频率。

三、冲突处理方法

开放定址法（开地址法）
链地址法（拉链法）
再哈希法（双哈希函数法）
建立一个公共溢出区

1、开放定址法（开地址法）

设计思路：有冲突时就去寻找下一个空的哈希地址，只要哈希表足够大，空的哈希地址总能找到，并将数据元素存入。
1）线性探测法
Hi=(Hash(key)+di) mod m ( 1≤i < m )
其中：
Hash(key)为哈希函数
m为哈希表长度
di 为增量序列 1，2，…m-1，且di=i

关键码集为 {47，7，29，11，16，92，22，8，3}，
设：哈希表表长为m=11；
哈希函数为Hash(key)=key mod 11；
拟用线性探测法处理冲突。建哈希表如下：

image.png

解释：
① 47、7是由哈希函数得到的没有冲突的哈希地址；
② Hash(29)=7，哈希地址有冲突，需寻找下一个空的哈希地址：由H1=(Hash(29)+1) mod 11=8，哈希地址8为空，因此将29存入。
③ 另外，22、8、3同样在哈希地址上有冲突，也是由H1找到空的哈希地址的。
其中3 还连续移动了（二次聚集）

线性探测法的优点：只要哈希表未被填满，保证能找到一个空地址单元存放有冲突的元素；
线性探测法的缺点：可能使第i个哈希地址的同义词存入第i+1个哈希地址，这样本应存入第i+1个哈希地址的元素变成了第i+2个哈希地址的同义词，……，
因此，可能出现很多元素在相邻的哈希地址上“堆积”起来，大大降低了查找效率。
解决方案：可采用二次探测法或伪随机探测法，以改善“堆积”问题。

2）二次探测法
仍举上例，改用二次探测法处理冲突，建表如下：
Hi=(Hash(key)±di) mod m
其中：Hash(key)为哈希函数
m为哈希表长度，m要求是某个4k+3的质数；
di为增量序列 1^2，-1 ^2，2 ^2，-2 ^2，…，q ^2

image.png

注：只有3这个关键码的冲突处理与上例不同，
Hash(3)=3，哈希地址上冲突，由
H1=(Hash(3)+1 ^2) mod 11=4，仍然冲突；
H2=(Hash(3)-1 ^2) mod 11=2，找到空的哈希地址，存入。

3）若di＝伪随机序列，就称为伪随机探测法

2、链地址法(拉链法）

基本思想：将具有相同哈希地址的记录(所有关键码为同义词)链成一个单链表，m个哈希地址就设m个单链表，然后用一个数组将m个单链表的表头指针存储起来，形成一个动态的结构。

设{ 47, 7, 29, 11, 16, 92, 22, 8, 3, 50, 37, 89 }的哈希函数为：
Hash(key)=key mod 11，
用拉链法处理冲突，则建表如图所示。

image.png

3、再哈希法（双哈希函数法）

Hi=RHi(key) i=1, 2, …，k
RHi均是不同的哈希函数，当产生冲突时就计算另一个哈希函数，直到冲突不再发生。
优点：不易产生聚集；
缺点：增加了计算时间。

4. 建立一个公共溢出区

思路：除设立哈希基本表外，另设立一个溢出向量表。
所有关键字和基本表中关键字为同义词的记录，不管它们由哈希函数得到的地址是什么，一旦发生冲突，都填入溢出表。

哈希表的查找及分析

明确：散列函数没有“万能”通式（杂凑法），要根据元素集合的特性而分别构造。
讨论：哈希查找的速度是否为真正的O（1）？
不是。由于冲突的产生，使得哈希表的查找过程仍然要进行比较，仍然要以平均查找长度ASL来衡量。
一般地，ASL依赖于哈希表的装填因子α,它标志着哈希表的装满程度。

image.png

0≤α≤1
α 越大，表中记录数越多，说明表装得越满，发生冲突的可能性就越大，查找时比较次数就越多。

例已知一组关键字(19,14,23,1,68,20,84,27,55,11,10,79)
哈希函数为：H(key)=key MOD 13, 哈希表长为m=16，
设每个记录的查找概率相等
(1) 用线性探测再散列处理冲突，即Hi=(H(key)+di) MOD m

image.png

H(19)=6
H(14)=1
H(23)=10
H(1)=1     冲突，H1=(1+1) MOD16=2
H(68)=3
H(20)=7
H(84)=6   冲突，H1=(6+1)MOD16=7
                 冲突，H2=(6+2)MOD16=8
H(27)=1   冲突，H1=(1+1)MOD16=2
                 冲突，H2=(1+2)MOD16=3
                 冲突，H3=(1+3)MOD16=4
H(55)=3   冲突，H1=(3+1)MOD16=4
                 冲突，H2=(3+2)MOD16=5
H(11)=11
H(10)=10  冲突，H1=(10+1)MOD16=11
                  冲突，H2=(10+2)MOD16=12
H(79)=1    冲突，H1=(1+1)MOD16=2
                  冲突，H2=(1+2)MOD16=3
                  冲突，H3=(1+3)MOD16=4
                  冲突，H4=(1+4)MOD16=5
                  冲突，H5=(1+5)MOD16=6
                  冲突，H6=(1+6)MOD16=7
                  冲突，H7=(1+7)MOD16=8
                  冲突，H8=(1+8)MOD16=9
ASL=(1*6+2+3*3+4*1+9*1)/12=2.5

(2) 用二次探测再散列处理冲突，即Hi=(H(key)+di) MOD m

image.png

H(19)=6
H(14)=1
H(23)=10
H(1)=1冲突， H1=(1+12) MOD16=2
H(68)=3
H(20)=7
H(84)=6   冲突，H1=(6+12)MOD16=7
                 冲突，H2=(6﹣12)MOD16=5
H(27)=1   冲突，H1=(1+12 )MOD16=2
                 冲突，H2=(1 -12 )MOD16=0
H(55)=3   冲突，H1=(3+12)MOD16=4
H(11)=11
H(10)=10  冲突，H1=(10+12)MOD16=11
                  冲突，H2=(10 ﹣12 )MOD16=9
H(79)=1    冲突，H1=(1 +12 )MOD16=2
                  冲突，H2=(1﹣12)MOD16=0
                  冲突，H3=(1+ 22)MOD16=5
                  冲突，H4=(1﹣22)MOD16=13

ASL=(1*6+2*2+3*3+5*1)/12=2

(3) 用链地址法处理冲突

image.png

ASL=(1 6+24+3 1+41)/12=1.75

讨论：

1）散列存储的查找效率到底是多少？
答：ASL与装填因子α有关！既不是严格的O(1)，也不是O(n)
2）“冲突”是不是特别讨厌？
答：不一定！正因为有冲突，使得文件加密后无法破译！（单向散列函数不可逆，常用于数字签名和间接加密）。
利用了哈希表性质：源文件稍稍改动，会导致哈希表变动很大。

哈希表详解

例：

如何进行散列查找？

可能导致的冲突

例.

常用的哈希函数构造方法有：

1、直接定址法

2、除留余数法

3、乘余取整法

4、数字分析法

5、平方取中法

6、折叠法

三、冲突处理方法

1、开放定址法（开地址法）

2、链地址法(拉链法）

3、再哈希法（双哈希函数法）

4. 建立一个公共溢出区

哈希表的查找及分析

讨论：

你可能感兴趣的:(哈希表详解)