哈希表全解

哈希表定义

哈希表(Hash table),是根据关键码值(Key - value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。

HashTable(key,value)就是把key通过一个固定的算法即哈希函数(散列函数)转换成一个整型数字,然后就将数字对数组的长度取余,把这个结果值作为数组的下标,然后将value存在以该数字为下标的数组中。而用哈希表查询时,可以用哈希函数把key转化数组下标,并且直接定位到该空间获取value,进行数据定位。

哈希表全解_第1张图片

哈希表的特点:

数组的特点:寻址容易,插入和删除困难(需要移动数据)

链表的特点:寻址困难(要遍历),插入和删除容易

哈希表的特点:哈希表有不同的实现方法,其中一种最常用的拉链法(链表的数组),它结合了两者的特性,寻址容易,插入和删除也容易。

哈希表全解_第2张图片

拉链法:左侧明显是一个数组,数组的每一个成员都包括一个指针,指向一个链表的投头,这个链表也可以是空,也有可能有元素。我们根据元素的一些特征把元素分配到不同的链表中去,也是根据这些特征,找到正确的链表,再从链表中找出这个元素。

哈希表的应用:

  1、主要用于信息安全领域中加密算法,它能把一些不同长度的信息转化成杂乱的128位的编码,即哈希值。Hash就是找到一种数据内容和数据存放地址之间的映射关系。

  2、用于高效率查找,之前用的是二分法查找,现在有了哈希表,当我们知道了key值以后,就可以直接通过哈希算法计算这个元素在数组中的位置,而不需要一个一个的比对查找。

  3、哈希表在海量数据处理中有广泛的应用。

散列法:

元素特征转变为数组下标的方法就是散列法。散列法当然不止一种,下面列出三种比较常用的:
1,除法散列法 最直观的一种,上图使用的就是这种散列法,公式:   index = value % 16 学过汇编的都知道,求模数其实是通过一个除法运算得到的,所以叫“除法散列法”。
2,平方散列法 求index是非常频繁的操作,而乘法的运算要比除法来得省时(对现在的CPU来说,估计我们感觉不出来),所以我们考虑把除法换成乘法和一个位移操作。公式:       index = (value * value) >> 28   (右移,除以2^28。记法:左移变大,是乘。右移变小,是除。)如果数值分配比较均匀的话这种方法能得到不错的结果,但我上面画的那个图的各个元素的值算出来的index都是0——非常失败。也许你还有个问题,value如果很大,value * value不会溢出吗?答案是会的,但我们这个乘法不关心溢出,因为我们根本不是为了获取相乘结果,而是为了获取index。
3,斐波那契(Fibonacci)散列法
平方散列法的缺点是显而易见的,所以我们能不能找出一个理想的乘数,而不是拿value本身当作乘数呢?答案是肯定的。
1,对于16位整数而言,这个乘数是40503 2,对于32位整数而言,这个乘数是2654435769 3,对于64位整数而言,这个乘数是11400714819323198485
    这几个“理想乘数”是如何得出来的呢?这跟一个法则有关,叫黄金分割法则,而描述黄金分割法则的最经典表达式无疑就是著名的斐波那契数列,即如此形式的序列:0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233,377, 610,
 987, 1597, 2584, 4181, 6765, 10946,…。另外,斐波那契数列的值和太阳系八大行星的轨道半径的比例出奇吻合。
    对我们常见的32位整数而言,公式:             index = (value * 2654435769) >> 28
    如果用这种斐波那契散列法的话,那上面的图就变成这样了:

哈希表全解_第3张图片

适用范围    快速查找,删除的基本数据结构,通常需要总数据量可以放入内存。
基本原理及要点    hash函数选择,针对字符串,整数,排列,具体相应的hash方法。 碰撞处理,一种是open hashing,也称为拉链法;另一种就是closed hashing,也称开地址法,opened addressing。
 

哈希表的优缺点:

  优点: 不论哈希表中有多少数据,查找、插入、删除(有时包括删除)只需要接近常量的时间即0(1)的时间级。实际上,这只需要几条机器指令。哈希表运算得非常快,在计算机程序中,如果需要在一秒种内查找上千条记录通常使用哈希表(例如拼写检查器)哈希表的速度明显比树快,树的操作通常需要O(N)的时间级。哈希表不仅速度快,编程实现也相对容易。
如果不需要有序遍历数据,并且可以提前预测数据量的大小。那么哈希表在速度和易用性方面是无与伦比的。

  缺点:

  (1)它是基于数组的,数组创建后难于扩展,某些哈希表被基本填满时,性能下降得非常严重,所以程序员必须要清楚表中将要存储多少数据(或者准备好定期地把数据转移到更大的哈希表中,这是个费时的过程)。

  (2)一个关键字可能对应多个散列地址;需要查找一个范围时,效果不好。

        散列冲突:不同的关键字经过散列函数的计算得到了相同的散列地址。

         好的散列函数=计算简单+分布均匀(计算得到的散列地址分布均匀)

散列冲突的解决方案:


1、缓冲区法:建立一个缓冲区,把凡是拼音重复的人放到缓冲区中。当我通过名字查找人时,发现找的不对,就在缓冲区里找。

2、开放地址法:

(1)线性探测法:

哈希表全解_第4张图片

(2)二次探测法:

 哈希表全解_第5张图片
 
问题实例(海量数据处理)     我们知道hash 表在海量数据处理中有着广泛的应用,下面,请看另一道百度面试题:题目:海量日志数据,提取出某日访问百度次数最多的那个IP。方案:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。

 

 

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(C++)