哈希表(重要)

目录

  • 概念
  • 哈希冲突
    • 概念
    • 哈希冲突的避免(两种方式)
      • 第一种方式:设计精妙的哈希函数
        • 哈希函数的设计
        • 哈希函数设计原则
        • 常见的哈希函数
      • 第二种方式:负载因子调节(重点掌握)
    • 哈希冲突的解决(两种方式)
      • 闭散列
        • 方法1:线性探测
          • 线性探测的插入操作
          • 线性探测的删除操作
        • 方法2:二次探测
      • 开散列(非常重要)
  • 性能分析
  • 和 java 类集的关系

概念

顺序结构以及二叉搜索树中,元素关键码与其存储位置之间没有对应的关系,因此在查找一个元素时,必须要经过关键码的多次比较。顺序查找时间复杂度为O(N),二叉搜索树中为树的高度,即O(log2N),搜索的效率取决于搜索过程中元素的比较次数。

理想的搜索方法:可以不经过任何比较,一次直接从表中得到要搜索的元素。如果构造一种存储结构,通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立一一映射的关系,那么在查找时通过该函数可以很快找到该元素
当向该结构中:

  • 插入元素

根据待插入元素的关键码,以此函数计算出该元素的存储位置并按此位置进行存放

  • 搜索元素

对元素的关键码进行同样的计算,把求得的函数值当做元素的存储位置,在结构中按此位置取元素比较,若 关键码相等,则搜索成功
该方式即为哈希(散列)方法哈希方法中使用的转换函数称为哈希(散列)函数,构造出来的结构称为哈希表(Hash Table)(或者称散列表)

例如:数据集合{1,7,6,4,5,9};
哈希函数设置为:hash(key) = key % capacity; capacity为存储元素底层空间总的大小

其实哈希表的底层是一个数组,有些书上也称之为哈希桶

哈希函数中每次取余后的值为我们所要在哈希表中存储的位置,例如1就在1%10=1的位置处存放这个值即可.取1的时候也直接在1下标处取即可,所以在哈希表中增删查改的时间复杂度都能达到O(1)
哈希表(重要)_第1张图片
用该方法进行搜索不必进行多次关键码的比较,因此搜索的速度比较快 但是此时就要注意一个问题了,假设此时我们要存储44这个元素,发现44%10=4,44同样也可以放到下标为4的这个位置,但是我们发现4这个下标位置处其实是有元素的,此时就发生了哈希冲突,所以当发生了哈希冲突的时候,我们就需要做两件事情,第一是在冲突发生前避免哈希冲突,第二点是如果发生了哈希冲突就要去解决哈希冲突.
面试中也会经常去问你是如何解决哈希冲突的.

哈希冲突

概念

不同的关键码,使用一个哈希函数,哈希到了同一个位置,这种现象称为哈希冲突或者哈希碰撞
一般来说我们都想去避免哈希冲突,但是冲突是无法全部避免的,最终我们仍要去解决哈希冲突,先来看如何避免哈希冲突.

哈希冲突的避免(两种方式)

第一种方式:设计精妙的哈希函数

其实当数据的个数大于我们数组长度的时候,就一定会发生哈希冲突,冲突的发生是必然的,但我们能做的应该是尽量的降低冲突率

哈希函数的设计

引起哈希冲突的一个原因可能是:**哈希函数设计不够合理。

哈希函数设计原则

  • 哈希函数的定义域必须包括需要存储的全部关键码,而如果散列表允许有m个地址时,其值域必须在0到m-1 之间
  • 哈希函数计算出来的地址能均匀分布在整个空间中
  • 哈希函数应该比较简单

常见的哈希函数

1.直接定制法–(常用)
取关键字的某个线性函数为散列地址:Hash(Key)= A*Key + B 优点:简单、均匀 缺点:需要事先知道关键字的分布情况 使用场景:适合查找比较小且连续的情况 面试题:字符串中第一个只出现一次字符
2.除留余数法--(最常用的方法)
设散列表中允许的地址数为m,取一个不大于m,但最接近或者等于m的质数p作为除数,按照哈希函数:
Hash(key) = key% p(p<=m),将关键码转换成哈希地址
3.平方取中法–(了解)
假设关键字为1234,对它平方就是1522756,抽取中间的3位227作为哈希地址; 再比如关键字为4321,对它平方就是18671041,抽取中间的3位671(或710)作为哈希地址 平方取中法比较适合:不知道关键字的分布,而位数又不是很大的情况
4.折叠法–(了解)
折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些),然后将这几部分叠加求和, 并按散列表表长,取后几位作为散列地址。
折叠法适合事先不需要知道关键字的分布,适合关键字位数比较多的情况
5.随机数法–(了解)
选择一个随机函数,取关键字的随机函数值为它的哈希地址,即H(key) = random(key),其中random为随机数函数。
通常应用于关键字长度不等时采用此法
6.数学分析法–(了解)
设有n个d位数,每一位可能有r种不同的符号,这r种不同的符号在各位上出现的频率不一定相同,可能在某 些位上分布比较均匀,每种符号出现的机会均等,在某些位上分布不均匀只有某几种符号经常出现。可根据 散列表的大小,选择其中各种符号分布均匀的若干位作为散列地址。例如:
哈希表(重要)_第2张图片
假设要存储某家公司员工登记表,如果用手机号作为关键字,那么极有可能前7位都是相同的,那么我们可以选择后面的四位作为散列地址,如果这样的抽取工作还容易出现 冲突,还可以对抽取出来的数字进行反转(如1234改成4321)、右环位移(如1234改成4123)、左环移位、前两数与后两数叠加(如1234改成12+34=46)等方 法。
数字分析法通常适合处理关键字位数比较大的情况,如果事先知道关键字的分布且关键字的若干位分布较均匀的情况
注意:哈希函数设计的越精妙,产生哈希冲突的可能性就越低,但是无法避免哈希冲突

第二种方式:负载因子调节(重点掌握)

哈希表(重要)_第3张图片
负载因子和冲突率的关系粗略演示
哈希表(重要)_第4张图片
可以看到的是,当我们想让冲突率越小的话,负载因子也要越来越小,
再来看之前的公式:
哈希表(重要)_第5张图片
已知哈希表中已有的关键字个数是不可变的,那么为了我们的负载因子变小,我们能调整的就只有哈希表中的数组的大小了,也就是我们散列表的长度,散列表长度越大,负载因子越小.
另外我们之前所了解到的HashMap的底层耶斯==

哈希冲突的解决(两种方式)

解决哈希冲突两种常见的方法是:闭散列和开散列

闭散列

闭散列:也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以把key存放到冲突位置中的“下一个” 空位置中去。那如何寻找下一个空位置呢?有两种方法

方法1:线性探测

比如上面的场景,现在需要插入元素44,先通过哈希函数计算哈希地址,下标为4,因此44理论上应该插在该位置,但是该位置已经放了值为4的元素,即发生哈希冲突

线性探测:从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止

线性探测的插入操作

例如插入44的时候
通过哈希函数获取待插入元素在哈希表中的位置,44%10=4,此时4下标的位置有4这个元素,那么就直接从当前4下标的位置向后遍历去寻找空的位置将44这个元素插入进去,如下图所示此时插入到8这个位置.
哈希表(重要)_第6张图片

总结:如果该位置中没有元素则直接插入新元素,如果该位置中有元素发生哈希冲突,使用线性探测找到 下一个空位置,插入新元素

线性探测的删除操作

采用闭散列处理哈希冲突时,不能随便物理删除哈希表中已有的元素,若直接删除元素会影响其他元素的搜索。比如删除元素4,如果直接删除掉,44查找起来可能会受影响。因此线性探测采用标记的伪删除法来删除一个元素,就是标记一下4删除掉了,但是其实没有删除掉.

方法2:二次探测

线性探测的缺陷是产生冲突的数据堆积在一块,举个例子
我们现在要插入的不但有44,还有34,54,64
哈希表(重要)_第7张图片
按照之前的线性探测,这几个数据分别本来都来插入到4下标位置处,只不过发生了哈希冲突,就依次往后寻找插入点,插入完毕后如下所示:
哈希表(重要)_第8张图片
我们会发现冲突的元素全部都在一起了.
而我们的二次探测解决的问题就是不让我们冲突的元素挤在一起.
因此二次探测为了避免该问题,找下一个空位置的方法为:
在这里插入图片描述
这里我们解释一下这个公式:第一次发生冲突跳$1^{2}$个,第二次发生冲突跳$2^{2}$个,第三次发生冲突跳$3^{2}$个,依次往下递增,所以34作为我们的第一个发生冲突的,此时他所要去的下一个位置为(4+1)%10=5,也就是下标5处,44作为我们第二个发生冲突的,此时他所要去的下一个位置为(4+4)%10=8,也就是下标8处,54作为我们第三个发生冲突的,此时他所要去的下一个位置为(4+9)%10=3,也就是下标3处,我们会发现我们尽量将冲突的元素在散列表中散开.如下图所示:哈希表(重要)_第9张图片
研究表明:当表的长度为质数且表装载因子a不超过0.5时,新的表项一定能够插入,而且任何一个位置都不会被探查两次。因此只要表中有一半的空位置,就不会存在表满的问题。在搜索时可以不考虑表装满的情 况,但在插入时必须确保表的装载因子a不超过0.5,如果超出必须考虑增容。
因此:闭散列最大的缺陷就是空间利用率比较低,这也是哈希的缺陷

开散列(非常重要)

开散列也是我们哈希表底层使用的方法,所以非常重要

开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中。

因为HashMap和HashSet的底部都是哈希桶,即一个数组,那么我们就拿HahMap来举例,看看其底层是怎么通过开散列的方式解决哈希冲突的:

首先我们知道开散列的方法是将具有相同地址的关键码(关键码就是要插入到HashMap中的数据)归到一个下标处,然后将这些具有相同地址的关键码通过单链表的形式串起来,然后将各链表的头结点存储在哈希表中,来看示意图:
假设此时我们创建了一个map对象后,向我们的map集合中放入两个键值对,键值对中存储的值分别为2,12,通过之前的哈希函数我们可以知道2%10=2,12%10=2(注意此处是通过键值对中的key来找到插入位置的),最终都会放到数组的2下标处。
哈希表(重要)_第10张图片

此时需要注意的是,当2插入到我们的对应位置后,作为链表的头节点,然后12要插入到相同位置的时候,采取的是尾插法,这是jdk1.8开始规定的,并且需要注意的是,我们的链表当长度超过8的时候这个链表会蜕变为红黑树

性能分析

哈希表的插入/删除/查找时间复杂度是 O(1)

和 java 类集的关系

1.HashMapHashSet 即 java 中利用哈希表实现的 MapSet
2.java 中使用的是哈希桶方式解决冲突的
3.java 会在冲突链表长度大于一定阈值后,将链表转变为搜索树(红黑树)
4.java 中计算哈希值实际上是调用的类的 hashCode 方法,进行 key 的相等性比较是调用 key 的 equals 方法。所以如果要用自定义类作为 HashMapkey 或者 HashSet 的值,必须覆写 hashCode 和 equals 方法,而且要做到 equals 相等的对象,hashCode 一定是一致的。

你可能感兴趣的:(数据结构与算法,哈希算法)