详解哈希算法、哈希表

哈希算法详解


  1. 何为哈希算法

    哈希算法又称为散列技术(Hash技术),哈希算法将任意长度的二进制值映射为较短的固定长度的二进制值,这个小的二进制值称为哈希值。哈希值是一段数据唯一且极其紧凑的数值表示形式。如果散列一段明文而且哪怕只更改该段落的一个字母,随后的哈希都将产生不同的值。要找到散列为同一个值的两个不同的输入,在计算上是不可能的,所以数据的哈希值可以检验数据的完整性。一般用于快速查找和加密算法。
    换种说法:
    针对不同的关键字值映射到位置的函数h称为哈希函数(hash function),而这样建立的表称为哈希表(hash list)

  2. 常见哈希函数

    2.1 除留余数法

    函数形式如下: 
    h(key) = key % M;
    key是关键字,M是哈希表的大小。M的选择十分重要,如果M选择不当,在某些选择关键字的方式下会造成严重的冲突。例如:
    若 M = 2^k,则h(key) = key % M的值仅依赖于最后k个比特。如果key是十进制数,则M应避免取10的幂次。多数情况下,选择一个不超过M的素数P(素数的定义),令哈希函数为h(key)=key%P,才会取得良好的效果。


2.2 平方取中法(Mid-square)

在哈希表应用中广泛采用平方取中哈希函数。该方法首先把key平方,然后取(key)^2的中间部分作为h(key)的值。中间部分的长度取决于M的大小。

例如:设关键字的内部码由八进制数表示,散列表长度为3位8进制数。 

详解哈希算法、哈希表_第1张图片

2.3 折叠法(Folding)

  折叠法是把关键字值自左向右分成位数相等的几部分,每一部分的位数应与散列表地址的位数相同,只有最后一部分的位数可以短一些。把这些部分的数据叠加起来,就可以得到关键字值得散列地址。
  有两种叠加方法:
  (1)移位法(shift floding):把各部分的最后一位对齐相加。
  (2)分界法(floding at the boudaries):沿各部分的分界来回折叠,然后对其相加。
  例如:设关键字值为 key = 12320324111220
  若散列地址取3位,则key被划分为5段:
   123、 203、 241 、112、 20 

详解哈希算法、哈希表_第2张图片

详解哈希算法、哈希表_第3张图片
2.4 数字分析法

数字分析法被用于一个事先已知关键字值分布的静态文件中,设关键字值是n位数,每位的基数是r。使用此方法,首先应列举出关键字值集合中的每个关键字值,分析每位数字的分布情况。一般来说,这r个数字在各位出现的频率不一定相同,可能在某些位上分布不均匀。

哈希冲突的相关概念请移步以下链接:
哈希冲突详解

你可能感兴趣的:(算法与数据结构详解)