【CMU15-445 Part-6】Hash Tables

Part 06-Hash Tables

An unordered associative array that maps keys to values.

Use hash function to compute an offset into the array for a given key.

Space Complexity: O ( n ) O(n) O(n)

Operation Complexity (look up)

  • Average: O ( 1 ) O(1) O(1)
  • Worst: O(n)

Static Hash Table

不需要在table里面保存原始的Key值,只需要保存指向这些key所在位置的指针。Like Table Index.

【CMU15-445 Part-6】Hash Tables_第1张图片

Assumptions

这种简单的hash table需要假设

  • Each key is unique.
  • You know the number of elements ahead of time
  • Perfect hash function: if key_1 != key_2, then hash(key_1) != hash(key_2)

Hash Table

Design Decision

A trade-off between memory and compute

Hash Function

map a large key space -> a smaller domain, 整数

【CMU15-445 Part-6】Hash Tables_第2张图片

XXhash是坠吊的。

Hash Scheme

来处理碰撞。

Static Hashing Schemes

hash schemes处理的事情是:当hash完了得到值之后跳转到指定位置之后再进行的。

Static hashing意味着当我们分配内存时,我们一开始就知道我们希望保存的Key的数量。 hash的double或者说扩容代价很高,静态方法需要知道所需的容量。

Linear Probe Hashing

线性探查或者open addressing(开地址法),插入的时候如果不是空的slot就继续往下扫描,直到找到空的slot。

Handle Delete

  1. Tombstone 墓碑标志,逻辑上这个slot是空的,物理上这个slot是占用的
  2. Movement

在实际情况下,如何预测我们需要多少个slot呢?

answer is 2n,n 是 key的数量。或者n。

【CMU15-445 Part-6】Hash Tables_第3张图片

Robin Hood Hashing

【CMU15-445 Part-6】Hash Tables_第4张图片

Cuckoo Hashing

【CMU15-445 Part-6】Hash Tables_第5张图片

Dynamic Hash Table

【CMU15-445 Part-6】Hash Tables_第6张图片

Chain Hashing

【CMU15-445 Part-6】Hash Tables_第7张图片

Extendible Hashing

【CMU15-445 Part-6】Hash Tables_第8张图片

Linear Hashing

【CMU15-445 Part-6】Hash Tables_第9张图片

工作方式:维护多个hash函数,相同的function但是不同的seed

  • 维护split pointer来跟踪下一个我们想去分割的溢出的page

【CMU15-445 Part-6】Hash Tables_第10张图片

不管溢出的是不是bucket 0,都会拆分bucket 0,因为要拆分的是split pointer所指向的位置。

左侧是slot array 右侧是bucket

h a s h 1 ( k e y ) = k e y % n hash_1(key) = key \%n hash1(key)=key%n

插入17,导致bucket 1 overflow了,首先在slot array增加一个entry,有一个新的hash函数, k e y % 2 n key \% 2n key%2n,这是split pointer可以来区分我们要使用第一个hash还是第二个hash函数,

【CMU15-445 Part-6】Hash Tables_第11张图片

find 20

hash_1(20) = 0,在pointer上面,直到那个bucket以及被拆分了

使用第二个hash,hash_2(20) = 4

Delete操作

删除20,找到后可以把空page放在那,如果做内存回收,就是把插入反着做一遍。

如果删除6,只能把空bucket放在那.

你可能感兴趣的:(CMU15-445,散列表,哈希算法,数据结构,数据库)