散列表

摘要

散列表的实现常常叫做散列(hashing).散列是一种用于以常数平均时间执行插入、删除和查找的技术。但是,那些需要元素间任何排序信息的操作将不会得到有效的支持。


直接寻址表

当关键字的全域U比较小时,直接寻址是一种简单而有效的技术。一般可以采用数组实现直接寻址表,数组下标对应的就是关键字的值,即具有关键字k的元素被放在直接寻址表的槽k中。直接寻址表的字典操作实现比较简单,直接操作数组即可,只需O(1)的时间

散列表

直接寻址表的不足之处在于当关键字的范围U很大时,在计算机内存容量的限制下,构造一个存储|U|大小的数组不太实际。当存储在字典中的关键字集合K比所有可能的关键字域U要小的多时,散列表需要的存储空间要比直接寻址表少的很多。散列表通过散列函数h计算出关键字k在槽的位置。散列函数h将关键字域U映射到散列表T[0...m-1]的槽位上:



采用散列函数的目的在于缩小需要处理的小标范围,从而降低空间的开销


散列函数

一个好的散列函数应(近似地)满足简单一致散列的假设:每个关键字都等可能地散列到m个槽位的任何一个之中去,并与其他的关键字已被散列到哪一个槽位中无关。多数散列函数都假定关键字域为自然数集 N = {0, 1, 2,...}.如果所给关键字不是自然数,则必须有一种方法来将它们解释为自然数

除法散列法

通过取k除以m的余数,来将关键字k映射到m个槽的某一个中去,散列函数为:

h(k) = k mod m;

注意:m不应是2的幂,通常m的值是与2的整数幂不太接近的质数

乘法散列法

用关键字k先乘上A,然后取出k * A 的小数部分,然后用m乘以这个值,再取结果的底(floor),散列函数为:

h(k) = floor(m * (k * A % 1));

根据研究,knuth认为A取(sqrt(5) - 1) / 2是一个比较理想的值(ps:我是没搞懂这个方法)

全域散列

全域散列用的方式是:随机地选择散列函数,使之独立于要存储的关键字,这样就很难出现最坏情况,平均性能很好,最后设计的散列函数为:

h(a, b) = ((ak + b) % p) % m;

这几个散列函数可以参考算法导论,我就是看了点皮毛,不多说了


碰撞处理

散列表的缺点就是容易出现冲突(也叫碰撞),两个关键字可能映射到同一个槽中,然后就产生了冲突,解决冲突的方法有很多种,这里只讨论其中最简单的两种:

链接法

就是把散列到同一个槽中的所有元素都放在一个链表中,如果,槽j中有一个指针,它指向所有散列到j的元素构成的链表的头;如果不存在这样的元素,则j为null,如图所示:

散列表

参考代码(c语言)

参考链接: http://mindlee.net/2011/08/06/solve-hash-conflict-links-method-and-separation-open-addressing-method/, 我改善了原文中的链接法解决hash冲突的代码,并且增加了冲突测试用例

#include <stdio.h>

#include <stdlib.h>

#include <string.h>



#define MAXN 400000	// MAXN : size

int prime[MAXN];	// true : prime number





/**

 * 每行链表上的一个的节点

 */

typedef struct lnode {

	int element;

	struct lnode *next;

} *position;



/**

 * 一个点代表槽中的一个链表上的一个点

 */

typedef struct hashtb {

	int tablesize;

	position *dlist;	// 指针的指针,指向由于冲突形成的链表

} *hashtable;



/**

 * 素数筛选法

 */

void sievePrime()

{

	int i, j;



	memset(prime, 1, sizeof(prime));



	prime[0] = prime[1] = 0;



	for (i = 2; i < MAXN; i ++) {

		if (prime[i]) {

			for (j = 2 * i; j < MAXN; j += i)

				prime[j] = 0;

		}

	}

}



/**

 * 散列函数,除法散列法

 */

int hashFunction(int key, int tablesize)

{

	return key % tablesize;

}



/**

 * 找到第一个>=x的素数

 */

int nextPrime(int x)

{

	while (prime[x] == 0)

		x = x + 1;



	return x;

}



/**

 * 初始化hash表,返回指向hash表的指针

 */

hashtable initializeTable(int tablesize)

{

	if (tablesize <= 1) {

		printf("Table size is too small!\n");

		return NULL;

	}



	hashtable ht = (hashtable)malloc(sizeof(struct hashtb));

	if (ht == NULL) {

		printf("Malloc is failed!\n");

		exit(-1);

	}



	// 构建hash表的dlist指针数组

	ht->tablesize = nextPrime(tablesize);

	ht->dlist = (position *)malloc(sizeof(position) * ht->tablesize);

	if (ht->dlist == NULL) {

		printf("Malloc is failed\n");

		exit(-1);

	}



	// TODO: 这里作用没搞清楚,学习完redis的源码后回来更新

	// 初始化dlist数组

	ht->dlist[0] = (position)malloc(ht->tablesize * sizeof(struct lnode));

	if (ht->dlist[0] == NULL) {

		printf("Malloc is failed\n");

	}



	int i;

	for (i = 0; i < ht->tablesize; i ++) {

		ht->dlist[i] = ht->dlist[0] + i;

		ht->dlist[i]->next = NULL;

	}	



	return ht;

}



/**

 * 查找key所在的单元

 */

position findElement(int key, hashtable ht)

{

	position p, l;



	// 先找到所在的行

	int loc = hashFunction(key, ht->tablesize);

	l = ht->dlist[loc];

	p = l->next;



	while (p != NULL && p->element != key) {

		p = p->next;

	}



	if (p == NULL)

		return l;

	else

		return p;

}



/**

 * 向hash表中插入元素key

 */

void insertElement(int key, hashtable ht)

{

	position pos, new;

	pos = findElement(key, ht);

	

	if (pos->element != key) { // key没找到,执行插入操作

		new = (position)malloc(sizeof(struct lnode));

		if (new == NULL) {

			printf("Malloc is failed!\n");

			exit(-1);

		} else {

			new->element = key;

			new->next = pos->next;

			pos->next = new;	

		}

		printf("%d 插入表中!\n", key);

	} else {

		printf("%d 已经存在,无需重复插入!\n", key);

	}

}



/**

 * 在hash表中删除元素

 */

void deleteElement(int key, hashtable ht)

{

	position pos, new;

	pos = findElement(key, ht);



	if (pos->element == key) {

		new = ht->dlist[hashFunction(key, ht->tablesize)];

		while (new->next != pos) {

			new = new->next;

		}

		new->next = pos->next;

		free(pos);

		printf("%d删除成功!\n", key);

	} else {

		printf("%d不存在,无法删除!\n", key);

	}

}



/**

 * 查找描述

 */

inline void findDescription(position p, int key)

{

	if (p->element == key) {

		printf("%d查找成功\n", key);

	} else {

		printf("%d不在hash表中\n", key);

	}

}



int main(void)

{

	sievePrime();



	hashtable table = initializeTable(20);

	printf("hash表的大小是:%d\n", table->tablesize); // tsize = 23



	position pos = NULL;



	// 先插入6个元素

	insertElement(20, table); // --> 20

	insertElement(89, table); // --> 20

	insertElement(18, table); // --> 18

	insertElement(49, table); // --> 3

	insertElement(58, table); // --> 12

	insertElement(69, table); // --> 0



	// 测试可以查找的元素

	pos = findElement(89, table);

	findDescription(pos, 89);

	pos = findElement(20, table);

	findDescription(pos, 20);



	// 测试找不到的

	pos = findElement(25, table);

	findDescription(pos, 25);



	// 测试删除

	deleteElement(69, table);



	return 0;

}


运行结果

散列表


开放寻址法

未完待续!!





 

你可能感兴趣的:(列表)