评估hash函数优劣的基准主要有以下两个指标:
(1) 散列分布性
即桶的使用率backet_usage = (已使用桶数) / (总的桶数),这个比例越高,说明分布性良好,是好的hash设计。
(2) 平均桶长
即avg_backet_len,所有已使用桶的平均长度。理想状态下这个值应该=1,越小说明冲突发生地越少,是好的hash设计。
hash函数计算一般都非常简洁,因此在耗费计算时间复杂性方面判别甚微,这里不作对比。
f(x) x的变化引起雪崩反应 分布均匀 桶利用率高
择。当然,最好实际测试一下,毕竟应用特点不大相同。其他几组测试结果也类似,这里不再给出。
Hash函数 | 桶数 | Hash调用总数 | 最大桶长 | 平均桶长 | 桶使用率% |
simple_hash | 10240 | 47198 | 16 | 4.63 | 99.00% |
RS_hash | 10240 | 47198 | 16 | 4.63 | 98.91% |
JS_hash | 10240 | 47198 | 15 | 4.64 | 98.87% |
PJW_hash | 10240 | 47198 | 16 | 4.63 | 99.00% |
ELF_hash | 10240 | 47198 | 16 | 4.63 | 99.00% |
BKDR_hash | 10240 | 47198 | 16 | 4.63 | 99.00% |
SDBM_hash | 10240 | 47198 | 16 | 4.63 | 98.90% |
DJB_hash | 10240 | 47198 | 15 | 4.64 | 98.85% |
AP_hash | 10240 | 47198 | 16 | 4.63 | 98.96% |
CRC_hash | 10240 | 47198 | 16 | 4.64 | 98.77% |
字符串求hash:
//平时写小程序的时候&0xFFFFFFF就行了,这个可以控制在3位数,用来平时写小程序
如:"fsfdsfdfdfdqqqqqqqqqqqqqqqqqsssssssssssssssssssssssssssssssssssssssssssssssssssssssqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqd",
"fsdfdsf",
"sssss",
"sseeeeeeeeeeee",
"sssee"
对应的哈希值是 111 218 104 248 104
数字求哈希:
static inline u32 hash_32(u32 val, unsigned int bits){
/* On some cpus multiply is faster, on others gcc will do shifts */
u32 hash = val * GOLDEN_RATIO_PRIME_32; // ox9e370001UL
/* High bits are more random, so use them. */
return hash >> (32 - bits);
}
// BKDR Hash Function
unsigned int BKDRHash( char * str)
{
unsigned int seed = 131 ; // 31 131 1313 13131 131313 etc..
unsigned int hash = 0 ;
while ( * str)
{
hash = hash * seed + ( * str ++ );
}
return (hash & 0x7FFFFFFF );
}
其中hash_long在
/* 2^31 + 2^29 - 2^25 + 2^22 - 2^19 - 2^16 + 1 */
#define GOLDEN_RATIO_PRIME_32 0x9e370001UL
/* 2^63 + 2^61 - 2^57 + 2^54 - 2^51 - 2^18 + 1 */
#define GOLDEN_RATIO_PRIME_64 0x9e37fffffffc0001UL
#if BITS_PER_LONG == 32
#define GOLDEN_RATIO_PRIME GOLDEN_RATIO_PRIME_32
#define hash_long(val, bits) hash_32(val, bits)
#elif BITS_PER_LONG == 64
#define hash_long(val, bits) hash_64(val, bits)
#define GOLDEN_RATIO_PRIME GOLDEN_RATIO_PRIME_64
#else
#error Wordsize not 32 or 64
#endif
static inline u64 hash_64(u64 val, unsigned int bits)
{
u64 hash = val;
/* Sigh, gcc can't optimise this alone like it does for 32 bits. */
u64 n = hash;
n <<= 18;
hash -= n;
n <<= 33;
hash -= n;
n <<= 3;
hash += n;
n <<= 3;
hash -= n;
n <<= 4;
hash += n;
n <<= 2;
hash += n;
/* High bits are more random, so use them. */
return hash >> (64 - bits);
}
static inline u32 hash_32(u32 val, unsigned int bits)
{
/* On some cpus multiply is faster, on others gcc will do shifts */
u32 hash = val * GOLDEN_RATIO_PRIME_32;
/* High bits are more random, so use them. */
return hash >> (32 - bits);
}
static inline unsigned long hash_ptr(const void *ptr, unsigned int bits)
{
return hash_long((unsigned long)ptr, bits);
}
#endif /* _LINUX_HASH_H */
处理冲突:
开放地址法:hi=(h(key)+i)%m i<=m-1 di=i;
用线性探测法处理冲突,思路清晰,算法简单,但存在下列缺点:
① 处理溢出需另编程序。一般可另外设立一个溢出表,专门用来存放上述哈希表中放不下的记录。此溢出表最简单的结构是顺序表,查找方法可用顺序查找。
② 按上述算法建立起来的哈希表,删除工作非常困难。假如要从哈希表 HT 中删除一个记录,按理应将这个记录所在位置置为空,但我们不能这样做,而只能标上已被删除的标记,否则,将会影响以后的查找。
③ 线性探测法很容易产生堆聚现象。所谓堆聚现象,就是存入哈希表的记录在表中连成一片。按照线性探测法处理冲突,如果生成哈希地址的连续序列愈长 ( 即不同关键字值的哈希地址相邻在一起愈长 ) ,则当新的记录加入该表时,与这个序列发生冲突的可能性愈大。因此,哈希地址的较长连续序列比较短连续序列生长得快,这就意味着,一旦出现堆聚 ( 伴随着冲突 ) ,就将引起进一步的堆聚。
(2)拉链法的优点
与开放定址法相比,拉链法有如下几个优点:
①拉链法处理冲突简单,且无堆积现象,即非同义词决不会发生冲突,因此平均查找长度较短;
②由于拉链法中各链表上的结点空间是动态申请的,故它更适合于造表前无法确定表长的情况;
③开放定址法为减少冲突,要求装填因子α较小,故当结点规模较大时会浪费很多空间。而拉链法中可取α≥1,且结点较大时,拉链法中增加的指针域可忽略不计,因此节省空间;
④在用拉链法构造的散列表中,删除结点的操作易于实现。只要简单地删去链表上相应的结点即可。而对开放地址法构造的散列表,删除结点不能简单地将被删结 点的空间置为空,否则将截断在它之后填人散列表的同义词结点的查找路径。这是因为各种开放地址法中,空地址单元(即开放地址)都是查找失败的条件。因此在 用开放地址法处理冲突的散列表上执行删除操作,只能在被删结点上做删除标记,而不能真正删除结点。
(3)拉链法的缺点
拉链法的缺点是:指针需要额外的空间,故当结点规模较小时,开放定址法较为节省空间,而若将节省的指针空间用来扩大散列表的规模,可使装填因子变小,这又减少了开放定址法中的冲突,从而提高平均查找速度。
C++中的hashMap
#include#include #include using namespace std; using namespace __gnu_cxx; struct eqstr{ bool operator()(const char *s1, const char *s2)const{ return strcmp(s1,s2) == 0; } }; int main(){ hash_map ,eqstr> months; months["january"] = 31; months["february"] = 28; months["march"] = 31; cout << "march -> " << months["march"] << endl; }
#include#include #include using namespace std; int main(){ typedef std::tr1::unordered_map hash_map; hash_map hm; hm.insert(std::pair (0,"Hello")); hm[1] = "World"; for(hash_map::const_iterator it = hm.begin(); it != hm.end(); ++it){ cout << it->first << "-> " << it->second << endl; } return 0; }
与C++primer(4版)中的map用法相同!!!不过这个速度快一点!C:\MinGW\lib\gcc\mingw32\4.6.2\include\c++\tr1
#include
#include
#include
using namespace std;
int main(){
typedef std::tr1::unordered_map
hash_map hm;
hm.insert(make_pair("Hello",1));
hm.insert(std::pair
hm.insert(hash_map::value_type("Hello2",1));//已经存在了就不会代替
pair
if(!ret.second) ++ret.first->second;
hm["world"] =1;
++hm["world"];
for(hash_map::const_iterator it = hm.begin(); it != hm.end(); ++it){
cout << it->first << "-> " << it->second << endl;
}
return 0;
}