字符串hash总结

最近codeforce出了一道简单hash题,所以学一波hash算法。注意这里讨论的是字符串hash算法,并不是其它奇怪的hash算法。

hash是一种暴力算法。而且要明白的是,对于两个相等的元素他们的哈希值一定相等,但哈希值相等并不一定意味着两个元素一定会相等,也就是说hash会存在冲突问题。为了解决这一类问题,我们一般采取多重hash来降低冲突

字符串hash一般应用在:给定一个长度为n的s串,以及一个长度为m的t串,求t串在s串出现的次数或者位置。

主要思路:

  1. 将字符串中的每一个字母都看成一个数字(a~z,转化为1~26)
  2. 选取多组两个合适的质数 Base 简写为 b , mod 简写为 h。必须要保证b和h互质,且b要小于h,否则会大大增加冲突率
  3. 定义哈希函数:H(C) = [ c1*b^(n-1) + c2*b^(n-2) + .... + c0*b^0] mod h    这个过程是不是很像b进制的数转化为10进制
  • C代表一个字符串,C=c1c2c3c4..cn;
  • 这个hash函数实际上就是将字符串当成b进制数来处理,b就是基数;
  • 计算H(C)的值其实是由递归完成的,这样我们就能预处理出每个前缀子串的哈希值。定义H(i),表示从1到i的前缀子串哈希值。                   H(i+1)= [ H(i) * b + c(i+1) ] mod h;
  •  那么怎么求出C串的任意子串的哈希值呢?
  • 可以利用前缀和的思想,比如我们要取出 i ~ i+k 这一段字串C‘ 哈希值。H(C')= [ H(i+k) - H(i) * b^k) ] mod h  
  • 至于为什么是这样,可以自行模拟一下 3124
  • 3        31     312      3124    如果我要取出 12 子串  是不是就是 312 - 3*10^2                                                                                                               

你可能感兴趣的:(字符串hash)