hash, 其实就是将一个东一映射成另一个东西, 类似Map的键值对.
那么字符串Hash, 其实就是: 构造一个数字使之唯一代表一个字符串. 但是为了将映射关系进行一一对应, 也就是, 一个字符串对应一个数字, 反之一个数字也对应一个字符串.
用字符串Hash的目的是: 如果我们要比较一个字符串, 我们不直接比较字符串, 而是比较它们对应映射的数字, 这样子就知道两个"子串"是否相等. 从而达到子串的Hash值的时间为O(1), 进而可以利用"空间换时间"来节省时间复杂度.
我们希望这是个映射是单射, 所以问题就是如何构造这个哈希函数, 使他们成为一个单射.
假如给你一个数字1166, 形式上你只知道他是1和6的组合, 但你知道它代表的实际为:
1 * 10 ^3 + 1 * 10 ^2 + 6 * 10 ^1 + 6 * 10 ^0
同理, 给你一个字符串, 要把他转换为数字, 就可以先把每一个字符都对应一个数字, 然后把他们按照顺序乘以进制(Base) 的幂进行相加, 然后这个数可能很大, 所以一半会取余.
根据上面的理解, 其实将字符串映射成数字, 和我们平时的将一个某进制的数转换为十进制,相类似.
我们先定义以下:
给定一个字符串S = s1 s2 s3 s4 … sn, 对于每个si就是一个字母, 那我们规定idx(si) = si - ‘a’ + 1.(当然也可以直接用ASCII值)
使用Base 和 MOD(都要求是素数), 一般都是base < mod, 同时将Base 和 MOD尽量取大即可,这种情况下, 冲突(即不同字符串有相同Hash值)的概率很低.
我们定义 Base ,而MOD对于自然溢出方法,就是 unsigned long long 整数的自然溢出(相当于MOD 是 2^{64} - 1)
#define ull unsigned long long
ull Base;
ull hash[MAXN], p[MAXN];
hash[0] = 0;
p[0] = 1;
定义了上面的两个数组,首先hash[i]表示[0,i]字符串的hash值. 而 p[i] 表示Base^i, 也就是
底的i次方.
那么对应的 Hash 公式为:
(类似十进制的表示,14,一开始是 0,然后 0 * 10 + 1 = 1,接着 1*10 + 4 = 14)。
现在我们想求子串s3s4的哈希值, 不难得出s3*Base + s4, 并且从上面观察, 如果看hash[4] - hash[2]并将结果中带有s1,s2系数的项全部消掉, 就是所求. 但是由于Base的阶数, 不能直接相减消掉, 所以问题转化成将hash[2]乘以个关于Base的系数, 在做差的时候才能消除多余的项.
易得,对应系数只差一个Base@2 而 4 - 2 = 2(待求hash子串下标相减即可), 这样就不难推出公式:
hash[4] - hash[2] * Base^2
至此,可以总结出一下公式:
若已知一个S = s1s2s3…sn的字符串的Hash值, hash[i],0<=i<=n, 其中子串sl…sr对应的hash值为:
res = hash[r] - hash[l - 1] * Base^(r-l+1)
同时,hash值是要进行取MOD的:
(res = hash[r] - hash[l - 1] * Base^(r-l+1))%MOD
看起来这个式子人畜无害, 但是对于取模运算需要谨慎谨慎再谨慎, 注意到括号里的是减法, 即有可能是负数, 因此需要做如下的修正:
res = ((hash[r] - hash[l-1] * Base^(r-l+1))%MOD+MOD)%MOD
至此得到求子串的hash公式.
值得一提的, 如果需要反复对子串求解hash值, 预处理Base的n次方效果更佳. 所以才有上面用p[i] = (Base^i) % MOD, 注意也是有取余的.