算法竞赛进阶指南——兔子与兔子【哈希】

题目描述

很久很久以前,森林里住着一群兔子。有一天,兔子们想要研究自己的 DNA 序列。我们首先选取一个好长好长的 DNA 序列(小兔子是外星生物,DNA 序列可能包含 26 个小写英文字母),然后我们每次选择两个区间,询问如果用两个区间里的 DNA 序列分别生产出来两只兔子,这两个兔子是否一模一样。注意两个兔子一模一样只可能是他们的 DNA 序列一模一样。

输入

第一行一个 DNA 字符串 S。
接下来一个数字 m,表示 m 次询问。
接下来 m 行,每行四个数字 l1, r1, l2, r2,分别表示此次询问的两个区间,注意字符串的位置从1开始编号。
其中 1 ≤ l e n g t h ( S ) m ≤ 1000000 1≤length(S) m≤1000000 1length(S)m1000000

输出

对于每次询问,输出一行表示结果。如果两只兔子完全相同输出 Yes,否则输出 No(注意大小写)

样例输入

aabbaabb
3
1 3 5 7
1 3 6 8
1 2 1 2

样例输出

Yes
No
Yes

题解:

1.字符串哈希
就是把字符串通过特定的哈希方式转换为一个哈希值,这样既可以压缩空间,也可以方便快速地比较字符串是否相等。当然,字符串哈希和其他哈希一样,无法避免不同的字符串哈希成同一个哈希值,虽然无法避免,但是我们可以想办法把其概率缩小
2.求前缀哈希值
(1).对于一个字符串S,长度为n,下标从1开始,对其字符S[i],我们将其转 换为数字,我们既可以使用 ( S [ i ] – ‘ a ’ + 1 ) (S[i] – ‘a’ + 1) (S[i]a+1),也可以直接使用其ASCII值
(2).记 H a s h [ i ] Hash[i] Hash[i]表示 S [ 1 , i ] S[1, i] S[1,i]的哈希值。
公式为: H a s h [ i ] = H a s h [ i – 1 ] ∗ b a s e + S [ i ] Hash[i] = Hash[i – 1] * base + S[i] Hash[i]=Hash[i1]base+S[i]
b a s e base base质数,冲突的概率是很小的。
3.求子串哈希值
假设我们要求子串S[3, 4]的哈希值,通过哈希公式我们可以得到其哈希值为S[3] * base + S[4]
观察Hash数组:
H a s h [ 1 ] = S [ 1 ] Hash[1]=S[1] Hash[1]=S[1]
H a s h [ 2 ] = S [ 1 ] ∗ b a s e + S [ 2 ] Hash[2]=S[1]*base+S[2] Hash[2]=S[1]base+S[2]
H a s h [ 3 ] = S [ 1 ] ∗ b a s e 2 + S [ 2 ] ∗ b a s e + S [ 3 ] Hash[3]=S[1]*base^2+S[2]*base+S[3] Hash[3]=S[1]base2+S[2]base+S[3]
H a s h [ 4 ] = S [ 1 ] ∗ b a s e 3 + S [ 2 ] ∗ b a s e 2 + S [ 3 ] ∗ b a s e + S [ 4 ] Hash[4]=S[1]*base^3+S[2]*base^2+S[3]*base+S[4] Hash[4]=S[1]base3+S[2]base2+S[3]base+S[4]

我们尝试用 H a s h [ 4 ] – H a s h [ 2 ] Hash[4] – Hash[2] Hash[4]Hash[2]来消掉 S [ 1 ] S[1] S[1] S [ 2 ] S[2] S[2],但是发现 b a s e base base的阶数不对,无法消除,所以我们需要给 H a s h [ 2 ] Hash[2] Hash[2]乘一个系数
H a s h [ 4 ] − H a s h [ 2 ] ∗ b a s e 4 − 2 = S [ 3 ] ∗ b a s e + S [ 4 ] Hash[4]-Hash[2]*base^{4-2}=S[3]*base+S[4] Hash[4]Hash[2]base42=S[3]base+S[4]
公式为: H a s h ( l , r ) = H a s h ( r ) − H a s h ( l − 1 ) ∗ b a s e r − l + 1 Hash(l,r)=Hash(r)-Hash(l-1)*base^{r-l+1} Hash(l,r)=Hash(r)Hash(l1)baserl+1

代码:

#include
using namespace std;
const int N=1e6+5;
const int base=131;
char s[N];
int n,q;
unsigned long long has[N],p[N];//注意:hash会被认为是编译错误
int main()
{
    scanf("%s",s+1);
    n=strlen(s+1);
    scanf("%d",&q);
    p[0]=1;
    for(int i=1;i<=n;i++)
    {
        has[i]=has[i-1]*base+(s[i]-'a'+1);//前缀哈希1~i
        p[i]=p[i-1]*base;
    }
    for(int i=1;i<=q;i++)
    {
        int l1,r1,l2,r2;
        scanf("%d%d%d%d",&l1,&r1,&l2,&r2);
        if(has[r1]-has[l1-1]*p[r1-l1+1]==has[r2]-has[l2-1]*p[r2-l2+1])//子串hash
            puts("Yes");
        else puts("No");
    }
    return 0;
}

你可能感兴趣的:(hash,哈希)