字符串哈希算法简单入门学习

 

字符串哈希算法

字符串哈希,最著名的就是BKDRHash,也就是将字符串变成数值,并且最后变成的数值是一个P进制的数(一班取131或者13331),一般来说P最好为素数.然后我们之所以需要前缀和,是因为我们这道题目是求一个区间的字符串,又因为是哈希表,所以我们得求出区间哈希和,又因为是是区间和,所以我们得用前缀和求O(n)预处理,来实现和哈希一般的O(1)常数级别查询.这种Hash常用,且冲突概率极低,offer必备,同时竞赛OI党必备,是优秀的算法,容易精简易理解.

例题1:AcWing——兔子与兔子

很久很久以前,森林里住着一群兔子。

有一天,兔子们想要研究自己的 DNA 序列。

我们首先选取一个好长好长的 DNA 序列(小兔子是外星生物,DNA 序列可能包含 26 个小写英文字母)。

然后我们每次选择两个区间,询问如果用两个区间里的 DNA 序列分别生产出来两只兔子,这两个兔子是否一模一样。

注意两个兔子一模一样只可能是他们的 DNA 序列一模一样。

输入格式

第一行输入一个 DNA 字符串 S。

第二行一个数字 m,表示 m 次询问。

接下来 m 行,每行四个数字 l1,r1,l2,r2l1,r1,l2,r2,分别表示此次询问的两个区间,注意字符串的位置从1开始编号。

输出格式

对于每次询问,输出一行表示结果。

如果两只兔子完全相同输出 Yes,否则输出 No(注意大小写)。

数据范围

1≤length(S),m≤10000001≤length(S),m≤1000000
输入样例:

aabbaabb
3
1 3 5 7
1 3 6 8
1 2 1 2
输出样例:

Yes
No
Yes

#include
using namespace std;
typedef unsigned long long ULL;
const int N=1000010,base=131;//进制
char str[N];
ULL h[N],p[N];              //h数组是求前缀哈希值,p数组是求进制的i次幂

ULL get(int l,int r){      //求一段区间的哈希值
    return h[r]-h[l-1]*p[r-l+1];
}

int main(){
    scanf("%s",str+1);
    int n=strlen(str+1);   //从str[1]开始存
    p[0]=1;
    for(int i=1;i<=n;i++){
        h[i]=h[i-1]*base+str[i]-'a'+1;  //利用前缀和的思想求哈希值
        p[i]=p[i-1]*base;
    }
   int m;
   cin>>m;
   while(m--){
       int l,r,x,y;
       scanf("%d%d%d%d",&l,&r,&x,&y);
       if(get(l,r)==get(x,y))
       cout<<"Yes"<

例题2:139. 回文子串的最大长度

如果一个字符串正着读和倒着读是一样的,则称它是回文的。

给定一个长度为N的字符串S,求他的最长回文子串的长度是多少。

输入格式

输入将包含最多30个测试用例,每个测试用例占一行,以最多1000000个小写字符的形式给出。

输入以一个以字符串“END”(不包括引号)开头的行表示输入终止。

输出格式

对于输入中的每个测试用例,输出测试用例编号和最大回文子串的长度(参考样例格式)。

每个输出占一行。

输入样例:

abcbabcbabcba
abacacbaaaab
END

 输出样例:

Case 1: 13
Case 2: 6

前缀和+后缀和+二分+Hash(哈希) O(nlogn)
我们发现0这道题目数据范围极其恐怖,那么只有一个办法可以让我们求解这道题目,那就是哈希,或者是O(n)复杂度的Manacher算法,但是我们这道题目是锻炼我们的哈希水平,所以我们这里只说如何用哈希算法求解.作者目前还不会马拉车算法,作者先去学一下再来补

上一道兔子兔子兔子的题目,我们知道判断两个字符串是否相等,可以使用字符串哈希,也就是将字符串算成P进制数值,然后区间和判断即可,那么这道题目我们需要一个正的字符串,还需要一个反的字符串,然后如果正字符串等于反的字符串,那么奇数回文串就2+1,偶数回文串就直接2即可.之所以要这么做,因为我们是要回文对不对,我们需要将回文拆解成为一个正字符串和一个反字符串,这样才好处理这道题目.

既然如此,我们可以算出一个前缀和,再算出一个后缀和,然后就可以知道,正字符串和一个反字符串.字符串的哈希值就是这个区间的哈希值和.

算完之后,我们当前就只需要枚举一个mid中间点,因为所有回文串都是有一个中间点(奇),或者中间区间(偶),然后二分分别寻找这个字符串长度即可,记住不是回文串,回文串的长度,是字符串长度* 2 + 1(奇) 或者是字符串长度 * 2(偶数).

切记如果说这个最大回文串为1(也就是所有字符都不一样,比如说abcdefg),那么输出是1,不是3,奇数回文串=奇数字符串*2+1,你们要小心特判这种情况,或者处理二分边界.

#include 
using namespace std;
#define ull unsigned long long
#define fir(i,a,b) for(int i=a;i<=b;i++)
#define fic(i,a,b) for(int i=a;i>=b;i--)
#define Mod 131 //P进制
const int N=1000007;
char s[N];
ull f1[N],f2[N],p[N];
int ans,t,l,r,mid;
ull Hash1(int i,int j)//正字符串的哈希值
{
    return (f1[j]-f1[i-1]*p[j-i+1]);
}
ull Hash2(int i,int j)//反字符串的哈希值
{
    return (f2[i]-f2[j+1]*p[j-i+1]);
}
void init()
{
    p[0]=1;//p^0为1
    fir(i,1,N-1)
        p[i]=p[i-1]*131;//P进制的位值
}
int main()
{
    init();
    while (++t)
    {
        ans=0;
        scanf("%s",s+1);
        int len=strlen(s+1);
        if (strcmp(s+1,"END")==0) //结束读入
            return 0;
        f2[len+1]=0;//初始化要注意,不然的话容易GG
        fir(i,1,len) 
            f1[i]=f1[i-1]*Mod+(s[i]-'a'+1);//前缀和
        fic(i,len,1)
            f2[i]=f2[i+1]*Mod+(s[i]-'a'+1);//后缀和
        fir(i,1,len)
        {
            l=0,r=min(i-1,len-i);//二分枚举长度为奇数的字符串 记住这里l一定要为0,不然的话,你会发现最后一个数据会卡死你.
            while(l>1;
                if (Hash1(i-mid,i-1)==Hash2(i+1,i+mid))//如果这是一个回文串的话
                    l=mid;
                else
                    r=mid-1;
            }
            ans=max(l<<1 | 1,ans);//算出最大长度
            l=0,r=min(i-1,len-i+1);//偶数字符串
            while (l>1;
                if (Hash1(i-mid,i-1)==Hash2(i,i+mid-1))//check判断
                    l=mid;
                else
                    r=mid-1;
            }
            ans=max(l<<1,ans);//偶数字符串只需要*2
        }
        printf("Case %d: %d\n",t,ans);
    }
    return 0;
}

马拉车算法:代码有详细注释

#include
#define Min(a,b) a>b?b:a  
#define Max(a,b) a>b?a:b  
using namespace std;  
int Len[3000005];  //记录每个位置的最长回文子串的长度
char str[3000005],s[3000005];  
int n,mx,id,len;  //mx记录前面最长回文串的最右位置,id记录前面最长回文子串的下标

void init(){  //初始化函数,将字符串中插入特殊字符
    int k=0;  
    str[k++] = '$';  
    for(int i=0;i mx){//如果当前位置的回文子串的最右位置大于前面的,就更新其值  
      mx = Len[i] + i;  
      id = i;      
      sum = Max(sum, Len[i]);  //用sum来记录最大的回文子串长度
    }  
  }  
  return (sum - 1);  
}  

int main()  
{  
  scanf("%d",&n);  
  while(n--){  
    memset(str,0,sizeof(str));
    scanf("%s",s);  
    len = strlen(s);  
    init();  
    int temp = Manacher();  
    printf("%d\n",temp);  
  }  
  return 0;  
}  

 

你可能感兴趣的:(AcWing,字符串)