Description
求字符串中所有出现至少2次的子串个数
Input
第一行为一整数T(T<=10)表示用例组数,每组用例占一行为一个长度不超过100000的字符串
Output
对于每组用例,输出该串中所有出现至少两次的子串个数
Sample Input
3
aabaab
aaaaa
AaAaA
Sample Output
5
4
5
Solution
每个height[i]就表示以sa[i-1]和sa[i]开始的后缀的公共前缀有height[i]个,而这height[i]个公共前缀就是在原串中至少出现两次的子串,考虑到有重复的情况,将height数组看作几个不减的序列组合而成,对于每组不减的序列,其对答案的贡献就是Max-Min,Max和Min分别为这组中height值的最大值和最小值
Code
#include<cstdio>
#include<iostream>
#include<cstring>
#include<algorithm>
#include<map>
using namespace std;
#define maxn 111111
int t1[maxn],t2[maxn],c[maxn],sa[maxn],Rank[maxn],height[maxn];
bool cmp(int *r,int a,int b,int l)
{
return r[a]==r[b]&&r[a+l]==r[b+l];
}
void da(int str[],int n,int m)
{
n++;
int i,j,p,*x=t1,*y=t2;
for(i=0;i<m;i++)c[i]=0;
for(i=0;i<n;i++)c[x[i]=str[i]]++;
for(i=1;i<m;i++)c[i]+=c[i-1];
for(i=n-1;i>=0;i--)sa[--c[x[i]]]=i;
for(j=1;j<=n;j<<=1)
{
p=0;
for(i=n-j;i<n;i++)y[p++]=i;
for(i=0;i<n;i++)if(sa[i]>=j)y[p++]=sa[i]-j;
for(i=0;i<m;i++)c[i]=0;
for(i=0;i<n;i++)c[x[y[i]]]++;
for(i=1;i<m;i++)c[i]+=c[i-1];
for(i=n-1;i>=0;i--)sa[--c[x[y[i]]]]=y[i];
swap(x,y);
p=1;x[sa[0]]=0;
for(i=1;i<n;i++)
x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
if(p>=n)break;
m=p;
}
int k=0;
n--;
for(i=0;i<=n;i++)Rank[sa[i]]=i;
for(i=0;i<n;i++)
{
if(k)k--;
j=sa[Rank[i]-1];
while(str[i+k]==str[j+k])k++;
height[Rank[i]]=k;
}
}
int T,n,a[maxn];
char s[maxn];
int main()
{
scanf("%d",&T);
while(T--)
{
scanf("%s",s);
n=0;
int len=strlen(s);
for(int i=0;i<len;i++)a[n++]=s[i];
a[n]=0;
da(a,n,333);
int ans=0,Min=0,Max=0;
for(int i=2;i<=n;i++)
{
if(height[i]>Max)
Max=height[i];
else
{
ans+=Max-Min;
Min=Max=height[i];
}
}
ans+=Max-Min;
printf("%d\n",ans);
}
return 0;
}