题意:给定一个字符串,求不相同的子串的个数。
思路:子串的总个数是n*(n+1)/2
现在用height数组解决所以把子串的个数看成是以i字符串开头的子串的个数的和,那么总个数减去sum(height[i]),即是答案
因为height[i]是sa[i]与sa[i-1]后缀的相同前缀的长度,那么以前面那种计算子串的方式,也就是重复了height[i]个子串
//Distinct Substrings accepted 0.00 2.7M C++ 4.3.2 #include<cstdio> #include<iostream> #include<algorithm> #include<cstring> using namespace std; const int MAXN = 1100; int t1[MAXN],t2[MAXN],c[MAXN];//求SA数组需要的中间变量,不需要赋值 //待排序的字符串放在s数组中,从s[0]到s[n-1],长度为n,且最大值小于m, //除s[n-1]外的所有s[i]都大于0,r[n-1]=0 //函数结束以后结果放在sa数组中 bool cmp(int *r,int a,int b,int l) { return r[a] == r[b] && r[a+l] == r[b+l]; } void da(int str[],int sa[],int rank[],int height[],int n,int m) { n++;//注意 int i, j, p, *x = t1, *y = t2; //第一轮基数排序,如果s的最大值很大,可改为快速排序(只改第一轮) for(i = 0;i < m;i++) c[i] = 0; for(i = 0;i < n;i++) c[x[i] = str[i]]++; for(i = 1;i < m;i++) c[i] += c[i-1]; for(i = n-1;i >= 0;i--) sa[--c[x[i]]] = i; for(j = 1;j <= n; j <<= 1) { p = 0; //直接利用sa数组排序第二关键字 for(i = n-j; i < n; i++) y[p++] = i;//后面的j个数第二关键字为空的最小 for(i = 0; i < n; i++) if(sa[i] >= j) y[p++] = sa[i] - j; //这样数组y保存的就是按照第二关键字排序的结果 //基数排序第一关键字 for(i = 0; i < m; i++) c[i] = 0; for(i = 0; i < n; i++) c[x[y[i]]]++; for(i = 1; i < m;i++) c[i] += c[i-1]; for(i = n-1; i >= 0;i--) sa[--c[x[y[i]]]] = y[i]; //根据sa和x数组计算新的x数组 swap(x,y);//小优化 p = 1; x[sa[0]] = 0; for(i = 1;i < n;i++) x[sa[i]] = cmp(y,sa[i-1],sa[i],j)?p-1:p++; if(p >= n) break;//小优化 m = p;//下次基数排序的最大值 } int k = 0; n--;//注意 for(i = 0;i <= n;i++) rank[sa[i]] = i; for(i = 0;i < n;i++) { if(k) k--; j = sa[rank[i]-1]; while(str[i+k] == str[j+k]) k++; height[rank[i]] = k; } } char str[MAXN]; int r[MAXN]; int sa[MAXN],rank[MAXN],height[MAXN]; int main() { int T; scanf("%d",&T); while(T--) { scanf("%s",str); int n=strlen(str); int ans=n*(n+1)/2; for(int i=0;i<n;i++) r[i]=str[i]; r[n]=0; da(r,sa,rank,height,n,130); for(int i=2;i<=n;i++) ans-=height[i]; printf("%d\n",ans); } return 0; }