SPOJ 694. Distinct Substrings (不相同的子串的个数--后缀数组)

题意:给定一个字符串,求不相同的子串的个数。

思路:子串的总个数是n*(n+1)/2

现在用height数组解决所以把子串的个数看成是以i字符串开头的子串的个数的和,那么总个数减去sum(height[i]),即是答案

因为height[i]是sa[i]与sa[i-1]后缀的相同前缀的长度,那么以前面那种计算子串的方式,也就是重复了height[i]个子串

//Distinct Substrings accepted 0.00 2.7M C++ 4.3.2
#include<cstdio>
#include<iostream>
#include<algorithm>
#include<cstring>
using namespace std;
const int MAXN = 1100;

int t1[MAXN],t2[MAXN],c[MAXN];//求SA数组需要的中间变量,不需要赋值
//待排序的字符串放在s数组中,从s[0]到s[n-1],长度为n,且最大值小于m,
//除s[n-1]外的所有s[i]都大于0,r[n-1]=0
//函数结束以后结果放在sa数组中

bool cmp(int *r,int a,int b,int l)
{
    return r[a] == r[b] && r[a+l] == r[b+l];
}

void da(int str[],int sa[],int rank[],int height[],int n,int m)
{
    n++;//注意
    int i, j, p, *x = t1, *y = t2;
    //第一轮基数排序,如果s的最大值很大,可改为快速排序(只改第一轮)
    for(i = 0;i < m;i++) c[i] = 0;
    for(i = 0;i < n;i++) c[x[i] = str[i]]++;
    for(i = 1;i < m;i++) c[i] += c[i-1];
    for(i = n-1;i >= 0;i--) sa[--c[x[i]]] = i;
    for(j = 1;j <= n; j <<= 1)
    {
        p = 0;
        //直接利用sa数组排序第二关键字
        for(i = n-j; i < n; i++) y[p++] = i;//后面的j个数第二关键字为空的最小
        for(i = 0; i < n; i++) if(sa[i] >= j) y[p++] = sa[i] - j;
        //这样数组y保存的就是按照第二关键字排序的结果
        //基数排序第一关键字
        for(i = 0; i < m; i++) c[i] = 0;
        for(i = 0; i < n; i++) c[x[y[i]]]++;
        for(i = 1; i < m;i++) c[i] += c[i-1];
        for(i = n-1; i >= 0;i--) sa[--c[x[y[i]]]] = y[i];
        //根据sa和x数组计算新的x数组
        swap(x,y);//小优化
        p = 1; x[sa[0]] = 0;
        for(i = 1;i < n;i++)
            x[sa[i]] = cmp(y,sa[i-1],sa[i],j)?p-1:p++;
        if(p >= n) break;//小优化
        m = p;//下次基数排序的最大值
    }
    int k = 0;
    n--;//注意
    for(i = 0;i <= n;i++) rank[sa[i]] = i;
    for(i = 0;i < n;i++)
    {
        if(k) k--;
        j = sa[rank[i]-1];
        while(str[i+k] == str[j+k]) k++;
        height[rank[i]] = k;
    }
}

char str[MAXN];
int r[MAXN];
int sa[MAXN],rank[MAXN],height[MAXN];

int main()
{
    int T;
    scanf("%d",&T);
    while(T--)
    {

        scanf("%s",str);
        int n=strlen(str);
        int ans=n*(n+1)/2;
        for(int i=0;i<n;i++) r[i]=str[i];
        r[n]=0;
        da(r,sa,rank,height,n,130);
        for(int i=2;i<=n;i++)
            ans-=height[i];
        printf("%d\n",ans);
    }
    return 0;
}


你可能感兴趣的:(SPOJ 694. Distinct Substrings (不相同的子串的个数--后缀数组))