HDU 4029 Distinct Sub-matrix(后缀数组+hash)

Description
给出一个只由大写字母组成的矩阵,求不同子矩阵个数
Input
第一行一整数T表示用例组数,每组用例第一行为两个整数nn和m表示矩阵行列数,之后为一个只由大写字母组成的n*m矩阵(1<=n,m<=128)
Output
输出这个矩阵不同的子矩阵个数
Sample Input
2
2 2
AB
BA
3 3
ABA
BAA
AAA
Sample Output
Case #1: 7
Case #2: 22
Solution
由于矩阵行列数规模较小,所以可以枚举从1到n枚举高度为k的子矩阵,将纵向k个字符hash成一个整数,那么问题变成了求n-k+1个长度为m的整数序列中不同子串的个数(对hash值离散化后再做后缀数组),简单起见将这些序列连起来,中间用隔离字符隔离以避免匹配越界,用len[i]表示第i个字符距离其所属的串的串尾的距离,那么做完后缀数组后统计len[sa[i]]-height[i]即可,注意还要加一个len[sa[1]],因为height数组从2开始才有意义
Code

#include<cstdio>
#include<iostream>
#include<cstring>
#include<algorithm>
using namespace std;
#define maxn 22222
typedef unsigned long long ull;
int t1[maxn],t2[maxn],c[maxn],sa[maxn],Rank[maxn],height[maxn];
bool cmp(int *r,int a,int b,int l)
{
    return r[a]==r[b]&&r[a+l]==r[b+l];
}
void da(int str[],int n,int m)
{
    n++;
    int i,j,p,*x=t1,*y=t2;
    for(i=0;i<m;i++)c[i]=0;
    for(i=0;i<n;i++)c[x[i]=str[i]]++;
    for(i=1;i<m;i++)c[i]+=c[i-1];
    for(i=n-1;i>=0;i--)sa[--c[x[i]]]=i;
    for(j=1;j<=n;j<<=1)
    {
        p=0;
        for(i=n-j;i<n;i++)y[p++]=i;
        for(i=0;i<n;i++)if(sa[i]>=j)y[p++]=sa[i]-j;
        for(i=0;i<m;i++)c[i]=0;
        for(i=0;i<n;i++)c[x[y[i]]]++;
        for(i=1;i<m;i++)c[i]+=c[i-1];
        for(i=n-1;i>=0;i--)sa[--c[x[y[i]]]]=y[i];
        swap(x,y);
        p=1;x[sa[0]]=0;
        for(i=1;i<n;i++)
        x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
        if(p>=n)break;
        m=p;
    }
    int k=0;
    n--;
    for(i=0;i<=n;i++)Rank[sa[i]]=i;
        for(i=0;i<n;i++)
        {
            if(k)k--;
            j=sa[Rank[i]-1];
            while(str[i+k]==str[j+k])k++;
            height[Rank[i]]=k;
        }
}
int T,n,m,a[maxn],len[maxn];
char s[222][222];
ull Hash[222][222],p[maxn],h[maxn],ans;
int main()
{
    scanf("%d",&T);
    for(int Case=1;Case<=T;Case++)
    {
        scanf("%d%d",&n,&m);
        for(int i=1;i<=n;i++)scanf("%s",s[i]+1);
        memset(Hash,0,sizeof(Hash));
        for(int i=1;i<=n;i++)
            for(int j=1;j<=m;j++)
                Hash[i][j]=Hash[i-1][j]*26+s[i][j]-'A';     
        p[0]=1;
        for(int i=1;i<=n;i++)p[i]=p[i-1]*26;
        ans=0;
        for(int k=1;k<=n;k++)
        {
            memset(len,0,sizeof(len));
            int res=0,nn=0;
            for(int i=1;i+k-1<=n;i++)
                for(int j=1;j<=m;j++)
                    h[res++]=Hash[i+k-1][j]-Hash[i-1][j]*p[k];
            sort(h,h+res);
            for(int i=1;i+k-1<=n;i++)
            {
                for(int j=1;j<=m;j++)
                {
                    ull temp=Hash[i+k-1][j]-Hash[i-1][j]*p[k];
                    int pos=lower_bound(h,h+res,temp)-h+1;
                    len[nn]=m-j+1;
                    a[nn++]=pos;    
                }
                a[nn++]=res+i;
            }
            a[nn]=0;
            da(a,nn,res+222);
            ans+=len[sa[1]];
            for(int i=2;i<=nn;i++)ans+=len[sa[i]]-height[i];
        }
        printf("Case #%d: %I64d\n",Case,ans);
    }
    return 0;
}

你可能感兴趣的:(HDU 4029 Distinct Sub-matrix(后缀数组+hash))