题意:给定一个字符串,求至少出现k 次的最长重复子串,这k 个子串可以重叠。
思路:仍是二分出长度再以长度把height数组分类,再判是否存在k次
因为只有20000个数,但是数的范围是1000000 所以先离散化后基数排序效率将大大提高。
//Accepted 860K 47MS #include<cstdio> #include<iostream> #include<cstring> #include<algorithm> using namespace std; int n,k; const int MAXN = 20010; int t1[MAXN],t2[MAXN],c[MAXN]; bool cmp(int *r,int a,int b,int l) { return r[a]==r[b] && r[a+l] ==r[b+l]; } void da(int str[],int sa[],int rank[],int height[],int n,int m) { n++; int i,j,p,*x=t1,*y=t2; for(i=0;i<m;i++) c[i]=0; for(i=0;i<n;i++) c[x[i]=str[i]]++; for(i=1;i<m;i++) c[i]+=c[i-1]; for(i=n-1;i>=0;i--) sa[--c[x[i]]]=i; for(j=1;j<=n;j<<=1) { p=0; for(i=n-j;i<n;i++) y[p++]=i; for(i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j; for(i=0;i<m;i++) c[i]=0; for(i=0;i<n;i++) c[x[y[i]]]++; for(i=1;i<m;i++) c[i]+=c[i-1]; for(i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i]; swap(x,y); p=1; x[sa[0]]=0; for(i=1;i<n;i++) x[sa[i]]=cmp(y,sa[i-1],sa[i],j)? p-1:p++; if(p>=n) break; m=p; } int k=0; n--; for(i=0;i<=n;i++) rank[sa[i]]=i; for(i=0;i<n;i++) { if(k) k--; j=sa[rank[i]-1]; while(str[i+k]==str[j+k]) k++; height[rank[i]]=k; } } int rank[MAXN],height[MAXN]; int r[MAXN],sa[MAXN]; struct node { int tab,val; }a[MAXN]; bool cmp2(const node &a,const node &b) { return a.val < b.val; } bool ok(int x) { int cnt=1; for(int i=2;i<=n;i++) { if(height[i]>=x) cnt++; else cnt=1; if(cnt>=k) return true; } return false; } int main() { while(~scanf("%d%d",&n,&k)) { for(int i=0;i<n;i++) a[i].tab=i; for(int i=0;i<n;i++) scanf("%d",&a[i].val); sort(a,a+n,cmp2); int l=0; r[a[0].tab]=++l; for(int i=1;i<n;i++)//离散化 if(a[i].val!=a[i-1].val) r[a[i].tab]=++l; else r[a[i].tab]=l; r[n]=0; da(r,sa,rank,height,n,MAXN); int lb=0,ub=n+1; while(ub-lb>1) { int mid=(lb+ub)>>1; if(ok(mid)) lb=mid; else ub = mid; } printf("%d\n",lb); } return 0; }