题意:让你求一个串中连续重复次数最多的串(不重叠),如果重复的次数一样多的话就输出字典序小的那一串。
我的解题思路:这个题目很明显就是后缀数组的运用,我首先是枚举长度,然后判断该长度下是否可以找到重复子串。关键是如何来找,我是这样算的,首先判断sa[i-1]和sa[i]的最长公共前缀,如果长度大于等于枚举的那个长度,就说明有可能这两个串是有重复的部分,接下来看这两个串的位置差,如果也等于枚举长度,说明两个串的重复部分是紧挨在一块的,那么个数+1,并且记录下重复串中,循环节的最后的起始位置。字典序的判断这里就直接利用rank数组,比较两个不同循环节起始位置的rank值。
但这样的思路不知道哪里错了,在讨论区里面测试了很多代码都对了,在poj上交是WA,在hdu上交是TLE,我想用二分长度去算,可是变成了WA啦。。真不清楚哪里的问题。。
我的代码:
#include<iostream> #include<cstdio> #include<cstring> using namespace std; const int maxn = 100005; int s[maxn],t[maxn],t2[maxn],c[maxn]; int rk[maxn],height[maxn],sa[maxn],ans,pm; char str[maxn]; void getsa(int n,int m) { int i,*x = t,*y = t2; for(i = 0; i < m; i++) c[i] = 0; for(i = 0; i < n; i++) c[x[i] = s[i]]++; for(i = 1; i < m; i++) c[i] += c[i-1]; for(i = n-1; i >= 0; i--) sa[--c[x[i]]] = i; for(int k = 1; k <= n; k = k << 1) { int p = 0; for(i = n-k; i < n; i++) y[p++] = i; for(i = 0; i < n; i++) if(sa[i] >= k) y[p++] = sa[i]-k; for(i = 0; i < m; i++) c[i] = 0; for(i = 0; i < n; i++) c[x[y[i]]]++; for(i = 1; i < m; i++) c[i] += c[i-1]; for(i = n-1; i >= 0; i--) sa[--c[x[y[i]]]] = y[i]; swap(x,y); p = 1, x[sa[0]] = 0; for(i = 1; i < n; i++) x[sa[i]] = y[sa[i]] == y[sa[i-1]] && y[sa[i]+k] == y[sa[i-1]+k] ? p-1:p++; if(p >= n) break; m = p; } } void getheight(int n) { int i,j,k = 0; for(i = 1; i <= n; i++) rk[sa[i]] = i; for(i = 0; i < n; i++) { if(k) k--; j = sa[rk[i]-1]; while(s[i+k] == s[j+k]) k++; height[rk[i]] = k; } } bool find(int n,int m) { int mint,maxt,p = -1,cnt = 1; bool flag = false; for(int i = 1; i <= n; i++) { int t = height[i]; if(t >= m) { mint = min(sa[i],sa[i-1]); maxt = max(sa[i],sa[i-1]); if(mint + m == maxt) //如果按字典序排列的相邻两个后缀的位置差为m,那么肯定是重复的。 { cnt++; p = max(p,maxt); //p不断的寻找最后那个循环节的位置。 } else { if(cnt == 1) continue; //cnt = 1,说明没有符合条件的重复子串 if(cnt > ans) //cnt > ans 毫无疑问,这个肯定是比当前更优的结果,先保存下来。 { ans = cnt; pm = p; flag = true; //flag=true,说明当重复的循环节长度为m时,确实能够找到这样的子串。 } else if(cnt == ans && rk[p] < rk[pm]) //cnt = ans,那么就要比较两者的字典序大小,这里直接拿rank数组比较 { pm = p; //pm表示的是这一个重复子串当中,最后的循环节的起始位置。 flag = true; } cnt = 1; p = -1; //cnt = 1,p = -1,这一个子串算是找完了,看能不能找到别的子串。 } } else //理由同上,这里的代码和上面的小部分一样,但是处理的场合不同。 { if(cnt == 1) continue; if(cnt > ans) { ans = cnt; pm = p; flag = true; } else if(cnt == ans && rk[p] < rk[pm]) { pm = p; flag = true; } cnt = 1; p = -1; //cnt = 1,p = -1,这一个子串算是找完了,看能不能找到别的子串。 } } return flag; } int main() { int cas = 1; while(cin>>str) { int n = 0; if(str[0] == '#') break; for(int i = 0; str[i] != '\0'; i++) s[n++] = str[i]; s[n] = 0; getsa(n+1,300); getheight(n); int len = -1; ans = 0; for(int i = 1; i <= n/2; i++) { if(find(n,i) == true) len = i; } printf("Case %d: ",cas++); if(len == -1) { printf("%c\n",str[sa[1]]); continue; } for(int i = pm-(ans-1)*len; i < pm+len; i++) printf("%c",str[i]); printf("\n"); } return 0; }
截取别人的思路:假设一个长度为l的子串重复出现两次,那么它必然会包含s[0]、s[l]、s[l*2]...之中的相邻的两个。不难看出,该重复子串必然会包含s[0..l]或s[l..l*2]或s[l*2..l*3]...。所以,我们可以枚举一个i,对于每个i*l的位置,利用后缀数组可以求出s[i*l..(i+1)*l]向后延伸的长度k。k/l+1即i*l..(i+1)*l这一段重复出现的次数。但还有一种情况。考虑以下的字符串:
aababababab
假设现在l=2,i=1。则当前得到的子串为ba.用后缀数组可以求得k=7,则ba共重复出现了4次。但实际上,长度为2的子串重复出现最多的应该是“ab”,出现了5次。可以看出来,上述方法求得的k不能整除l,故可能在i的左边位置存在一个子串能完整重复覆盖i这个子串后面的子串。这里是i左边一位的“ab”子串。分析下这种情况,可以得知,如果以i-(l-k%l)开头的长度为l的子串,向后延伸的长度能大于k的话,那么有一个子串出现次数为k/l+2。就这样,问题得到解决。
AC:
#include<cstdio> #include<cstring> #include<iostream> #include<cmath> using namespace std; #define N 100005 int ws1[N],wv[N],wa[N],wb[N]; int rank[N],height[N],sa[N],len; char str[N],xiao; int dp[N][25]; int min(int x,int y) { return x<y?x:y; } int cmp(int *r,int a,int b,int l) { return r[a]==r[b] && r[a+l]==r[b+l]; } void da(char *r,int *sa,int n,int m) { int i,j,p,*x=wa,*y=wb,*t; for(i=0;i<m;i++) ws1[i]=0; for(i=0;i<n;i++) ws1[x[i]=r[i]]++; for(i=1;i<m;i++) ws1[i]+=ws1[i-1]; for(i=n-1;i>=0;i--) sa[--ws1[x[i]]]=i; for(j=1,p=1;p<n;j*=2,m=p) { for(p=0,i=n-j;i<n;i++) y[p++]=i; for(i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j; for(i=0;i<n;i++) wv[i]=x[y[i]]; for(i=0;i<m;i++) ws1[i]=0; for(i=0;i<n;i++) ws1[wv[i]]++; for(i=1;i<m;i++) ws1[i]+=ws1[i-1]; for(i=n-1;i>=0;i--) sa[--ws1[wv[i]]]=y[i]; for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i<n;i++) x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++; } } void calheight(char *r,int *sa,int n) { int i,j,k=0; for(i=1;i<=n;i++) rank[sa[i]]=i; for(i=0;i<n;height[rank[i++]]=k) for(k?k--:0,j=sa[rank[i]-1];r[i+k]==r[j+k];k++) ; } void RMQ()//RMQ初始化 { int i,j,m; m=(int)(log((double)len)/log(2.00)); for(i=1;i<=len;i++) dp[i][0]=height[i]; for(j=1;j<=m;j++) for(i=1;i+(1<<j)-1<=len;i++) dp[i][j]=min(dp[i][j-1],dp[i+(1<<(j-1))][j-1]); } int lcp(int x,int y)//求最长公共前缀 { int t; x=rank[x];y=rank[y]; if(x>y) swap(x,y); x++; t=(int)(log(double(y-x+1))/log(2.00)); return min(dp[x][t],dp[y-(1<<t)+1][t]); } void solve() { int i,j,max=1,f=0,l1,num=0,t,node=1,k,cnt,p; for(i=1;i<=len/2;i++)//i<=len/2优化了,枚举长度不同的循环节 { for(j=0;j+i<len;j+=i) { if(str[j]!=str[j+i])//这里也优化了 continue; l1=lcp(j,j+i); num=l1/i+1; p=j; t=i-l1%i; cnt=0; for(k=j-1;k>=0&&k+i>j&&str[k]==str[k+i];k--)//这个for循环我也不是很理解,但是大体的意思明白 { cnt++; if(cnt==t) { num++; p=k; } else if(rank[k]<rank[p]) p=k; } if(max<num) { f=p; max=num; node=i; } else if(max==num&&rank[f]>rank[p]) { f=p; node=i; } } } if(max==1) { printf("%c\n",xiao); return ; } for(i=f;i<=f+max*node-1;i++) printf("%c",str[i]); printf("\n"); } int main() { int T=0,i; while(scanf("%s",str)!=EOF&&str[0]!='#') { T++; len=strlen(str); xiao='z'+1; for(i=0;i<len;i++) if(str[i]<xiao) xiao=str[i]; str[len]='0'; da(str,sa,len+1,'z'+1); calheight(str,sa,len); RMQ(); printf("Case %d: ",T); solve(); } return 0; }