poj3693(后缀数组)

http://poj.org/problem?id=3693

题意:给出一串字符,需要求这串字符中的最长重复子串,要是有多个,输出字典序最小的.........

poj3693(后缀数组)_第1张图片

 

我自己的一些想法:这个思路我一开始倒是没有看明白,慢慢的编下去,才懂了它到底是如何操作的......其实就是枚举多少个字符会匹配,然后求出它们的height值,再用这个值去除以长度,得到有多少个循环........具体看代码

#include<iostream>
#include<stdio.h>
#include<string.h>
using namespace std;
#define min(x,y) x>y? y:x
#define maxn 100010
int dp[maxn][33];
int wa[maxn],wb[maxn],wsf[maxn],wv[maxn],sa[maxn];
int rank[maxn],height[maxn],s[maxn];
char str[maxn];
int cmp(int *r,int a,int b,int k)
{
    return r[a]==r[b]&&r[a+k]==r[b+k];
}
void getsa(int *r,int *sa,int n,int m)
{
    int i,j,p,*x=wa,*y=wb,*t;
    for(i=0;i<m;i++)  wsf[i]=0;
    for(i=0;i<n;i++)  wsf[x[i]=r[i]]++;
    for(i=1;i<m;i++)  wsf[i]+=wsf[i-1];
    for(i=n-1;i>=0;i--)  sa[--wsf[x[i]]]=i;
    p=1;
    j=1;
    for(;p<n;j*=2,m=p)
    {
        for(p=0,i=n-j;i<n;i++)  y[p++]=i;
        for(i=0;i<n;i++)  if(sa[i]>=j)  y[p++]=sa[i]-j;
        for(i=0;i<n;i++)  wv[i]=x[y[i]];
        for(i=0;i<m;i++)  wsf[i]=0;
        for(i=0;i<n;i++)  wsf[wv[i]]++;
        for(i=1;i<m;i++)  wsf[i]+=wsf[i-1];
        for(i=n-1;i>=0;i--)  sa[--wsf[wv[i]]]=y[i];
        t=x;
        x=y;
        y=t;
        x[sa[0]]=0;
        for(p=1,i=1;i<n;i++)
        x[sa[i]]=cmp(y,sa[i-1],sa[i],j)? p-1:p++;
    }
}
void getheight(int *r,int n)
{
    int i,j,k=0;
    for(i=1;i<=n;i++)  rank[sa[i]]=i;
    for(i=0;i<n;i++)
    {
        if(k)
        k--;
        else
        k=0;
        j=sa[rank[i]-1];
        while(r[i+k]==r[j+k])
        k++;
        height[rank[i]]=k;
    }
}
void rmq_init(int n)
{
	for(int i=1;i<=n;i++)  dp[i][0]=height[i];
	for(int j=1;(1<<j)<=n;j++)
	for(int i=1;i+(1<<j)-1<=n;i++)
	dp[i][j]=min(dp[i][j-1],dp[i+(1<<(j-1))][j-1]);
}
int rmq(int ll,int rr)
{
	int k=0;
	ll=rank[ll];              //在这个地方总是出错,需要注意的是,height数组里面的值是后缀的字典序,所以在查找的时候, 
	rr=rank[rr];                //需要找到其排名,而不是其坐标....... 
	if(ll>rr)
	{
		int tmp=ll;
		ll=rr;
		rr=tmp;
	}
	ll++;
	while((1<<(k+1))<=rr-ll+1) k++;
	return min(dp[ll][k],dp[rr-(1<<k)+1][k]);
}
int main()
{
	int text=0;
	while(scanf("%s",str)>0)
	{
		if(str[0]=='#')
		break;
		int len=strlen(str);
		for(int i=0;i<len;i++)
		s[i]=str[i]-'a'+1;
		s[len]=0;
		getsa(s,sa,len+1,30);
		getheight(s,len);
		rmq_init(len);
		int ans=0,pos=0,lenn;
		for(int i=1;i<=len/2;i++)
		{
			for(int j=0;j<len-i;j+=i)
			{
				if(str[j]!=str[j+i])
				continue;
				int k=rmq(j,j+i);
				int tol=k/i+1;
				//printf("%d\n",tol);
				int r=i-k%i;
				int p=j;
				int cnt=0;
				for(int m=j-1;m>j-i&&str[m]==str[m+i]&&m>=0;m--)
				{
					cnt++;
					if(cnt==r)
					{
						tol++;
						p=m;
					}
					else
					if(rank[p]>rank[m])
					{
						p=m;
					}
				}
				if(ans<tol)
				{
					ans=tol;
					pos=p;
					lenn=tol*i;
				}
				else if(ans==tol&&rank[pos]>rank[p])
				{
					pos=p;
					lenn=tol*i;
				}
			}
		}
		printf("Case %d: ",++text);
	//	printf("%d %d %d\n",ans,pos,lenn);
		if(ans<2)                         //这里,如果字符总长度小于2,那么就在原串中找出一个最小的字符就好 
		{
			char ch='z';
			for(int i=0;i<len;i++)
			if(str[i]<ch)
			ch=str[i];
			printf("%c\n",ch);
			continue;
		}
		for(int i=pos;i<pos+lenn;i++)
		printf("%c",str[i]);
		printf("\n");
	}
	return 0;
} 

 

你可能感兴趣的:(后缀数组)