后缀数组的使用笔记

主要参考了 .罗穗骞《后缀数组——处理字符串的有力工具》和许智磊的后缀数组,现在能使用罗穗骞的dc3

算法和倍增法

 

倍增法模板o(nlgn)

int wa[maxn],wb[maxn],wv[maxn],ws[maxn]; int cmp(int *r,int a,int b,int l) {return r[a]==r[b]&&r[a+l]==r[b+l];} void da(int *r,int *sa,int n,int m) { int i,j,p,*x=wa,*y=wb,*t; for(i=0;i=0;i--) sa[--ws[x[i]]]=i; for(j=1,p=1;p=j) y[p++]=sa[i]-j; for(i=0;i=0;i--) sa[--ws[wv[i]]]=y[i]; for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i

 

dc3模板o(n)

#define F(x) ((x)/3+((x)%3==1?0:tb)) #define G(x) ((x)=0;i--) b[--ws[wv[i]]]=a[i]; return; } void dc3(int *r,int *sa,int n,int m) { int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p; r[n]=r[n+1]=0; for(i=0;i

不过神罗说da的n实际上小于dc3的n,所以速度上差距在0.33之间。考虑coding的速度

可以选倍增法。但是我用起来两个都不顺手:(

后缀数组的核心是两个后缀之间的height值

由一个不知道是哪里来的公式

h[i]≥h[i-1]-1

 

 

 

从而计算出height

int rank[maxn],height[maxn]; void calheight(int *r,int *sa,int n) { int i,j,k=0; for(i=1;i<=n;i++) rank[sa[i]]=i; for(i=0;i

然后就可以调用计算啦!(calheight调用时n为原始值)

dc3的调用格式是dc3(r,sa,n,m)//r为数据数组,要int化,sa是计算以后返回的值。n是数据个数+1,m是最大不超过的数字。设为128或则大一点maxn也可以。。

da调用方法类似,要进行微调

输入的时候建议scanf("%s",s+len)//len为以前输入的字符串长度

搜索的时候用二分法,递归的好理解的方法为int BSearch(int left,int right) { if(left>right) return right; int mid=(left+right)/2; if(pend(mid))BSearch(mid+1,right);//pend为自定义函数 else BSearch(left,mid-1); }

 单子串

 不可重叠最长重复子串 (pku1743)

要先对height根据二分法进行分组,容易看出最大重复字串一定在

同一组中。那样只要判断每一组的sa最大和最小值是否大于等于k

如果是,则存在。

 

sa是计算出来后缀的最长公共前缀的字典序排名、

可重叠的k 次最长重复子串(pku3261)

这题和上题基本一样,在二分后计算的时候判断每一组是否大于k

 

连续重复子串

可以在两个字符串之间加各种不同符号。ascii中0除外,只要不和数组中其他字符重复就可以了

然后可以把他当成单子串来做。

只要求height中的最大值,但是需要是在不同的组中的height,即用不同符号分割的。

pku2774,pku3294

最郁闷的就是3294 ,poj中很多东西都会有暗桩.我找waterloo的原始数据也测过了,在uva上的11107也是相同提也ac的,这里就是死活wa。就这样,先放在这里吧。

你可能感兴趣的:(后缀数组的使用笔记)