第一次后缀数组题,头晕,转载下:
来自http://blog.csdn.net/wchyumo2009/article/details/7424393
/*
以下内容出自《后缀数组——处理字符串的有力工具》
1.1 基本定义
子串:字符串S 的子串r[i..j],i≤j,表示r 串中从i 到j 这一段,
也就是顺次排列r[i],r[i+1],...,r[j]形成的字符串。
后缀:后缀是指从某个位置i 开始到整个串末尾结束的一个特殊子串。字
符串r 的从第i 个字符开始的后缀表示为Suffix(i) , 也就是
Suffix(i)=r[i..len(r)]。
大小比较:关于字符串的大小比较,是指通常所说的“字典顺序”比较,也
就是对于两个字符串u、v,令i 从1 开始顺次比较u[i]和v[i],如果
u[i]=v[i]则令i 加1,否则若u[i]<v[i]则认为u<v,u[i]>v[i]则认为u>v
(也就是v<u),比较结束。如果i>len(u)或者i>len(v)仍比较不出结果,那
么若len(u)<len(v) 则认为u<v , 若len(u)=len(v) 则认为u=v , 若
len(u)>len(v)则u>v。
从字符串的大小比较的定义来看,S 的两个开头位置不同的后缀u 和v 进
行比较的结果不可能是相等,因为u=v 的必要条件len(u)=len(v)在这里不可
能满足。
后缀数组:后缀数组SA 是一个一维数组,它保存1..n 的某个排列SA[1],
SA[2],……,SA[n],并且保证Suffix(SA[i]) < Suffix(SA[i+1]),1≤i<n。
也就是将S 的n 个后缀从小到大进行排序之后把排好序的后缀的开头位置顺
次放入SA 中。
名次数组:名次数组Rank[i]保存的是Suffix(i)在所有后缀中从小到大排
列的“名次”。
简单的说,后缀数组是“排第几的是谁?”,名次数组是“你排第几?”。容
易看出,后缀数组和名次数组为互逆运算。如图1 所示。
1.2倍增算法
倍增算法的主要思路是:用倍增的方法对每个字符开始的长度为2k 的子字
符串进行排序,求出排名,即rank 值。k 从0 开始,每次加1,当2k 大于n 以
后,每个字符开始的长度为2k 的子字符串便相当于所有的后缀。并且这些子字
符串都一定已经比较出大小,即rank 值中没有相同的值,那么此时的rank 值就
是最后的结果。每一次排序都利用上次长度为2k-1 的字符串的rank 值,那么长
度为2k 的字符串就可以用两个长度为2k-1 的字符串的排名作为关键字表示,然
后进行基数排序,便得出了长度为2k 的字符串的rank 值。以字符串“aabaaaab”
为例,整个过程如图2 所示。其中x、y 是表示长度为2k 的字符串的两个关键字。
*/
*/
本题求给定的字符串中所有不重叠出现次数大于等于两次的子串的数目,代码如下:
自己注释了下:
#include <stdio.h> #include <string.h> #define INF 10000000 #define mm 1001 char s[mm]; int sa[mm],rank[mm],height[mm],wa[mm],wb[mm],wv[mm],ws[mm],a[mm]; int max(int a,int b) { return a>b?a:b; } int min(int a,int b) { return a<b?a:b; } int cmp(int *r,int a,int b,int l) { return r[a]==r[b]&&r[a+l]==r[b+l]; } void fun(int *r, int n, int m)//倍增算法,r为带匹配数组,n为数组总长度,m为字符范围, { //虽然理解了原理,可看了半天,还是没消化掉代码,当模板来用吧 int i,j,p,*x = wa, *y = wb, *t; for(i = 0; i < m; i ++)ws[i] = 0; for(i = 0; i < n; i ++)ws[x[i]=r[i]] ++; for(i = 1; i < m; i ++)ws[i]+=ws[i-1]; for(i = n-1; i >= 0; i --)sa[--ws[x[i]]] = i; for(j = 1, p = 1; p < n; j*=2, m = p) { for(p = 0, i = n-j; i < n; i ++)y[p++] = i; for(i = 0; i < n; i ++)if(sa[i]>=j)y[p++]=sa[i]-j; for(i = 0; i < n; i ++)wv[i] = x[y[i]]; for(i = 0; i < m; i ++)ws[i] = 0; for(i = 0; i < n; i ++)ws[wv[i]] ++; for(i = 1; i < m; i ++)ws[i]+=ws[i-1]; for(i = n-1; i >= 0; i--)sa[--ws[wv[i]]] = y[i]; for(t = x, x = y, y = t, p = 1, x[sa[0]] = 0, i = 1; i < n; i ++) x[sa[i]] = cmp(y, sa[i-1], sa[i], j) ? p-1 : p++; } } void calheight(int *r,int n) //求height数组 { int i,j,k=0; for(i=1;i<=n;i++) rank[sa[i]]=i; //sa[i]=j,表示排序中第i小的后缀子串是以第j个字符开始的后缀子串 for(i=0;i<n;height[rank[i++]]=k) //rank[i]=j表示以第i个字符开始的字符子串排第j for(k>0?k--:0,j=sa[rank[i]-1];r[i+k]==r[j+k];k++); //r[n]已经被赋值0,不是字符串中可能出现的数,所以必定不会超数组 }//k>0?k--:0;难理解为什么相差必定小于等于1 int getnum(int i,int n)//求长度为i的重复子串个数 { int ans=0,max1=-1,min1=INF,j; for(j=2;j<=n;j++) { if(height[j]>=i) //由于height[i]是rank[i]和rank[i]-1的最长公共前缀,rank是排序了,所以 { //如果连续if而没有else,重复子串也不会变 max1=max(sa[j-1],max(max1,sa[j])); min1=min(sa[j-1],min(min1,sa[j])); } else { if(min1!=INF&&max1!=-1&&max1-min1>=i)//判断长度为i的重复子串是否重叠 ans++; max1=-1; min1=INF; } } if(min1!=INF&&max1!=-1&&max1-min1>=i) ans++; return ans; } int main() { int n; while(scanf("%s",s)&&s[0]!='#') { n=strlen(s); for(int i=0;i<n;i++) a[i]=s[i]-'a'+1; a[n]=0; int ans=0; fun(a,n+1,34);//该题字符串由小写组成,最大值小于34 calheight(a,n); for(int i=1;i<=n/2;i++) ans+=getnum(i,n); printf("%d\n",ans); } return 0; }