杭电hdu 3518 boring counting 后缀数组学习

http://acm.hdu.edu.cn/showproblem.php?pid=3518

感觉这个问题太考验人的程序和思维能力了,我楞是看不懂啊,就拿了别人的模板学习了下。后缀数组的大致内容做摘录如下:

以下内容出自《后缀数组——处理字符串的有力工具》

1.1 基本定义
子串:字符串S 的子串r[i..j],i≤j,表示r 串中从i 到j 这一段,
也就是顺次排列r[i],r[i+1],...,r[j]形成的字符串。
后缀:后缀是指从某个位置i 开始到整个串末尾结束的一个特殊子串。字
符串r 的从第i 个字符开始的后缀表示为Suffix(i) , 也就是
Suffix(i)=r[i..len(r)]。
大小比较:关于字符串的大小比较,是指通常所说的“字典顺序”比较,也
就是对于两个字符串u、v,令i 从1 开始顺次比较u[i]和v[i],如果
u[i]=v[i]则令i 加1,否则若u[i]<v[i]则认为u<v,u[i]>v[i]则认为u>v
(也就是v<u),比较结束。如果i>len(u)或者i>len(v)仍比较不出结果,那
么若len(u)<len(v) 则认为u<v , 若len(u)=len(v) 则认为u=v , 若
len(u)>len(v)则u>v。
从字符串的大小比较的定义来看,S 的两个开头位置不同的后缀u 和v 进
行比较的结果不可能是相等,因为u=v 的必要条件len(u)=len(v)在这里不可
能满足。
后缀数组:后缀数组SA 是一个一维数组,它保存1..n 的某个排列SA[1],
SA[2],……,SA[n],并且保证Suffix(SA[i]) < Suffix(SA[i+1]),1≤i<n。
也就是将S 的n 个后缀从小到大进行排序之后把排好序的后缀的开头位置顺
次放入SA 中。
名次数组:名次数组Rank[i]保存的是Suffix(i)在所有后缀中从小到大排
列的“名次”。
简单的说,后缀数组是“排第几的是谁?”,名次数组是“你排第几?”。容
易看出,后缀数组和名次数组为互逆运算。如图1 所示。


1.2倍增算法
倍增算法的主要思路是:用倍增的方法对每个字符开始的长度为2k 的子字
符串进行排序,求出排名,即rank 值。k 从0 开始,每次加1,当2k 大于n 以
后,每个字符开始的长度为2k 的子字符串便相当于所有的后缀。并且这些子字
符串都一定已经比较出大小,即rank 值中没有相同的值,那么此时的rank 值就
是最后的结果。每一次排序都利用上次长度为2k-1 的字符串的rank 值,那么长
度为2k 的字符串就可以用两个长度为2k-1 的字符串的排名作为关键字表示,然
后进行基数排序,便得出了长度为2k 的字符串的rank 值。以字符串“aabaaaab”
为例,整个过程如图2 所示。其中x、y 是表示长度为2k 的字符串的两个关键字。


本题求给定的字符串中所有不重叠出现次数大于等于两次的子串的数目,代码如下:

#include <stdio.h>
#include <string.h>

#define MAX 500000
#define cMAX 1001

const int inf = 1<<30;

int sa[MAX], rank[MAX], height[MAX];

int wa[MAX], wb[MAX], wv[MAX], ws[MAX];

int cmp(int *r, int a, int b, int l)
{
	return r[a] == r[b]&&r[a+l] == r[b+l];
}

void make_sa(int *r, int n, int m)//倍增算法,r为带匹配数组,n为数组总长度,m为字符范围
{
	int i,j,p,*x = wa, *y = wb, *t;
	for(i = 0; i < m; i ++)ws[i] = 0;
	for(i = 0; i < n; i ++)ws[x[i]=r[i]] ++;
	for(i = 1; i < m; i ++)ws[i]+=ws[i-1];
	for(i = n-1; i >= 0; i --)sa[--ws[x[i]]] = i;
	for(j = 1, p = 1; p < n; j*=2, m = p){
		for(p = 0, i = n-j; i < n; i ++)y[p++] = i;
		for(i = 0; i < n; i ++)if(sa[i]>=j)y[p++]=sa[i]-j;
		for(i = 0; i < n; i ++)wv[i] = x[y[i]];
		for(i = 0; i < m; i ++)ws[i] = 0;
		for(i = 0; i < n; i ++)ws[wv[i]] ++;
		for(i = 1; i < m; i ++)ws[i]+=ws[i-1];
		for(i = n-1; i >= 0; i--)sa[--ws[wv[i]]] = y[i];
		for(t = x, x = y, y = t, p = 1, x[sa[0]] = 0, i = 1; i < n; i ++)
			x[sa[i]] = cmp(y, sa[i-1], sa[i], j) ? p-1 : p++;
	}
}

void calHeight(int *r, int n)//求height数组
{
	int i, j, k = 0;
	for(i = 1; i <= n; i ++)rank[sa[i]] = i;
	for(i = 0; i < n; height[rank[i++]] = k)
		for(k ? k-- : 0, j = sa[rank[i]-1]; r[i+k]==r[j+k]; k++);
}

char str[cMAX];
int num[cMAX];

int max(int a, int b)
{
	return a > b ? a : b;
}

int min(int a, int b)
{
	return a < b ? a : b;
}

int getnum(int i, int n)//求长度为i的重复子串个数
{
	int res = 0, maxl = -1, minl = inf, j;
	for(j = 2; j <= n; j ++){
		if(height[j] >= i){
			maxl = max(sa[j-1], max(maxl, sa[j]));
			minl = min(sa[j-1], min(minl, sa[j]));
		}
		else {
			if(minl!=inf&&maxl!=-1&&maxl-minl>=i)res++;
			minl = inf;
			maxl = -1;
		}
	}
	if(minl!=inf&&maxl!=-1&&maxl-minl>=i)res++;
	return res;
}

int main()
{
//	freopen("input.txt", "r", stdin);
	int n, sp, i, ans;
	while(scanf("%s", str),str[0] != '#'){
		n = strlen(str);
		for(i = 0; str[i]; i ++){
			num[i] = str[i]-'a'+1;
		}
		num[n] = 0, sp = 30, ans = 0;
		make_sa(num, n+1, sp+4);
		calHeight(num, n);
		for(i = 1; i <= n/2; i ++){
			ans += getnum(i, n);
		}
		printf("%d\n", ans);
	}
	return 0;
}


你可能感兴趣的:(算法,工具)