后缀数组

1. refer to <后缀数组-处理字符串的有力工具> http://download.csdn.net/detail/atom_and_world/2642017

2. height数组即后缀树中相邻的后缀之间的LCA的高度

3. 二分答案

refer http://zhidao.baidu.com/question/200135301.html?push=ql

二分答案是参数搜索的一个改善。
是这样,对于一个问题,如果它的答案具有单调性质(即如果i不可行,那么大于i的解都不可行,而小于i的解有可能可行),进而用二分的方法枚举答案,再判断答案是否可行,直到求到符合条件为止。
例如:问题的答案范围是1到w之间的一个整数,求最小解,那么我们设s=1,t=w,之后mid=(s+t)整除2。然后判断当解是mid的时候这个问题能不能解决,如果能解决则和最优解比较,并且范围缩小到s到mid-1之间(因为即使这个范围没有解,那么mid是最小解);如果不能解决问题,则最小解肯定比mid要大,则范围缩小到mid+1和t之间。如此反复知道s=t时判断完结束。
这时候那个记录最优解的变量一定记录的是能够达到的最优解。

代码模板如下:(POJ1743)

#include "stdio.h"
#define maxn 20000

int wa[maxn], wb[maxn], wv[maxn], ws[maxn];
int cmp(int *r, int a, int b, int l) {
	return r[a] == r[b] && r[a + l] == r[b + l];
}
void da(int *r, int *sa, int n, int m) {
	int i, j, p, *x = wa, *y = wb, *t;
	for (i = 0; i < m; i++)
		ws[i] = 0;
	for (i = 0; i < n; i++)
		ws[x[i] = r[i]]++;
	for (i = 1; i < m; i++)
		ws[i] += ws[i - 1];
	for (i = n - 1; i >= 0; i--)
		sa[--ws[x[i]]] = i;
	for (j = 1, p = 1; p < n; j *= 2, m = p) {
		for (p = 0, i = n - j; i < n; i++)
			y[p++] = i;
		for (i = 0; i < n; i++)
			if (sa[i] >= j)
				y[p++] = sa[i] - j;
		for (i = 0; i < n; i++)
			wv[i] = x[y[i]];
		for (i = 0; i < m; i++)
			ws[i] = 0;
		for (i = 0; i < n; i++)
			ws[wv[i]]++;
		for (i = 1; i < m; i++)
			ws[i] += ws[i - 1];
		for (i = n - 1; i >= 0; i--)
			sa[--ws[wv[i]]] = y[i];
		for (t = x, x = y, y = t, p = 1, x[sa[0]] = 0, i = 1; i < n; i++)
			x[sa[i]] = cmp(y, sa[i - 1], sa[i], j) ? p - 1 : p++;
	}
	return;
}
int rank[maxn], height[maxn];
void calheight(int *r, int *sa, int n) {
	int i, j, k = 0;
	for (i = 1; i <= n; i++)
		rank[sa[i]] = i;
	for (i = 0; i < n; height[rank[i++]] = k)
		for (k ? k-- : 0, j = sa[rank[i] - 1]; r[i + k] == r[j + k]; k++)
			;
	return;
}

int check(int *sa, int n, int k) {
	int i, max = sa[1], min = sa[1];
	for (i = 2; i <= n; i++) {
		if (height[i] < k)
			max = min = sa[i];
		else {
			if (sa[i] < min)
				min = sa[i];
			if (sa[i] > max)
				max = sa[i];
			if (max - min > k)
				return (1);
		}
	}
	return (0);
}
int r[maxn], sa[maxn];
int main() {
	int i, j = 0, k, n;
	int min, mid, max;
	scanf("%d", &n);
	while (n != 0) {
		n--;
		scanf("%d", &j);
		for (i = 0; i < n; i++) {
			scanf("%d", &k);
			r[i] = k - j + 100;
			j = k;
		}
		r[n] = 0;
		da(r, sa, n + 1, 200);
		calheight(r, sa, n);
		min = 1;
		max = n / 2;
		while (min <= max) {
			mid = (min + max) / 2;
			if (check(sa, n, mid))
				min = mid + 1;
			else
				max = mid - 1;
		}
		if (max >= 4)
			printf("%d\n", max + 1);
		else
			printf("0\n");
		scanf("%d", &n);
	}
	return 0;
}

这篇文章对于后缀数组的题目总结的不错,http://www.cnblogs.com/XBWer/archive/2012/05/30/2524987.html


用后缀数组解题有着一定的规律可循,这是后缀的性质所决定的,具体归纳如下:

1、N个字符串的问题(N>1)
方法:将它们连接起来,中间用不会出现在原串中的,互不相同的,非0号字符分隔开。

2、无限制条件下的最长公共子串(重复子串算是后缀们的最长公共前缀)
方法:height的最大值。这里的无限制条件是对子串无限制条件。最多只能是两个串的最长公共子串,才可以直接是height的最大值。

3、特殊条件下的最长子串
方法:二分答案,再根据height数组进行分组,根据条件完成判定性问题。三个或以上的字符串的公共子串问题也需要二分答案。设此时要验证的串长度为len,特殊条件有:

3.1、出现在k个串中
条件:属于不同字符串的后缀个数不小于k。(在一组后缀中,下面省略)

3.2、不重叠
条件:出现在同一字符串中的后缀中,出现位置的最大值减最小值大于等于len。

3.3、可重叠出现k次
条件:出现在同一字符串中的后缀个数大于等于k。若对于每个字符串都需要满足,需要逐个字符串进行判断。

4、特殊计数
方法:根据后缀的性质,和题目的要求,通过自己的思考,看看用后缀数组能否实现。一般和“子串”有关的题目,用后缀数组应该是可以解决的。

5、重复问题
知道一点:lcp(i,i+k)可以判断,以i为起点,长度为k的一个字符串,它向后自复制的长度为多少,再根据具体题目具体分析,得出算法即可。

你可能感兴趣的:(后缀数组)