后缀数组
后缀数组SA是一个一维数组,它保存1…n的某个排列SA[1],SA[2],…,SA[n]。并且保证Suffix(SA[i])
名次数组
名次数组Rank[i]保存的是Suffix[i]在所有后缀中从小到大排列的名次。
简单的来说,后缀数组是“排第几的是谁”?,名次数组是“你排第几?“
容易看出,后缀数组和名次数组互逆运算。
令 h e i g h t [ i ] height[i] height[i]是 s u f f i x ( s a [ i − 1 ] ) suffix(sa[i-1]) suffix(sa[i−1]) 和 s u f f i x ( s a [ i ] ) suffix(sa[i]) suffix(sa[i]) 的最长公共前缀长度,即排名相邻的两个后缀的最长公共前缀长度。比如 h e i g h t [ 4 ] height[4] height[4]就是anana$ 和ana$的最长公共前缀,也就是ana,长度为3。你注意,这个height数组有一个神奇的性质:若 rank[j] < rank[k],则后缀 Sj…n 和 Sk…n 的最长公共前缀为 min{height[rank[j]+1],height[rank[j]+2]…height[rank[k]]}。这个性质是显然的,因为我们已经后缀按字典序排列。
有了height,求最长可重叠重复K次子串就方便了。重复子串即两后缀的公共前缀,最长重复子串,等价于两后缀的最长公共前缀的最大值。问题就转化成了,求height 数组中最大的长度为 K的子序列的最小值。
【倍增法】
最长可重叠重复子串问题
hihocoder 1403 : 后缀数组一·重复旋律
转化为求后缀数组height数组中最大长度为K的子序列的最小值是多少?
求出height以后,用单调队列或者二分求结果。
#include
#include
#include
#include
using namespace std;
#define N 22222
int n,k,s[N],cntA[N],cntB[N],sa[N],tsa[N],A[N],B[N],rk[N],ht[N],ans;
deque<int>q;
int main(){
scanf("%d%d",&n,&k);
for(int i=1;i<=n;i++)scanf("%d",&s[i]);
for(int i=1;i<=n;i++)cntA[s[i]]++;
for(int i=1;i<=100;i++)cntA[i]+=cntA[i-1];
for(int i=n;i;i--)sa[cntA[s[i]]--]=i;
rk[sa[1]]=1;
for(int i=2;i<=n;i++)rk[sa[i]]=rk[sa[i-1]]+(s[sa[i]]!=s[sa[i-1]]);
for(int l=1;rk[sa[n]]<n;l<<=1){
memset(cntA,0,sizeof(cntA));
memset(cntB,0,sizeof(cntB));
for(int i=1;i<=n;i++)
cntA[A[i]=rk[i]]++,
cntB[B[i]=i+l<=n?rk[i+l]:0]++;
for(int i=1;i<=n;i++)cntA[i]+=cntA[i-1],cntB[i]+=cntB[i-1];
for(int i=n;i>=1;i--)tsa[cntB[B[i]]--]=i;
for(int i=n;i>=1;i--)sa[cntA[A[tsa[i]]]--]=tsa[i];
rk[sa[1]]=1;
for(int i=2;i<=n;i++)rk[sa[i]]=rk[sa[i-1]]+(A[sa[i]]!=A[sa[i-1]]||B[sa[i]]!=B[sa[i-1]]);
}
for(int i=1,j=0;i<=n;i++){
j=j?j-1:0;
while(s[i+j]==s[sa[rk[i]-1]+j])j++;
ht[rk[i]]=j;
}
for(int i=1;i<k;i++){
while(!q.empty()&&ht[i]<ht[q.back()])q.pop_back();
q.push_back(i);
}ans=ht[q.front()];
for(int i=k;i<=n;i++){
while(!q.empty()&&ht[i]<ht[q.back()])q.pop_back();
q.push_back(i);
while(!q.empty()&&q.front()<=i-k+1)q.pop_front();
if(!q.empty())ans=max(ans,ht[q.front()]);
}printf("%d\n",ans);
}
最长不可重叠重复子串问题
#1407 : 后缀数组二·重复旋律2
小Hi平时的一大兴趣爱好就是演奏钢琴。我们知道一个音乐旋律被表示为长度为 N 的数构成的数列。小Hi在练习过很多曲子以后发现很多作品自身包含一样的旋律。
旋律可以表示为一段连续的数列,相似的旋律在原数列不可重叠,比如在1 2 3 2 3 2 1 中 2 3 2 出现了一次,2 3 出现了两次,小Hi想知道一段旋律中出现次数至少为两次的旋律最长是多少?
思路:
紧接上题,求出height数组以后,由于height数组不能保证不重叠。
要求长度为K的不可重复子串,相当于求两个后缀的最长公共前缀大于等于K。
可以对这个K的值进行二分答案,检查height值>=K的情况,把height值>=K的连续解求maxSa,minSa,如果maxSa-minSa>=K说明不重叠,存在一种不重叠且大于等于K的子串。
#include
#include
#include
#include
#include
using namespace std;
const int maxn = 1e5+100;
int s[maxn];
int sa[maxn],t[maxn],t2[maxn],c[maxn];
int Rank[maxn], height[maxn];
void build_sa(int n,int m){
int i,*x = t, *y = t2; //引用指针只是为了后面好交换
for(i = 0; i < m; i++) c[i] = 0;
for(i = 0; i < n; i++) c[x[i] = s[i]]++;
for(i = 1; i < m; i++) c[i] += c[i-1];
for(i = n-1; i >= 0; i--) sa[--c[x[i]]] = i; //sa[i]中表示排名第i的位置是多少
for(int k = 1; k <= n; k <<= 1){ //k表示每次基数排序需要比较的长度,因为是按照倍增算法所以每次比较2个关键字
int p = 0;
//直接利用sa数组排序第二关键字
for(i = n-k; i < n; i++) y[p++] = i; //y中存放按第二关键字从小到大排序的位置
for(i = 0; i < n; i++) if(sa[i] >= k) y[p++] = sa[i]-k;
//基数排序第一关键字
for(i = 0; i < m; i++) c[i] = 0;
for(i = 0; i < n; i++) c[x[y[i]]]++;
for(i = 0; i < m; i++) c[i] += c[i-1];
for(i = n-1; i >= 0; i--) sa[--c[x[y[i]]]] = y[i]; //i从大到小是为了保证相同字符的情况下默认靠前的更小一些
swap(x, y); //这里只用交换指针即可
p = 1; x[sa[0]] = 0; //p表示rank值不同的字符串的数量,如果达到n表示字符串的所有关系都找出来了
for(i = 1; i < n; i++) //重新计算x的值
x[sa[i]] = y[sa[i-1]] == y[sa[i]] && y[sa[i-1]+k] == y[sa[i]+k]?p-1:p++;
if(p >= n) break;
m = p;
}
}
void getHeight(int n){
int i,j,k = 0;
for(i = 0; i < n; i++) Rank[sa[i]] = i; //求出rank值,利用rank和sa是相反的
for(i = 0; i < n; i++){
if(k) k--; //利用h[i] >= h[i-1]+1这个性质,先求出前面的后面的就可以由前面推出
j = sa[Rank[i]-1];
while(s[i+k] == s[j+k]) k++;
height[Rank[i]] = k;
}
}
bool check(int k,int n){ //二分查找
int ma, mi;
ma = mi = sa[1];
for(int i = 2; i < n; i++){
if(height[i] >= k){ //我们将height大于k的看做连续的一段区间进行处理,如果遇到不成立的则重置
mi = min(mi, sa[i]);
ma = max(ma, sa[i]);
if(ma - mi >= k) return true;
}
else ma = mi = sa[i];
}
return false;
}
int main(){
int n;
while(scanf("%d", &n) != EOF){
for(int i = 0; i < n; i++) scanf("%d", &s[i]);
s[n] = 0;
build_sa(n+1, 1005);
getHeight(n+1);
int left = 0, right = n/2, ans = 0;
while(left <= right){
int mid = (left+right)/2;
if(check(mid, n)){
ans = mid;
left = mid+1;
}
else right = mid-1;
}
printf("%d\n", ans);
}
return 0;
最长公共子串问题
#1415 : 后缀数组三·重复旋律3
旋律是一段连续的数列,如果同一段旋律在作品A和作品B中同时出现过,这段旋律就是A和B共同的部分,比如在abab 在 bababab 和 cabacababc 中都出现过。小Hi想知道两部作品的共同旋律最长是多少?
思路:
将两个串相连,中间用#间隔开来。
很容易想到求height中的最大值,但是会出现同一个串中相比较的情况。比如,a和abab相连后为abab#a,当abab#a与ab比较的时候是同一个串比较,所以加一个判定,在两个不同串之间比较才有效。
建议采用本代码为模板
#include
#include
#include
#include
using namespace std;
const int maxn = 3e5+5;
int t1[maxn], t2[maxn], c[maxn];
int ra[maxn], height[maxn];
int sa[maxn];
char str[maxn], str1[maxn], str2[maxn];
bool cmp(int *r, int a, int b, int l)
{
return r[a]==r[b]&&r[a+l]==r[b+l];
}
void da(char str[], int sa[], int ra[], int height[], int n, int m)
{
n++;
int i, j, p, *x = t1, *y = t2;
for(i = 0; i < m; i++) c[i] = 0;
for(i = 0; i < n; i++) c[x[i]=str[i]]++;
for(i = 1; i < m; i++) c[i] += c[i-1];
for(i = n-1; i >= 0; i--) sa[--c[x[i]]] = i;
for(j = 1; j <= n; j<<=1)
{
p = 0;
for(i = n-j; i < n; i++) y[p++] = i;
for(i = 0; i < n; i++) if(sa[i] >= j) y[p++] = sa[i]-j;
for(i = 0; i < m; i++) c[i] = 0;
for(i = 0; i < n; i++) c[x[y[i]]]++;
for(i = 1; i < m; i++) c[i] += c[i-1];
for(i = n-1; i >= 0; i--) sa[--c[x[y[i]]]] = y[i];
swap(x, y);
p = 1; x[sa[0]] = 0;
for(i = 1; i < n; i++)
x[sa[i]] = cmp(y, sa[i-1], sa[i], j) ? p-1 : p++;
if(p >= n) break;
m = p;
}
int k = 0;
n--;
for(i = 0; i <= n; i++) ra[sa[i]] = i;
for(i = 0; i < n; i++)
{
if(k) k--;
j = sa[ra[i]-1];
while(str[i+k]==str[j+k]) k++;
height[ra[i]] = k;
}
}
int solve(int n, int len)
{
int ans = 0;
for(int i = 2; i <= n; i++)
{
if(sa[i-1] < len && sa[i] > len || sa[i] < len && sa[i-1] > len)
ans = max(ans, height[i]);
}
return ans;
}
int main(void)
{
while(~scanf(" %s %s", str1, str2))
{
int len1 = strlen(str1);
int len2 = strlen(str2);
for(int i = 0; i < len1; i++)
str[i] = str1[i];
str[len1] = '#';
for(int i = 0; i < len2; i++)
str[len1+i+1] = str2[i];
int len = len1+len2+1;
str[len] = 0;
da(str, sa, ra, height, len, 127);
int ans = solve(len, len1);
printf("%d\n", ans);
}
return 0;
}
参考: