bryce1010专题训练——后缀数组

1. 定义介绍

  • 后缀数组
    后缀数组SA是一个一维数组,它保存1…n的某个排列SA[1],SA[2],…,SA[n]。并且保证Suffix(SA[i])

  • 名次数组
    名次数组Rank[i]保存的是Suffix[i]在所有后缀中从小到大排列的名次。

简单的来说,后缀数组是“排第几的是谁”?,名次数组是“你排第几?“
容易看出,后缀数组和名次数组互逆运算。

h e i g h t [ i ] height[i] height[i] s u f f i x ( s a [ i − 1 ] ) suffix(sa[i-1]) suffix(sa[i1]) s u f f i x ( s a [ i ] ) suffix(sa[i]) suffix(sa[i]) 的最长公共前缀长度,即排名相邻的两个后缀的最长公共前缀长度。比如 h e i g h t [ 4 ] height[4] height[4]就是anana$ 和ana$的最长公共前缀,也就是ana,长度为3。你注意,这个height数组有一个神奇的性质:若 rank[j] < rank[k],则后缀 Sj…n 和 Sk…n 的最长公共前缀为 min{height[rank[j]+1],height[rank[j]+2]…height[rank[k]]}。这个性质是显然的,因为我们已经后缀按字典序排列。

有了height,求最长可重叠重复K次子串就方便了。重复子串即两后缀的公共前缀,最长重复子串,等价于两后缀的最长公共前缀的最大值。问题就转化成了,求height 数组中最大的长度为 K的子序列的最小值。

2. 后缀数组的两种求法

2.1 倍增法

2.2 DC3算法

【倍增法】
最长可重叠重复子串问题
hihocoder 1403 : 后缀数组一·重复旋律
bryce1010专题训练——后缀数组_第1张图片
转化为求后缀数组height数组中最大长度为K的子序列的最小值是多少?
求出height以后,用单调队列或者二分求结果。

#include 
#include 
#include 
#include 
using namespace std;
#define N 22222
int n,k,s[N],cntA[N],cntB[N],sa[N],tsa[N],A[N],B[N],rk[N],ht[N],ans;
deque<int>q;
int main(){
    scanf("%d%d",&n,&k);
    for(int i=1;i<=n;i++)scanf("%d",&s[i]);
    for(int i=1;i<=n;i++)cntA[s[i]]++;
    for(int i=1;i<=100;i++)cntA[i]+=cntA[i-1];
    for(int i=n;i;i--)sa[cntA[s[i]]--]=i;
    rk[sa[1]]=1;
    for(int i=2;i<=n;i++)rk[sa[i]]=rk[sa[i-1]]+(s[sa[i]]!=s[sa[i-1]]);
    for(int l=1;rk[sa[n]]<n;l<<=1){
        memset(cntA,0,sizeof(cntA));
        memset(cntB,0,sizeof(cntB));
        for(int i=1;i<=n;i++)
            cntA[A[i]=rk[i]]++,
            cntB[B[i]=i+l<=n?rk[i+l]:0]++;
        for(int i=1;i<=n;i++)cntA[i]+=cntA[i-1],cntB[i]+=cntB[i-1];
        for(int i=n;i>=1;i--)tsa[cntB[B[i]]--]=i;
        for(int i=n;i>=1;i--)sa[cntA[A[tsa[i]]]--]=tsa[i];
        rk[sa[1]]=1;
        for(int i=2;i<=n;i++)rk[sa[i]]=rk[sa[i-1]]+(A[sa[i]]!=A[sa[i-1]]||B[sa[i]]!=B[sa[i-1]]); 
    }
    for(int i=1,j=0;i<=n;i++){
        j=j?j-1:0;
        while(s[i+j]==s[sa[rk[i]-1]+j])j++;
        ht[rk[i]]=j;
    }
    for(int i=1;i<k;i++){
        while(!q.empty()&&ht[i]<ht[q.back()])q.pop_back();
        q.push_back(i);
    }ans=ht[q.front()];
    for(int i=k;i<=n;i++){
        while(!q.empty()&&ht[i]<ht[q.back()])q.pop_back();
        q.push_back(i);
        while(!q.empty()&&q.front()<=i-k+1)q.pop_front();
        if(!q.empty())ans=max(ans,ht[q.front()]);
    }printf("%d\n",ans);
}

最长不可重叠重复子串问题
#1407 : 后缀数组二·重复旋律2

小Hi平时的一大兴趣爱好就是演奏钢琴。我们知道一个音乐旋律被表示为长度为 N 的数构成的数列。小Hi在练习过很多曲子以后发现很多作品自身包含一样的旋律。
旋律可以表示为一段连续的数列,相似的旋律在原数列不可重叠,比如在1 2 3 2 3 2 1 中 2 3 2 出现了一次,2 3 出现了两次,小Hi想知道一段旋律中出现次数至少为两次的旋律最长是多少?

思路:
紧接上题,求出height数组以后,由于height数组不能保证不重叠。
要求长度为K的不可重复子串,相当于求两个后缀的最长公共前缀大于等于K。
可以对这个K的值进行二分答案,检查height值>=K的情况,把height值>=K的连续解求maxSa,minSa,如果maxSa-minSa>=K说明不重叠,存在一种不重叠且大于等于K的子串。

#include 
#include 
#include 
#include 
#include 
using namespace std;
const int maxn = 1e5+100;

int s[maxn];
int sa[maxn],t[maxn],t2[maxn],c[maxn];
int Rank[maxn], height[maxn];

void build_sa(int n,int m){
    int i,*x = t, *y = t2;  //引用指针只是为了后面好交换
    for(i = 0; i < m; i++) c[i] = 0;
    for(i = 0; i < n; i++) c[x[i] = s[i]]++;
    for(i = 1; i < m; i++) c[i] += c[i-1];
    for(i = n-1; i >= 0; i--) sa[--c[x[i]]] = i;  //sa[i]中表示排名第i的位置是多少
    for(int k = 1; k <= n; k <<= 1){ //k表示每次基数排序需要比较的长度,因为是按照倍增算法所以每次比较2个关键字
        int p = 0;
        //直接利用sa数组排序第二关键字
        for(i = n-k; i < n; i++) y[p++] = i; //y中存放按第二关键字从小到大排序的位置
        for(i = 0; i < n; i++) if(sa[i] >= k) y[p++] = sa[i]-k;
        //基数排序第一关键字
        for(i = 0; i < m; i++) c[i] = 0;
        for(i = 0; i < n; i++) c[x[y[i]]]++;
        for(i = 0; i < m; i++) c[i] += c[i-1];
        for(i = n-1; i >= 0; i--) sa[--c[x[y[i]]]] = y[i];   //i从大到小是为了保证相同字符的情况下默认靠前的更小一些
        swap(x, y);  //这里只用交换指针即可
        p = 1; x[sa[0]] = 0; //p表示rank值不同的字符串的数量,如果达到n表示字符串的所有关系都找出来了
        for(i = 1; i < n; i++)  //重新计算x的值
            x[sa[i]] = y[sa[i-1]] == y[sa[i]] && y[sa[i-1]+k] == y[sa[i]+k]?p-1:p++;
        if(p >= n) break;
        m = p;
    }
}

void getHeight(int n){
    int i,j,k = 0;
    for(i = 0; i < n; i++) Rank[sa[i]] = i; //求出rank值,利用rank和sa是相反的
    for(i = 0; i < n; i++){
        if(k) k--; //利用h[i] >= h[i-1]+1这个性质,先求出前面的后面的就可以由前面推出
        j = sa[Rank[i]-1];
        while(s[i+k] == s[j+k]) k++;
        height[Rank[i]] = k;
    }
}

bool check(int k,int n){  //二分查找
    int ma, mi;
    ma = mi = sa[1];
    for(int i = 2; i < n; i++){
        if(height[i] >= k){ //我们将height大于k的看做连续的一段区间进行处理,如果遇到不成立的则重置
            mi = min(mi, sa[i]);
            ma = max(ma, sa[i]);
            if(ma - mi >= k) return true;
        }
        else ma = mi = sa[i];
    }
    return false;
}

int main(){
    int n;
    while(scanf("%d", &n) != EOF){
        for(int i = 0; i < n; i++) scanf("%d", &s[i]);
        s[n] = 0;
        build_sa(n+1, 1005);
        getHeight(n+1);
        int left = 0, right = n/2, ans = 0;
        while(left <= right){
            int mid = (left+right)/2;
            if(check(mid, n)){
                ans = mid;
                left = mid+1;
            }
            else right = mid-1;
        }
        printf("%d\n", ans);
    }
    return 0;

最长公共子串问题
#1415 : 后缀数组三·重复旋律3

旋律是一段连续的数列,如果同一段旋律在作品A和作品B中同时出现过,这段旋律就是A和B共同的部分,比如在abab 在 bababab 和 cabacababc 中都出现过。小Hi想知道两部作品的共同旋律最长是多少?

思路:
将两个串相连,中间用#间隔开来。
很容易想到求height中的最大值,但是会出现同一个串中相比较的情况。比如,a和abab相连后为abab#a,当abab#a与ab比较的时候是同一个串比较,所以加一个判定,在两个不同串之间比较才有效。

建议采用本代码为模板

#include
#include
#include
#include
using namespace std;
const int maxn = 3e5+5;
int t1[maxn], t2[maxn], c[maxn];
int ra[maxn], height[maxn];
int sa[maxn];
char str[maxn], str1[maxn], str2[maxn];

bool cmp(int *r, int a, int b, int l)
{
    return r[a]==r[b]&&r[a+l]==r[b+l];
}

void da(char str[], int sa[], int ra[], int height[], int n, int m)
{
    n++;
    int i, j, p, *x = t1, *y = t2;
    for(i = 0; i < m; i++) c[i] = 0;
    for(i = 0; i < n; i++) c[x[i]=str[i]]++;
    for(i = 1; i < m; i++) c[i] += c[i-1];
    for(i = n-1; i >= 0; i--) sa[--c[x[i]]] = i;
    for(j = 1; j <= n; j<<=1)
    {
        p = 0;
        for(i = n-j; i < n; i++) y[p++] = i;
        for(i = 0; i < n; i++) if(sa[i] >= j) y[p++] = sa[i]-j;
        for(i = 0; i < m; i++) c[i] = 0;
        for(i = 0; i < n; i++) c[x[y[i]]]++;
        for(i = 1; i < m; i++) c[i] += c[i-1];
        for(i = n-1; i >= 0; i--) sa[--c[x[y[i]]]] = y[i];
        swap(x, y);
        p = 1; x[sa[0]] = 0;
        for(i = 1; i < n; i++)
            x[sa[i]] = cmp(y, sa[i-1], sa[i], j) ? p-1 : p++;
        if(p >= n) break;
        m = p;
    }
    int k = 0;
    n--;
    for(i = 0; i <= n; i++) ra[sa[i]] = i;
    for(i = 0; i < n; i++)
    {
        if(k) k--;
        j = sa[ra[i]-1];
        while(str[i+k]==str[j+k]) k++;
        height[ra[i]] = k;
    }
}

int solve(int n, int len)
{
    int ans = 0;
    for(int i = 2; i <= n; i++)
    {
        if(sa[i-1] < len && sa[i] > len || sa[i] < len && sa[i-1] > len)
            ans = max(ans, height[i]);
    }
    return ans;
}

int main(void)
{
    while(~scanf(" %s %s", str1, str2))
    {
        int len1 = strlen(str1);
        int len2 = strlen(str2);
        for(int i = 0; i < len1; i++)
            str[i] = str1[i];
        str[len1] = '#';
        for(int i = 0; i < len2; i++)
            str[len1+i+1] = str2[i];
        int len = len1+len2+1;
        str[len] = 0;
        da(str, sa, ra, height, len, 127);
        int ans = solve(len, len1);
        printf("%d\n", ans);
    }
    return 0;
}

参考:

  • http://hihocoder.com/problemset/problem/1403
  • 国家集训队论文——后缀数组
  • 诱导排序和SA-IS

你可能感兴趣的:(1.1)