[kuangbin带你飞]专题十八 后缀数组

写了好久才把后缀数组的专题写完= =。。。

后缀数组就是对字符串的所有后缀来搞事,通过对这些后缀排序,来得到这些后缀之前存在的关系。

后缀数组中的sa[]数组(排名数组)和height[](相邻排名lcp)有很多很有用的特性,使得在处理一些字符串问题的时候很给力,比较流行的求后缀数组的算法有O(nlogn)的倍增求法和O(n)的DC3(并不会)。

height[]数组满足特性:sa[i]与saj的最长公共前缀是height[i+1]到height[j]这段区间的最小值。所以问题就可以转化成求区间最小值,同样也可以用倍增法解决这个问题,达到O(nlogn)初始化和O(1)查询。

跟sa相关的题目很多都涉及了多字符串,常用策略就是将字符串全都拼接在一起,中间使用不同的不会出现的字符分隔开他们;还有height[]数组分组也是比较常见的做法,将连续一段满足height[]全都大于等于k的分成一组,这组里的所有后缀相互就都满足最长公共前缀大于等于k,如果这里面的后缀来自n个不同的字符串,那就说明了这n个字符串内存在了长度为k的公共子串。

同时,sa[]数组是后缀的字典序排序,所以有些题目需要字典序最小答案也可以通过sa数组轻易的获得。

二分答案判断是否满足也是比较常见的解题方法。

kuangbin大神的后缀数组专题里的题目几乎都是来自那篇著名的后缀数组的论文,所以都可以在里面找到解题思路。

A - Musical Theme POJ - 1743

求数组里不重叠的变化相同的最长公共子串。
将数组处理一下,a[i]变成a[i]-a[i-1],数组就符合题目要求了,二分答案k,然后就可以用上述的height数组分块的方法将每一个height数组都大于等于k的区间分为一块,要求不重叠,就是要使得分块中sa最大值和最小值对应的后缀下标差大于等于k。

#include
#include
using namespace std;
const int maxn=20005;
const int maxm=1005;
int n;
int r[maxn];
int sa[maxn],t1[maxn],t2[maxn],c[maxn];
int Rank[maxn],height[maxn];
bool cmp(int *r,int a,int b,int l)
{
    return r[a] == r[b] && r[a+l] == r[b+l];
}
void get_sa(int str[],int sa[],int Rank[],int height[],int n,int m)
{
    n++;
    int i, j, p, *x = t1, *y = t2;
    for(i = 0;i < m;i++)c[i] = 0;
    for(i = 0;i < n;i++)c[x[i] = str[i]]++;
    for(i = 1;i < m;i++)c[i] += c[i-1];
    for(i = n-1;i >= 0;i--)sa[--c[x[i]]] = i;
    for(j = 1;j <= n; j <<= 1)
    {
        p = 0;
        for(i = n-j; i < n; i++)y[p++] = i;
        for(i = 0; i < n; i++)if(sa[i] >= j)y[p++] = sa[i] - j;
        for(i = 0; i < m; i++)c[i] = 0;
        for(i = 0; i < n; i++)c[x[y[i]]]++;
        for(i = 1; i < m;i++)c[i] += c[i-1];
        for(i = n-1; i >= 0;i--)sa[--c[x[y[i]]]] = y[i];
        swap(x,y);
        p = 1; x[sa[0]] = 0;
        for(i = 1;i < n;i++)
            x[sa[i]] = cmp(y,sa[i-1],sa[i],j)?p-1:p++;
        if(p >= n)break;
        m = p;
    }
    int k = 0;
    n--;
    for(i = 0;i <= n;i++)Rank[sa[i]] = i;
    for(i = 0;i < n;i++)
    {
        if(k)k--;
        j = sa[Rank[i]-1];
        while(str[i+k] == str[j+k])k++;
        height[Rank[i]] = k;
    }
}

bool func(int k){
    int minn=sa[1],maxx=sa[1];
    for(int i=2;i<=n;i++){
        if(height[i]>=k&&icontinue;
        }
        if(maxx-minn>=k)return 1;
        maxx=minn=sa[i];
    }
    return 0;
}


int main(){
    while(~scanf("%d",&n),n){
        for(int i=0;iscanf("%d",&r[i]);
        for(int i=0;i1;i++)r[i]=r[i+1]-r[i]+100;
        get_sa(r,sa,Rank,height,n,200);
        int lef=4,rig=n/2,ans=0;
        while(lef<=rig){
            int mid=(lef+rig)/2;
            if(func(mid)){ans=mid;lef=mid+1;}
            else rig=mid-1;
        }
        ans++;
        if(ans<5)printf("0\n");
        else printf("%d\n",ans);
    }
}

B - Milk Patterns POJ - 3261

求字符串中出现了k次的可重叠子串,大体做法和上面那题差不多,二分答案后判断的方式略有不同,存在一个height数组的分块大于等于k就满足条件。

#include
#include
using namespace std;
typedef long long ll;
const int maxn=20015;
const int maxm=10005;
const ll mod=1e9+7;
int n,m,k;
struct node{
    int nn,id;
}num[maxn];
bool cmp1(node a,node b){
    return a.nnint r[maxn],sa[maxn],t1[maxn],t2[maxn],c[maxn];
int Rank[maxn],height[maxn];

bool cmp(int *r,int a,int b,int l){
    return r[a]==r[b]&&r[a+l]==r[b+l];
}

void build_sa(int n,int m){
  //省略
}

bool judge(int len){
    int cnt=1;
    for(int i=2;i<=n;i++){
        if(height[i]>=len){
            cnt++;
        }
        else{
            cnt=1;
        }
        if(cnt>=k){
            return 1;
        }
    }
    return 0;
}

int main(){
    scanf("%d%d",&n,&k);
  for(int i=0;iscanf("%d",&num[i].nn),num[i].id=i;
    sort(num,num+n,cmp1);
    int cur=1;
    for(int i=0;iif(i!=0&&num[i].nn!=num[i-1].nn){
            cur++;
        }
        r[num[i].id]=cur;
    }
    r[n]=0;
    build_sa(n,n+1);
    int lef=0,rig=n,ans=0;
    while(lef<=rig){
        int mid=(lef+rig)/2;
        if(judge(mid)){ans=mid;lef=mid+1;}
        else rig=mid-1;
    }
    printf("%d\n",ans);
    return 0;
}

C - Distinct Substrings SPOJ - DISUBSTR

寻找字符串中不相同子串的数量,也是可以利用height数组完成的事情,height[i]表示sa[i]和sa[i-1]的公共前缀,n-sa[i-1]-height[i]就是sa[i-1]对应的后缀可以产生的与sa[i]不同的子串,正着扫一边就可以处理出答案来了。

#include
#include
#include
using namespace std;
const int maxn=1005;
const int maxm=400005;
int n,cas;
char str[maxn];
int r[maxn];
int ans[maxn];
int sa[maxn],t1[maxn],t2[maxn],c[maxn];
int Rank[maxn],height[maxn];
bool cmp(int *r,int a,int b,int l)
{
    return r[a] == r[b] && r[a+l] == r[b+l];
}
void get_sa(int n,int m){
    n++;
    int i, j, p, *x = t1, *y = t2;
    for(i = 0;i < m;i++)c[i] = 0;
    for(i = 0;i < n;i++)c[x[i] = r[i]]++;
    for(i = 1;i < m;i++)c[i] += c[i-1];
    for(i = n-1;i >= 0;i--)sa[--c[x[i]]] = i;
    for(j = 1;j <= n; j <<= 1)
    {
        p = 0;
        for(i = n-j; i < n; i++)y[p++] = i;
        for(i = 0; i < n; i++)if(sa[i] >= j)y[p++] = sa[i] - j;
        for(i = 0; i < m; i++)c[i] = 0;
        for(i = 0; i < n; i++)c[x[y[i]]]++;
        for(i = 1; i < m;i++)c[i] += c[i-1];
        for(i = n-1; i >= 0;i--)sa[--c[x[y[i]]]] = y[i];
        swap(x,y);
        p = 1; x[sa[0]] = 0;
        for(i = 1;i < n;i++)
            x[sa[i]] = cmp(y,sa[i-1],sa[i],j)?p-1:p++;
        if(p >= n)break;
        m = p;
    }
    int k = 0;
    n--;
    for(i = 0;i <= n;i++)Rank[sa[i]] = i;
    for(i = 0;i < n;i++)
    {
        if(k)k--;
        j = sa[Rank[i]-1];
        while(r[i+k] == r[j+k])k++;
        height[Rank[i]] = k;
    }
}

struct node{
    int num,id;
}in[maxn];

bool cmp1(node a,node b){
    return a.numint main(){
    scanf("%d",&cas);
    for(int t=0;tscanf("%s",str);
        n=strlen(str);
        for(int i=0;i<=n;i++)r[i]=str[i];
        get_sa(n,129);
        int ans=0;
        for(int i=1;i<=n;i++){
            int cnt=n-sa[i];
            cnt-=height[i];
            ans+=cnt;
        }
        printf("%d\n",ans);
    }

    return 0;
}

你可能感兴趣的:(后缀数组)