HDU - 3553:Just a String(后缀数组之求所有子串的第k大)

 

教练的专题,第一题模板题,第二题多校题,话说这题真的想了好久,后缀数组的用法真的太多了。。。

感觉很多时候都需要用二分来求解。特别这道题,感觉简直把二分运用到了极致。。。

 

题目大意:

给你一个串,求它所有子串的第k大(可重复)。

 

解题思路:

这道题目,首先我们要根据我们求出来的sa数组,因为我们sa数组是按字典序排好序的,所以理论上来说我们最小的子串应该是按照sa数组的顺序来的,但是这里要考虑当前i 和 i+1 的公共前缀。例如 BBC 正常来说 sa[1] 应该是 0,但是排第二小的不是BB而是B。因为公共前缀的关系,所以我们这里可以写一个函数处理出 从第一个 sa 到 pos个sa 一共包括多少个子串,函数部分在此不赘述了,可以看代码,会注释清楚,看代码应该比较容易理解。

这样的话通过上述的二分我们可以找到一个pos 即我们要找的答案应该在sa[pos]这里的后缀中。

这里找到以后,我们可以把k处理一下,减去之前的sa[pos-1],即找到sa[pos]中的第k大。

接下来我们又需要借助二分的力量,因为我们已经确定了我们答案的左边界,接下来要做的就是确立右边界,这时二分右边界,找出我们当前的右边界有多少子串,是否大于k,最后找出右边界即可。

大体思路是这样,但是代码中有许多细节需要注意一下。

其次这种第k大串还有一种求法,即优先队列,每次先将所有的单字符丢进去,然后取出最小的,加上它后面的字符再丢进去,进行k次这样的操作,取出的即是第k大串,但是这样对于k的大小有要求,这道题目k的大小是1e10,所有不能采用这个方法,不过一般k小的话这个方法应该是最优的= = 编程复杂度很小,

 

Ac代码:

#include
#define rank ra
using namespace std;
const int maxn=2e5+10;
const int INF=1e9+7;
typedef long long ll;
char s[maxn];
ll k;
int n,sa[maxn],rank[maxn],height[maxn];
int t1[maxn],t2[maxn],r[maxn],c[maxn];
bool cmp(int *r,int a,int b,int l)
{
    return r[a]==r[b] && r[a+l]==r[b+l];
}
void da(int str[],int sa[],int rank[],int height[],int n,int m)
{
    n++;
    int i,j,p,*x=t1,*y=t2;
    for(int i=0;i=0;i--) sa[--c[x[i]]]=i;
    for(int j=1;j<=n;j<<=1)
    {
        p=0;
        for(int i=n-j;i=j) y[p++]=sa[i]-j;
        for(int i=0;i=0;i--) sa[--c[x[y[i]]]]=y[i];
        swap(x,y);
        p=1,x[sa[0]]=0;
        for(int i=1;i=n) break;
        m=p;
    }
    int k=0;
    n--;
    for(int i=0;i<=n;i++) rank[sa[i]]=i;
    for(int i=0;i>1;
        if(count(mid,pos)>=x) res=mid,r=mid-1;
        else l=mid+1;
    }
    for(int i=sa[pos];i>1;
            if(check(mid)>=k) pos=mid,r=mid-1;
            else l=mid+1;
        }
        ll x=0;
        if(pos>1) x=k-check(pos-1); //把k处理一下
        else x=k;
        printf("Case %d: ",++kase);
        slove(x,pos);
    }
    return 0;
}

 

 

你可能感兴趣的:(字符串---后缀数组)