后缀自动机——Boring counting

题解:

统计每个子串的最右位置和最左位置,在这个区间(左闭右开)里我们一定能够保证我们每个子串出现了2次。

#include 
using namespace std;
const int maxn=2e5+10;
const int maxc=27;
typedef long long ll;
struct Suffix_Automaton {
    int next[maxn<<1][maxc];  //状态转移(尾部加一个字符的下一个状态)
    int len[maxn<<1]; //最长子串的长度(该节点子串数量=len[x]-len[link[x]])
    int link[maxn<<1];   //后缀链接(最短串前部减少一个字符所到达的状态)
    //int cnt[maxn<<1];   //被后缀连接的数(*)
    int id; //结点编号
    int last; //最后结点
    ll endpos[maxn<<1]; // endpos数(一类子串的数量)
    int a[maxn];
    int b[maxn<<1];
    int dp[maxn<<1];
    int ans[maxn<<1];
    int r[maxn],l[maxn];//x状态所能到达的最远和最近位置
    int sz[maxn];//每个节点可以转移多少个状态
    //ll d[maxn<<1];//d[i]表示从状态i出发,不同的子串的数目,即不同的路径数
    void init() {	//初始化
        for(int i=1; i<=id; i++){ //常规初始化
            link[i] = len[i] = 0;
            memset(next[i],0,sizeof(next[i]));
            endpos[i]=0;
            a[i]=0;
            b[i]=0;
        }
//		for(int i=1;i<=id;i++) {//非常规初始化
//			d[i]=0;
//		}
        last = id = 1; //1表示root起始点 空集
    }
//SAM建图
    void add(int c) {     //插入字符,为字符ascll码值
        int x = ++id; //创建一个新结点x;
        l[x]=r[x]=len[x] = len[last] + 1; //  长度等于最后一个结点+1
        endpos[x] = 1;  //接受结点子串除后缀连接还需加一
        int p;  //第一个有C转移的结点;
        for (p = last; p && !next[p][c]; p = link[p])
            next[p][c] = x;//沿着后缀连接 将所有没有字符c转移的节点直接指向新结点
        if (!p){   //全部都没有c的转移 直接将新结点后缀连接到起点
            link[x] = 1;
            //	cnt[1]++;
        }
        else {
            int q = next[p][c];    //p通过c转移到的结点
            if (len[p] + 1 == len[q]){//pq是连续的
                link[x] = q;
                //	cnt[q]++; //将新结点后缀连接指向q即可,q结点的被后缀连接数+1
            }
            else {
                int nq = ++id;   //不连续 需要复制一份q结点
                len[nq] = len[p] + 1;   //令nq与p连续
                link[nq] = link[q];   //因后面link[q]改变此处不加cnt
                memcpy(next[nq], next[q], sizeof(next[q]));  //复制q的信息给nq
                l[nq]=r[q]; r[nq]=r[q];
                for (; p&&next[p][c] == q; p = link[p])
                    next[p][c] = nq;    //沿着后缀连接 将所有通过c转移为q的改为nq
                link[q] = link[x] = nq; //将x和q后缀连接改为nq
                //cnt[nq] += 2; //  nq增加两个后缀连接
            }
        }
        last = x;  //更新最后处理的结点
    }
    ll getSubNum() {	//求不相同子串数量
        ll ans = 0;
        for (int i = 2; i <= id; i++)
            ans += len[i]-len[link[i]];	//一状态子串数量等于len[i]-len[link[i]]
        return ans;
    }
    void getTP(int Len){//对sam的节点按照len,从小到大排序重新标号,即给定节点的拓扑序
        for(int i=1;i<=id;i++) a[len[i]]++;
        for(int i=1;i<=Len;i++) a[i]+=a[i-1];
        for(int i=1;i<=id;i++) b[a[len[i]]--]=i;
    }
    void getendpos(){//求每类子串的数量 ,即endpos集合的大小
        for(int i=id;i>=1;i--){ //按拓扑序遍历
            int e=b[i];
            endpos[link[e]]+=endpos[e];
        }
    }
    void solve(int n){
        for(int i=1;i<=id;i++){
            dp[len[i]]=max(1LL*dp[len[i]],endpos[i]);
        }
        for(int i=id;i>=1;i--) dp[i]=max(dp[i+1],dp[i]);
        for(int i=1;i<=n;i++) printf("%lld\n",dp[i]);
    }
    void LLM(char s[],int Len){//求两个串的最长公共子串
        int ans=0,cnt=0;
        int now=1;
        char base='a';
        for(int i=0;i<Len;i++){
            int c=s[i]-base;
            if(next[now][c]){
                cnt++;
                now=next[now][c];
            }
            else{
                while(now&&!next[now][c]) now=link[now];
                if(!now) cnt=0,now=1;
                else cnt=len[now]+1,now=next[now][c];
            }
            ans=max(ans,cnt);
        }
        printf("%d\n",ans);
    }
//    void LLM2(char s[],int Len){
//        for(int i=1;i<=id;i++) dp[i]=0;
//        int cnt=0;
//        int now=1;
//        char base='a';
//        for(int i=0;i
//            int c=s[i]-base;
//            if(next[now][c]){
//                cnt++;
//                now=next[now][c];
//            }
//            else{
//                while(now&&!next[now][c]) now=link[now];
//                if(!now) cnt=0,now=1;
//                else cnt=len[now]+1,now=next[now][c];
//            }
//            dp[now]=max(dp[now],cnt);
//        }
//        for(int i=id;i>=1;i--){
//            int e=b[i];
//            dp[link[e]]=max(dp[link[e]],min(dp[e],len[link[e]]));
//        }
//        for(int i=1;i<=id;i++) ans[i]=min(ans[i],dp[i]);
//    }
//    void get_LLM2_ans(){
//        int cnt=0;
//        for(int i=1;i<=id;i++) cnt=max(cnt,ans[i]);
//        printf("%d\n",cnt);
//    }
    /*
    void solve1(){ //求出现次数为k的子串种数
        ll ans=0;
        for(int i=1;i<=id;i++){
            if(endpos[i]==K){
                ans+=len[i]-len[link[i]];
            }
        }
        printf("%lld\n",ans);
    }
     */
//    void solve1(){//求出现次数A<=K<=B的子串种数
//        for(int i=id;i>1;i--){
//            int v=b[i];
//            if(endpos[v]>=A&&endpos[v]<=B) d[v]++;
//            dp[v]++;
//            for(int j=0;j<26;j++){
//                if(next[v][j]) dp[v]+=dp[next[v][j]];
//            }
//        }
//        ll ans=0;
//        for(int i=0;i<26;i++){
//            if(next[1][i]) ans+=dp[next[1][i]];
//        }
//        printf("%lld\n",ans);
//    }
    /*
    void solve2(){//求出现次数>=k的子串的最大长度
        int ans=0;
        for(int i=1;i<=id;i++){
            if(endpos[i]>=K){
                ans=max(ans,len[i]);
            }
        }
        printf("%d\n",ans);
    }*/
    void k_th_string(){//计算字典序第k小的字符串
        for(int i=id;i>=1;i--){
            int x=b[i];
            sz[x]=1;
            for(int j=0;j<26;j++) sz[x]+=sz[next[x][j]];
        }
        int q; scanf("%d",&q);
        while(q--){
            int tmp; scanf("%d",&tmp);
            int now=1;
            while(tmp>0){
                for(int j=0;j<26;j++){
                    if(sz[next[now][j]]>=tmp){
                        printf("%c",j+'a');
                        tmp--;now=next[now][j];
                        break;
                    }else tmp-=sz[next[now][j]];
                }
            }
            puts("");
        }
    }
    void init_ans(){
        for(int i=1;i<=id;i++) ans[i]=len[i];
    }
    void work(){//找出现次数大于等于2的不重合且本质不同的子串数目
        for(int i=id;i>=1;i--) {
            int x=b[i];
            r[link[x]]=max(r[x],r[link[x]]);
            l[link[x]]=min(l[x],l[link[x]]);
        }
        int res=0;
        for(int i=1;i<=id;i++){
            if(r[i]-l[i]>len[link[i]]) res+=min((r[i]-l[i]),len[i])-len[link[i]];
        }
        printf("%d\n",res);
    }
} sam;
char s[maxn];
signed main(){
    while(~scanf("%s",s+1)) {
        if(s[1]=='#') break;
        sam.init();
        int len = strlen(s+1);
        for (int i = 1; i <= len; i++) sam.add(s[i] - 'a');
        sam.getTP(len);
        sam.work();
    }
}

你可能感兴趣的:(后缀自动机)