hihocoder-1036 Trie图(Trie图||AC自动机)

此处有目录↑

Trie图:http://hihocoder.com/problemset/problem/1036

时间限制: 20000ms
单点时限: 1000ms
内存限制: 512MB

描述

前情回顾

上回说到,小Hi和小Ho接受到了河蟹先生伟大而光荣的任务:河蟹先生将要给与他们一篇从互联网上收集来的文章,和一本厚厚的河蟹词典,而他们要做的是判断这篇文章中是否存在那些属于河蟹词典中的词语。

当时,小Hi和小Ho的水平还是十分有限,他们只能够想到:“枚举每一个单词,然后枚举文章中可能的起始位置,然后进行匹配,看能否成功。”这样非常朴素的想法,但是这样的算法时间复杂度是相当高的,如果说词典的词语数量为N,每个词语长度为L,文章的长度为M,那么需要进行的计算次数是在N*M*L这个级别的,而这个数据在河蟹先生看来是不能够接受的。

于是河蟹先生决定先给他们个机会学习一下,于是给出了一个条件N=1,也就是说词典里面事实上只有一个词语,但是希望他们能够统计这个词语在文章中出现的次数,这便是我们常说的模式匹配问题。而小Hi和小Ho呢,通过这一周的努力,学习钻研了KMP算法,并在互相帮助之下,已经成功的解决掉了这个问题!

这便是Hiho一下第三周发生的事情,而现在第四周到了,小Hi和小Ho也要踏上解决真正难题的旅程了呢!

任务回顾

小Hi和小Ho是一对好朋友,出生在信息化社会的他们对编程产生了莫大的兴趣,他们约定好互相帮助,在编程的学习道路上一同前进。

这一天,他们……咳咳,说远了,且说小Ho好不容易写完了第三周程序,却发现自己错过了HihoCoder上的提交日期,于是找小Hi哭诉,小Hi虽然身为管理员,但是也不好破这个例,于是把小Ho赶去题库交了代码,总算是哄好了小Ho。

小Ho交完程序然后屁颠屁颠的跑回了小Hi这边,问道:“小Hi,你说我们是不是可以去完成河蟹大大的任务了呢?”

小Hi思索半天,道:“老夫夜观星象……啊不,我这两天查阅了很多资料,发现这个问题其实也是很经典的问题,早在06年就有信息学奥林匹克竞赛国家集训队的论文中详详细细的分析了这一问题,而他们使用的就是Trie图这样一种数据结构!”

“Trie图?是不是和我们在第二周遇到的那个Trie树有些相似呀?”小Ho问道。

“没错!Trie图就是在Trie树的基础上发展成的一种数据结构。如果要想用一本词典构成Trie图的话,那么就首先要用这本词典构成一棵Trie树,然后在Trie树的基础上添加一些边,就能够变成Trie图了!”小Hi又作老师状。

“哦!但是你说了这么多,我都不知道Trie图是什么样的呢!”小Ho无奈道。

“也是!那我们还是从头开始,先讲讲怎么用Trie树来解决这个问题,然后在Trie树的基础上,讨论下一步应该如何。”小Hi想了想说道。

“现在我们有了一个时间复杂度在O(ML)级别的方法,但是我们的征途在星辰大海,啊不,我们不能满足于这样一个60分的方法。所以呢,我们还是要贯彻我们一贯的做法,寻找在这个算法中那些冗余的计算!“小Hi道:”那么我们现在来看看Trie树进行计算的时候都发生了些什么。”

“那么现在……”小Hi刚要开口,就被小Ho无情打断。

“可是小Hi老师~你看在这种情况下,结点C找不到对应的后缀结点,它对应的路径是aaabc,而aabc在Trie里面是走不出来的!”小Ho手中挥舞着一张纸,问道。

hihocoder-1036 Trie图(Trie图||AC自动机)_第2张图片

“你个瓜娃子,老是拆老子台做啥子!……阿不,小Ho你别担心,我这就要讲解如何求后缀结点呢~”小Hi笑容满面的说道。

“原来如此!这样我就知道了每一个结点的后缀结点了,接下来我就可以很轻松的解决河蟹先生交给我的问题了呢!”小Ho高兴的说道:“但是,说好的Trie图在哪里呢?”

小Hi不由笑道:“你这叫买椟还珠你知道么?还记得我们再计算后缀结点的时候计算出的从每个点出发,经由每一个char(比如'a'..'d')会走到的结点么?把这些边添加到Trie树上,就是Trie图了!”

“原来是这样,但是这些边感觉除了计算后缀结点之外,没有什么用处呀?”小Ho又开始问问题了。

“这就是Trie图的巧妙之处了,你想想你什么时候需要知道一个结点的后缀结点?”小Hi实在不忍看自己的兄弟这般呆萌,只能耐着性子解释。

小Ho顿时恍然大悟,“在这个结点不能够继续和文章str继续匹配了的时候,也就是这个结点没有“文章的下一个字符”对应的那条边,哦!我知道了,在Trie图中,每个结点都补全了所有的边,所以原来需要先找到后缀结点再根据“str的下一个字符”这样一条边找到下一个结点,现在可以直接通过当前结点的“str的下一个字符”这样一条边就可以接着往下匹配了,如果本来是有这条边的,那不用多说,而如果这条边是根据后缀结点补全的,那便是我们想要的结果!

“所以呢!完成这个任务的方法总的来说就是这样,先根据字典构建一棵Trie树,然后根据我们之前所说的构建出对应的Trie图,然后从Trie图的根节点开始,沿着文章str的每一个字符,走出对应的边,直到遇到一个标记结点或者整个str都已经匹配完成了~”小Hi适时的总结道。

“而这样的时间复杂度则在O(NL+M)级别的呢!想来是足以完成河蟹先生的要求了呢~”小Ho搬了搬手指,说道。

“是的!但是河蟹先生要求的可不是想法哦,他可是希望我们写出程序给它呢!”

输入

每个输入文件有且仅有一组测试数据。

每个测试数据的第一行为一个整数N,表示河蟹词典的大小。

接下来的N行,每一行为一个由小写英文字母组成的河蟹词语。

接下来的一行,为一篇长度不超过M,由小写英文字母组成的文章。

对于60%的数据,所有河蟹词语的长度总和小于10, M<=10

对于80%的数据,所有河蟹词语的长度总和小于10^3, M<=10^3

对于100%的数据,所有河蟹词语的长度总和小于10^6, M<=10^6, N<=1000

输出

对于每组测试数据,输出一行"YES"或者"NO",表示文章中是否含有河蟹词语。

样例输入
6
aaabc
aaac
abcc
ac
bcd
cd
aaaaaaaaaaabaaadaaac
样例输出
YES

法一:Trie图

讲的很详细,又是已经会了手动操作,变成代码还是有点困难,按照郭老师那个模版敲了一个差不多的,但是感觉和本题所讲写的不一样,让我再研究一下
#include <cstdio>
#include <cstring>
#include <queue>

using namespace std;

int n;
char s[1000005];

struct Node {
    bool isend;
    Node *nxt[26],*pre;

    Node():isend(false),pre(NULL) {
        memset(nxt,NULL,sizeof(nxt));
    }
}*root,*cur,*pre;

void add(char *p) {//添加模式串,建立trie树
    cur=root;
    while(*p) {
        if(cur->nxt[*p-'a']==NULL)
            cur->nxt[*p-'a']=new Node();
        cur=cur->nxt[*p-'a'];
        ++p;
    }
    cur->isend=true;
}

void build() {//建立trie图
    cur=root;
    queue<Node*> q;
    for(int i=0;i<26;++i)
        if(root->nxt[i]) {//第一层结点的前缀指针指向根结点
            cur->nxt[i]->pre=root;
            q.push(cur->nxt[i]);
        }
    while(!q.empty()) {
        cur=q.front();
        q.pop();
        for(int i=0;i<26;++i) {
            if(cur->nxt[i]) {//如果当前结点存在i子结点
                pre=cur->pre;
                while(pre) {
                    if(pre->nxt[i]) {//找到当前结点的有i子结点的前缀结点
                        cur->nxt[i]->pre=pre->nxt[i];
                        if(pre->nxt[i]->isend)//如果该前缀结点危险结点,则其i子结点也是危险结点
                            cur->nxt[i]->isend=true;
                        break;
                    }
                    pre=pre->pre;
                }
                if(cur->nxt[i]->pre==NULL)//如果未找到当前结点的有i子结点的前缀结点,则其i子结点的前缀结点是根节点
                    cur->nxt[i]->pre=root;
                q.push(cur->nxt[i]);
            }
        }
    }
}

bool query(char *p) {
    int i;
    cur=root;
    while(*p) {
        i=*p-'a';
        while(cur) {
            if(cur->nxt[i]) {
                cur=cur->nxt[i];
                if(cur->isend==true)
                    return true;
                break;
            }
            cur=cur->pre;
        }
        if(cur==NULL)//若trie图中没有以*p开头的模式串,当前结点指向根结点
            cur=root;
        ++p;
    }
    return false;
}

int main() {
    root=new Node();
    scanf("%d",&n);
    while(n--) {
        scanf("%s",s);
        add(s);
    }
    build();
    scanf("%s",s);
    printf("%s\n",query(s)?"YES":"NO");
    return 0;
}

法二:AC自动机

刚开始直接用没有修改的build函数和query函数,导致query每次还得查询当前词的后缀,引起TLE
后来发现如果其后缀是河蟹词,将其标记为危险可以避免查询当前词的后缀
#include <cstdio>
#include <queue>

using namespace std;

const int MAXNODE=1000005;

struct Trie {
    int nxt[MAXNODE][26],fail[MAXNODE];
    bool ed[MAXNODE];
    int l;
    const static int root=0;

    Trie() {
        clear();
    }

    int newNode() {
        for(int i=0;i<26;++i)
            nxt[l][i]=-1;
        ed[l]=false;
        return l++;
    }

    void insert(char *p) {
        int cur=root;
        while(*p) {
            if(nxt[cur][*p-'a']==-1)
                nxt[cur][*p-'a']=newNode();
            cur=nxt[cur][*p-'a'];
            ++p;
        }
        ed[cur]=true;
    }

    void build() {
        int cur=root,i;
        queue<int> q;
        fail[root]=root;
        for(i=0;i<26;++i) {
            if(nxt[root][i]==-1)
                nxt[root][i]=root;
            else {
                fail[nxt[root][i]]=root;
                q.push(nxt[root][i]);
            }
        }

        while(!q.empty()) {
            cur=q.front();
            q.pop();
            for(i=0;i<26;++i) {
                if(nxt[cur][i]==-1)
                    nxt[cur][i]=nxt[fail[cur]][i];
                else {
                    fail[nxt[cur][i]]=nxt[fail[cur]][i];
                    q.push(nxt[cur][i]);
                    if(ed[fail[nxt[cur][i]]])//优化,与普通的AC自动机不同,因为只要有河蟹词就返回,所以有河蟹词后缀的也标记危险,去掉查询时通过while查询后缀
                        ed[nxt[cur][i]]=true;
                }
            }
        }
    }

    bool query(char *p) {
        int cur=root;
        while(*p) {
            cur=nxt[cur][*p-'a'];
            if(ed[cur])
                return true;
            ++p;
        }
        return false;
    }

    void clear() {
        l=root;
        newNode();
    }
}ac;

int n;
char s[MAXNODE];

int main() {
    scanf("%d",&n);
    while(n--) {
        scanf("%s",s);
        ac.insert(s);
    }
    ac.build();
    scanf("%s",s);
    printf("%s\n",ac.query(s)?"YES":"NO");
    return 0;
}


你可能感兴趣的:(Trie图,hihoCoder)