ac自动机(基本解析与例题)

简介:AC自动机:Aho-Corasick automation,又称trie图,是一种DFA,该算法在1975年产生于贝尔实验室,是著名的多模匹配算法之一。解决的问题:一个常见的例子就是给出n个单词,再给出一段包含m个字符的文章,让你找出有多少个单词在文章里出现过。要搞懂AC自动机,先得有字典树Trie和KMP模式匹配算法的基础知识。

AC自动机的构造:
1.建立一棵字典树,作为ac自动机的搜索数据结构。
2.构造fail指针,使当前字符失配时跳转到具有最长公共前后缀的字符继续匹配。
3.扫描主串进行匹配。

前缀(失败)指针:

仿照KMP算法的Next数组,我们也对树上的每一个节点建立一个前缀指针。这个前缀指针的定义和KMP算法中的next数组相类似,从根节点沿边到节点p我们可以得到一个字符串S,节点p的前缀指针定义为:指向树中出现过的S的最长的后缀(不能等于S)。

如何高效的构造出前缀指针呢?

步骤为:根据深度一一求出每一个节点的前缀指针。对于当前节点,设他的父节点与他的边上的字符为X,如果他的父节点的前缀指针所指向的节点的儿子中,有通过X字符指向的儿子,那么当前节点的前缀指针指向该儿子节点,否则通过当前节点的父节点的前缀指针所指向点的前缀指针,继续向上查找,直到到达根节点为止。

如何在已经建立好的trie图上遍历呢?

以上的字典树+前缀指针就是确定性有限状态自动机的树形结构图(即trie图)的基本构造方式了。
接下来要解决的问题是,已知一个串S,如何利用这个串在当前已经建立好的trie图上进行遍历,看其是否包含某个模式串,以及其时间复杂度。

危险节点的概念:
1)终止节点是危险节点
2) 如果一个节点的前缀指针指向终止结点,那么它也是危险节点。
如何在已经建立好的trie图上遍历呢?
遍历的方法如下:从ROOT出发,按照当前串的下一个字符ch来进行在树上的移动。若当前点P不存在通过ch连接的儿子,那么考虑P的前缀指针指向的节点Q,如果还无法找到通过ch连接的儿子节点,再考虑Q的前缀指针…直到找到通过ch连接的儿子,再继续遍历。如果遍历过程中经过了某个终止节点,则说明S包含该终止节点代表的模式串.
如果遍历过程中经过了某个非终止节点的危险节点,则可以断定S包含某个模式串。要找出是哪个,沿着危险节点的前缀指针链走,碰到终止节点即可。

这样遍历一个串S的时间复杂度是O(len(S))

经过基本理解后,那就看一个例题吧~

HDU2222


题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2222

题目大意:

给你很多个单词,然后给你一篇文章,问给出的单词在文章中出现的次数。


代码:

#include
#include
#include
#include

using namespace std;

#define N 1000010

char str[N], keyword[N];
int head, tail;

struct node
{
    node *fail;
    node *next[26];
    int count;
    node() //init
    {
        fail = NULL;
        count = 0;
        for(int i = 0; i < 26; ++i)
            next[i] = NULL;
    }
}*q[N];

node *root;

void insert(char *str) //建立Trie
{
    int temp, len;
    node *p = root;
    len = strlen(str);
    for(int i = 0; i < len; ++i)
    {
        temp = str[i] - 'a';
        if(p->next[temp] == NULL)
            p->next[temp] = new node();
        p = p->next[temp];
    }
    p->count++;
}

void build_ac() //初始化fail指针,BFS
{
    q[tail++] = root;
    while(head != tail)
    {
        node *p = q[head++]; //弹出队头
        node *temp = NULL;
        for(int i = 0; i < 26; ++i)
        {
            if(p->next[i] != NULL)
            {
                if(p == root) //第一个元素fail必指向根
                    p->next[i]->fail = root;
                else
                {
                    temp = p->fail; //失败指针
                    while(temp != NULL) //2种情况结束:匹配为空or找到匹配
                    {
                        if(temp->next[i] != NULL) //找到匹配
                        {
                            p->next[i]->fail = temp->next[i];
                            break;
                        }
                        temp = temp->fail;
                    }
                    if(temp == NULL) //为空则从头匹配
                        p->next[i]->fail = root;
                }
                q[tail++] = p->next[i]; //入队
            }
        }
    }
}

int query() //扫描
{
    int index, len, result;
    node *p = root; //Tire入口
    result = 0;
    len = strlen(str);
    for(int i = 0; i < len; ++i)
    {
        index = str[i] - 'a';
        while(p->next[index] == NULL && p != root) //跳转失败指针
            p = p->fail;
        p = p->next[index];
        if(p == NULL)
            p = root;
        node *temp = p; //p不动,temp计算后缀串
        while(temp != root && temp->count != -1)
        {
            result += temp->count;
            temp->count = -1;
            temp = temp->fail;
        }
    }
    return result;
}

int main()
{
    int t,num;
    scanf("%d\n",&t);
    while(t--)
    {
    head= tail = 0;
    root = new node();
    scanf("%d", &num);
    getchar();
    for(int i = 0; i < num; ++i)
    {
       scanf("%s",keyword);
        insert(keyword);
    }
    build_ac();
    scanf("%s", str);
    printf("%d\n",query());
    }
    return 0;
}



你可能感兴趣的:(ac自动机)