AC自动机

AC自动机_第1张图片

Aho-Corasick automation,该算法在1975年产生于贝尔实验室,是著名的多模匹配算法之一。一个常见的例子就是给出n个单词,再给出一段包含m个字符的文章,让你找出有多少个单词在文章里出现过。要搞懂AC自动机,先得有模式树(字典树)Trie和KMP模式匹配算法的基础知识。KMP算法是单模式串的字符匹配算法,AC自动机是多模式串的字符匹配算法。
要想学好AC自动机,首先你需要了解字典树和KMP

构造字典树

比如说串she,say,her,shr 构造后的图就是:

AC自动机_第2张图片

之所以最后的节点都是灰色的,是标记这个是一个完整的单词的结尾。

void insert(char *s)
{
  int len=strlen(s);
   int root=0;
   for(int i=0;i

构造fail指针

  1. fail的作用:
  • 在KMP算法中,当我们比较到一个字符发现失配的时候我们会通过next数组,找到下一个开始匹配的位置,然后进行字符串匹配,当然KMP算法试用与单模式匹配,所谓单模式匹配,就是给出一个模式串,给出一个文本串,然后看模式串在文本串中是否存在。
    在AC自动机中,我们也有类似next数组的东西就是fail指针,当发现失配的字符失配的时候,跳转到fail指针指向的位置,然后再次进行匹配操作,AC自动机之所以能实现多模式匹配,就归功于Fail指针的建立。
  1. fail指针的建立:
  • 当前节点有指针,其指针所指向的节点和所代表的字符是相同的。因为匹配成功后,我们需要去匹配,发现失配,
    那么就从这个节点开始再次去进行匹配。
  1. fail指针的求法:
  • 指针用BFS来求得,对于直接与根节点相连的节点来说,如果这些节点失配,他们的指针直接指向即可,其他节点其指针求法如下:
    假设当前节点为,其孩子节点记为。求的指针时,首先我们要找到其的指针所指向的节点,假如是(father的fail)的话,我们就要看的孩子中有没有和节点所表示的字母相同的节点,如果有的话,这个节点()就是的指针,如果发现没有,则需要找这个节点,然后重复上面过程,如果一直找都找不到,则的指针就要指向root。
    AC自动机_第3张图片
    eg1

AC自动机_第4张图片
eg2

AC自动机_第5张图片
eg3

如图eg3所示
首先 最初会进队,然后 ,出队,我们把 的孩子的失配指针都指向 。因此图中 的失配指针都指向 ,如红色线条所示,同时 进队。

接下来该出队,我们就找的孩子的指针,首先我们发现这个节点其指针指向,而又没有字符为的孩子,则的指针是空的,如果为空,则也要指向,如图中蓝色线所示。并且进队,此时要出队,我们再找的孩子的指针,我们发现的指针指向,而没有字符为的孩子,故的指针指向,入队,然后找的指针,同样的先看的指针是,发现又字符为的孩子,所以的指针就指向了第二层的节点。的指针的指向如图蓝色线所示。

此时队列中有,先出队,找的孩子的失配指针,我们先看的失配指针指向,没有字符为的孩子,则的失配指针指向了,并且进队,然后出队,我们也是先看的失配指针,发现也是指向,root也没有字符为的孩子,则的指针就会指向.并且进队。然后出队,考虑的孩子,则我们看的失配指针,指向第二层的节点,看这个第二层的节点发现有字符值为的孩子节点,最后一行的节点的失配指针就指向第三层的。最后找的指针,同样看第二层的节点,其孩子节点不含有字符,则会继续往前找的失配指针找到了根,根下面的孩子节点也不存在有字符,则最后就指向根节点,最后一行节点的指针如绿色虚线所示。

void getfail()
{
  queuequ;
   for(int i=0;i<26;i++)
   {
       if(tree[0][i])//初始化根节点的26个孩子
       {
           fail[tree[0][i]]=0;//根节点的26个孩子的fail指向根节点0
           qu.push(tree[0][i]);//将根节点的孩子压入队列

       }
   }
   while(!qu.empty( ))
   {
       int root=qu.front( );//获得队列里面的一个节点序号root
       qu.pop( );
       for(int i=0;i<26;i++)//遍历这个root节点的26个孩子
       {
           if(tree[root][i])//说明存在root节点的第i个孩子
           {
               fail[tree[root][i]]=tree[fail[root]][i];//root节点的第i个孩子的fail指针指向root->fail的第i个孩子
               qu.push(tree[root][i]);//将root的第i个孩子压入队列
           }
           else//root的第i个孩子不存在
           {
               tree[root][i]=tree[fail[root]][i];//那root的第i个孩子节点序号就等于root->fail的第i个孩子的节点序号
           }  
       }
   }
}

假设当前节点为,其孩子节点记为。求的指针时,首先我们要找到其的指针所指向的节点,假如是(father的fail)的话,我们就要看的孩子(孩子存在)中有没有和节点所表示的字母相同的节点,如果有的话,这个节点()就是的指针,如果发现没有,则需要找这个节点,然后重复上面过程,如果一直找都找不到,则的指针就要指向root。

然而这个代码只是将()的节点序号赋给了的,假如不存在这个节点不是吗?
错了吗?是不是存在疑问呢?答案是没错的。这样是对的。

这个就要看else这个语句了。它的涵义是假如的第i个孩子不存在,那就将的第i个孩子的节点序号赋给的第个孩子,于是的26个孩子不都有节点序号了吗,而且还继承的是的i个孩子的序号而root->fail的第i个孩子又是继承root->fail->fail.....。于是在下层遍历root->fail的第i个孩子是有序号的。(root层不存在的孩子节点都继承了root->fail层的孩子节点)

   while(!qu.empty( ))
   {
       int root=qu.front( );
       qu.pop( );
       for(int i=0;i<26;i++)
       {
           if(tree[root][i])
           {
               fail[tree[root][i]]=tree[fail[root]][i];
               qu.push(tree[root][i]);
           }
           else
           {
               tree[root][i]=tree[fail[root]][i];
           }  
       }
   }

文本串的匹配

匹配过程分两种情况:
(1)当前字符匹配,表示从当前节点沿着树边有一条路径可以到达目标字符,如果当前匹配的字符是一个单词的结尾,我们可以沿着当前字符的fail指针,一直遍历到根,如果这些节点末尾有标记(此处标记代表,节点是一个单词末尾的标记),这些节点全都是可以匹配上的节点。我们统计完毕后,并将那些节点标记。此时只需沿该路径走向下一个节点继续匹配即可,目标字符串指针移向下个字符继续匹配;
(2)当前字符不匹配,则去当前节点失败指针所指向的字符继续匹配,匹配过程随着指针指向root结束。重复这2个过程中的任意一个,直到模式串走到结尾为止。

AC自动机_第6张图片

AC自动机_第7张图片

对照上图,看一下模式匹配这个详细的流程,其中模式串为 yasherhs。对于 。 中没有对应的路径,故不做任何操作; 时,指针 走到左下节点 。因为节点 的 信息为1,所以 ,并且将节点 的 值设置为-1,表示改单词已经出现过了,防止重复计数,最后 指向 节点的失配指针 所指向的节点继续查找,以此类推,最后fail指向 ,退出 循环,这个过程中 增加了2。表示找到了2个单词she和he。当i=5时, 代表的节点是 , 节点的 值为1,从而ans+1,循环直到 指向 为止。最后 时,找不到任何匹配,匹配过程结束。

int query(char *s)
{
  int len=strlen(s);
   int ans=0;
   int root=0;
   for(int i=0;i
Keywords Search
#include
using namespace std;
const int M=1e6+100;
int tree[M][26];
int num[M];
int fail[M];
int pos;
void init( )
{
    pos=1;
    memset(num,0,sizeof(num));
    memset(fail,0,sizeof(fail));
    memset(tree,0,sizeof(tree));
}
void insert(char *s)
{
    int len=strlen(s);
    int root=0;
    for(int i=0;iqu;
    for(int i=0;i<26;i++)
    {
        if(tree[0][i])
        {
            fail[tree[0][i]]=0;
            qu.push(tree[0][i]);

        }
    }
    while(!qu.empty( ))
    {
        int root=qu.front( );
        qu.pop( );
        for(int i=0;i<26;i++)
        {
            if(tree[root][i])
            {
                fail[tree[root][i]]=tree[fail[root]][i];
                qu.push(tree[root][i]);
            }
            else
            {
                tree[root][i]=tree[fail[root]][i];
            }  
        }
    }
}
int query(char *s)
{
    int len=strlen(s);
    int ans=0;
    int root=0;
    for(int i=0;i
链接三连:

链接 链接 链接

你可能感兴趣的:(AC自动机)