今天我先水一篇博客 咳咳
废话不说了,直接进入正题,我们今天讲的是AC自动机。
没错就是拿来A题的自动机,AC其实是一位神奇的科学家的名字
首先,我们先讲讲什么是AC自动机
先看一道例题:
1479:【例题1】Keywords Search
【题目描述】
给定 n 个长度不超过 50 的由小写英文字母组成的单词准备查询,以及一篇长为 m 的文章,问:文中出现了多少个待查询的单词。多组数据。
【输入】
第一行一个整数 T,表示数据组数;
对于每组数据,第一行一个整数 n,接下去 n 行表示 n 个单词,最后一行输入一个字符串,表示文章。
【输出】
对于每组数据,输出一个数,表示文中出现了多少个待查询的单词。
【输入样例】
1
5
she
he
say
shr
her
yasherhs
【输出样例】
3
【提示】
数据范围:
对于全部数据,1≤n≤104,1≤m≤106 。
反正大概意思就是给你好多个子串,再给一个母串,问你子串里面有多少个子串?
怎么写呢?
最直接的思想就是n个KMP,暴力母串匹配。然而这个时间复杂度远远达不到我们所想达到的时间复杂度,大概是O(n*(len子串+母串)),乘法的东西就很慢,这时候就得靠加法的东西给他搞上去。怎么搞呢?
Trie树+KMP思想
Trie树+KMP思想
Trie树+KMP思想
首先这么多个子串,肯定需要一个好的数据结构来储存,Trie树当然是不二的选择。
至于KMP思想嘛…就是为了避免时间复杂度出现乘法。接下来我们将具体怎么实践
既然要用到字典树,那肯定得先构造。这个不会建议专门去搜博客学字典树
直接画然后套代码咯(图很丑,凑合着用就行)
解释一下改图哈:打勾勾的就代表他是单词的末尾,随便指一条路线,例如:s–h--e,e打红勾勾了,就代表she是一个完整的单词,再举一个例子,例如
h-e-r,e和r都打红勾勾,就代表he和her是完整的单词。好,话不多说,套代码。
void insert(char *str)//要插入str这个字符串
{
int len=strlen(str),root=0,id;//len是长度,root是指一开始最上面的一个字母都没有的那个框框
for(int i=0;i<len;i++)//遍历str数组
{
id=str[i]-'a';//因为trie的第二维数组是用桶来装字母的,所以先求出该字母的桶号
if(!tree[root][id])//如果这个节点的这个孩子是没有的(有的就不用再建立了)
tree[root][id]=++tot;//就新建一个孩子,并且为它附上编号,即tot。tot主要代表的是编号,实际意义其实不算特别大
root=tree[root][id];//root往下跳,因为是一个单词一个单词建立的trie树,
而每个单词的每个字母逐渐往下跳,所以才有这句话。
例如一开始是根(啥字母都没有的那个圈圈),
然后现在要建立she这个单词,现在根里面新建一条边s,并附上编号,
然后再在s里面新建一条边h。第一次是在根里面建孩子,第二次是在s里面建立孩子,
所以就要转换他的母亲,即这一句话。原来的孩子就变成了新的母亲。
}
flag[root]++;//为这个最后一个孩子打上红勾勾记号
}
有观众着急了,说好要用到KMP的思想,讲了半天,KMP的思想到底体现在哪里?这就是我们接下来要学习的重点——fail指针(也叫失配指针)
我们先来会想一下KMP算法,KMP算法比普通的暴力匹配优化在哪里?优化在当匹配失败的时候并不会从头开始重新匹配,而是直接找到最长公共前后缀拖过去,大大加快了速度。而AC自动机的fail指针的思想也是如此。当我们匹配失败的时候我们应该干什么?重头开始匹配吗?不,这就要根据fail指针来确定从哪里开始匹配。所以fail指针指的是什么?
重点来袭:
fail指针表达的意思:
继续看图
我红勾勾我就不打了哈,先标一下各点的编号,首先解释一下word[i]是什么意思。说得多不如举例子:
word[3]指的是she
word[6]指的是sa
word[7]指的是say
懂了吧[抛媚眼暗示]
那word[i]是word[j]的最长后缀又怎么解释?
这里我说一句正确的话:word[4]是word[2]最长后缀。
word[4]指的是h这个字母,word[2]指的是sh这两个字母,那么h是不是sh的最长后缀?[最长后缀是指在字典树中能找到的,并不是指长度为字母长度-1的那个,学过KMP的人应该都懂吧]
既然懂了fail指针(指向的是一个节点),我们来想想怎么求。直接暴力讲fail指针是哪个,不讲原因,一开始死记,打多了自然就明白了。听着,
*
例子:h(编号2的h)的父亲节点(s)的fail指针(根节点)里有h这个字母,所以h(编号2的h)的fail指针指向的就是4
其实只要仔细体会,还不算特别难。
理解了fail指针干什么和怎么求,写代码就好些多了。
这里我们采用一个很棒(nán)很强(cháng)的算法——bfs(层次遍历)
众所周知,bfs一般都是用队列实现的,所以我们先预定两行代码
头文件:#include
建立fail指针的函数里面 queue que;
我们来整理一下实践思路
1.queue que;
2.遍历根节点的所有儿子,把他们的fail指针标为0,并把这些元素放进队列里面
3.循环while(!que.empty())
4. 取出队首元素,并且让队首元素出队;
5. 找到这个队首元素的所有儿子,把他们全部放进对了里,并建造他们的fail指针
我之前是不是说过一句话:如果y的fail指针指向的那个节点里有x这个字母,那么x的fail指针就是y的fail指针指向的那个节点的x的字母的编号
所以这个节点的fail指针应该为:fail[tree[u][i]]=tree[fail[u]][i]。
tree[u][i]就表示的是这个节点,u就是表示这个节点的父母。
fail[u]就表示这个父母的fail指针
伪代码就差不多是:fail[这个指针]=字典树[fail[这个指针的父母][这个父母里是否有这个孩子,有储存编号,没有指向根节点]
接下来套你们最喜欢的代码
void build()
{
queue <int> que;
for(int i=0;i<26;i++)
{
if(tree[0][i])
{
que.push(tree[0][i]);
fail[tree[0][i]]=0;
}
}
int u;
while(!que.empty())
{
u=que.front();que.pop();
for(int i=0;i<26;i++)
{
if(tree[u][i])
{
fail[tree[u][i]]=tree[fail[u]][i];
que.push(tree[u][i]);
}
else tree[u][i]=tree[fail[u]][i];
}
}
return ;
}
构建了fail指针之后,接下来的任务就是查找字符串了。
fail指针就是失配指针,所以当我们匹配到这个点的时候匹配失败了,这时候就需要用fail指针。
具体怎么用我们下面一步一步跟你们讲
第一个问题:谁匹配谁?
讲了半天,使用字典树来匹配母串还是用母串来匹配字典树?换一句话说,匹配的时候,我们是遍历字典树还是遍历母串?
应该遍历母串去匹配字典树。首先母串比较好匹配,且失配指针就是当母串和字典树其中一个字母匹配失败时,字典树跳到另一个字母
自然我们八行代码就出来了
void Find(char *str)
{
len=strlen(str),id;
for(int i=0;i
id=str[len-1]-‘a’;
}
}
第二个问题:字典树怎么跳坐标?
这是一个很zz的问题,会建字典树的人都知道,先定义一个根为0,然后一步一步往下跳,两行代码又出来了
int root=0;
root=tree[root][id];
第三个问题:如何进行叠加答案?
这是一个最关键的问题。想要叠加答案,就必须让当前坐标一直跳,一直往失配指针跳,一直跳到不能再跳了为止。那么问题来了,再跳的过程中肯定会改变root的值,然后后面的坐标就会不稳定,所以这时候,我们就需要用另一个变量来代替root,直接新建一个就可以啦!
int other=root;
然后就是一直往下跳一直往下跳
while(!终止条件)
{
cnt+=flag[other];//之前flag统计的是跳到这里有多少个单词
other=fail[other];
}
但是,马上有一个很关键的问题来了,如果跳到重复的怎么办?大意就是如果两个不同点的失配指针都指向同一个点,那么这时候跳到fail指针的时候,cnt加的就会有重复。
解决方法其实很简单:加了这个点的个数之后直接把这个点赋为-1,加的时候在判断一下,这样就不会再加到重复的了。
while(!终止条件)
{
if(flag[other]!=-1)cnt+=flag[other];
flag[other]=-1;
other=fail[other];
}
最后,我们来思考一下终止条件。
当跳到哪里的时候就不用再次统计答案了?
思考一下:如果当前跳到了根,然后根的失配指针就是自己,然后就是一直跳到自己一直跳到自己就会进入死循环,这时候我们就可以停止下来。
在思考一下:如果这时候跳到了被我们赋值过的-1,就代表这个点已经被我们跳过了,那么这个点后面的所有将要跳的点,是不是早就在前面被跳过了?那么这个时候我们也可以停下来。所以可以写出代码来啦
while(other!=0&&flag[other]!=-1)
{
if(flag[other]!=-1)cnt+=flag[other];
flag[other]=-1;
other=fail[other];
}
这时候,这部分的代码也出来了,十分简单;
void Find(char *str)
{
int len=strlen(str),root=0,id;
for(int i=0;i<len;i++)
{
id=str[i]-'a';
root=tree[root][id];
int other=root;
if(other)
{
while(other&&flag[other]!=-1)
{
cnt+=flag[other];
flag[other]=-1;
other=fail[other];
}
}
}
return ;
}
打完这三大块时候,整个AC自动机入门其实也就讲完了。最后在提醒一下大家:
1.数组空间不要开小
2.不要忘记初始化
最后直接套上例题的所有代码啦
#include
#include
#include
#include
#include
using namespace std;
const int MAX_N=1e7+5,MAX_TOT=500005;
int tree[MAX_TOT][30],T,n,flag[MAX_TOT],fail[MAX_TOT],cnt,tot;
char str[MAX_N];
void clear()
{
memset(tree,0,sizeof(tree));
memset(flag,0,sizeof(flag));
memset(fail,0,sizeof(fail));
cnt=0;
tot=0;
}
void insert(char *str)
{
int len=strlen(str),root=0,id;
for(int i=0;i<len;i++)
{
id=str[i]-'a';
if(!tree[root][id])
tree[root][id]=++tot;
root=tree[root][id];
}
flag[root]++;
}
void build()
{
queue <int> que;
for(int i=0;i<26;i++)
{
if(tree[0][i])
{
que.push(tree[0][i]);
fail[tree[0][i]]=0;
}
}
int u;
while(!que.empty())
{
u=que.front();que.pop();
for(int i=0;i<26;i++)
{
if(tree[u][i])
{
fail[tree[u][i]]=tree[fail[u]][i];
que.push(tree[u][i]);
}
else tree[u][i]=tree[fail[u]][i];
}
}
return ;
}
void Find(char *str)
{
int len=strlen(str),root=0,id;
for(int i=0;i<len;i++)
{
id=str[i]-'a';
root=tree[root][id];
int other=root;
if(other)
{
while(other&&flag[other]!=-1)
{
cnt+=flag[other];
flag[other]=-1;
other=fail[other];
}
}
}
return ;
}
int main()
{
scanf("%d",&T);
while(T--)
{
clear();
scanf("%d",&n);
for(int i=1;i<=n;i++)
{
scanf("%s",str);
insert(str);
}
build();
scanf("%s",str);
Find(str);
printf("%d\n",cnt);
}
return 0;
}
撒花结束~~~~