博客《模式串匹配:KMP算法和AC自动机(二)》中讲了KMP原理和实现,KMP算法针对的是单模式串的匹配问题,而AC自动机是能够解决多模式穿匹配问题的算法,曾尝试自己实现一个AC自动机,但是发现还是挺有难度的,于是在网上看了一些大神的模板,在这里转发学习一下~
下面的博客转自:
KMP 大多 是用来解决 单串单串匹配 的 问题的~
AC自动机 则是在 KMP 的 基础上 用来解决一大串里面的 许多小串出现次数 出现位置 出现个数 等 问题的
Tried树 + KMP + 融合贯通 = AC自动机
首先AC自动机的建立需要一个Tried树 然后转化成Tried图
Tried图 就是 在每个tired树上的 每个节点的 所有分支(不论存不存在) 连上 一条接向树上其他节点 的 边
接向的位置 要连到该前缀上一次匹配的点 找最优
Tried树 在这里打一下 注释见代码
我在这里 定义 Tried图 为 结构体——
struct tree { //大小之类的看情况吧 最多和全部被查询字符串长度总和一样 根据空间大小适当合理地调整减他一大半
int to[26]; //该位字母 连向的下一位字母节点 (此处26是标号 'a' ~ 'z'的 需根据题目改成52之类的)
int ed,f ;//ed:该位字母 是否是 一个字符串的结尾(是多少个字符串的结尾) f见下
} tr[1 << 20]; // f : 如果 匹配到该位字母 正好失配 应该跳向哪个字符串 的 哪个位置 继续匹配
Fa♂Q1 这里 to[26] 是0下标开始 即 a,b......z 通向 to[0],to[1]......to[25]
Fa♂Q2 我感觉 char 比 string 慢一点? 要用char还是可以的 但别用1下标 即scanf("%s",i + 1); 超慢 应该是频繁计算+1导致的
Fa♂Q3 本题是有相同字串的 因此在下面代码最后一行是++ 这个要根据题目要求灵活变化
string i;
cin >> i;//读入要搜索的字符串
pos = 0;//以0为总结点 即第0位字母(不存在)
for (int b = 0 ; b < i.size() ; b ++)//一位一位加入字符串里的字符 注意string类型0下标
{
int c = i[b] - 'a';//找到该位字符应接到哪里
if (!tr[pos].to[c]) tr[pos].to[c] = ++tot;//如果树里没有这个串 该字母加入到树末
pos = tr[pos].to[c];//以该字母在树中的位置继续寻找
}
++tr[pos].ed;//此时读完一串了 此时pos是该字符串末尾在树中的位置 因此在此打标记 作为字符串的结尾
Tried树建好了 然后自然是Tried图啦 但是怎么建呢?
我之前貌似说过什么
"在每个tired树上的 每个节点的 所有分支(不论存不存在) 连上 一条接向树上其他节点 的 边"
Right~这里我们引入队列que 我这里用pre代替(天知道我为什么要用pre这个奇怪的名字)
队列头和尾都设为0(为1也没问题 随便改改即可) 队列长度嘛 也要根据空间大小适当合理地调整减他一大半
队列开始空的 我们如果直接查询 还要在开始移动队首时判断 程序太麻烦 NG
于是乎 我们预处理一下第一层 呐
for (int a = 0 ; a < 26 ; a ++)//此处是查询是否存在以a到z开头的字符串
if (tr[0].to[a]) pre[++t] = tr[0].to[a];//如果有就把该字符所在字典的位置记录
这样 队列里就有数了对不对
Tip:其实该句if后面应该加上 else tr[0].f = 0 的 但是数组初始化已经被赋为0了 理解概念时要记住
然后开始拓展查询 对于存在的拓展的点 需使他的失配节点 匹配到他父亲的 通向他那个字母的 失配节点
因为此处队列的查询类似bfs 他父亲通向他 的失配节点 会比他 的失配节点 早搜寻到
关于这样为什么是最优的 你想想你现在匹配了 a 个字符了 然后下一个匹配不过去 就跳回匹配了 a - 1 个字符的状态 从那里的 26 个分支继续拓展 如果都不行就再退回......这样就能充分利用公共前缀了
对于存在的拓展的点 还需扩展队尾 加入该节点 It's show time~ 代码就不注释了看上面几行
while (h != t)
{
int p = pre[++h];
for (int a = 0 ; a < 26 ; a ++)
if (tr[p].to[a])
{
tr[tr[p].to[a]].f = tr[tr[p].f].to[a];
pre[++t] = tr[p].to[a];
}
else tr[p].to[a] = tr[tr[p].f].to[a];
}
自此 Tried树建立完毕 可以开始搜索啦~
根据题目要求 搜索这个部分的灵活性很大 本题要求就见放后面的题目链接吧(然而我差不多全部博客用的都是洛谷的模板)
Tip: pos 和 tot 此处初始化为 0
for (int a = 0 ; a < i.size() ; a ++)//此处i是总串
{//pos是指当前节点所代表的字符串加上i[a]的字符后存在的位置 如果不存在就是0啦------------| (这是箭头这是箭头这是箭头!!)
pos = tr[pos].to[i[a] - 'a'];//因为怕下一行太长 此处把其中相同的部分用pos代替 V (这是箭头这是箭头这是箭头!!)
for (int b = pos; b && tr[pos].ed ; b = tr[b].f)//此处如果 不存在 或者 继续匹配着突然不存在了 就直接跳出去 此时b = 0
tot += tr[b].ed,tr[b].ed = 0;//(接上)否则当tr[pos].ed不为0时 就说明总串里存在某一字串 本题不重复计算便将该.ed设为0
}(接上)如果再次搜到这里 便跳出去 还有 本题有重复子串 因此tot是统加
好了 接下来是巨水模板的传送门
以及贴总代码 (前面代码都是从这里截的 因此不贴注释啦)
#include
#include
#include
using namespace std;
struct tree {
int to[26];
int ed,f;
}tr[1 << 20];
string i;
int pre[1 << 20];
int n,pos,tot = 0;
int main()
{
scanf("%d",&n);
for (int a = 1 ; a <= n ; a ++)
{
cin >> i;
pos = 0;
for (int b = 0 ; b < i.size() ; b ++)
{
int c = i[b] - 'a';
if (!tr[pos].to[c])
tr[pos].to[c] = ++tot;
pos = tr[pos].to[c];
}
++tr[pos].ed;
}
int h = 0,t = 0;
for (int a = 0 ; a < 26 ; a ++)
if (tr[0].to[a])
pre[++t] = tr[0].to[a];
while (h != t)
{
int p = pre[++h];
for (int a = 0 ; a < 26 ; a ++)
if (tr[p].to[a])
{
tr[tr[p].to[a]].f = tr[tr[p].f].to[a];
pre[++t] = tr[p].to[a];
}
else tr[p].to[a] = tr[tr[p].f].to[a];
}
cin >> i;
pos = tot = 0;
for (int a = 0 ; a < i.size() ; a ++)
{
pos = tr[pos].to[i[a] - 'a'];
for (int b = pos; b && tr[pos].ed ; b = tr[b].f)
tot += tr[b].ed,tr[b].ed = 0;
}
printf("%d\n",tot);
return 0;
}
其实也挺短的=-=但是精悍啊~