lym311_08

踹图_AC自动机

from: http://hihocoder.com/contest/hiho4/problem/1

踹图~踹图踹图~

Trie图

描述

前情回顾

上回说到，小Hi和小Ho接受到了河蟹先生伟大而光荣的任务：河蟹先生将要给与他们一篇从互联网上收集来的文章，和一本厚厚的河蟹词典，而他们要做的是判断这篇文章中是否存在那些属于河蟹词典中的词语。

当时，小Hi和小Ho的水平还是十分有限，他们只能够想到：“枚举每一个单词，然后枚举文章中可能的起始位置，然后进行匹配，看能否成功。”这样非常朴素的想法，但是这样的算法时间复杂度是相当高的，如果说词典的词语数量为N，每个词语长度为L，文章的长度为M，那么需要进行的计算次数是在N*M*L这个级别的，而这个数据在河蟹先生看来是不能够接受的。

于是河蟹先生决定先给他们个机会学习一下，于是给出了一个条件N=1，也就是说词典里面事实上只有一个词语，但是希望他们能够统计这个词语在文章中出现的次数，这便是我们常说的模式匹配问题。而小Hi和小Ho呢，通过这一周的努力，学习钻研了KMP算法，并在互相帮助之下，已经成功的解决掉了这个问题！

这便是Hiho一下第三周发生的事情，而现在第四周到了，小Hi和小Ho也要踏上解决真正难题的旅程了呢！

任务回顾

小Hi和小Ho是一对好朋友，出生在信息化社会的他们对编程产生了莫大的兴趣，他们约定好互相帮助，在编程的学习道路上一同前进。

这一天，他们……咳咳，说远了，且说小Ho好不容易写完了第三周程序，却发现自己错过了HihoCoder上的提交日期，于是找小Hi哭诉，小Hi虽然身为管理员，但是也不好破这个例，于是把小Ho赶去题库交了代码，总算是哄好了小Ho。

小Ho交完程序然后屁颠屁颠的跑回了小Hi这边，问道：“小Hi，你说我们是不是可以去完成河蟹大大的任务了呢？”

小Hi思索半天，道：“老夫夜观星象……啊不，我这两天查阅了很多资料，发现这个问题其实也是很经典的问题，早在06年就有信息学奥林匹克竞赛国家集训队的论文中详详细细的分析了这一问题，而他们使用的就是Trie图这样一种数据结构！”

“Trie图？是不是和我们在第二周遇到的那个Trie树有些相似呀？”小Ho问道。

“没错！Trie图就是在Trie树的基础上发展成的一种数据结构。如果要想用一本词典构成Trie图的话，那么就首先要用这本词典构成一棵Trie树，然后在Trie树的基础上添加一些边，就能够变成Trie图了！”小Hi又作老师状。

“哦！但是你说了这么多，我都不知道Trie图是什么样的呢！”小Ho无奈道。

“也是！那我们还是从头开始，先讲讲怎么用Trie树来解决这个问题，然后在Trie树的基础上，讨论下一步应该如何。”小Hi想了想说道。

提示一：如何用Trie树进行“河蟹”

“现在我们有了一个时间复杂度在O(ML)级别的方法，但是我们的征途在星辰大海，啊不，我们不能满足于这样一个60分的方法。所以呢，我们还是要贯彻我们一贯的做法，寻找在这个算法中那些冗余的计算！“小Hi道：”那么我们现在来看看Trie树进行计算的时候都发生了些什么。”

提示二：Trie树的优化思路——后缀结点

“那么现在……”小Hi刚要开口，就被小Ho无情打断。

“可是小Hi老师~你看在这种情况下，结点C找不到对应的后缀结点，它对应的路径是aaabc，而aabc在Trie里面是走不出来的！”小Ho手中挥舞着一张纸，问道。

“你个瓜娃子，老是拆老子台做啥子！……阿不，小Ho你别担心，我这就要讲解如何求后缀结点呢~”小Hi笑容满面的说道。

提示三：如何求解Trie树中每个结点的后缀结点

“原来如此！这样我就知道了每一个结点的后缀结点了，接下来我就可以很轻松的解决河蟹先生交给我的问题了呢！”小Ho高兴的说道：“但是，说好的Trie图在哪里呢？”

小Hi不由笑道：“你这叫买椟还珠你知道么？还记得我们再计算后缀结点的时候计算出的从每个点出发，经由每一个char（比如'a'..'d'）会走到的结点么？把这些边添加到Trie树上，就是Trie图了！”

“原来是这样，但是这些边感觉除了计算后缀结点之外，没有什么用处呀？”小Ho又开始问问题了。

“这就是Trie图的巧妙之处了，你想想你什么时候需要知道一个结点的后缀结点？”小Hi实在不忍看自己的兄弟这般呆萌，只能耐着性子解释。

小Ho顿时恍然大悟，“在这个结点不能够继续和文章str继续匹配了的时候，也就是这个结点没有“文章的下一个字符”对应的那条边，哦！我知道了，在Trie图中，每个结点都补全了所有的边，所以原来需要先找到后缀结点再根据“str的下一个字符”这样一条边找到下一个结点，现在可以直接通过当前结点的“str的下一个字符”这样一条边就可以接着往下匹配了，如果本来是有这条边的，那不用多说，而如果这条边是根据后缀结点补全的，那便是我们想要的结果！”

“所以呢！完成这个任务的方法总的来说就是这样，先根据字典构建一棵Trie树，然后根据我们之前所说的构建出对应的Trie图，然后从Trie图的根节点开始，沿着文章str的每一个字符，走出对应的边，直到遇到一个标记结点或者整个str都已经匹配完成了~”小Hi适时的总结道。

“而这样的时间复杂度则在O(NL+M)级别的呢！想来是足以完成河蟹先生的要求了呢~”小Ho搬了搬手指，说道。

“是的！但是河蟹先生要求的可不是想法哦，他可是希望我们写出程序给它呢！”

输入

每个输入文件有且仅有一组测试数据。

每个测试数据的第一行为一个整数N，表示河蟹词典的大小。

接下来的N行，每一行为一个由小写英文字母组成的河蟹词语。

接下来的一行，为一篇长度不超过M，由小写英文字母组成的文章。

对于60%的数据，所有河蟹词语的长度总和小于10, M<=10

对于80%的数据，所有河蟹词语的长度总和小于10^3, M<=10^3

对于100%的数据，所有河蟹词语的长度总和小于10^6, M<=10^6, N<=1000

输出

对于每组测试数据，输出一行"YES"或者"NO"，表示文章中是否含有河蟹词语。

“还记得我们在第二周时，是如何使用Trie树解决字符串自动补全问题的么？”小Hi如是问道。

“还记得，就是对于每一个询问，根据其每个位置上的字符，在Trie树上走出对应的边！”小Ho的记忆力还是挺不错的，很快便答了上来。

小Hi满意的点了点头，继续问道：“那你想想怎么用Trie树来解决河蟹先生交代的任务？”

“好的！”小Ho满口答应，随即分析道：“现在的这个问题和第二周遇到的问题的不同之处在于，第二周时一定是从询问的第一个字符开始匹配，然后找出所有可能的匹配，而我们现在遇到的问题是可以从询问的任意一个位置开始匹配，看是否会在Trie树上走到一个标记结点（标记结点对应路径为一个属于词典的单词）。”

“没错，那你准备怎么做呢？”

“我准备对于螃蟹先生给我的文章，还是像之前我们相出的朴素算法那样，枚举一个起始位置，然后我们的问题就变成了：是否从这个起始位置开始的一段字符（也就是从这个起始位置开始的字符串的一个前缀字符串），它存在于“河蟹”词典里面？而这个问题，就和第二周的问题几乎一样了，唯一不同的是，我是要一直在Trie树中走下去直到无边可走，或者走到一个标记结点的时候才能够停下来，前者代表没有任何需要河蟹的单词，后者则说明我们找到了。”小Ho井井有条的分析道。

“也就是说，第二周我们成功解决了计算前缀匹配的数量这样一个问题，而这一周的任务却是可以在任意位置匹配，所以我们就枚举一个起始点，将这个问题转化成前缀匹配这样一个我们已知的问题来做，这样的思路么？”小Hi总结道。

“嗯！我就是这么想的~”小Ho道。

“嗯，这个方法听起来挺有意思的，而且仔细分析一下，这样做所需要的计算次数会在M*L这个数量级上，比我们之前的朴素算法已经好了很多呢~”小Hi夸奖了一番。

“嘿嘿，但是你之前说的Trie图是怎么回事，它又能将计算次数缩减到怎样的数量级呢？”小Ho的好奇心也是燃烧了起来。

“且听我说~”

“你看这组输入——文章str、词典dic还有我们构建的Trie树tree，我们在算法过程中，先枚举第一个字符作为起始位置，并最多匹配到第k个字符，因为str[1..k]这一段在tree中对应的结点A结点没有str[k+1]这一条边。这时候我们便要枚举第二个字符作为起始位置，并最多匹配到第k2个字符，这同样是因为str[2..k2]这一段在tree中对应的结点B结点没有str[k2+1]这一条边。也就是说我们在最开始的计算中，要先从tree的0号结点走到A结点，然后回到0号结点，再走到B结点。”小Hi在黑板上画了一些奇奇怪怪的符号，对小Ho如是解说道。

“是的！等等，我怎么觉得这里似曾相识呢？”小Ho奇道。

“问得好~那么你觉不觉得这个过程和上一周的KMP算法很相似，都是枚举原串（文章、str）的起始位置，然后在模式串（Trie树）中依次进行匹配？”小Hi说道。

“是的！不同之处就在于模式串就是在一个数组里一个个匹配下来，而Trie树则是在一个树结构中一个个顺着边走~这无非就是单个词语和多个词语的差别了是么？”小Ho也是一点就透。

“没错！那我们再回想一下我们当时是怎么优化KMP的——我们既然已经从str的当前起点i开始匹配了l个长度，那么在枚举str的下一个起点i+1的时候，就意味着最开始的l-1个字符都已经在之前的计算中匹配过了，如果我们能够利用好这个信息的话，就能够大大的减少时间复杂度。”

“换句话说，如果我们从str的当前起点开始，匹配了l个长度走到了A结点，如果我们把A结点对应的字符串（即从tree的0号走到A结点的路径）去掉第一个字符，形成一个新的字符串，那么这个字符串肯定是和从str的下一个起点开始，长度为l-1的子串是一样的，而如果我们能够预先找到这个字符串在tree中对应的结点B'，我们就不用像之前所说的那样从0号节点走到A结点然后回到0号结点再走到B结点，而是可以直接从0号结点走到A结点然后直接跳转到B’结点然后再根据从str[i+l..k1]这一段走到B结点！”小Hi一口气说道，顿时感觉口干舌燥，于是拿起了一旁的杯子，猛灌了一口凉开水。

”哦！那么如果用之前的这个例子的话，从str的第一个位置开始，匹配了3个字符走到了A结点，对应的字符串是abc，如果第一个字符a去掉变成bc，这个字符和从str的第二个位置开始长度为2的字串bc的确是一样的，此时bc在tree中对应的结点是B'结点，所以我们用之前的算法的话就是从0号结点走到A结点，然后再从0号结点走到B结点，现在可以直接从A结点走到B‘结点，然后根据str的第4（i+l=1+3）个字符走到B结点！”小Ho趁着小Hi休息的功夫，也是拿起了之前小Hi给出的例子推演道。”

“没错！所以我们的问题规约成了：如何对于一棵给定的Trie树，找到其中每一个结点对应的后缀结点——这个结点在Trie中对应路径去掉第一个字符之后在Trie中对应的结点。“小Hi擦了把汗，感觉舒爽许多，于是继续说道。

“我大致懂了！这个后缀结点就和我们在KMP算法中求解的NEXT数组是一个意思！”小Ho开心道。

“你真聪明~”小Hi夸奖道

“先看之前你说的那个例子，如果tree中存在一个结点D，其对应的路径是aabc，那么这个结点的后缀结点是哪一个？”小Hi问道。

“aabc……去掉第一个字符就是abc，对应的是A结点，所以D结点的后缀结点是A！”小Ho很快便做出了回答。

“那么问题不就简单了么，既然结点D是不存在的，那么不就意味着这个开始结点的枚举，是肯定在中途就要找不到实际上是没有意义的么，直接从C结点跳转到A结点就可以了！所以只需要令C结点的后缀结点是A结点，像D结点这种不存在的结点当然要视为冗余计算，扔掉就行了！”小Hi老师斩钉截铁道。

“D结点好可怜……但是，如果从tree的根节点到D结点的路径中有标记结点怎么办？这样的跳过会不会导致标记结点被忽略掉了？”小Ho问道。

“如果不注意的话是会的呢！这就要引进一个新的概念，后缀结点为标记结点的结点也需要被标记，比如像对应路径为aab的E结点就是标记点对么？而aaab对应的F结点的后缀结点便是E结点，所以需要对F结点进行标记，这样在走到F结点的时候，就知道已经匹配出了一个河蟹词语了呢。”小Hi耐心答道。

“那么接下来就开始说怎么快速有效的求后缀结点！小Ho，你先回答我：树结构最大的特点是什么？”小Hi问道。

“是递归结构！”小Ho想也没想就回答道。

“真聪明！虽然是导演安排好的台词，但是回答速度真是一流呢！”小Hi点了点头，继续说道：“所以我们想要求Trie树种每个结点的后缀结点，最直观的方法也就是像当初我们求解KMP的NEXT数组时那种从左到右的拓扑顺序一样，从根节点开始，以宽度优先遍历的顺序，依次求解每一个结点的后缀结点。”

“嗯！这样可以保证每个结点对应的后缀结点，由于其对应字符串长度一定至少少1，所以一定会在它之前得到计算？但是这样有什么用呢？诶，我想到一个，这样就可以知道它的后缀结点是不是标记结点了，从而决定自己是不是要被标记是么？”小Ho决定打破砂锅问到底。

“别急！听我慢慢说来。”小Hi不知从哪摸出一把羽扇，扇了两下，问道：“你看这棵Trie树，根节点的后缀结点是哪个？”

”根节点对应的字符串是空，去掉第一个字符……还是空，所以就是根节点自己了是吧？”小Ho想了想，说道。

“是的，那你看从根节点连出去的这三个点n1,n2,n3他们的后缀结点是哪个？”小Hi继续问道。

“他们对应的字符串都只有一个字符，所以去掉一个字符就变成空了，于是他们的后缀结点也都是根节点。”小Ho也继续答道。

“那么现在，假设所有深度小于B结点的结点的后缀结点都已经算出来了，我想要算B结点的后缀结点，有没有什么好的方法呢？”小Hi随手填了几个结点的后缀结点，向小Ho问道。

“如果考虑递归的思路的话，B结点的父亲结点是对应字符串为bc的B'结点，B'结点的后缀结点是n3结点，所以从B'结点出发经'd'这样一条边到达的结点B的后缀结点自然应该就是从B'结点的后缀结点n3出发经'd'这样一条边到达的结点——G结点了！”小Ho仔细研究了下，答道。”这么说来，是不是所有结点都可以这么求呀，如果它父亲结点是通过编号为char的一条边走向它的，那么只要找到它父亲的后缀结点，并且走出编号为char的一条边，就能够找到它的后缀结点了？”

“差不多就是这个思路呢！但是你有没有想过如果它父亲结点的后缀结点并没有编号为char的一条边，你该怎么办？”小Hi也是不厌其烦，继续问道。

“我想想，比如说结点G的父亲结点I的后缀结点J没有'c'这样一条边，但是结点J的后缀结点n1却有'c'这样一条边，由于后缀结点每次都是去掉前几个字符，所以后缀结点的后缀结点也相当于是“弱”一点的后缀结点，在没有更好的选择的情况下（因为这是第一次找到的有'c'这样一条边的后缀结点），G的后缀结点就应该是结点K了吧！”小Ho仔细想想，答道。

“你这样的话，会不会觉得，每次都要往回不停的找后缀结点，挺浪费时间的呢？”这下子换到小Hi打破砂锅问到底了。

“那该怎么办？”小Ho也是没辙了。

“你看看这么做怎么样，我还是按照宽度优先搜索的顺序遍历整棵树，对于每一个结点，我不仅仅要求出它的后缀结点，我还要求出到达这个点后，经由每一个char（比如'a'..'d'）会走到的结点。由于到达这个结点之后，所有深度比它小的结点的这些值都算出来了，于是我可以直接通过父亲节点的后缀结点经由“父亲节点走到当前结点经过的边”走到的结点来计算我的后缀结点，同时这个后缀结点所要计算的值也都计算出来了，所以我可以通过这个后缀结点经由每一个char（比如'a'..'d'）会走到的结点来计算我经由每一个char（比如'a'..'d'）会走到的结点。”小Hi大致的说了一下思路。

“小Hi老师，我听晕了！”小Ho报告说。

“这个简单，我就拿这个例子给你依次算一算。”

“如果用trie(X)表示X的根节点，next(X)('a')表示从X出发标号为'a'的边指向的结点，我们可以知道trie(0)=0, next(0)('a')=1, next(0)('b')=2, next(0)('c')=3, next(0)('d')=0。”

“由于trie(1)=0, 我们可以补上从1出发的'a','d'这两条边：next(1)('a')=next(0)('a')=1, next(1)('d')=next(0)('d')=0”

“由于trie(2)=0, 我们可以补上从2出发的'a','b','d'这三条边：next(2)('a')=next(0)('a')=1, next(2)('b')=next(0)('b')=2, next(2)('d')=next(0)('d')=0”

“由于trie(2)=0, 我们可以补上从3出发的'a','b','c'这三条边：next(3)('a')=next(0)('a')=1, next(3)('b')=next(0)('b')=2, next(2)('c')=next(0)('c')=3”

“由于trie(4)=next(trie(1))('b')=2, 我们可以补上从4出发的'a','b','d'这三条边：next(4)('a')=next(2)('a')=1, next(4)('b')=next(2)('b')=2, next(4)('d')=next(2)('d')=0”

“由于trie(5)=next(trie(1))('c')=3, 我们可以补上从5出发的'a','b','c','d'这四条边：next(5)('a')=next(3)('a')=1, next(5)('b')=next(3)('b')=2, next(5)('c')=next(3)('c')=3, next(5)('d')=next(3)('d')=7”

“由于trie(6)=next(trie(2))('c')=3, 我们可以补上从6出发的'a','b','c'这三条边：next(6)('a')=next(3)('a')=1, next(6)('b')=next(3)('b')=2, next(6)('c')=next(3)('c')=3”

“由于trie(7)=next(trie(3))('d')=0, 我们可以补上从7出发的'a','b','c','d'这四条边：next(7)('a')=next(0)('a')=1, next(7)('b')=next(0)('b')=2, next(7)('c')=next(0)('c')=3, next(7)('d')=next(0)('d')=0”

“由于trie(8)=next(trie(4))('c')=6, 我们可以补上从8出发的'a','b','c','d'这四条边：next(8)('a')=next(6)('a')=1, next(8)('b')=next(6)('b')=2, next(8)('c')=next(6)('c')=3, next(8)('d')=next(6)('d')=9”

“由于trie(9)=next(trie(6))('d')=7, 我们可以补上从9出发的'a','b','c','d'这四条边：next(9)('a')=next(7)('a')=1, next(9)('b')=next(7)('b')=2, next(9)('c')=next(7)('c')=3, next(9)('d')=next(7)('d')=0”

“此时这个图已经变得过于复杂了，我就不画出来了，但是我想你已经可以从我上面所说的知道每个节点的后缀结点了呢！”小Hi道。

6
aaabc
aaac
abcc
ac
bcd
cd
aaaaaaaaaaabaaadaaac

样例输出

YES

传说中的AC自动机，基于KMP的next思想，以及Trie数据结构，在单词词库总长不大时有快速查询的作用，题目里将思想其实讲得很清楚了，下面附上一份比较清晰的代码

#include 
#include 
#include 
#include 
using namespace std;
const int maxn=1000000+10;
struct Trie {
	int mark,pre,link[26];
	void init(){memset(link,-1,sizeof(link));}
} T[maxn];
int tot=1;
char a[maxn],str[maxn];

void build_trie(int len) {
	int p=1;
	for(int i=0; iq;
	q.push(1);
	while(!q.empty()) {
		int p=q.front();
		q.pop();
		for(int i=0; i<26; i++) {
			int child=T[p].link[i];
			if (child!=-1) {
				int pre=T[p].pre;
				while(pre!=-1)
					if(T[pre].link[i]==-1)pre=T[pre].pre;
					else {
						T[child].pre=T[pre].link[i];
						if(T[T[child].pre].mark)T[child].mark=true;
						break;
					}				
				q.push(child);
			}
		}
	}
}

bool solve() {
	int p=1;
	for(int i=0; a[i]; i++)
		while(true)
			if(T[p].link[a[i]-'a']==-1)p=T[p].pre;
			else {
				p=T[p].link[a[i]-'a'];
				if(T[p].mark)return true;
				break;
			}
	return false;
}

int main() {
	int n;
	scanf("%d",&n);
	T[1].init();
	for(int i=1; i<=n; i++)scanf("%s",str),build_trie(strlen(str));
	for(int i=0; i<26; i++)T[0].link[i]=1;T[0].pre=-1;//建立fail点->root
	T[1].pre=0;
	build_fail();
	scanf("%s",a);
	if(solve())puts("YES");
	else       puts("NO");
	return 0;
}

喜欢结构化的可以看看： http://hzwer.com/5465.html

你可能感兴趣的:(AC自动机,AC自动机)

C++回文自动机总斯霖 c++算法
算法原理节点结构：每个节点代表一个回文子串。包含长度len、失败指针fail和子节点转移trans。双根结构：偶根（0号节点）：长度为0，处理偶数长度回文。奇根（1号节点）：长度为-1，处理奇数长度回文。构建过程：逐个字符处理，维护当前最长回文后缀节点last。对于新字符，沿last的失败链找到可扩展的节点，创建新节点并更新指针。失败指针：类似AC自动机，用于在无法扩展时跳转到其他回文后缀。C++
Tria树(前缀树)与AC自动机千裡学习算法 C++
目录Tria树(前缀树)介绍数据结构插入，搜索，查找AC自动机介绍板子题AC代码:使用指针构建结点但是无法AC的代码Tria树(前缀树)介绍前缀树是一种用于插入查找搜索数据的数据结构，又叫做字典树。后缀树与其类似。和哈希表相比，前缀树不仅可以查找某一个键，也可以查找该键的前缀。并且查找速度只与所要查找的键的字符长度有关。数据结构一个只存储小写字母的tria树的数据结构如下:structTrieno
算法分类合集 weixin_30784945
算法分类合集ACM所有算法数据结构栈，队列，链表哈希表，哈希数组堆，优先队列双端队列可并堆左偏堆二叉查找树Treap伸展树并查集集合计数问题二分图的识别平衡二叉树二叉排序树线段树一维线段树二维线段树树状数组一维树状数组N维树状数组字典树后缀数组，后缀树块状链表哈夫曼树桶，跳跃表Trie树(静态建树、动态建树)AC自动机LCA和RMQ问题KMP算法图论基本图算法图广度优先遍历深度优先遍历拓扑排序割边
ACM算法分类（要学习的东西还很多）还是太年轻
ACM所有算法数据结构栈，队列，链表哈希表，哈希数组堆，优先队列双端队列可并堆左偏堆二叉查找树Treap伸展树并查集集合计数问题二分图的识别平衡二叉树二叉排序树线段树一维线段树二维线段树树状数组一维树状数组N维树状数组字典树后缀数组，后缀树块状链表哈夫曼树桶，跳跃表Trie树(静态建树、动态建树)AC自动机LCA和RMQ问题KMP算法图论基本图算法图广度优先遍历深度优先遍历拓扑排序割边割点强连通分
ACM算法目录龍木
ACM所有算法数据结构栈，队列，链表哈希表，哈希数组堆，优先队列双端队列可并堆左偏堆二叉查找树Treap伸展树并查集集合计数问题二分图的识别平衡二叉树二叉排序树线段树一维线段树二维线段树树状数组一维树状数组N维树状数组字典树后缀数组，后缀树块状链表哈夫曼树桶，跳跃表Trie树(静态建树、动态建树)AC自动机LCA和RMQ问题KMP算法图论基本图算法图广度优先遍历深度优先遍历拓扑排序割边割点强连通分
【TRIE字典树实现：400行】(模糊匹配 | AC自动机 | 多模式匹配 | 串排序 | 词频计数 | 相似度分析 | RAII模式 | 前缀比较 ) XNB's Not a Beginner 算法语言特性 Modern Cpp ADT数据结构实现 c++算法开发语言哈希算法图论数据结构链表
目录程序测试[insert_erase_countDEMO]插入测试【ACAutomiton|MultipatternmatchingDEMO】AC自动机|多模式匹配测试【RecursivetdeepcopyconstructDEMO】多叉树的递归深拷贝测试【stringsortDEMO】串的非比较排序测试【fuzzypatternmatchingDEMO】模糊匹配测试【Similarityana
AC自动机 b1ue1ue1ue java 算法开发语言
AC自动机-OIWiki(oi-wiki.org)给定一个长度为m主串再给出n个平均长度为w模式串问这些模式串分别出现了多少次。如果对n个模式串分别进行kmp算法那么时间复杂度：n次匹配每次(m+w)所以是O(nm+nw)ac自动机时间复杂度:建树O(w*n)建立fail数组O(w*n)匹配O(w*m)所以是O(wm+nw)所以可知当n相对于w很大即模式串的数量较模式串的平均长度很大时就应该用AC
hdu4511 小明系列故事——女友的考验 [kuangbin专题-ac自动机] Ayews ac自动机字符串算法竞赛相关字符串
这道题需要我们将路径表示成字符串形式，再构造fail指针。需要注意的是开始位置是1号点，也就是ch[0][0]，而不是根节点。当然如果给的路径中不含一号点，那可以理解成从根结点出发。dp数组保存需要走的最长路径。#include#include#include#include#include#include#definefifirst#definesesecond#defineFINfreopen
AC自动机模板 ZSJZ_liuzian 字符串-杂类 AC自动机字符串模板
#include#include#include#includeusingnamespacestd;#defineN2000010#defineM3010queueq;charst[N];struct{intp[26],s=0,fail;}a[M*10];inttot=1;intmain(){intn,m,i,j;scanf("%d%d",&n,&m);for(i=1;i1&&!a[p].p[i]
ac自动机模板多行不译必自闭任务清单 ac自动机模板
易理解版本：//http://acm.hdu.edu.cn/showproblem.php?pid=2222#includeusingnamespacestd;constintmaxn=1e6+10;structTri{intch[maxn][26],val[maxn],fail[maxn],sz;voidinit(){memset(ch[0],0,sizeof(ch[0]));sz=0;}voi
hdu 2222 AC自动机模板（非指针） EMber _ AC自动机 AC自动机
题意：给一串字符串再给一个字符串，求前面那些串有多少出现在这个串中。n#include#include#include#include#include#definefo(i,a,b)for(inti=a;iq;voidinsert(intx,inty){if(y==len){out[x]++;return;}intw=ch[y]-'a';if(!trie[x][w])trie[x][w]=++cn
AC自动机模板现在我也是一些模板算法数据结构
找到模式串在文本串中出现的个数（洛谷p3796）#includeusingnamespacestd;#definelllonglongstructtree{intfail;intvis[26];intnum;}ac[1000005];//所有模式串构成的字典树intcnt=0;voidbuild(stringstr)//构建字典树{intsz=str.length(),now=0;for(inti
HDU-5955 Guessing the Dice Roll（AC自动机、高斯消元）上总介
文章目录原题链接题意思路推导代码原题链接GuessingtheDiceRoll题意给定N(1≤N≤10)N(1\leqN\leq10)N(1≤N≤10)个长度都为L(1≤L≤10)L(1\leqL\leq10)L(1≤L≤10)的数字序列Ti(1≤i≤10)T_i(1\leqi\leq10)Ti(1≤i≤10)，数字序列仅由{1,2,3,4,5,6}\left\{1,2,3,4,5,6\right
AC自动机模板泠楠子模板 c++算法
#include#defineIOSios::sync_with_stdio(0);cin.tie(0);cout.tie(0);#defineendl'\n'usingnamespacestd;typedeflonglongll;constintN=10010*50,M=1000010;inttr[N][26],cnt[N],idx;charstr[M];intq[N],ne[N];voidin
AC自动机实现屏蔽单词突击手平头哥
多模式自动匹配AC自动机KMP是多模式匹配算法,解决的是一个字符串匹配多个模式串的问题,该字符串往往短于或者等于模式串的长度(自动补全功能);如果需要实现关键字屏蔽呢?那就是我们需要在一个主串中匹配多个模式串.AC自动机原理AC自动机就是在Trie树上,加上了类似KMP的next数组,结合的实现.Trie树中的next数组ynq2VmaxQz7HUk45.png 考虑KMP的实现,在Trie树中
免费的敏感词检测网站推荐 HappyLearnerL 笔记
文章目录敏感词检测算法介绍：AC自动机基于机器学习敏感词检测用用场景社交媒体平台聊天软件和即时通讯工具线文本编辑器和评论系统网站论坛和博客平台在线游戏和虚拟社交平台敏感词检测平台推荐使用微信扫码登录检测页面展示检测演示敏感词检测算法介绍：敏感词检测使用算法涉及到多种方法和技术，下面我将详细解释几种常用的敏感词检测算法。基于词典匹配：这是一种简单但常用的方法。首先，将敏感词通过构建成一个词典的形式进
数据结构和算法学习笔记-字符串匹配(BF RK) 像一只小蜗牛数据结构和算法 BF RK 字符串匹配
字符串匹配单模式串匹配算法：BF算法和RK算法BM算法和KMP算法多模式串匹配算法：Trie树和AC自动机BF算法=BruteForce=暴力匹配算法，也叫朴素匹配算法主串(n)和模式串(m)n>m我们要对比m个字符，要对比n-m+1次最坏时间复杂度O(n*m)1.串不长，遇到不能匹配的字符的时候就可以退出了，大部分情况下效率比最差情况高很多2.思路简单，实现简单。符合KISS（KeepitSim
【数据结构与算法】字符串匹配 BF算法 RK算法 CryptWinter 算法算法 java BF算法 BK算法数据结构
单模式串匹配BF算法和RK算法BM算法和KMP算法多模式串匹配算法Trie树和AC自动机一、BF算法1，BF算法是BruteForce的缩写，中文译作暴力匹配算法，也叫朴素匹配算法。2，两个概念：主串和模式串如在字符串A中查找字符串B，则字符串A就是主串，字符串B就是模式串将主串长度记为n，模式串的长度记作m。因为是在主串中查找模式串，所以n>m3，BF算法的思想可概括为：我们在主串中，检查起始位
数据结构与算法之美学习笔记：36 | AC自动机：如何用多模式串匹配实现敏感词过滤功能？浊酒南街数据结构与算法之美学习笔记数据结构算法
目录前言基于单模式串和Trie树实现的敏感词过滤经典的多模式串匹配算法：AC自动机解答开篇内容小结前言本节课程思维导图：很多支持用户发表文本内容的网站，比如BBS，大都会有敏感词过滤功能，用来过滤掉用户输入的一些淫秽、反动、谩骂等内容。你有没有想过，这个功能是怎么实现的呢？实际上，这些功能最基本的原理就是字符串匹配算法，也就是通过维护一个敏感词的字典，当用户输入一段文字内容之后，通过字符串匹配算法
Aho Corasick Algorithm Bigcrab__ 数据结构与算法算法 python
文章目录前言介绍实现参考前言AhoCorasickAlgorithm又叫AC自动机，该算法是一个匹配算法，用来匹配文本Text中多个patterns分别出现的次数；我们定义n为patterns的总长度；m为Text的长度；问题：在ahishershe文本中找出以下"he","she","hers","his"各个patterns出现的次数；最直接的暴力解法时间时间复杂度为O(n*m)，如果采用KM
AC自动机花落yu java 算法开发语言
AC自动机关键数组ne[u]数组：（1）存节点u的回跳边（2）所指节点是当前节点的最长后缀（3）回跳边指向父节点的回跳边所指节点的儿子ch[u]数组：（1）ch[u][i]存节点u沿i走的转移边或者树边（2）所指节点一定是当前节点的最短路（3）转移边指向当前节点的回跳边所指节点的儿子模板代码importjava.util.ArrayDeque;importjava.util.Queue;impor
CSP-S 2021 游记 <故人听雨€> 奇技淫巧个人开发
谨以此文结束我的OIer生涯Day0:18-9-2021那天正好上午中秋放假，下午又回到学校机房复习，还在校门口偶遇物理左神。和灿哥和ZY在机房看了一下午BiliBili。晚上吃完饭和ZY在五楼打了会per。回到机房，看了看线段树，AC自动机，动规，爆肝一道NOI级数学题，LikeThis：那天晚上雨下得很大，幸好在路上遇到了垚和希哥，顺路回去了。洗洗睡吧~Day1:19-9-2021上午是初赛提
ac自动机（字典树和kmp的延伸）（待更新）蒲公英之殇字符串算法
多模匹配算法模板题：给出n个单词，再给出一段包含m个字符的文章，让你找出有多少个单词在文章里出现过。（hdu2222）#include#pragmaGCCoptimize(2)usingnamespacestd;typedeflonglongll;constintinf=0x3f3f3f3f;constintmaxn=1e6+7;inta[maxn][26],fail[maxn],cnt[maxn
AC自动机模板(hdu2222) weixin_34208283 数据结构与算法
拜读了大牛们的代码，对AC自动机的了解又加深了一步。不过刚才去一个QQ群推荐的题集里看了下，里面的题目还是不能顺利的解决，看来还需要更深入的去了解。下面是hdu2222的题解，感觉可以作为不错的AC自动机模板代码。#includeusingnamespacestd;constintkind=26;structnode{node*fail;//失败指针node*next[kind];//Tire每个
AC自动机练习解题题集 77458 ACM_字符串处理
需要提前学习AC自动机的知识点：大牛的AC自动机详解HDU2222KeywordsSearch（传送门）题意求目标串中出现了几种模式串解题思路裸的AC自动机，使用一个标志模式串结尾的end数组，查询一次，将相应的end数组清零即可。代码/*头文件模板*/#include#include#include#include#include#include#include#include#include#
ac自动机题集和应用左佥都御史字符串处理 ac自动机指针
最近需要使用ac自动机。补了一下算法。https://www.cnblogs.com/sclbgw7/p/9260756.htmlhttps://www.cnblogs.com/sclbgw7/p/9875671.html大佬的博客下面说自己的心得（算法的理解要等我多刷一些题在写。）1大佬博客说的辅助根优化，我没有发现。正常的字典树不都是有一个根么。ac自动机也用0做根，没毛病啊。2链表可以写tr
码题集-AC自动机（模板） y_lov 算法数据结构
AC自动机：（1）一个长串，多个短串，求长串中匹配了几个短串（包括分别匹配了几个，总共匹配了几类）（2）此处模板为长串中匹配了几个短串；（3）复杂度为O（n);（4）理论基础Trie树KMP链表思路：（1）问题分析：给定1e6模式长串，多个短串，求其中匹配的各模式串中个数最大者及其个数；（2）分析：多模式串匹配问题，考虑AC自动机；（3）过程：建立string数组与int数组统计短串及其个数；先建
AC自动机（简单模板） AE_ 算法 c++数据结构
AC自动机，就相当于是在字典树上用kmp。next数组回退的位置为最大匹配字符串在字典树上的节点位置。在获取字典树上的next数组的时候用的是BFS每次相当与处理的一层。下图中红线为，可以回退的位置，没有红线的节点回退的位置都是虚拟原点。intn,m;into[N];inttr[N][26],cnt[N],idx;charstr[N];intq[N],ne[N];inlinevoidinsert(
基于C#实现AC自动机算法神仙别闹 C#教程算法 c#算法开发语言
我要检查一篇文章中是否有某些敏感词，这其实就是多模式匹配的问题。当然你也可以用KMP算法求出，那么它的时间复杂度为O(c*(m+n))，c：为模式串的个数。m：为模式串的长度,n:为正文的长度，那么这个复杂度就不再是线性了，我们学算法就是希望能把要解决的问题优化到极致，这不，AC自动机就派上用场了。其实AC自动机就是Trie树的一个活用，活用点就是灌输了kmp的思想，从而再次把时间复杂度优化到线性
【TODO】2023年秋招笔试未竞 StevenGerrad 面经算法数据结构概率论
2023年秋招笔试没做完的题腾讯20230326笔试三道米哈游20230813笔试第三题网易雷火0820第2、3、4题第三题深信服0912B卷3、4题第三题（背包装满最小数量）第四题腾讯0915重考最后一道字节0917秋招第五场第一题AC自动机腾讯20230326笔试三道米哈游20230813笔试第三题是计算抽中什么当期五星的期望。现在的程序结果是99.6087。结果不对，有时间再调。#inclu
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发