AC自动机(多模式匹配)

AC自动机主要解决的问题:多模式匹配(KMP则属于单模式匹配),n个单词在m个字符的文章中,出现过多少次。

主要分三步:构建trie树、构建失败指针、寻找匹配个数

Trie树:又称字典树、单词查找树,是一种树形结构,用于保存大量的字符串。它的优点是:利用字符串的公共前缀来节约存储空间。

具体参见:http://www.cppblog.com/abilitytao/archive/2009/04/21/80598.aspx

失败指针:作用于KMP的next[]类似,但存在实际不同,对于字符串s[nMax],k = next[i],并不要求s[i] = s[k],只需要前面k - 1个字母相同即可。而失败节点既要求两个节点相同,也要求前面的k - 1个节点相同。这是与next作用的区别。

需要用到的数据结构:

struct Node
{
	Node *fail;
	Node *next[Max];
	int count;
	Node()
	{
		fail = NULL;
		memset(next, 0, sizeof(next));
		count = 0;
	}
}*queue[nMax];
char keyWord[mMax];
char str[nMax];
int ans;


算法模板:

void insert(char s[], Node *root)
//构建tire树,这里没什么可解释,一次历遍即可
{
	Node *p = root;
	for(int i = 0; s[i]; ++ i)
	{
		int index = s[i] - 'a';
		if(p->next[index] == NULL) p->next[index] = new Node();
		p = p->next[index];
	}
	p ->count ++;
}

void buildFailNode(Node *root)
//构建失败指针,队列实现
{
	int front = 0,
		rear = 0;
	queue[front ++] = root;
	while(rear < front)
	{
		Node *p = queue[rear ++];
		for(int i = 0; i < Max; ++ i)
		{
			if(p->next[i])
			{
				Node *fa = p->fail;
				while(fa != NULL)//不断寻找p的失败节点直到发现fa子节点中也存在i节点
				{
					if(fa->next[i])
					{
						p->next[i]->fail = fa->next[i];
						break;
					}
					fa = fa->fail;
				}
				if(fa == NULL) p->next[i]->fail = root;
				queue[front ++] = p->next[i];
			}
		}
	}
}

void match(Node *root)
//寻找一串字符中,共有多少能与关键字匹配。
{
	Node *p = root;
	for(int i = 0; str[i]; ++ i)
	{
		int index = str[i] - 'a';
		while(p->next[index] == NULL && p != root)
			p = p->fail;
		p = p->next[index];
		p = (p == NULL) ? root : p;//为了配合while()中p != root的应用
		Node *_p = p;//这里需要将p另外复制给_p,p的值不能做改动,p此时存储的是第一个匹配的节点
		while(_p != root && _p->count != -1)
		//这里使用while循环即可将str[i]位置所有匹配全部找出来
		{
			ans += _p->count;
			_p->count = -1;
			_p = _p ->fail;
		}
	}
}

详细参见,图文并茂: http://www.cppblog.com/mythit/archive/2009/04/21/80633.html


你可能感兴趣的:(数据结构,算法,struct,null,存储,insert)