多字符串匹配-aho-corasick算法

aho-corasick自动机
1、图示

多字符串匹配-aho-corasick算法_第1张图片
 
2、原理:实质是KMP算法在多模式串匹配的扩展,首先构造TRIE树,然后以层次遍历序访问该树,在TRIE树的基础上构造A-C自动机。
其中F(q)表示:
1)q是个终结状态,如果q对应一个完整的字符串,则称q为终结状态
2)F(q)包括了模式串集合P中,q所对应的该集合的子集的字符串
3、构造代码


多字符串匹配-aho-corasick算法_第2张图片
 
 
基本的算法
多字符串匹配-aho-corasick算法_第3张图片
二、高级算法
1、对供给函数S的状态转移预先进行计算,对于字母表的每个字符,所有状态都有相应的转移。
2、这种完全的自动机可以由供给函数计算出来,首先,对于字母表中的每个字符σ如果δ(0,σ)=θ,然后按层次遍历的方式访问自动机,设当前状态为current,如果δ(current,σ)=θ,则置δ(current,σ)=δ( SAC(current),σ)
3、不足之处,需要巨大的存储空间

你可能感兴趣的:(数学与计算)