AC自动机+trie树实现高效多模式匹配字典

前言

经常会遇到一类需求,在一段字符串中查找所有能匹配上的模式,比如查找一段文字匹配上字典中哪些短语。这时为了高效处理,就会考虑 AC 自动机,即 Aho-Corasick 自动机算法。它的核心思想是通过有限自动机巧妙地将字符比较转化为了状态转移。

通过 AC 自动机能做到匹配时不需要回溯,而且时间复杂度为 O(n),即时间复杂度与词典的规模无关。

暴力匹配

暴力匹配就是一个一个比较,将模式串从头到尾匹配主串字符串,如下图模式串”ABCE”比较主串,一旦遇到不相同的则往后移以为,重新开始比较,直到比对完主串,接着第二个模式串继续比较。该方法简单暴力,很好理解,但时间复杂度高,O(mn)。

AC自动机+trie树实现高效多模式匹配字典_第1张图片

AC自动机

AC自动机主要是将 n 个模式串构建成一个确定性的树形有限状态机,然后将主串作为该有限状态机的输入,使该状态机进行状态的转换,当到达某些特定的状态时则说明发生模式匹配。

通过例子来理解,以 he、she、his、hers 为模式串,ushers为主串,构成了如下的状态机。

AC自动机+trie树实现高效多模式匹配字典_第2张图片

在状态机内部,可以看到有实线和虚线箭头,优先以实线标明方向转换状态,当无法实线转换时才使用虚线转换。

你可能感兴趣的:(自然语言处理)