字符串匹配的Boyer-Moore(BM)算法

字符串匹配的Boyer-Moore(BM)算法

       Boyer-Moore算法不仅效率高,而且构思巧妙,容易理解。1977年,德克萨斯大学的Robert S. Boyer教授和J Strother Moore教授发明了这种算法。

这个算法有两个机制:良好后缀转移机制和不良字符转移机制。

1.下面通过课本《入侵检测技术》的实例简单解释这个算法

字符串匹配的Boyer-Moore(BM)算法_第1张图片

首先字符串和模式串首部对齐,模式串从右向左开始比较。

从尾部开始比较,“a”与“a”相匹配;继续向左“na”与“na”匹配;继续向左“ana”与“ana”匹配。

我们把这种情况称为“良好后缀”(good suffix),即所有尾部匹配的字符串。

注意,“ana”、“na”、“a”都是良好后缀。

再继续向左比较前一位,,发现“b”与“n”不匹配,此时称“b”为不良字符(bad character),即不匹配字符。但是“b”包含在模式串“banana”之中。所以将模式串右移两位使两个“b”对齐。

由此,我们总结出“不良字符规则”:模式串右移位数 = 不良字符的位置 - 模式串中的上一次出现位置

如果“不良字符”不包含在模式串中,则上一次出现位置为-1。

本例中,“b”为不良字符,出现在模式串中的第2位(从0开始编号),在模式串中的上一次出现位置0,所以后移2-0=2位。

从尾部开始逐位比较,发现全部匹配,于是搜索结束。

2.课本例子并未体现出两种机制结合后的更好的移法,故我在网上找到Moore教授自己的例子和其他研究人员的材料来解释这种算法

字符串匹配的Boyer-Moore(BM)算法_第2张图片

首先,字符串和模式串首部对齐,从右向左开始比较。

我们看到“s”与“e”不匹配。这时“s”被称为不良字符。我们还发现“s”不在模式串中,故根据不良字符规则,模式串右移位数=6-(-1)=7位,得到以下匹配:

“p”与“e”不匹配。这时“p”被称为不良字符。但发现“p”在模式串中,故根据不良字符规则,模式串右移位数=6-4=2位,得到以下匹配:

依然从尾部开始比较,“e”与“e”相匹配;继续向左“le”与“le”匹配;继续向左“ple”与“ple”匹配;继续向左“mple”与“mple”匹配;“mple”、“ple”、“le”、“e”都是良好后缀。

继续发现“i”与“a”不匹配,所以“i”是不良字符。根据不良字符规则,此时模式串应该右移2-(-1)=3位。问题是,此时有没有更好的移法?

 

此时我们引出良好后缀转移机制,“良好后缀规则”:模式串右移位数 = 良好后缀位置 – 模式串中的上一次出现的位置

举例来说,如果字符串“ABCDAB”的后一个“AB”是良好后缀。那么它的位置是5(从0开始计算,取最后的“B”的值),在“模式串中的上一次出现位置”是1(第一个“B”的位置),所以后移5-1=4位,即前一个“AB”移到后一个“AB”的位置。

再举一个例子,如果字符串“ABCDEF”的“EF”是好后缀,则“EF”的位置是5,上一次出现的位置是 -1(即未出现上一次),所以后移 5 - (-1) = 6位,即整个模式串移到“F”的后一位。

注意:如果良好后缀有多个,则除了最长的那个后缀,其他后缀的上一次出现位置必须在头部。比如,假定“BABCDAB”的良好后缀是“DAB”、“AB”、“B”,这时良好后缀的上一次出现位置是采用的良好后缀是“B”,它的上一次出现位置是头部,即第0位。这个规则也可以这样表达:如果最长的那个“好后缀”只出现一次,则可以把模式串改写成如下形式进行位置计算“(DA)BABCDAB”,即虚拟加入最前面的“DA”。

回到本例中,此时所有后缀为:mple、ple、le、e,只有e在模式串还出现头部,所以右移距离=6-0=6位。

如果使用不良字符规则,右移位数只能移动3位,而良好后缀规则可以移动6位,所以Boyer-Moore算法的基本思想总结为每次后移位数取这两个规则计算后的较大值。

继续从尾部开始比较,“p”和“e”不匹配,因此“p”是不良字符,直接根据不良字符规则得到后移位数=6-4=2位。

从尾部开始逐位比较,发现全部匹配,于是搜索结束。如果还要继续查找(即找出全部匹配),则根据“良好后缀规则”,右移6-0=6位,即头部的“e”移到尾部的“e”的位置,再开始下一轮字符匹配工作。

 

参考资料:

字符串匹配的Boyer-Moore算法:http://www.ruanyifeng.com/blog/2013/05/boyer-moore_string_search_algorithm.html

你可能感兴趣的:(入侵检测)