Javascript实现KMP算法

上一篇博客写了BF算法的Javascript实现思路。

网页地址:Javascript实现BF算法

KMP Substring Search

kmp算法的精髓就在于next数组,从而达到跳跃式匹配的高效模式。而next数组的值是代表着字符串的前缀与后缀相同的最大长度,(不能包括自身)。

"前缀"指除了最后一个字符以外,一个字符串的全部头部组合;

"后缀"指除了第一个字符以外,一个字符串的全部尾部组合。

KMP基本思想

来自知乎网友:逍遥行

角色:

甲:abbaabbaaba
乙:abbaaba

乙对甲说:「帮忙找一下我在你的哪个位置。」

甲从头开始与乙一一比较,发现第 7 个字符不匹配。

要是在往常,甲会回退到自己的第 2 个字符,乙则回退到自己的开头,然后两人开始重新比较。[1]这样的事情在字符串王国中每天都在上演:不匹配,回退,不匹配,回退,……

但总有一些妖艳字符串要花出自己不少的时间。

上了年纪的甲想做出一些改变。于是甲把乙叫走了:「你先一边玩去,我自己研究下。」

甲给自己定了个小目标:发生不匹配,自己不回退。

甲发现,若要成功与乙匹配,必须要匹配 7 个字符。也就是说,就算自己回退了,在后续的匹配流程中,肯定还要匹配自己的第 7 个字符。

当在甲的某个字符 c 上发生不匹配时,甲即使回退,最终还是会重新匹配到字符 c 上。

那干脆不回退,岂不美哉!

甲不回退,乙必须回退地尽可能少,并且乙回退位置的前面那段已经和甲匹配,这样甲才能不用回退。

如何找到乙回退的位置?

「不匹配发生时,前面匹配的那一小段 abbaab 于我俩是相同的」,甲想,「这样的话,用 abbaab 的头部去匹配 abbaab 的尾部,最长的那段就是答案。」

具体来说,
abbaab 的头部有 a, ab, abb, abba, abbaa(不包含最后一个字符。下文称之为「前缀」)
abbaab 的尾部有 b, ab, aab, baab, bbaab(不包含第一个字符。下文称之为「后缀」)
这样最长匹配是 ab,乙回退到第三个字符和甲继续匹配。

「要计算的内容只和乙有关」,甲想,「那就假设乙在所有位置上都发生了不匹配,乙在和我匹配之前把所有位置的最长匹配都算出来(算个长度就行),生成一张表,之后我俩发生不匹配时直接查这张表就行。」

据此,甲总结出了一条甲方规则:

所有要与甲匹配的字符串,必须先自身匹配:对每个子字符串 [0...i],算出其「相匹配的前缀与后缀中,最长的字符串的长度」。

甲把乙叫了回来,告诉他新出炉的甲方规则。

「小 case,我对自己还不了解吗」,乙眨了一下眼睛,「那我回退到第三个字符和你继续匹配就行了」。


next数组计算举例


将j导入next函数,即可求得,

j=1时,next[0]=0;(因为在第0位之前是没有数据的,一般直接可以在代码中直接赋值)

j=2时,k的取值为(1,j)的开区间,所以整数k是不存在的,那就是第三种情况,next[2]=1;

j=3时,k的取值为(1,3)的开区间,k从最大的开始取值,然后带入含p的式子中验证等式是否成立,不成立k取第二大的值。现在是k=2,将k导入p的式子中得,p1=p2,即“a”=“b”,显然不成立,舍去。k再取值就超出范围了,所以next[3]不属于第二种情况,那就是第三种了,即next[3]=1;

j=4时,k的取值为(1,4)的开区间,先取k=3,将k导入p的式子中得,p1p2=p2p3,不成立。 再取k=2,得p1=p3,成立。所以next[4]=2;

j=5时,k的取值为(1,5)的开区间,先取k=4,将k导入p的式子中得,p1p2p3=p2p3p4,不成立。 再取k=3,得p1p2=p3p4,不成立。 再取k=2,得p1=p4,成立。所以next[4]=2;

j=6时,k的取值为(1,6)的开区间,先取k=5,将k导入p的式子中得,p1p2p3p4=p2p3p4p5,不成立。 取k=4,得p1p2p3=p3p4p5,不成立。再取k=3,将k导入p的式子中得,p1p2=p4p5,成立。所以next[4]=3;

j=7时,k的取值为(1,7)的开区间,先取k=6,将k导入p的式子中得,p1p2p3p4p5=p2p3p4p5p6,不成立。  再取k=5,得 p1p2p3p4=p3p4p5p6 ,不成立。 再取k=4,得 p1p2p3=p4p5p6 ,成立。所以next[4]=4;

j=8时,k的取值为(1,8)的开区间, 先取k=7,将k导入p的式子中得,p1p2p3p4p5p6=p2p3p4p5p6p7,不成立。  再取k=6,得p1p2p3p4p5=p3p4p5p6p7,不成立。 再取k=5,得p1p2p3p4=p4p5p6p7,不成立。 再取k=4,得p1p2p3=p5p6p7,不成立。 再取k=3,得p1p2=p6p7,不成立。再取k=2,得p1=p7,不成立。k再取值就超出范围了,所以next[3]不属于第二种情况,那就是第三种了,即next[3]=1;

所以结果为:

 

对于上面这种next数组的计算方法,实现起来比较容易。

核心代码

对于字符串:aaaab。它的next数组计算如下:

附上我手算的next数组结果:

源代码可见我GitHub:KMP_next_1

未搞懂的地方

但是相同的代码在C++编译却有不同的效果:

 

对于next数组的求值,正确答案应该是 01234 ,个人对于最后这个数据的求值有点不太懂,源码在我GitHub,希望有大佬可以指点。index_next.html

难道是JavaScript语言有什么不同吗?

你可能感兴趣的:(数据结构与算法)