java KMP模式匹配算法解析,及其代码实现

KMP算法思想及其代码实现
概念解释:
KMP也是一种模式匹配算法,简单来说就是将子串与主串去匹配,查找子串是否存在与主串中。之前分析过得BF算法,虽然它也是一种简单常用的模式匹配算法,但我们可以发现,在BF算法中主串的每一个字符都要和子串第一位进行匹配,时间复杂度是O(m*n),有很多重复的步骤,所以KMP算法算是简化了BF的步骤,利用之前判断过得信息,通过一个next数组,保存模式串中前后最长公共子序列的长度,每次回溯时,通过next数组找到,前面匹配过的位置,大大避免了重复遍历的情况,省去了大量的计算时间。
原理分析:
如果主串String str = "abcdefgab"中,要匹配子串String sub = “abc dex”,那如果按照之前的BF算法,在第一步中可以判断前5个字符全部相等(如下图1),直到第六个,“f”与“x”不等,接下来就要继续23456步骤,但其实仔细观察可以发现,主串中前5个字符“abcde”都不相等,子串前5个字符与主串前5个完全匹配,所以可以判断子串的第一个“a”和主串的“bcde”都不可能相等,所以2345步就没有必要再比较一遍,所以目前只保留16步就可以了,中间都可以省略。
java KMP模式匹配算法解析,及其代码实现_第1张图片
之所以保留⑥是因为在①中str[6]!=sub[6],但不能因此判断str[6]!=sub[1],所以保留继续判断。
在此i是不回退的,那么一次次的比较都是由子串的下标j变换,上面提到子串与主串一样,首字符与其身后的字符比较不等,所以发生了回退,所以j值的变化会与自己本身所处串的结构是否有重复有关。
next数组推导:
把sub串各位置j值的变化定义为一个数组next,集合不空时可以通过以下方式得到:
java KMP模式匹配算法解析,及其代码实现_第2张图片
口诀:在已匹配的字符串中找到两个相等的真子串,一个串是以1下标开始,另一个以j-1结尾。
举例推导next数组:
Sub = “abcdex”
java KMP模式匹配算法解析,及其代码实现_第3张图片
代码实现:

 /*
        复习
        KMP算法  时间复杂度m+n   i不回退,j回退到该回退的位置
        P0.....Pk-1 = Pj-k.....Pj-1
        在已匹配的字符串中,找到两个相等的真子串,一个串是以0下标开始,另一个以j-1下标结尾
         next数组 :可参考书籍:大话数据结构
         next[0] = -1;
         next[1] = 0;....
         例如:a a a a b a a a b a b c
         next: x 0 1 2 3 0 1 2 3 0 1 0
         */
public class TestDemo {
  private static int[]getNext(char[] sub){
            int[] next = new int[sub.length];
            next[0] = -1;
            next[1] = 0;
            int i = 2,k=0;
            while (i

结果展示:

请输出主串str:abcdefabcdex
请输出子串sub:abcdex
若找到,请输出对应的主串下标:6
请输出next数组:[-1, 0, 0, 0, 0, 0]

参考书籍《大话数据结构》

你可能感兴趣的:(java KMP模式匹配算法解析,及其代码实现)