[JAVA][算法] [字符串匹配]KMP

我们为什么需要KMP?

字符串匹配问题中,我们需要找到匹配串pattern在原串text中的位置,一种显而易见的思路就是暴力匹配,如图所示,我们把pattern放置到text中的每个位置进行比较即可。

[JAVA][算法] [字符串匹配]KMP_第1张图片

但是大家可以发现,这种方式的时间复杂度太高了,达到了O(pattern.length * text.length),我们是否可以进一步进行优化呢?在第一次匹配时,abaa和abab的最后一个字符不匹配,前面aba都匹配好了,移动了一位之后,发现前面又匹配不上了,这次移动相当于多此一举。换句话说,我们每次移动应当让前面仍然保持匹配状态,直接比较后面的位置。

本例中应当直接移动两位,让aaab和abaa比较,这也就是KMP的基本思想了。
[JAVA][算法] [字符串匹配]KMP_第2张图片

基础知识

[JAVA][算法] [字符串匹配]KMP_第3张图片

求匹配数组maxMatchLens

那么我们如何做到在移动的过程中保证前面的匹配状态呢?下图可以清晰地描述:
[JAVA][算法] [字符串匹配]KMP_第4张图片
发生匹配错误的字符为c,左端为abab,在移动的时候,要保证真前缀和真后缀相等且长度最大(选了较小的会忽略可能正确的结果),对于abab:

真前缀:a ab aba
真后缀:b ab bab

也就是说,我们需要找到pattern中所有位置,相匹配的真前缀与真后缀中,最长的字符串的长度,这也就是我们经常听到的next数组了,这里我们用maxMatchLens来表示,如下图所示的例子中,假设我们已经求出来前面所有的值了,最后一个值如何求解呢?

[JAVA][算法] [字符串匹配]KMP_第5张图片
举例: 第五位 c
在这里插入图片描述

c各参数取值 Value c1 Value c2 Value c3
currentLen 2 1 0
pattern.charAt(currentLen) a b a
i 4 4 4
pattern.charAt(i) c c c
处理 1.while字符不相等 1.while字符不相等 3.赋值 maxMatchLens[4] = currentLen=0;
private int[] getMaxMatchLens(String pattern) {
    int[] maxMatchLens = new int[pattern.length()];
    int currentLen = 0;
    for (int i = 1; i < pattern.length(); i++) {
        while (currentLen > 0 && pattern.charAt(i) != pattern.charAt(currentLen)) {
            currentLen = maxMatchLens[currentLen - 1];
        }
        if (pattern.charAt(i) == pattern.charAt(currentLen)) {
            currentLen++;
        }
        maxMatchLens[i] = currentLen;
    }
    return maxMatchLens;
}

KMP匹配

返回起始坐标 (text里面找pattern)
匹配的思路与求maxMatchLens的思路基本一致,即按照最长、次长的顺序进行移位匹配,代码如下:


private List<Integer> search(String text, String pattern) {
    List<Integer> res = new ArrayList<>();
    int[] maxMatchLens = getMaxMatchLens(pattern);
    int j = 0;
    for (int i = 0; i < text.length(); i++) {
        while (j > 0 && text.charAt(i) != pattern.charAt(j)) {
            j = maxMatchLens[j - 1];
        }
        if (pattern.charAt(j) == text.charAt(i)) {
            j++;
        }
        if (j == pattern.length()) {
            res.add(i - j + 1);
            j = maxMatchLens[j - 1];
        }
    }
    return res;
}


参考链接:https://leetcode-cn.com/problems/longest-happy-prefix/solution/ni-zhen-de-li-jie-kmpma-jiao-ni-xun-su-zhang-wo-bi/
参考链接:https://blog.csdn.net/V_0617/article/details/79114860

你可能感兴趣的:(java,算法,java,算法,KMP,字符串匹配)