数据结构: 字符串匹配KMP算法

字符串匹配KMP算法

KMP算法的流程

  • 假设现在文本串S匹配到 i 位置,模式串P匹配到 j 位置
    • 如果j = -1,或者当前字符匹配成功(即S[i] == P[j]),都令i++,j++,继续匹配下一个字符;
    • 如果j != -1,且当前字符匹配失败(即S[i] != P[j]),则令 i 不变,j = next[j]。一直回溯到匹配或者-1;

next数组的含义

  • next 数组各值的含义:代表当前字符之前的字符串中,有多大长度的相同前缀后缀。
  • 例如如果next [j] = k,代表j 之前的字符串中有最大长度为k 的相同前缀后缀。
  • 在某个字符失配时,该字符对应的next 值会告诉你下一步匹配中,模式串应该跳到哪个位置(跳到next [j] 的位置)。
  • 如果next [j] 等于0或-1,则跳到模式串的开头字符,若next [j] = k 且 k > 0,代表下次匹配跳到j 之前的某个字符,而不是跳到开头,且具体跳过了k 个字符。

计算一个模式串的next数组代码如下:

/*
next 数组含义:代表当前字符之前的字符串中,有多大长度的相同前缀后缀
*/
void cal_next(const string &pattern, vector &next) {
    int m = pattern.size();
    int j = -1;
    next[0] = -1;

    for (int i = 1; i < m; i++) {
        while (j > -1 && pattern[j + 1] != pattern[i]) {
            j = next[j];// 不匹配,要一直回溯到匹配的地方或者说是-1
        }
        if (pattern[j + 1] == pattern[i]) {
            j++;
        }
        next[i] = j;
    }
}

两个字符串匹配代码

int kmp(const string &text,const string& pattern) {
    int n = text.size();
    int m = pattern.size();
    if (m == 0) {
        return 0; // 当模式的长度为0,返回0;
    }
    vector next(m, 0);
    cal_next(pattern,next);
    int j = -1;
    for (int i = 0; i < n;i++) {
        while (j > -1 && text[i] != pattern[j + 1]) {
            j = next[j];// 不匹配,要一直回溯到匹配的地方或者说是-1
        }
        if (text[i] == pattern[j + 1]) {
            j++;
        }
        if (j == m-1) { // 遍历完成
            return i - j;
        }
    }
    return -1;
}

参考文献

从头到尾理解

你可能感兴趣的:([数据结构与算法])