详解KMP算法,理解并记忆KMP

这几天看了很多人讲解的KMP算法,大家说的不太一样,自己总结一个容易理解记忆的思路,彻底搞定KMP算法......!!

KMP算法是解决字符串模式匹配问题。那么首先声明要搜索的字符串为S,长度为n,要匹配的串为M,长度为m。

那么对于直观理解KMP,总结其他人的讲解,总结如下:

先介绍几个概念:

1、前缀、后缀(注意前缀和后缀都是字串,不包括原有完整串)


2、部分匹配表

"部分匹配值"就是"前缀"和"后缀"的最长的共有元素的长度。以"ABCDABD"为例,

  - "A"的前缀和后缀都为空集,共有元素的长度为0;

  - "AB"的前缀为[A],后缀为[B],共有元素的长度为0;

  - "ABC"的前缀为[A, AB],后缀为[BC, C],共有元素的长度0;

  - "ABCD"的前缀为[A, AB, ABC],后缀为[BCD, CD, D],共有元素的长度为0;

  - "ABCDA"的前缀为[A, AB, ABC, ABCD],后缀为[BCDA, CDA, DA, A],共有元素为"A",长度为1;

  - "ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA],后缀为[BCDAB, CDAB, DAB, AB, B],共有元素为"AB",长度为2;

  - "ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB],后缀为[BCDABD, CDABD, DABD, ABD, BD, D],共有元素的长度为0。


所以产生如下部分匹配表:


3、移动步数




如上图所示:M中灰色的部分是已经和S中灰色部分匹配上的,而灰色后是不匹配的,则M向后移动,假设一直向后移动,直到如图位置又和S再一次匹配上了,此时最多能移动多少呢?很简单,就是已经匹配上的长度(即灰色的部分长度)-A(或B)的长度,那么A(或B)的长度就是上面介绍的部分匹配值。所以移动步数 = 已匹配的字符数 - 已匹配的最后一个字符对应的部分匹配值。

读到这里,就应该对KMP算法完全理解了。

上面的讲解是为了理解KMP算法,但是如果按照上面的思路编程,会很复杂,所以编程实现时,我们加一些变化!



next[i]的值表示的是最长前缀的下一个位置。即next[i]的值是最长匹配串的长度。i表示的是[0,...i]的字串。

j=next[i],灰色部分表明这两段字符是相等的,如果i位置的字符和j位置的字符相等,那么next[i+1]=j+1;因为前一段灰色部分和j位置的字符组成的字符串和后一段灰色的与i连接所形成的字符串是相等的。这正是前面对next数组的定义。如果不相等,则要找到从i开始包括i往前的一段字符串与从0开始的一段字符串相等,这样形成相等的前缀和后缀。所幸我们知道next[next[i]]的值,因为next[i]前面的字串也有最长的公共前缀和后缀,而这个公共的前缀与现在i以及往前形成的字串可能相等,这样一直向前找,如果找不到,则说明i位置的字符从来没有在之前出现过。

这样求出来的next数组其实是从下标1开始的,因为下标0之前是个空串,下标1则对应着M串的第0个字符。我们设next[0]=-1,仅仅是个标志而已,没有什么特殊的含义。

那么根据前面所述,可以很容易的写出初始化next数组的代码

void getNext(char *str,int *next){
        int len=strlen(str);
        if(len==0){
            return;
        }
        next[0]=0;
        for(int i=1;i0&&str[i]!=str[j]){
                j=next[j-1];
            }
            if(str[i]==str[j]){
                next[i]=j+1;
            }else{
                next[i]=0;
            }
        }
    }
知道了了next后,kmp搜索则相对简单了,即如果不匹配就查询next数组即可
int KMP(const char *str, const char *dest) {
	int slen = strlen(str);
	int dlen = strlen(dest);
	int i = 0, j = 0;
	int *next = new int[dlen];
	getNext(dest, next);
	while (i < slen && j < dlen) {
		if ( str[i] == dest[j]) {
			i++;
			j++;
		} else if(j==0){
			i++;
		}else{
			j = next[j-1];
		}
	}
	if (j == dlen) {
		return i - j;
	} else {
		return -1;
	}
}

KMP算法的时间复杂度为O(n+m)

参考:

http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html

http://chaoswork.com/blog/2011/06/14/kmp%E7%AE%97%E6%B3%95%E5%B0%8F%E7%BB%93/

你可能感兴趣的:(算法)