这几天看了很多人讲解的KMP算法,大家说的不太一样,自己总结一个容易理解记忆的思路,彻底搞定KMP算法......!!
KMP算法是解决字符串模式匹配问题。那么首先声明要搜索的字符串为S,长度为n,要匹配的串为M,长度为m。
那么对于直观理解KMP,总结其他人的讲解,总结如下:
先介绍几个概念:
1、前缀、后缀(注意前缀和后缀都是字串,不包括原有完整串)
2、部分匹配表
"部分匹配值"就是"前缀"和"后缀"的最长的共有元素的长度。以"ABCDABD"为例,
- "A"的前缀和后缀都为空集,共有元素的长度为0;
- "AB"的前缀为[A],后缀为[B],共有元素的长度为0;
- "ABC"的前缀为[A, AB],后缀为[BC, C],共有元素的长度0;
- "ABCD"的前缀为[A, AB, ABC],后缀为[BCD, CD, D],共有元素的长度为0;
- "ABCDA"的前缀为[A, AB, ABC, ABCD],后缀为[BCDA, CDA, DA, A],共有元素为"A",长度为1;
- "ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA],后缀为[BCDAB, CDAB, DAB, AB, B],共有元素为"AB",长度为2;
- "ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB],后缀为[BCDABD, CDABD, DABD, ABD, BD, D],共有元素的长度为0。
所以产生如下部分匹配表:
3、移动步数
如上图所示:M中灰色的部分是已经和S中灰色部分匹配上的,而灰色后是不匹配的,则M向后移动,假设一直向后移动,直到如图位置又和S再一次匹配上了,此时最多能移动多少呢?很简单,就是已经匹配上的长度(即灰色的部分长度)-A(或B)的长度,那么A(或B)的长度就是上面介绍的部分匹配值。所以移动步数 = 已匹配的字符数 - 已匹配的最后一个字符对应的部分匹配值。
读到这里,就应该对KMP算法完全理解了。
上面的讲解是为了理解KMP算法,但是如果按照上面的思路编程,会很复杂,所以编程实现时,我们加一些变化!
next[i]的值表示的是最长前缀的下一个位置。即next[i]的值是最长匹配串的长度。i表示的是[0,...i]的字串。
设j=next[i],灰色部分表明这两段字符是相等的,如果i位置的字符和j位置的字符相等,那么next[i+1]=j+1;因为前一段灰色部分和j位置的字符组成的字符串和后一段灰色的与i连接所形成的字符串是相等的。这正是前面对next数组的定义。如果不相等,则要找到从i开始包括i往前的一段字符串与从0开始的一段字符串相等,这样形成相等的前缀和后缀。所幸我们知道next[next[i]]的值,因为next[i]前面的字串也有最长的公共前缀和后缀,而这个公共的前缀与现在i以及往前形成的字串可能相等,这样一直向前找,如果找不到,则说明i位置的字符从来没有在之前出现过。
这样求出来的next数组其实是从下标1开始的,因为下标0之前是个空串,下标1则对应着M串的第0个字符。我们设next[0]=-1,仅仅是个标志而已,没有什么特殊的含义。
那么根据前面所述,可以很容易的写出初始化next数组的代码
void getNext(char *str,int *next){
int len=strlen(str);
if(len==0){
return;
}
next[0]=0;
for(int i=1;i0&&str[i]!=str[j]){
j=next[j-1];
}
if(str[i]==str[j]){
next[i]=j+1;
}else{
next[i]=0;
}
}
}
知道了了next后,kmp搜索则相对简单了,即如果不匹配就查询next数组即可
int KMP(const char *str, const char *dest) {
int slen = strlen(str);
int dlen = strlen(dest);
int i = 0, j = 0;
int *next = new int[dlen];
getNext(dest, next);
while (i < slen && j < dlen) {
if ( str[i] == dest[j]) {
i++;
j++;
} else if(j==0){
i++;
}else{
j = next[j-1];
}
}
if (j == dlen) {
return i - j;
} else {
return -1;
}
}
参考:
http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html
http://chaoswork.com/blog/2011/06/14/kmp%E7%AE%97%E6%B3%95%E5%B0%8F%E7%BB%93/