From:http://www.cppblog.com/suiaiguo/archive/2009/07/16/90237.html
KMP 匹配算法是由 "Knuth Morris Pratt" 提出的一种快速的模式匹配算法。
hint:不为自身的最大首尾重复子串长度
1. 待解决的问题:假设P 为给定的子串, T 是待查找的字符串,要求从 T 中找出与 P 相同的所有子串,这称为模式匹配问题。 ( 可以给出子串在 T 中的位置 ) ( 下文中提到的 P 和 T 分别为子串和目标串 )
让我们先来看个例题:
T |
T0 |
T1 |
T2 |
T3 |
…… |
Tm-1 |
…… |
Tn-1 |
P |
P0 |
P1 |
P2 |
P3 |
…… |
Pm-1 |
|
|
从T 的最左边开始比较,使得 TK = PK ,则匹配成功。
2.解决模式匹配问题的方案:
A:朴素的模式匹配算法 ( 思路简单 , 但不够简便,时间长,有回溯 ) :最简单和最直接的做法,用 P 中的字符依次与 T 中的字符进行比较,遇到不相等的字符,则可将 P 右移一个字符,重新进行比较,直到某次匹配成功或者到达 P 的最右字符移出 T 为止。
如:若P="aaaba", T="aaabbaaaba", 则匹配过程如下图
从上不难分析,最坏的情况是“ 每次比较都在最后一个字符出现不等,每趟最多比较 M 次,最多比较 N-M+1 趟,总的比较次数最多为 M*(N- M+1)” ,时间复杂性为 0(M*N) 。 在 P 右移一位时,不管上一趟比较的中间结果是什么,因此回溯是不可避免的 ( 如:前 3 个 aaa 不需要一位一位的移 ) 。下面我来介绍无回溯的 KMP 算法。
3.KMP算法解决匹配中哪些主要问题:
A.当字符串比较出现不等时,确定下一趟比较前,应该将 P 右移多少个字符;
B. P右移后,应该从哪个字符开始和 T 中刚才比较时不等的那个字符继续开始比较。
我们通过朴素模式匹配的例子来引出问题。在第一次比较过程中失败的是P 的第 4 个字符 b ,这表明 P 的前 4 个字符是成功的。模式 P 的第 3 个字符 b 在它的前 3 个 字符 (aaa) 中并未出现。因此,在下一次比较时候,至少要将 P 向后移 4 个字符;再看 P 的第一个字符与最后一个字符是相同的,因此将 P 右移 4 个字符后,再 从第一个字符比较,肯定也是不等的。综上所诉:应该将 P 右移 5 个字符,再从 P 的第 0 个字符和 T 的第 5 个字符开始比较!
KMP算法核心: KMP 算法借助于一个辅助数组 next 来确定当匹配过程中出现不等时,模式 P 右移的位置和开始比较的位置。 next[i] 的 取值只与模式 P 本身的前 i+1 项有关,而与目标 T 无关。匹配过程中遇到 Pi 不等于 Tj 时,若 next[i]>=0 ,则应将 P 右移 i-next[i] 位个字符,用 P 中的第 next[i] 个字符与 Tj 进行比较;若: next[i]= -1 , P 中的任何字符都不必再与 Tj 比较,而应将 P 右移 i+1 个字符,从 P0 和 Tj+1 从新开始下一轮比较 ( 可能不太好理解,自己找个例子,对着话一句一 句试试看 )
因此只要计算出与模式P 相关的 next 数组,按上面的含义,就可以很容易地给出串的匹配算法。 ( 问题就这样转化了 )
C.next的计算:以 P = " 01001010100001" 为例。
如1 :我们要算 next[2] 的值 , 有关的为 P 本身的前 2 个字符 0,1 。在字符串 01 中,寻找出 “ 左右相同的最大字符串,此字符串所含字符的个数就为next[i] 的值 ”而 0 不等于 1 ,相同字符串不存在,所以 next[i] = 0 ;
如2 :我们要算 next[6] 的值,有关的为 P 本身前 6 个字符 010010 。此字符串中 010 = 010 左右相同的最大字符串为 010 ,个数为 3 。所以 next[i]=3 ;
如3 :我们要算 next[5] 的值,有关的为 P 本身前 5 个字符 01001 。此字符串中 01=01 左右相同的最大字符串为 01 ,个数为 2 。所以 next[i]=2 ;
#include<stdio.h> #include<string.h> #include<stdlib.h> FILE *fin=fopen("test.in","r"); FILE *fout=fopen("test.out","w"); char s1[200],s2[200]; int next[200]; int max(int a,int b) { if(a>b) return a; return b; } void getnext() { memset(next,0,sizeof(next)); int i=-1,j=0; next[0]=-1; while(j<strlen(s2)) { if(i==-1||s2[i]==s2[j]){ i++; j++; next[j]=i; } else i=next[i]; } } int KMP() { int i=0,j=0,len1=strlen(s1),len2=strlen(s2); while((i<len1)&&(j<len2)) { if(j==-1||s1[i]==s2[j]) {j++;i++;} else j=next[j]; } if(j==len2) return i-len2; else return -1; } int index_KMP() { int i=0,j=0,len1=strlen(s1),len2=strlen(s2),re=0; while(i<len1&&j<len2) { if(j==-1||s1[i]==s2[j]) {i++;j++;} else j=next[j]; re=max(re,j); } return re; } int main() { fscanf(fin,"%s",s1); for(int i=1;i<=3;i++) { fscanf(fin,"%s",s2); getnext(); fprintf(fout,"%d %d/n",KMP(),index_KMP()); } return 0; }