九野的博客,转载请注明出处 http://blog.csdn.net/acmmmm/article/details/9863495
-------------------------------------------------------------------------------------
KMP的失配数组 f 含义:
i 0 1 2 3 4 5 6 7 8 9 10 11
P[i] a b r a c a d a b r a 无
f[i] 0 0 0 0 1 0 1 0 1 2 3 4
仔细观察就能得出 f 数组的含义:字符串 P 的前缀与 i位置的后缀的最大匹配字符个数-1。
比如第10号位置
P: ABRA······
······ABRA
1、此时f[i] = 最大匹配字符个数-1.
2、也是第二个字母A在 P中的下标。
-------------------------------------------------------------------------------------
循环节概念:
如字符串 P = "ABCABCABCABC"
则这里的循环共有3个: 1、ABC 2、ABCABC 3、ABCABCABCABC
就是把一定长度的前缀重复数次就能得到自身。
而 ABC 又叫最小循环节
-------------------------------------------------------------------------------------
再看失配数组:
i 0 1 2 3 4 5 6 7 8 9
P: a b c a b c a b c 无
f: 0 0 0 0 1 2 3 4 5 6
---
先给出结论:
如果 i % (i-f[i]) ==0 则=>字符串P[0-i] 这段的字符串的最小循环节一定是{ {P[0],P[1],P[ i-f[i] ]}, {P[i-f[i]+1,···}
也就是说 P[0-i] 最小循环节长度为 i - f[i]
比如 i==5时字符串P[0-i]为:abcabc, i - f[i] = 3 ,即abc
比如 i==8时字符串P[0-i]为:abcabcabc, i - f[i] = 3 ,即abc
----
证明:
1、循环节长度
比如字符串长度为16 那么,循环节长度只可能是 1,2,3,4,8,16.(当然自身是自身的循环节没啥意思,忽略16,那么剩下的就是16的因子)
设ABCD长为16,每段长度为4。
当i==16时,f[i] = 12.
满足等式 i % (i-f[i]) == 0。
由f[i] 含义得到前12个字符和后12个字符相同。
因为12 % (i-f[i])同样=0,所以把12分成 12/(i-f[i]) 份,即分成3份。
再由ABC = BCD =:> A=B && B=C && C=D.
由等式连等得到 A=B=C=D
循环节证毕。
#include <stdio.h> #include <string.h> char T[10000],P[100];//从0开始存 int f[100];//记录P的自我匹配 void getFail(){ int m=strlen(P); f[0]=f[1]=0; for(int i=1;i<m;i++){ int j=f[i]; while(j&&P[i]!=P[j])j=f[j]; f[i+1]= P[i]==P[j] ? j+1 : 0; } } int find(){//返回第一个P 在 T 中出现的位置 int len1=strlen(T),len2=strlen(P); getFail(); int j=0; for(int i=0;i<len1;i++) { while(j&&P[j]!=T[i])j=f[j]; if(P[j]==T[i])j++; //到这一步,j就代表 T[i]已经匹配了前面j个P的字符串 if(j==len2)return i - len2 + 1; } return -1; //表示 P 不存在于 T }
----------------------------------
我们想象一下KMP函数的执行过程:
i
↓
S1:ACM MECKSDLF
S2:ASFDJKLEDHV
f2:01349098203045 //乱写的
↑
j
显然i是不停→移动,而j是不停进行失配过程。
则当i移动到S1结尾时,j所在的位置就是j所失配的位置。(注意此时i是超过S1的(在最后一个字母后面一位, 且j不一定与S1[i]匹配 ,但S2[j](不包括S2[j]前面的一定与S1匹配)
而pos 是S2的前缀与S1的后缀最大匹配字母数。 因此S2[pos]是不与S1匹配的!
-----------------------------------------
失配数组优化:
#define N 300005 char T[N];//从0开始存 int f[N];//记录P的自我匹配 void getFail(int len, char *P) { int i = 0, j = -1; f[0] = -1; while(i != len) { if(j == -1 || P[i] == P[j]) f[++i] = ++j; else j = f[j]; } } int KMP(int *f2, char *S1, char *S2, int lens1, int lens2){ //f2是S2的失配数组 getFail(lens2, S2); int pos = 0, len = lens1, j = 0, i = 0; int gg = 0; while(i <= len) { while(j!=-1 && S1[i] != S2[j]) j = f2[j]; i++, j++; gg = max(j, gg); if(i == len) pos = max(pos, j); } //if(gg == lens2)return gg; //gg是S2在S1中任意位置起的最大匹配个数 return pos; //这样得到的是S1的尾部和S2的前缀的 最大匹配字符个数 }
优化版失配数组详见:http://blog.csdn.net/niushuai666/article/details/6965517