KMP

字符串匹配:KMP,就是给出一个长串T,给出一个短串P,求T是否包含子串P,若包含,输出第一个子串的位置。否则输出-1。

首先假定i是T的指针,j是P的指针。
对于传统的匹配模式,每当T[i] != P[j]时,我们会把j变成0,i跳回到刚才匹配的起始位置的下一个位置重新进行匹配,这样复杂度是O(n*m).

但是对于KMP思想,可以先构造一个next数组,next[j] = k 表示,短串中的子串0 ~ j的串中,以P[j]结尾的后缀串,与该子串中以P[0]开头的前缀串重复时,k的位置。
即有P[0] ~ P[k] = P[j - k] ~ P[j].

这样,在匹配过程中当短串匹配到j,长串匹配到了i,然后下一个字符不匹配,那么其实P[0] ~ P[j] 是与 T[i - j] ~ T[i]是匹配的。那么,我们利用短串中后缀与前缀的关系,让下一次匹配的位置变成next[j].假设next[j] = k,那么其实短串中的P[0] ~ P[k]是已经与长串中的T[i - k] ~ T[k]是匹配过的了(一开始与后缀匹配成功了,而这个前缀和后缀是相同滴)。所以就这样匹配下去了。


//
另外注意的是,得到的后缀和前缀的长度都是k,且这个k应该是最长的,能满足前缀和后缀相等的值。因为KMP匹配过程中,长串的指针j是不需要回溯的,所以我们要保证能利用到j前面那些匹配成功的字符。

如果不是k最长的反例:
假设长串aaaaaab
短串aaaaab
若令next[0] = next[5] = -1 ; next[1] ~ next[4] = 0;
则会发现返回的结果是匹配不成功。
(因为长串的指针不回溯,需要利用到前面那段匹配过的结果)
///

言归正传,KMP,下面是对于整型的情况(HDU 1711)

void get_next(int *p, int *next) //p是短串
{
int i = 1, j = 0;
next[0] = -1;
while (i < m) //m是短串长度
{
if (p[i] == p[j])
{
next[i] = j;
j++;

}
else
{
if (p[i] == p[0])
{
next[i] = 0;
j = 1;

}
else
{
next[i] = -1;
j = 0;
}
}
++i;
}
}
void kmp()
{
int i = 0, j = 0;
while (i < n) //n是长串长度
{
if (T[i] == P[j]) //P是短串,T是长串
{

if (j == m - 1)
{
printf("%d\n", i - j + 1);
break;
}
++i, ++j;
}
else
{
if (j == 0)
{
j = 0;
i++;
}
else j = nex[j - 1] + 1;
}
}
if (i == n) printf("-1\n");
}

你可能感兴趣的:(KMP)