KMP算法是一种改进的字符串匹配算法。KMP算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是实现一个next()函数,函数本身包含了模式串的局部匹配信息。时间复杂度O(m+n)。
求解问题举例:
给定一下两个字符串str(n位)与ptr(m位),求ptr在srt中出现的次数或者其出现的位置
str = "ababacababadababadadda";
ptr = "ababad";
可以很容易得得出ptr在str中出现了2次,分别在str的6位和12位开始
普通算法暴力破解需要从每个str的字符开始对ptr进行匹配,如果该字符匹配失败,继续下以一个字符为始匹配ptr,时间复杂度为O(m*n),然而kmp可以使其时间复杂度降低为O(m+n)
next数组即为ptr中相同前后缀的最长长度,用-1代表没有,0代表1个字符,1代表2个字符,以此类推
eg: ptr 'ababaca',next数组有ptr长度位,即7位
对第一位'a'而言,没有相同前后缀,next[0] = -1
对前两位'ab'而言,next[1] = -1
对前三位'aba'而言,next[2] = 0
以此类推,next为[-1, -1, 0, 1, 2, -1, 0]。 注意‘ababa’中前后缀为aba和aba,前缀不包含最后一位,后缀不包含第0位,意味着前后缀不能等于总长。
这样做有什么好处呢?如下图所示
最上方为str,下方为ptr,3 4 为ptr在最后一位a之前的最长相同前后缀(3和4相同)。当ptr和str匹配到ptr的最后一位,发现ptr中最后一位为a,而str的对应为置为c。此时,1和2对应ptr的最长后缀3和4,所以1和2 相同。如果暴力匹配,应当取str[1]与ptr从[0]开始匹配,但是有了next,没有必要用暴力匹配的方式,因为中间一定匹配不到,直接在2的开始于3进行匹配即可,也就是说,比较2和3后面的是否相同
由此可见,不是简单的循序遍历,而是根据next表进行有选择的遍历
def cal_next(ptr):
next = [-1]
# ptr第一位的没有最长前后缀,直接赋值为-1
k = -1
# k代表最长前后缀长度,赋值为-1
for p in range(1, len(ptr)):
# 从第二位开始遍历ptr
while k>-1 and ptr[p]!=ptr[k+1]:
# 假设已有最长前缀为A,最长后缀为B,B的下一位ptr[p] != A的下一位ptr[k+1]
# 说明最长前后缀不能持续下去
k = next[k]
# 往前回溯,尝试部分前缀,而非从第一位开始重新寻找最长前缀
if ptr[p] == ptr[k+1]:
# 如果A B的下一位相同
k = k + 1
# 最长前后缀长度 + 1
next.append(k)
# 第p位的最长前后缀赋值为k
print('next: ', next)
return next
这段和求解next非常相似
def kmp(str, ptr):
next = cal_next(ptr) # 求解next
k = -1 # 此处k相当于ptr中已匹配的长度,类似一个指针指向ptr中已匹配的最后一位
num = 0 # str中ptr的数量
for p in range(len(str)):
# 遍历str
while k>-1 and str[p] != ptr[k+1]:
# 假设str中的A片段和ptr中的前A位已匹配,但A的下一位和ptr中A+1位不匹配
k = next[k]
# 放弃A片段中的前若干位,因为它们不可能再匹配了
# 用A片段的后若干位去匹配ptr中某一个最大前缀,像上面矩形图所示
if str[p] == ptr[k+1]:
# 如果A的下一位和ptr中A+1位相匹配
k = k+1
if k == len(ptr)-1: # 如果ptr走到尽头
num = num + 1 # 匹配到了一个
k = next[k]
return num
这里需要注意的是ptr匹配完成后下一次匹配该怎么走,也就是倒数第二行。例如有:
str = 'abcdabcd'
ptr = 'abcd'
当第一次匹配后,str走到了第一个d位,ptr走到了尽头,那么应该接着str的第二个a与ptr的第一位匹配。但是有以下问题:
str = 'abcabcabde'
ptr = 'abcab'
下一次匹配str虽然是从第三个a开始,ptr却不能从第一个a开始,因为很明显, 这里应该有两个匹配,如果ptr从第一个a开始,就会导致第二个匹配被错过。所以应该与此时ptr最长前后缀的下一位进行匹配,也就是c进行匹配
//错误
abcabcabde
abcab
abcab
-------------------------------------------------------
//正确
abcabcabde
abcab
abcab
所以有
if k == len(ptr)-1:
num = num + 1
k = next[k]
str = 'abcabcabdeabcab'
ptn = 'abcab'
output: 3
ptr长度为m,str长度为n
易得求next的时间复杂度为O(m)(遍历一次)
KMP的时间复杂度基本为遍历一次str,时间是线性的,所以为O(n)