使用Python语言写一个简单的KMP模式匹配算法实现

  • KMP算法简介
    KMP算法,是由Knuth,Morris,Pratt共同提出的模式匹配算法,其对于任何模式和目标序列,都可以在线性时间内(O(m+n):m和n分别为模式字符串与主串的长度)完成匹配查找,而不会发生退化,是一个非常优秀的模式匹配算法。
    KMP模式匹配的关键点在于该算法会根据模式字符串生成一个Next跳转表。
    Next[j]的值表明,在前j个字符中,从第一个字符开始的next[j]个字符与 j-next[j]+1至 j-1 个字符是相互匹配的!
    因此在字符串匹配时,一旦发生不匹配,算法并不是将模式串移动1位,再从头开始匹配,而是直接将模式字符串向右移动next[j]位,再进行匹配。
    更多关于KMP算法的原理内容,请参考:joylnwang的专栏
    文章

  • 使用Python语言实现KMP匹配算法

    • 如何根据模式字符串生成跳转表Next[]
    • 如何根据Next{]以及模式字符串和主串进行模式匹配
  • 以下代码为Python语言的KMP实现:

    • 声明了一个类myKMP,在构造函数中调用create_next生成跳转表
    • 需要说明:本文中的next结果要比常见使用的next的值少1(因为list的下标从0开始)
    • 调用kmp函数可以完成模式匹配并返回结果
    • 一些需要注意的地方写在了程序的注释中
class myKMP(object):
    '''
    构造函数:根据传入的模式字符串,生成next[],存储在list_next中
    '''
    def __init__(self,ss):
        self.int_len = len(ss);  # 计算模式字符串的长度
        self.list_next = self.create_next(ss);     #构造next跳转表
        self.string_module = ss;   #存储模式字符串
        print(self.list_next)   #输出显示next跳转表


    def create_next(self,ss):
    '''
    function:next 的构造过程
    input: 模式字符串
    '''
        list_next = [];           
        list_next.append(-1);      #将-1添加到list中
        i = 0;
        j = -1;
        lenOfSs = len(ss);       #求模式字符串ss的长度
        # 注意:这里比较的对象是ss的长度减去1 
        # 如果是 while( i < lenOfSs) 会导致NEXT的长度比实际长度多1
        # 因为在一开始时已经将-1放入了list_next中,作为第一个字符的跳转值
        while( i < lenOfSs -1):    
            if(j == (-1) or ss[i] == ss[j]):         # 如果满足条件
                print((i,j, ss[i],ss[j]))
                i=i+1
                j=j+1
                list_next.append(j);
            else:
            #如果不满足字符相等的条件,执行该语句,而不是从0开始寻找最长相等的前缀与后缀的长度!!!简化计算
                j = list_next[j]       
        return list_next;

    def kmp(self,main_ss,outputRes=False):
    '''
    function:模式匹配,若存在匹配字符串,返回匹配段的起点下标,否则返回False
    input: 主串、是否输出结果的标志位
    '''
        i = 0;   #指向主串 main_ss
        j = 0;   #指向模式串 ss
        while( j < self.int_len and i < len(main_ss) ):
            if( main_ss[i] == self.string_module[j]):  #当前字符匹配
                i=i+1
                j=j+1
            elif( j == 0):    #如果第一个模式串的字符就不匹配,则移动指向主串的指针
                i =i+1;
            else:            #否则将指向模式串的指针移动至 list_next[j]处
                j = self.list_next[j];
        if( j == self.int_len ):  #如果完成匹配时,j指向模式串的串尾,则匹配成功
            if(outputRes):
                print('The res: ',(True, i-self.int_len))
            return (True, i-self.int_len);
        else:
            return False;

说明:Python初学者,如有谬误欢迎指正!

你可能感兴趣的:(编程练习)