KMP字符串匹配详解

首先我们来了解一下KMP是什么,简单来说他就是检查B串在A串中是否出现,字符串匹配最简单的想法就是两层for循环遍历,时间复杂度为O(N^2),暴力解法会有一个很浪费时间的点。举个栗子:

        KMP字符串匹配详解_第1张图片

由于在第五个字符不匹配,那么暴力就是依次往后移位遍历,但我们会发现,字串中会出现相同的字段

KMP字符串匹配详解_第2张图片         由于后缀AB已经遍历相同,那么我们可以从第三个字符也就是'C'来判断,更节省时间,假如我们直接每个位置前面的最长相同前后缀,那么代码就可以写成:      

int KMP(string haystack, string needle) {
        int n = needle.size(); n为字串长度
        int m = haystack.size(); m为主串长度
        vector next(n,0);
        getnext(needle , next); //求最长相等前后缀,这里暂时不展开讲
        int i = 0 , j = 0;
         while(i < m && j < n){
             if(j == -1 || haystack[i] == needle[j]){ //如果相等则i,j依次向后移在匹配 , 这个i=-1则表明,当第一个字符不相同时,也需要往后移,因为第一个字符没有前面字段的最长相等前后缀
                 i++;
                 j++;
             }else j = next[j]; //不相同则回到前面next数组中的位置,即栗子中的'C'位置
         }
         if(j == n) return i - n; //此时表名子串已经匹配完成,输出在主串中的起始位置
         return -1;
    }

        那么此时重点就是求next数组,即最长相等前后缀的长度,此时我们需要做三步,其实求最长相等前后缀长度,实际上也就是子串与子串匹配的过程,举个例子:

         KMP字符串匹配详解_第3张图片

        写的稍微有点复杂,直接上代码:

        

void getnext(string & s , vector & next){
        int i = 0 , k = -1; k的初始位置
        next[0] = -1; //初始位置
        while(i < s.size() - 1){ //这个长度减一的原因是第零个位置已经计算过了
            if(k == -1 || s[i] == s[k]){
                i++;
                k++;
                next[i] = k; 如果相同,那么下个位置从k + 1处来匹配
            }else k = next[k]; 即如果不相同需要回退的位置
        }
    }

        至此已大致讲完,但next数组还需要改进,举个栗子:

KMP字符串匹配详解_第4张图片

 

void getnextval(string & s , vector & next){
        int i = 0 , k = -1;
        next[0] = -1;
        while(i < s.size() - 1){
            if(k == -1 || s[i] == s[k]){
                i++;
                k++;
                if(s[i] == s[k]) next[i] = next[k];
                else next[i] = k;
            }else k = next[k];
        }
    }

         

你可能感兴趣的:(算法)