KMP算法实现strStr(c++代码实现)

1 KMP算法简介

KMP算法是一个解决字符串匹配问题的算法,由D.E.Knuth,J.H.Morris和V.R.Pratt提出。当给你一个主串str和一个子串substr,如何确定substr在主串中出现的位置?如果没有学习KMP算法,我们可能会写出这样的代码

int strStr(string str, string substr)
{
  	if(str.size() < substr.size())
    {
      	return -1;
    }
  	int start1 = 0;//遍历主串
  	int start2 = 0;//遍历子串
  	int next = 1;//如果本次匹配失败,主串回退的位置。
  	while(start1 < str.size())
    {
      	if(str[start1] == substr[start2])
        {
          	start1++;
          	start2++;
          	if(start2 == substr.size())
            {
              	//找到了
              	return start1 - substr.size();
            }
        }
      	else
        {
          	//主串回退到next,子串回退到0
          	start1 = next;
          	next++;
          	start2 = 0;
        }
    }
  	return -1;
}

我们发现这样写每次匹配失败的时候主串都会回退到next,子串回退到起始位置。而KMP算法的主要思想就是在匹配失败的时候,主串不回退,子串尽可能的少回退。下面我们来学习一下是如何实现的。

2 KMP算法原理

2.1 next数组

首先在学习KMP算法之前,我们需要先引入next数组的概念。假如给定一个字符串s,这个字符串的next数组是一个整形数组,next[i]里保存的是字符串下标[0, i)范围内,找到两个相等的真子串,一个子串从0开始,一个子串以i-1结尾,next[i]保存的就是相等真子串的长度。我们规定next[0] = -1, next[1] = 0;下面我们举个例子求一下next数组。

  • 给定string s = “abcabc”,求该子串的next数组。

    KMP算法实现strStr(c++代码实现)_第1张图片

上面的例子我们是通过肉眼看出来的next数组,那我们如何写代码实现一个求next数组的方法呢?

假设next[i] == k,则有 s[0]s[1]…s[k-1] == s[x]…s[i-1];如果s[k] == s[i],则s[0]…s[k] == s[x]…s[i];则next[i+1] == k+1;如果s[k] != s[i], k要不断回退到next[k],直到回退到-1或s[k] == s[i]为止。下面我们来写代码实现一下

void GetNext(string& s, vector<int>& next)
{
  	int i = 1;
    int k = 0;
  	while(i < s.size()-1)
    {
      	if(k == -1 || s[k] == s[i])
        {
          	next[i+1] = k+1;
          	i++;
          	k++;
        }
      	else
        {
          	k = next[k];
        }
    }
}

2.2 KMP算法实现strStr

此时我们已经求好next数组,我们让start1不回退,start2每次回退到next[start2];

int strStr(string& str, string& substr)
{
  	if(str.size() < substr.size())
    {
        return -1;
    }
  	vector<int> next(substr.size(), 0);
  	next[0] = -1;
  	GetNext(substr, next);
  	int start1 = 0;
 		int start2 = 0;
  	while(start1 < str.size())
    {
      	if(str[start1] == substr[start2])
        {
          	start1++;
          	start2++;
            if(start2 == substr.size)
            {
              	return start1 - substr.size();
            }
        }
      	else
        {
          	start2 = next[start2];
        }
    }
  	return -1;
}

你可能感兴趣的:(数据结构,算法,c++,数据结构)