代码随想录二刷 |字符串 |实现strStr()

@[toc](代码随想录二刷 |字符串 |实现strStr())

题目描述

28.实现strStr()

给你两个字符串 haystack 和 needle ,请你在 haystack 字符串中找出 needle 字符串的第一个匹配项的下标(下标从 0 开始)。如果 needle 不是 haystack 的一部分,则返回 -1 。

示例 1:

输入:haystack = “sadbutsad”, needle = “sad”
输出:0
解释:“sad” 在下标 0 和 6 处匹配。
第一个匹配项的下标是 0 ,所以返回 0 。

示例 2:

输入:haystack = “leetcode”, needle = “leeto”
输出:-1
解释:“leeto” 没有在 “leetcode” 中出现,所以返回 -1 。

提示:

  • 1 <= haystack.length, needle.length <= 104
  • haystack 和 needle 仅由小写英文字符组成

解题思路 & 代码实现

KMP算法经典题目。

KMP算法的思想是:当字符串出现不匹配时,可以记录一部分之前已经匹配的文本内容,利用这些信息避免从头再去匹配。

什么是KMP算法

因为是由这三位学者发明的:Knuth,Morris和Pratt,所以取了三位学者名字的首字母。所以叫做KMP

KMP有什么用

KMP主要使用在字符串匹配上,如何记录已经匹配的文本内容,是KMP的重点,也是next数组肩负的重任。

什么是前缀表

next数组就是一个前缀表(prefix table)。

前缀表的作用是用来回退的,它记录了模式串与主串(文本串)不匹配的时候,模式串应该从哪里开始重新匹配。

为了清楚地了解前缀表的来历,我们来举一个例子:

要在文本串:aabaabaafa 中查找是否出现过一个模式串:aabaaf。

请记住文本串和模式串的作用,对于理解下文很重要,要不然容易看懵。所以说三遍:

要在文本串:aabaabaafa 中查找是否出现过一个模式串:aabaaf。

文本串中第六个字符b 和 模式串的第六个字符f,不匹配了。如果暴力匹配,发现不匹配,此时就要从头匹配了。

但如果使用前缀表,就不会从头匹配,而是从上次已经匹配的内容开始匹配,找到了模式串中第三个字符b继续开始匹配。

首先要知道前缀表的任务是如果当前位置匹配失败,找到之前已经匹配上的位置,再重新匹配,此也意味着在某个字符失配时,前缀表会告诉你下一步匹配中,模式串应该跳到哪个位置。

前缀表:记录下标 i 之前(包括i)的字符串中,有多大长度的相同前缀后缀

最长公共前后缀

字符串的前缀是指:不包含最后一个字符的所有以第一个字符开头的连续子串

字符串的后缀是指:不包含第一个字符的所有以最后一个字符结尾的连续子串。

最长公共前后缀就是前缀和后缀重合的那一部分。

为什么一定要用前缀表

刚才匹配过程中,下标 5 的位置遇到不匹配,模式串指向 f :
代码随想录二刷 |字符串 |实现strStr()_第1张图片
然后找到了下标 2,指向 b ,继续匹配:

代码随想录二刷 |字符串 |实现strStr()_第2张图片

下标 5 之前这部分的字符串(也就是字符串aabaa)的最长相等的前缀 和 后缀字符串是 子字符串aa ,因为找到了最长相等的前缀和后缀,匹配失败的位置是后缀子串的后面,那么我们找到与其相同的前缀的后面重新匹配就可以了。

如何计算前缀表

再复习一下前缀和后缀的定义:

字符串的前缀是指:不包含最后一个字符的所有以第一个字符开头的连续子串

字符串的后缀是指:不包含第一个字符的所有以最后一个字符结尾的连续子串。

最长公共前后缀就是前缀和后缀中重合的那一部分。

  • 长度为1个字符的子串a,最长公共前后缀的长度为0
  • 长度为2个字符的子串aa,最长公共前后缀的长度为1
  • 长度为3个字符的子串aab,最长公共前后缀的长度为0
  • 长度为4个字符的子串aaba,最长公共前后缀的长度为1
  • 长度为5个字符的子串aabaa,最长公共前后缀的长度为2
  • 长度为6个字符的子串aabaaf,最长公共前后缀的长度为0

把求得的最长相同前后缀的长度就是对应前缀表的元素,如图:

代码随想录二刷 |字符串 |实现strStr()_第3张图片
可以看出模式串与前缀表对应位置的数字表示的就是:下标 i 之前(包括i)的字符串中,有多大长度的相同前缀后缀。

找到的不匹配的位置, 那么此时我们要看它的前一个字符的前缀表的数值是多少。

为什么要前一个字符的前缀表的数值呢,因为目前这个已经不匹配了,所以要找前面那个匹配的字符串的最长相同的前缀和后缀。

所以要看前一位的前缀表的数值。

前一个字符的前缀表的数值是2, 所以把下标移动到下标2的位置继续比配。

最后就在文本串中找到了和模式串匹配的子串了。

前缀表与 next 数组

很多KMP算法的实现都是使用next数组来做回退操作,那么next数组与前缀表有什么关系呢?

next数组就可以是前缀表,但是很多实现都是把前缀表统一减一(右移一位,初始位置为-1)之后作为next数组。

这并不涉及到KMP的原理,而是具体实现,next数组既可以就是前缀表,也可以是前缀表统一减一(右移一位,初始位置为-1)。

使用 next 数组来匹配

next数组的一种实现是前缀表统一减1,

时间复杂度分析

n 为文本串长度,m 为模式串长度,因为在匹配的过程中,根据前缀表不断调整匹配的位置,可以看出匹配的过程是O(n),之前还要单独生成next数组,时间复杂度是O(m)。所以整个KMP算法的时间复杂度是O(n+m)的。

构造 next 数组

定义一个函数getNext来构建next数组,函数参数为指向next数组的指针,和一个字符串。 代码如下:

void getNext(int* next, const string& s)

构造next数组其实就是计算模式串s的前缀表的过程。主要有如下三步:

  1. 初始化
  2. 处理前后缀不相同的情况
  3. 处理前后缀相同的情况

1.初始化

定义两个指针ijj指向前缀末尾位置,i指向后缀末尾位置。

然后还要对next数组进行初始化赋值,如下:

int j = -1;
next[0] = j;

j 初始化为 -1的原因是前缀表要统一减一的操作仅仅是其中的一种实现,我们这里选择 j 初始化为-1,下文我还会给出 j 不初始化为-1的实现代码。

next[i] 表示 i(包括i)之前最长相等的前后缀长度(其实就是j)

所以初始化next[0] = j;

2.处理前后缀不相同的情况

因为 j 初始化为-1,那么 i 就从1开始,进行 s[i] 与 s[j+1] 的比较。

所以遍历模式串s的循环下标i 要从 1开始,代码如下:

for (int i = 1; i < s.size(); i++)

如果 s[i] 与 s[j+1]不相同,也就是遇到 前后缀末尾不相同的情况,就要向前回退。

next[j] 就是记录着 j(包括j)之前的子串的相同前后缀的长度。

那么 s[i] 与 s[j+1] 不相同,就要找 j+1 前一个元素在next数组里的值(就是next[j])。

所以,处理前后缀不相同的情况代码如下:

while (j >= 0 && s[i] != s[j + 1]) { // 前后缀不相同了
	j = next[j];
}

3.处理前后缀相同的情况

如果 s[i] 与 s[j + 1] 相同,那么就同时向后移动 i 和 j 说明找到了相同的前后缀,同时还要将 j(前缀的长度)赋给 next[i] , 因为 next[i] 要记录相同前后缀的长度。

if (s[i] == s[j + 1]) { // 找到相同的前后缀
    j++;
}
next[i] = j;

最后整体构建next数组的代码如下:

void getnext(int* next, const string& s) {
	int j = -1;
	next[0] = j;
	for (int i = 1; i < s.size(); i++) {
		while (j >= 0 && s[i] != s[j + 1]) { // 前后缀不相同了
			j = next[j]; // 向前回退
		}
		if (s[i] == s[j + 1]) { // 找到相同前后缀
			j++;
		}
		next[i] = j; // 将 j (前缀的长度)赋给next[i]
	}
}

使用 next 数组来做匹配

在文本串 s 里 找是否出现过模式串 t 。

定义两个下标 j 指向模式串起始位置,i 指向文本串起始位置。

j 初始值依然为-1,因为next数组里记录的起始位置为-1。

i 就从0开始,遍历文本串,代码如下:

for (int i = 0; i < s.size(); i++)

如果 s[i] 与t[j + 1]不相同, j 就要从 next 数组里寻找下一个匹配的位置。

while (j >= 0 && s[i] != t[j + 1]) {
	j = next[i];
}

如果 s[i] 与t[j + 1]相同,那么 i 和 j 同时向后移动:

if (s[i] == t[j + 1]) {
	j++;
}

如果 j 指向了模式串 t 的末尾,那么就说明模式串 t 完全匹配文本串 s 里的某个子串了。

本题要在文本串字符串中找出模式串出现的第一个位置 (从0开始),所以返回当前在文本串匹配模式串的位置 i 减去 模式串的长度,就是文本串字符串中出现模式串的第一个位置。

if (j == (t.size() - 1)) {
	return (i - t.size() + 1);
}

使用next数组用模式串匹配文本串的整体代码如下:

int j = -1; // 因为next数组里记录的起始位置为-1
for (int i = 0; i < s.size(); i++) { // 注意i就从0开始
    while(j >= 0 && s[i] != t[j + 1]) { // 不匹配
        j = next[j]; // j 寻找之前匹配的位置
    }
    if (s[i] == t[j + 1]) { // 匹配,j和i同时向后移动
        j++; // i的增加在for循环里
    }
    if (j == (t.size() - 1) ) { // 文本串s里出现了模式串t
        return (i - t.size() + 1);
    }
}

此时所有逻辑都写出来了,本题的完整代码如下:

前缀表统一减一C++实现

class Solution {
public:
    void getNext(int* next, const string& s) {
        int j = -1;
        next[0] = j;
        for(int i = 1; i < s.size(); i++) { // 注意i从1开始
            while (j >= 0 && s[i] != s[j + 1]) { // 前后缀不相同了
                j = next[j]; // 向前回退
            }
            if (s[i] == s[j + 1]) { // 找到相同的前后缀
                j++;
            }
            next[i] = j; // 将j(前缀的长度)赋给next[i]
        }
    }
    int strStr(string haystack, string needle) {
        if (needle.size() == 0) {
            return 0;
        }
        int next[needle.size()];
        getNext(next, needle);
        int j = -1; // // 因为next数组里记录的起始位置为-1
        for (int i = 0; i < haystack.size(); i++) { // 注意i就从0开始
            while(j >= 0 && haystack[i] != needle[j + 1]) { // 不匹配
                j = next[j]; // j 寻找之前匹配的位置
            }
            if (haystack[i] == needle[j + 1]) { // 匹配,j和i同时向后移动
                j++; // i的增加在for循环里
            }
            if (j == (needle.size() - 1) ) { // 文本串s里出现了模式串t
                return (i - needle.size() + 1);
            }
        }
        return -1;
    }
};

时间复杂度:O(n + m)
空间复杂度:O(m),只需要保存字符串needle的前缀表

前缀表(不减一)C++实现

class Solution {
public:
    void getNext(int* next, const string& s) {
        int j = 0;
        next[0] = 0;
        for(int i = 1; i < s.size(); i++) {
            while (j > 0 && s[i] != s[j]) {
                j = next[j - 1];
            }
            if (s[i] == s[j]) {
                j++;
            }
            next[i] = j;
        }
    }
    int strStr(string haystack, string needle) {
        if (needle.size() == 0) {
            return 0;
        }
        int next[needle.size()];
        getNext(next, needle);
        int j = 0;
        for (int i = 0; i < haystack.size(); i++) {
            while(j > 0 && haystack[i] != needle[j]) {
                j = next[j - 1];
            }
            if (haystack[i] == needle[j]) {
                j++;
            }
            if (j == needle.size() ) {
                return (i - needle.size() + 1);
            }
        }
        return -1;
    }
};

总结

我们介绍了什么是KMP,KMP可以解决什么问题,然后分析KMP算法里的next数组,知道了next数组就是前缀表,再分析为什么要是前缀表而不是什么其他表。

接着从给出的模式串中,我们一步一步的推导出了前缀表,得出前缀表无论是统一减一还是不减一得到的next数组仅仅是kmp的实现方式的不同。

其中还分析了KMP算法的时间复杂度,并且和暴力方法做了对比。

然后先用前缀表统一减一得到的next数组,求得文本串s里是否出现过模式串t,并给出了具体分析代码。

又给出了直接用前缀表作为next数组,来做匹配的实现代码。

可以说把KMP的每一个细微的细节都扣了出来,毫无遮掩的展示给大家了!

你可能感兴趣的:(代码随想录二刷,算法,c++)