题目: 给你两个字符串 haystack
和 needle
,请你在 haystack
字符串中找出 needle
字符串的第一个匹配项的下标(下标从 0 开始)。如果 needle
不是 haystack
的一部分,则返回 -1
。
思路: KMP算法
代码:
class Solution {
public void getNext(int[] next, String s){
int j = 0 ;
next[0] = j;
for(int i = 1; i < s.length(); i++){
while(j > 0 && s.charAt(i) != s.charAt(j)) j = next[j - 1];
if(s.charAt(i) == s.charAt(j)) j++;
next[i] = j;
}
}
public int strStr(String haystack, String needle) {
int[] next = new int[needle.length()];
getNext(next, needle);
int j = 0;
for(int i = 0; i < haystack.length(); i++){
while(j > 0 && needle.charAt(j) != haystack.charAt(i)) j = next[j - 1];
if(haystack.charAt(i) == needle.charAt(j)) j++;
if(j == needle.length()) return i - j + 1;
}
return -1;
}
}
时间复杂度:O(m+n)
题目: 给定一个非空的字符串 s
,检查是否可以通过由它的一个子串重复多次构成。
思路: 当存在一个重复子串的时候,会符合以下两个条件:
代码:
class Solution {
public boolean repeatedSubstringPattern(String s) {
int[] next = new int[s.length()];
int j = 0;
for(int i = 1; i < s.length(); i++){
while(j > 0 && s.charAt(i) != s.charAt(j)) j = next[j - 1];
if(s.charAt(i) == s.charAt(j)) j++;
next[i] = j;
}
int len = s.length();
if(next[len - 1] != 0 && len % (len - next[len - 1]) == 0) return true;
return false;
}
}
时间复杂度O(n)
以28.实现strStr()为例,如果采用暴力搜索的办法,时间复杂度为O(m*n),造成时间复杂度比较高的原因为每次比较到不同的部位都要重新开始在一个点比较。KMP的主要思想就是当出现字符串不匹配时,可以知道一部分之前已经匹配的文本内容,可以利用这些信息避免从头再去做匹配了。
KMP算法会维护一个前缀表(next)来记录了模式串与主串(文本串)不匹配的时候,模式串应该从哪里开始重新匹配。前缀表的内容是记录下标i之前(包括i)的字符串中,有多大长度的相同前缀后缀,也就是当前子串的最长公共前后缀。
为什么是最长公共前后缀? 或者说为什么最长公共前后缀可以知道模式串要从哪里开始重新匹配?
我们以模式串aabaaf为例,当其和主串匹配到最后一个f才不相符时,说明主串可能是aabaa------,那么我们接下来比较的话就不需要在从第一个a开始比较了,我们只需要从b开始比较即可,因为aa部分是重复的,也就是说这个字符串有公共的前缀和后缀,当一个字符串有公共前缀和后缀时,那我们就可以用这种方法来找到下一个比较的位置。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7IWEv55R-1666264663272)(https://dum1615.oss-cn-chengdu.aliyuncs.com/KMP%E7%B2%BE%E8%AE%B22.gif)]
怎样构建next数组?
构造next数组其实就是计算模式串s,前缀表的过程。 主要有如下三步:
初始化
处理前后缀不相同的情况
处理前后缀相同的情况
初始化:
定义两个指针i和j,j指向前缀末尾位置,i指向后缀末尾位置。
然后还要对next数组进行初始化赋值,如下:
int j = 0;
next[0] = j;
next[i] 表示 i(包括i)之前最长相等的前后缀长度(其实就是j)
所以初始化next[0] = j 。
因为j初始化为-1,那么i就从1开始,进行s[i] 与 s[j+1]的比较。
所以遍历模式串s的循环下标i 要从 1开始,代码如下:
for (int i = 1; i < s.length(); i++) {
如果 s[i] 与 s[j+1]不相同,也就是遇到 前后缀末尾不相同的情况,就要向前回退。
怎么回退呢?
next[j]就是记录着j(包括j)之前的子串的相同前后缀的长度。
那么 s[i] 与 s[j+1] 不相同,就要找 j+1前一个元素在next数组里的值(就是next[j])。
所以,处理前后缀不相同的情况代码如下:
while(j > 0 && s.charAt(i) != s.charAt(j)) j = next[j - 1];
如果 s[i] 与 s[j + 1] 相同,那么就同时向后移动i 和j 说明找到了相同的前后缀,同时还要将j(前缀的长度)赋给next[i], 因为next[i]要记录相同前后缀的长度。
代码如下:
if(s.charAt(i) == s.charAt(j)) j++;
next[i] = j;
时向后移动i 和j 说明找到了相同的前后缀,同时还要将j(前缀的长度)赋给next[i], 因为next[i]要记录相同前后缀的长度。