给你两个字符串 haystack
和 needle
,请你在 haystack
字符串中找出 needle
字符串的第一个匹配项的下标(下标从 0 开始)。如果 needle
不是 haystack
的一部分,则返回 -1
。
示例 1:
输入:haystack = "sadbutsad", needle = "sad" 输出:0 解释:"sad" 在下标 0 和 6 处匹配。 第一个匹配项的下标是 0 ,所以返回 0 。
示例 2:
输入:haystack = "leetcode", needle = "leeto" 输出:-1 解释:"leeto" 没有在 "leetcode" 中出现,所以返回 -1 。
这道题目是一道经典的KMP算法题目
定义一个函数getNext(int[] next,String s)
构造next数组其实就是计算模式串s的前缀表
什么是前缀表? next数组就是一个前缀表(prefix table)。
前缀表有什么作用?
前缀表是用来回退的,它记录了模式串与主串(文本串)不匹配的时候,模式串应该从哪里开始重新匹配。前缀表的任务是当前位置匹配失败,找到之前已经匹配上的位置,在重新匹配,此也意味着在某个字符失配时,前缀表会告诉你下一步匹配中,模式串应该跳到哪个位置。
例如要在文本串:aabaabaafa 中查找是否出现过一个模式串:aabaaf。
文本串中第六个字符b 和 模式串的第六个字符f,不匹配了。如果暴力匹配,会发现不匹配,此时就要从头匹配了。但如果使用前缀表,就不会从头匹配,而是从上次已经匹配的内容开始匹配,找到了模式串中第三个字符b继续开始匹配。
前缀表:记录下标i之前(包括i)的字符串中,有多大长度的相同前缀后缀。
下标5之前这部分的字符串(也就是字符串aabaa)的最长相等的前缀 和 后缀字符串是 子字符串aa ,因为找到了最长相等的前缀和后缀,匹配失败的位置是后缀子串的后面,那么我们找到与其相同的前缀的后面从新匹配就可以了。
如何计算前缀表:
前缀是指不包含最后一个字符的所有以第一个字符开头的连续子串;后缀是指不包含第一个字符的所有以最后一个字符结尾的连续子串。(前缀必须包含首字母,后缀必须包含尾字母)
对于字符串aabaaf:
长度为前1个字符的子串a,最长相同前后缀是长度0
长度为前2个字符的子串aa,最长相同前后缀是长度1
长度为前3个字符的子串aab,最长相同前后缀是长度0
长度为前4个字符的子串aaba,最长相同前后缀是长度1
长度为前5个字符的子串aabaa,最长相同前后缀是长度2
长度为前6个字符的子串aabaaf,最长相同前后缀长度是0
找到的不匹配的位置, 那么此时我们要看它的前一个字符的前缀表的数值是多少。
为什么要前一个字符的前缀表的数值呢,因为要找前面字符串的最长相同的前缀和后缀。
所以要看前一位的 前缀表的数值。
求next数组(前缀表)
分为三步:
初始化nextshuzu
处理前后缀不同的情况
处理前后缀相同的情况
1.初始化:
i指向后缀起始位置,j指向前缀起始位置
int j=0;
next[0]=0;
2.处理前后缀不相同的情况:
i从1开始,比较删s[i]和s[j]
for(int i = 1; i < s.lenth(); i++) {
如果 s[i] 与 s[j]不相同,也就是遇到 前后缀末尾不相同的情况,就要向前回溯。
怎么回溯呢?
next[j]就是记录着j(包括j)之前的子串的相同前后缀的长度。
那么 s[i] 与 s[j] 不相同,就要找 j前一个元素在next数组里的值(就是next[j-1])。
所以,处理前后缀不相同的情况代码如下:
while (j>0&&s.charAt(i)!=s.charAt(j)) { // 前后缀不相同了
j = next[j-1]; // 向前回溯,查找前一位对应的回退位置
}
3.处理前后缀相同的情况:
如果 s[i] 与 s[j]相同,就同时向后移动i和j,说明找到相同的前后缀,同时还要将j(前缀的长度)赋给next[i],记录相同前后缀的长度
if (s.charAt(i)==s.charAt(j)) { // 找到相同的前后缀
j++;
}
next[i] = j;
在文本串s里 找是否出现过模式串t。
定义两个下标j 指向模式串起始位置,i指向文本串其实位置。
那么j初始值依然为0,为什么呢? 依然因为next数组里记录的起始位置为0。
i就从0开始,遍历文本串,代码如下:
for (int i = 0; i < s.length(); i++)
接下来就是 s[i] 与 t[j ] 进行比较。如果 s[i] 与 t[j] 不相同,j就要从next数组里寻找下一个匹配的位置。
代码如下:
while(j >= 0 && s.charAt(i) != t.charAt(j)) {
j = next[j-1];
}
如果 s[i] 与 t[j] 相同,那么i 和 j 同时向后移动, 代码如下:
if ( s.charAt(i) = t.charAt(j)) {
j++; // i的增加在for循环里
}
如何判断在文本串s里出现了模式串t?如果j指向了模式串t的末尾,那么就说明模式串t完全匹配文本串s里的某个子串了。
本题要在文本串字符串中找出模式串出现的第一个位置 (从0开始),所以返回当前在文本串匹配模式串的位置i 减去 模式串的长度,就是文本串字符串中出现模式串的第一个位置。
代码如下:
if (j == t.length() ) {
return (i - t.length() + 1);
}
代码:
class Solution {
public void getNext(int [] next,String s){
int j=0;
next[0]=j;
for(int i=1;i0&&s.charAt(i)!=s.charAt(j)){
j=next[j-1];
}
if(s.charAt(i)==s.charAt(j)){
j++;
}
next[i]=j;
}
}
public int strStr(String haystack, String needle) {
if(needle.length()==0){
return 0;
}
int[] next=new int[needle.length()];
getNext(next,needle);
int j=0;
for(int i=0;i0&&haystack.charAt(i)!=needle.charAt(j)){
j=next[j-1];
}
if(haystack.charAt(i)==needle.charAt(j)){
j++;
}
if(j==needle.length()){
return(i-needle.length()+1);
}
}
return -1;
}
}