力扣每日一题day19[28. 找出字符串中第一个匹配项的下标]

给你两个字符串 haystack 和 needle ,请你在 haystack 字符串中找出 needle 字符串的第一个匹配项的下标(下标从 0 开始)。如果 needle 不是 haystack 的一部分,则返回  -1 

示例 1:

输入:haystack = "sadbutsad", needle = "sad"
输出:0
解释:"sad" 在下标 0 和 6 处匹配。
第一个匹配项的下标是 0 ,所以返回 0 。

示例 2:

输入:haystack = "leetcode", needle = "leeto"
输出:-1
解释:"leeto" 没有在 "leetcode" 中出现,所以返回 -1 。

这道题目是一道经典的KMP算法题目

一、构造next数组:

定义一个函数getNext(int[] next,String s)

构造next数组其实就是计算模式串s的前缀表

什么是前缀表? next数组就是一个前缀表(prefix table)。

前缀表有什么作用?

前缀表是用来回退的,它记录了模式串与主串(文本串)不匹配的时候,模式串应该从哪里开始重新匹配。前缀表的任务是当前位置匹配失败,找到之前已经匹配上的位置,在重新匹配,此也意味着在某个字符失配时,前缀表会告诉你下一步匹配中,模式串应该跳到哪个位置。

例如要在文本串:aabaabaafa 中查找是否出现过一个模式串:aabaaf

文本串中第六个字符b 和 模式串的第六个字符f,不匹配了。如果暴力匹配,会发现不匹配,此时就要从头匹配了。但如果使用前缀表,就不会从头匹配,而是从上次已经匹配的内容开始匹配,找到了模式串中第三个字符b继续开始匹配。

前缀表:记录下标i之前(包括i)的字符串中,有多大长度的相同前缀后缀。

下标5之前这部分的字符串(也就是字符串aabaa)的最长相等的前缀 和 后缀字符串是 子字符串aa ,因为找到了最长相等的前缀和后缀,匹配失败的位置是后缀子串的后面,那么我们找到与其相同的前缀的后面从新匹配就可以了。

如何计算前缀表:

前缀是指不包含最后一个字符的所有以第一个字符开头的连续子串后缀是指不包含第一个字符的所有以最后一个字符结尾的连续子串。(前缀必须包含首字母,后缀必须包含尾字母)

对于字符串aabaaf

长度为前1个字符的子串a,最长相同前后缀是长度0

长度为前2个字符的子串aa,最长相同前后缀是长度1

长度为前3个字符的子串aab,最长相同前后缀是长度0

长度为前4个字符的子串aaba,最长相同前后缀是长度1

长度为前5个字符的子串aabaa,最长相同前后缀是长度2

长度为前6个字符的子串aabaaf,最长相同前后缀长度是0

找到的不匹配的位置, 那么此时我们要看它的前一个字符的前缀表的数值是多少。

为什么要前一个字符的前缀表的数值呢,因为要找前面字符串的最长相同的前缀和后缀。

所以要看前一位的 前缀表的数值。

求next数组(前缀表)

分为三步:

  • 初始化nextshuzu

  • 处理前后缀不同的情况

  • 处理前后缀相同的情况

1.初始化:

i指向后缀起始位置,j指向前缀起始位置

int j=0;
​
next[0]=0;

2.处理前后缀不相同的情况:

i从1开始,比较删s[i]和s[j]

for(int i = 1; i < s.lenth(); i++) {

如果 s[i] 与 s[j]不相同,也就是遇到 前后缀末尾不相同的情况,就要向前回溯。

怎么回溯呢?

next[j]就是记录着j(包括j)之前的子串的相同前后缀的长度。

那么 s[i] 与 s[j] 不相同,就要找 j前一个元素在next数组里的值(就是next[j-1])。

所以,处理前后缀不相同的情况代码如下:

while (j>0&&s.charAt(i)!=s.charAt(j)) { // 前后缀不相同了
    j = next[j-1]; // 向前回溯,查找前一位对应的回退位置
}

3.处理前后缀相同的情况:

如果 s[i] 与 s[j]相同,就同时向后移动i和j,说明找到相同的前后缀,同时还要将j(前缀的长度)赋给next[i],记录相同前后缀的长度

if (s.charAt(i)==s.charAt(j)) { // 找到相同的前后缀
    j++;
}
next[i] = j;

二、使用next数组做匹配:

在文本串s里 找是否出现过模式串t。

定义两个下标j 指向模式串起始位置,i指向文本串其实位置。

那么j初始值依然为0,为什么呢? 依然因为next数组里记录的起始位置为0。

i就从0开始,遍历文本串,代码如下:

for (int i = 0; i < s.length(); i++) 

接下来就是 s[i] 与 t[j ] 进行比较。如果 s[i] 与 t[j] 不相同,j就要从next数组里寻找下一个匹配的位置。

代码如下:

while(j >= 0 && s.charAt(i) != t.charAt(j)) {
    j = next[j-1];
}

如果 s[i] 与 t[j] 相同,那么i 和 j 同时向后移动, 代码如下:

if ( s.charAt(i) = t.charAt(j)) {
    j++; // i的增加在for循环里
}

如何判断在文本串s里出现了模式串t?如果j指向了模式串t的末尾,那么就说明模式串t完全匹配文本串s里的某个子串了。

本题要在文本串字符串中找出模式串出现的第一个位置 (从0开始),所以返回当前在文本串匹配模式串的位置i 减去 模式串的长度,就是文本串字符串中出现模式串的第一个位置。

代码如下:

if (j == t.length() ) {
    return (i - t.length() + 1);
}

代码:

class Solution {
    public void getNext(int [] next,String s){
        int j=0;
        next[0]=j;
        for(int i=1;i0&&s.charAt(i)!=s.charAt(j)){
                j=next[j-1];
            }
            if(s.charAt(i)==s.charAt(j)){
                j++;
            }
            next[i]=j;
        }
    }
    public int strStr(String haystack, String needle) {
        if(needle.length()==0){
            return 0;
        }
        int[] next=new int[needle.length()];
        getNext(next,needle);
        int j=0;
        for(int i=0;i0&&haystack.charAt(i)!=needle.charAt(j)){
                j=next[j-1];
            }
            if(haystack.charAt(i)==needle.charAt(j)){
                j++;
            }
            if(j==needle.length()){
                return(i-needle.length()+1);
            }
        }
        return -1;
    }
}

你可能感兴趣的:(力扣每日一题,java,算法,数据结构)