自己记下,以免忘记
首先我们来看一个例子,现在有两个字符串A和字符串B,问你在A中是否有B,有几个?为了方便叙述,我们给出例子:
A=”abcaabababaa”
B=”abab”
那么普通的匹配是怎么操作的呢?我们想到的肯定是暴利匹配法即一位一位地比,
下面请看暴利匹配的核心代码:
public static int ViolentMatch(char[] s, char[] p){
int sLen = s.length;
int pLen = p.length;
int i = 0;
int j = 0;
while (i < sLen && j < pLen) {
if (s[i] == p[j]) {
//①如果当前字符匹配成功(即S[i] == P[j]),则i++,j++
i++;
j++;
} else {
//②如果失配(即S[i]! = P[j]),令i = i - (j - 1),j = 0
i = i - j + 1;
j = 0;
}
}
//匹配成功,返回模式串p在文本串s中的位置,否则返回-1
if (j == pLen)
return i - j;
else
return -1;
}
推导后发现,只要一不匹配就要回溯从前面重新匹配,暴力搜索算法由文本串中从0到n-m所有位置的比较组成,无论是否从模式串的起始位置开始,每次匹配过后,模式串向右移动一位。匹配的时间复杂度为O(mn)
为了提高检索的速度,我们来看看KMP算法
在此,我们先使用next数组:后面再看看next数组实现:
1.文中,所有的字符串从0开始编号
2.文中,next数组,next[i]表示0~i-1符串的最长相同前缀后缀的长度.
前缀:指的是字符串的子串中从原串最前面开始的子串,如abcdef的前缀有:a,ab,abc,abcd,abcde
后缀:指的是字符串的子串中在原串结尾处结尾的子串,如abcdef的后缀有:f,ef,def,cdef,bcdef
则可以通过上面得知next数组
根据上面两张图,我们来模拟一下next数组与字符串的匹配情况:
此时我们发现,A的第5位和B的第5位不匹配(注意从0开始编号),此时i=5,j=5,那么我们看next[5]=2;
我们又发现,A串的第13位和B串的第10位不匹配,此时i=13,j=10,那么我们看next[10]=4;
这时我们发现A串的第13位和B串的第4位依然不匹配,此时i=13,j=4,那么我们看next[4]=1;
但此时B串的第1位与A串的第13位依然不匹配,此时,i=13,j=1,所以我们看一看next[1]=0;
此时KMP算法来匹配完成了
到这时我们最为重要的还是如何算出next数组的各个值
public static void getNext(char[] p, int[] next){
int pLen = p.length;
//next[0]和ext[1] 均等于0,跳过
int i = 2;
int j = 0;
while (i < pLen) {
// //p[i]前缀,p[j]表示后缀
if (p[i-1] == p[j]){
next[i++] = ++j;
} else {
if (j == 0) {
next[i++] = j;
}
j = next[j];
}
简化后为:此时将next[0] = -1作为查询结界
public static void GetNext(char[] p, int[] next){
int pLen = p.length;
next[0] = -1;
int k = -1;
int j = 0;
while (j < pLen - 1) {
//p[k]表示前缀,p[j]表示后缀
if (k == -1 || p[j] == p[k]){
++k;
++j;
next[j] = k;
} else {
k = next[k];
}
}
}
至此给出完整的kmp算法代码
第一种
public static void getNext(char[] p, int[] next){
int pLen = p.length;
int i = 2;
int j = 0;
while (i < pLen) {
// //p[k]表示前缀,p[j]表示后缀
if (p[i-1] == p[j]){
next[i++] = ++j;
} else {
if (j == 0) {
next[i++] = j;
}
j = next[j];
}
}
public static int KmpSearch(char[] s, char[] p, int[] next){
int i = 0;
int j = 0;
int sLen = s.length;
int pLen = p.length;
while (sLen-i >= pLen-j) {
if (j == pLen) {
return i - j;
}
if (s[i] == p[j]) {
++i;
++j;
continue;
}
if (j == 0){
++i;
continue;
}
j = next[j];
}
return -1;
}
第二种
public static void getNext(char[] p, int[] next){
int pLen = p.length;
next[0] = -1;
int k = -1;
int j = 0;
while (j < pLen - 1) {
//p[k]表示前缀,p[j]表示后缀
if (k == -1 || p[j] == p[k]){
++k;
++j;
next[j] = k;
} else {
k = next[k];
}
}
}
public static int KmpSearch(char[] s, char[] p, int[] next){
int i = 0;
int j = 0;
int sLen = s.length;
int pLen = p.length;
while (i < sLen && j < pLen) {
//①如果j = -1,或者当前字符匹配成功(即S[i] == P[j]),都令i++,j++
if (j == -1 || s[i] == p[j]) {
i++;
j++;
} else {
//②如果j != -1,且当前字符匹配失败(即S[i] != P[j]),则令 i 不变,j = next[j]
//next[j]即为j所对应的next值
j = next[j];
}
}
if (j == pLen)
return i - j;
else
return -1;
}
复杂度O(m+n)