模式匹配成功是指在目标串s中找到一个模式串t;不成功则指目标串s中不存在模式串t。
一、Brute-Force算法(即简单匹配算法)
从目标串s=“s0s1…sn-1”的第一个字符开始和模式串t=“t0t1…tm-1”中的第一个字符比较,若相等,则继续逐个比较后续字符;否则从目标串s的第二个字符开始重新与模式串t的第一个字符进行比较。依次类推,若从模式串s的第i个字符开始,每个字符依次和目标串t中的对应字符相等,则匹配成功,该算法返回i;否则,匹配失败,函数返回-1。
int index(SqString s,SqString t)
{ int i=0,j=0;
while (i
{ i++; //主串和子串依次匹配下一个字符
j++;
}
else //主串、子串指针回溯重新开始下一次匹配
{ i=i-j+1; //主串从下一个位置开始匹配
j=0; //子串从头开始匹配
}
}
if (j>=t.length)
return(i-t.length);//返回匹配的第一个字符的下标
else
return(-1); //模式匹配不成功
}
这个算法简单,易于理解,但效率不高,主要原因是主串指针i在若干个字符序列比较相等后,若有一个字符比较不相等,仍需回溯(即i=i-j+1)。
该算法在最好情况下的时间复杂度为O(m),即主串的前m个字符正好等于模式串的m个字符。
在最坏情况下的时间复杂度为O(n*m)。
二、KMP算法
KMP算法是D.E.Knuth、J.H.Morris和V.R.Pratt共同提出的,简称KMP算法。该算法较BF算法有较大改进,主要是消除了主串指针的回溯,从而使算法效率有了某种程度的提高。
如目标串s="aaaaab",模式串t="aaab"。
所谓真子串是指模式串t存在某个k(0<k<j),使得"t0t1…tk " = " tj-ktj-k+1…tj "成立。
例如,t= "abab",即t0t1=t2t3, 也就是说, “ab”是真子串。
真子串就是模式串中隐藏的信息,利用它来提高模式匹配的效率。
1)在模式串中无任何重复字符时,直接在失配的位置重新匹配
2)当模式串中存在重复元素时,根据重复元素的个数,在重复元素数+1位置重新匹配
归纳起来,定义next[j]函数如下:
next[j]= max{k|0
next[j]= -1 ,当j=0时
next[j] = 0,其他情况
由模式串t求出next值:
void GetNext(SqString t,int next[])
{ int j,k;
j=0;k=-1;next[0]=-1;
while (j
{ j++;k++;
next[j]=k;
}
else k=next[k];
}
}
KMP算法:
int KMPIndex(SqString s,SqString t)
{ int next[MaxSize],i=0,j=0;
GetNext(t,next);
while (i
{ i++;
j++; //i,j各增1
}
else j=next[j]; //i不变,j后退
}
if (j>=t.length)
return(i-t.length); //返回匹配模式串的首字符下标
else
return(-1); //返回不匹配标志
}
设主串s的长度为n,子串t长度为m。
在KMP算法中求next数组的时间复杂度为O(m),在后面的匹配中因主串s的下标不减即不回溯,比较次数可记为n,所以KMP算法总的时间复杂度为O(n+m)。
但是,若按上述定义得到next[j]=k,而模式中tj=tk,则为主串中字符si和tj比较不等时,不需要再和tk进行比较,而直接和tnext[k]进行比较。换句话说,此时的next[j]应和next[k]相同。
为此将next[j]修正为nextval[j]:
比较t.data[j]和t.data[k],若不等,则 nextval[j]=next[j];若相等nextval[j]=nextval[k]。
由模式串t求出nextval值:
void GetNextval(SqString t,int nextval[])
{ int j=0,k=-1;
nextval[0]=-1;
while (j
{ j++;k++;
if (t.data[j]!=t.data[k])
nextval[j]=k;
else
nextval[j]=nextval[k];
}
else
k=nextval[k];
}
}
修改后的KMP算法:
int KMPIndex1(SqString s,SqString t)
{ int nextval[MaxSize],i=0,j=0;
GetNextval(t,nextval);
while (i
{ i++;
j++;
}
else
j=nextval[j];
}
if (j>=t.length)
return(i-t.length);
else
return(-1);
}