串的模式匹配

设有 主串s和子串t,子串t的定位就是要在主串s中找到一个 与子串t相等的子串。通常把主串s称为 目标串,把子串t称为 模式串,因此定位也称作 模式匹配

模式匹配成功是指在目标串s中找到一个模式串t;不成功则指目标串s中不存在模式串t。 

一、Brute-Force算法(即简单匹配算法)

从目标串s=“s0s1…sn-1”的第一个字符开始和模式串t=“t0t1…tm-1”中的第一个字符比较若相等,则继续逐个比较后续字符否则从目标串s的第二个字符开始重新与模式串t的第一个字符进行比较。依次类推,若从模式串s的第i个字符开始,每个字符依次和目标串t中的对应字符相等,则匹配成功,该算法返回i否则,匹配失败,函数返回-1。 

int index(SqString s,SqString t)
{  int i=0,j=0;
   while (i   {  if (s.data[i]==t.data[j]) //继续匹配下一个字符
{  i++; //主串和子串依次匹配下一个字符
   j++;
}
else //主串、子串指针回溯重新开始下一次匹配
{  i=i-j+1; //主串从下一个位置开始匹配
   j=0; //子串从头开始匹配
}
   }
   if (j>=t.length)
return(i-t.length);//返回匹配的第一个字符的下标
   else
return(-1); //模式匹配不成功
}

这个算法简单,易于理解,但效率不高,主要原因是主串指针i在若干个字符序列比较相等后,若有一个字符比较不相等,仍需回溯(即i=i-j+1)。

该算法在最好情况下的时间复杂度为O(m),即主串的前m个字符正好等于模式串的m个字符。

最坏情况下的时间复杂度为O(n*m)。 

二、KMP算法

KMP算法是D.E.Knuth、J.H.Morris和V.R.Pratt共同提出的,简称KMP算法。该算法较BF算法有较大改进,主要是消除了主串指针的回溯,从而使算法效率有了某种程度的提高。

如目标串s="aaaaab",模式串t="aaab"。 

串的模式匹配_第1张图片next[i]是指下标为i的字符前有多少个真子串的字符

所谓真子串是指模式串t存在某个k(0<k<j),使得"t0t1…tk " = " tj-ktj-k+1…tj "成立。
例如,t= "abab",即t0t1=t2t3, 也就是说, “ab”是真子串

真子串就是模式串中隐藏的信息,利用它来提高模式匹配的效率。


1)在模式串中无任何重复字符时,直接在失配的位置重新匹配

2)当模式串中存在重复元素时,根据重复元素的个数,在重复元素数+1位置重新匹配

串的模式匹配_第2张图片

串的模式匹配_第3张图片

串的模式匹配_第4张图片

串的模式匹配_第5张图片




归纳起来,定义next[j]函数如下:

next[j]=  max{k|0  ,当此集合非空时

next[j]= -1 ,当j=0时

next[j] = 0,其他情况    

由模式串t求出next值:

void GetNext(SqString t,int next[])  
{  int j,k;
   j=0;k=-1;next[0]=-1;
   while (j   { if (k==-1 || t.data[j]==t.data[k])
{   j++;k++;
    next[j]=k;
}
else k=next[k];
   }

}

KMP算法:

int KMPIndex(SqString s,SqString t) 
{  int next[MaxSize],i=0,j=0;
   GetNext(t,next);
   while (i   {  if (j==-1 || s.data[i]==t.data[j]) 
{  i++;
   j++; //i,j各增1
}
else j=next[j]; //i不变,j后退
   }
   if (j>=t.length)
return(i-t.length); //返回匹配模式串的首字符下标
   else
return(-1); //返回不匹配标志

}

设主串s的长度为n,子串t长度为m。

在KMP算法中求next数组时间复杂度为O(m),在后面的匹配中因主串s的下标不减即不回溯,比较次数可记为n,所以KMP算法总的时间复杂度为O(n+m)

但是,若按上述定义得到next[j]=k,而模式中tj=tk,则为主串中字符si和tj比较不等时,不需要再和tk进行比较,而直接和tnext[k]进行比较。换句话说,此时的next[j]应和next[k]相同。
为此将next[j]修正为nextval[j]

比较t.data[j]和t.data[k],若不等,则 nextval[j]=next[j];若相等nextval[j]=nextval[k]

由模式串t求出nextval值

void GetNextval(SqString t,int nextval[])
{  int j=0,k=-1;
   nextval[0]=-1;
   while (j   {  if (k==-1 || t.data[j]==t.data[k])
{  j++;k++;
   if (t.data[j]!=t.data[k])
nextval[j]=k;
   else
nextval[j]=nextval[k];
}
else
   k=nextval[k];
   }

}

修改后的KMP算法:

int KMPIndex1(SqString s,SqString t)
{  int nextval[MaxSize],i=0,j=0;
   GetNextval(t,nextval);
   while (i   {  if (j==-1 || s.data[i]==t.data[j]) 
{  i++;
   j++;
}
else
   j=nextval[j];
   }
   if (j>=t.length)
return(i-t.length);
   else
return(-1);
}

你可能感兴趣的:(数据结构学习,第四章:串)