字符串搜索算法

本文档的Copyleft归yfydz所有,使用GPL发布,可以自由拷贝,转载,转载时请保持文档的完整性,严禁用于任何商业用途。
msn: [email protected]
来源:http://yfydz.cublog.cn

参考文献: google: boyer moore
1. 前言
 
字符串搜索是一个基本的操作,C库函数中也提供了strstr()函数进行字符串搜索,应该是属于线性搜索。此外,为提高搜索速度,人们又发展出一些快速搜索算法,如boyer-moore算法等,其与线性搜索的区别是当发现模式不匹配时,不是象线性搜索那样只移动一个字节,而是尽可能多地移动多个字节长度,以提高搜索速度。
 
2. 线性搜索
 
下面是我自己写的一个线性搜索算法的例子,比较简单,就不用说明了,text是数据,pattern是要搜索的模式。
 
unsigned char * linear_strstr(const unsigned char *text, const unsigned char *pattern)
{
 int len=strlen(pattern);
 
 while(*text){
  if(strncmp(text, pattern, len)==0) return text;
  text++;
 }
 return NULL;
}
 
3. 快速搜索
 
下面是类似bm算法的一个实现,此类快速搜索都需要建立一个步长索引表,因为数据以字节为单位,每个字节为0~255的数,因此索引表长度为 256,在表中记录要每个字节(0~255)的移动步长,各种快速搜索算法要确定的就是这个索引表的值,然后在匹配不成功时确定取索引表中哪个值。
 
对于BM算法,索引表中的值取该值在搜索模式中相对于结尾符'0'的位置,如果该值不在搜索模式中,取搜索模式长度加1。对每次匹配操作,数据被匹配模式分成三部分,数据左部,已经匹配检查过的部分;数据中部,正在匹配部分,长度等于模式长度;数据右部,还没有与模式进行匹配的部分。当匹配失败时,移动步长取数据右部第一个字符对应的步长值,以下是代码实现:
 
int shift[256];
void pre_proecss(const unsigned char *pattern)
{
 int i, plen;
 plen=strlen(pattern);
 for(i=0; i<plen; i++)
  shift[i]=plen+1;
 for(i=0; i<plen; i++)
  shift[*(pattern+i)]=plen-i;
}
unsigned char *bm_strstr(const unsigned char *text, const unsigned char *pattern)
{
 int i, step;
 int plen, tlen;
 
 pre_proecss(pattern);
 plen=strlen(pattern);
 tlen=strlen(text);
 while(tlen >= plen && *text){
  for(i=0; i<plen; i++)
   if(*(text+i) != *(pattern+i))
    break;
  if(i >= plen)
    return text;
  step=shift[*(text+plen)];
  text += step;
  tlen -=step;
  continue;
 }
 return NULL;
}
 
如果可能预先取得数据长度的话,尽量将数据长度作为参数传递到搜索函数而不是在函数中再计算数据长度,这样有助于提高搜索速度。
 
4. 结论
 
快速搜索和线性搜索比起来每次移动的步长可以比较多,但需要付出不少代价:第一,数据长度是必须知道的,防止移动过界,计算数据长度需要花费不少时间;第二,需要一个索引表进行计算,如果在内核实现时得考虑多CPU处理的问题(这在linux内核netfilter的字符串匹配代码中有体现)。在实际测试中,如果模式字符串长度比较小,数据长度未知时,快速搜索算法速度实际比线性搜索还慢。快速搜索只适用于数据长度已知,匹配模式也比较长的场合。
代码稍加修改就可以处理大小写无关的字符串查找。

你可能感兴趣的:(linux,算法,Google)