weixin_33717117

六之续、由KMP算法谈到BM算法

作者：滨湖，July、yansha。
说明：初稿由滨湖提供，July负责KMP部分的勘误，yansha负责BM部分的修改。全文由July统稿修订完成。
出处：http://blog.csdn.net/v_JULY_v 。

引言

在此之前，说明下写作本文的目的：1、之前承诺过，这篇文章六、教你从头到尾彻底理解KMP算法、updated之后，KMP算法会写一个续集；2、写这个kMP算法的文章很多很多，但真正能把它写明白的少之又少；3、这个KMP算法曾经困扰过我很长一段时间。我也必须让读者真真正正彻彻底底的理解它。希望，我能做到。

ok，子串的定位操作通常称做串的模式匹配,是各种串处理系统中最重要的操作之一.在很多应用中都会涉及子串的定位问题,如普通的字符串查找问题.如果我们把模式匹配的串看成一字节流的话,那应用空间一下子就广阔了很多,如HTTP协议里就是字节流,有各种关键的字节流字段,对HTTP数据进行解释就需要用到模式匹配算法.

本文是试图清楚的讲解模式匹配算法里两个最为重要的算法：KMP与BM算法，这两个算法都较为高效，特别是BM算法在工程用应用得非常多的，然而网上很多BM算法都不算准确的。本文开始讲解简单回溯字符串匹配算法，后面过渡到KMP算法，最后再过渡到BM算法，希望能够讲得明白易懂。

模式匹配问题抽象为：给定主串S(Source，长度为n)，模式串P(Pattern, 长度为m)，要求查找出P在S中出现的位置，一般即为第一次出现的位置，如果S中没有P子串，返回相应的结果。如下图0查找成功，则查找结果返回2：

图0 字符串查找

本文，接下来，将一步一步讲解KMP算法。希望看完本文后，读者日后对Kmp算法能做到胸中丘壑自成。文章有任何错误，烦请一定指出来。谢谢。

第一部分、KMP算法

1、回溯法字符串匹配算法

回溯法字符串匹配算法就是用一个循环来找出所有有效位移，该循环对n-m+1个可能的位移中的每一个index值，检查条件为P[0…m-1]= S[index…index+m-1]（因为模式串的长度是m，索引范围为0…m-1）。

S 0......index.... index+m-1 （src[i]表示）
P 0 .... m-1 （patn[j]表示）

//代码1-1 //int search(char const*, int, char const*, int) //查找出模式串patn在主串src中第一次出现的位置 //plen为模式串的长度 //返回patn在src中出现的位置，当src中并没有patn时，返回-1 int search(char const* src, int slen, char const* patn, int plen) { int i = 0, j = 0; while( i < slen && j < plen ) { if( src[i] == patn[j] ) //如果相同，则两者++，继续比较 { ++i; ++j; } else { //否则，指针回溯，重新开始匹配 i = i - j + 1; //退回到最开始时比较的位置 j = 0; } } if( j >= plen ) return i - plen; //如果字符串相同的长度大于模式串的长度，则匹配成功 else return -1; } 该算法思维比较简单（但也常被一些公司做为面试题），很容易分析出本算法的时间复杂度为O(pattern_length*target_length)，我们主要是把时间浪费在什么地方呢，相信，你已经看到上面的代码注释中有这么一句话：“指针回溯，重新开始匹配”，这句话的意思就是好比我们乘坐一辆火车已经离站好远了，后来火车司机突然对全部乘客说，你们搭错了列车，要换一辆火车。也就是说在咱们的字符串匹配中，本来已经比较到前面的字符去了，现在又要回到原来的某一个位置重新开始一个个的比较。这就是问题的症结所在。

在继续分析之前，咱们来思考这样一个问题：为什么快排或者堆排序比直接的选择排序快？直接的选择排序，每次都是重复的比较数值的大小，每扫描一次，只得出一个最大（小值），再没有其它的结果信息能给下一次扫描带来便捷。我们看看快排，每扫一次，将数据按某一值分成了两边，至少有右边的数据都大于左边的数据，所以在比较的时候，下一次就不用比较了。再看看堆排序，建堆的过程也是O(n)的比较，但比较的结果得到了最大（小）堆这种三角关系，之后的比较就不用再每一个都需要比较了。
由上述思考，咱们总结出了一点优化的归律：采用一种简单的数据结构或者方式，将每次重复性的工作得到的信息记录得尽量多，方便下一次做同样的工作，这样将带来一定的优化（个人性总结）。

回溯法做的多余的工作

以下给出一个例子来启发，如下图2：

图1-1 回溯法的一个示例

可以看出当匹配到g与h的时候，不匹配了（后面，你将看到，KMP算法会直接从匹配失效的位置，即g位置处重新开始匹配，这就是KMP的高效之处），模式串的下一个位置该怎么移动，需要回溯到第二个位置如：

图1-2 回溯到第二个位置

在第二个位置发现还是不匹配，便再次回溯到第三个位置：

图1-3 回溯到第三个位置

其实可以分析一下模式串里，每个字符都不相同，如果前面有匹配成功，那移动一位或者几位后，是不可能匹配成功的。
启示：模式串里有蕴含信息的，可以简化扫描。接下来深入的讨论另一算法KMP算法。

2、KMP算法的简介

KMP算法就是一种基于分析模式串蕴含信息的改进算法，是D.E.Knuth与V.R.Pratt和J.H.Morris同时发现的，因此人们称它为KMP算法。
咱们还是以上面的例子为例，如下图2-1：

图2-1 KMP算法的一个例子

如果是普通的匹配算法，那么接下来，模式串的下一个匹配将如上一节读者所看到的那样，回溯到第二个位置b处。而KMP算法会怎么做呢?KMP算法会直接把模式串移到匹配失效的位置上，如下图2-2，g处：

图2-2 直接移到匹配失效的位置g处
Ok，咱们下面再看一个例子，如下图2-3/4：

                       图2- 3/4 另一个例子
    我们为什么要这么做呢?如上面的例子，每个字符都不相同，如果前面有匹配成功，那移动一位或者几位后，是不可能匹配成功的，所以我们完全可以就模式串的特点来决定下一次匹配从哪个地方开始。
    问题转化成为对于模式串P，当P[j](0<=j

S 0 i-j..i-1 i .... n （S[i]表示，S[i]处匹配失败）
P 0.. j-1 j.. m （P[j]表示，要找下一个匹配的位置P[j_next]）

以上，在P[j]!=S[i]之前的时候，有S[i-j…i-1]与P[0…j-1]是匹配即相同的字符，各自都用下划线表示。

咱们先写下算法，你将看到，其实KMP算法的代码非常简洁，只有20来行而已。如下描述为：
//代码2-1 //int kmp_seach(char const*, int, char const*, int, int const*, int pos) KMP模式匹配函数 //输入：src, slen主串 //输入：patn, plen模式串 //输入：nextval KMP算法中的next函数值数组 int kmp_search(char const* src, int slen, char const* patn, int plen, int const* nextval, int pos) { int i = pos; int j = 0; while ( i < slen && j < plen ) { if( j == -1 || src[i] == patn[j] ) { ++i; ++j; //匹配成功，就++，继续比较。 } else { j = nextval[j]; //当在j处，P[j]与S[i]匹配失败的时候直接用patn[nextval[j]]继续与S[i]比较， //所以，Kmp算法的关键之处就在于怎么求这个值拉， //即匹配失效后下一次匹配的位置。下面，具体阐述。 } } if( j >= plen ) return i-plen; else return -1; }

3、如何求next数组各值

现在的问题是p[j_next]中的j_next即上述代码中的nextval[j]怎么求。
当匹配到S[i] != P[j]的时候有 S[i-j…i-1] = P[0…j-1]. 如果下面用j_next去匹配，则有P[0…j_next-1] = S[i-j_next…i-1] = P[j-j_next…j-1]。此过程如下图3-1所示。

当匹配到S[i] != P[j]时，S[i-j…i-1] = P[0…j-1]：

S: 0 … i-j … i-1 i …

P: 0 … j-1 j …

如果下面用j_next去匹配，则有P[0…j_next-1] = S[i-j_next…i-1] = P[j-j_next…j-1]。
所以在P中有如下匹配关系（获得这个匹配关系的意义是用来求next数组）：

P: 0 … j-j_next .…j-1_ …

P: 0 … .j_next-1 …

所以，根据上面两个步骤，推出下一匹配位置j_next:

S: 0 … i-j … i-j_next … i-1 i …

P: 0 … j_next-1 j_next …

图3-1 求j-next（最大的值）的三个步骤

下面，我们用变量k来代表求得的j_next的最大值，即k表示这S[i]、P[j]不匹配时P中下一个用来匹配的位置，使得P[0…k-1] = P[j-k…j-1]，而我们要尽量找到这个k的最大值。如你所见，当匹配到S[i] != P[j]的时候，最大的k为1（当S[i]与P[j]不匹配时，用P[k]与S[i]匹配，即P[1]和S[i]匹配，因为P[0]=P[2]，所以最大的k=1）。

图3-2 j_next=1，即最大的k的值为1

如上图3-1，当P[3]!=S[i],而P[0]=P[2]（当P[3]!=S[i],而P[0]=P[2]，P[2]=S[i-1]，所以肯定有P[0]=S[i-1])），所以只需比较P[1]与S[i]就可以了，即k是P可以跳过比较的最大长度，换句话说，就是k能标示出S[i]与P[j]不匹配时P的下一个匹配的位置。

图3-3 第二步匹配中，跳过P[0]（a），只需要比较 P[1]与S[3]（b）了

也就是说，如上图3-2，在第一次匹配中，就是因为S[2]=P[0]，所以在下一次匹配中，只需要比较S[3]=P[1]，跳过了几步?一步。那么k等于多少?k=1。即把 P 右移两个位置后，P[0]与S[2]不必再比较，因为前一步已经得出他们相等。所以，此时，只需要比较 P[1]与S[3]了。

    接下来的问题是，怎么求最大的数k使得p[0…k-1] = p[j-k…j-1]呢。这就是KMP算法中最核心的问题，即怎么求next数组的各元素的值?只有真正弄懂了这个next数组的求法，你才能彻底明白KMP算法到底是怎么一回事。
    那么，怎么求这个next数组呢?咱们一步一步来考虑。
    求最大的数k使得P[0…k-1] = P[j-k…j-1]，一个直接的办法是对于j,从P[j-1]往回查，看是否有满足P[0…k-1] = P[j-k…j-1]的k存在，而且还要最大的一个k。下面咱们换一个角度思考。
    当P[j+1]与S[i+1]不匹配时，分两种情况求next数组（注：以下皆有k=next[j]）：

P[j] = p[k], 那么next[j+1]=k+1，这个很容易理解。采用递推的方式求出next[j+1]=k+1（代码3-1的if部分）。
P[j] != p[k]，那么next[j+1]=next[k]+1（代码3-1的else部分）

稍后，你将看到，由这个方法得出的next值还不是最优的，也就是说是不能允许P[j]=P[next[j]]出现的。ok，请跟着我们一步一步登上山顶，不要试图一步登天，那是不可能的。由以上，可得如下代码：
//代码3-1，稍后，你将由下文看到，此求next数组元素值的方法有错误 void get_next(char const* ptrn, int plen, int* nextval) { int i = 0; nextval[i] = -1; int j = -1; while( i < plen-1 ) { if( j == -1 || ptrn[i] == ptrn[j] ) //循环的if部分 { ++i; ++j; nextval[i] = j; } else //循环的else部分 j = nextval[j]; //递推 } }next数组求值的验证

上述求next数组各值的方法（代码）是否正确呢?我们来举一个例子，应用上述的get_next函数来试验一下，即具体求解一下next数组各元素的值（通过下面的验证，我们将看到上面的求next数组的方法是有问题的，而后我们会在下文的第4小节具体修正上述求next数组的方法）。ok，请看：

    首先，模式串如下：字符串abab下面对应的数值即是已经求出的对应的nextval[i]值：

        图3-4 求next数组各值的示例
    接下来，咱们来具体解释下上面next数组中对应的各个nextval[i]的值是怎么求得来的，因为，理解KMP算法的关键就在于这个求next值的过程。Ok，如下，咱们再次引用一下上述求next数组各值的核心代码：

int i = 0;
nextval[i] = -1;
int j = -1;
while( i < plen-1 )
{
  if( j == -1 || ptrn[i] == ptrn[j] )    //循环的if部分
  {
   ++i;
   ++j;
   nextval[i] = j;
  }
  else                         //循环的else部分
   j = nextval[j];           //递推
}

    所以，根据上面的代码，咱们首先要初始化nextval[0] = -1，我们得到第一个next数组元素值即-1（注意，咱们现在的目标是要求nextval[i]各个元素的值，i是数组的下标，为0.1.2.3）；

   图3-5 第一个next数组元素值-1

    首先初始化：i = 0，j = -1，由于j == -1，进入上述函数中循环的if部分，++i得 i=1，++j得j=0，所以我们得到第二个next值即nextval[1] = 0；

   图3-6 第二个next数组元素值0

    i= 1，j = 0，由于不满足条件j == -1 || ptrn[i] == ptrn[j]（第一个元素a与第二个元素b不相同，所以也不满足第2个条件），所以进入上述循环的else部分，得到j = nextval[j] = -1（原来的nextval[0]=-1并没有改变），得到i = 1，j = -1；此时，由于j == -1且inextval[2] = 0；

   图3-7 第三个next数组元素值0

    此时，i = 2，j = 0，由于ptrn[i] == ptrn[j]（第1个元素和第3个元素都是a，相同，所以，虽然不满足j=-1的第1个条件，但满足第2个条件即ptrn[i] == ptrn[j]），进入循环的if部分，++i得i=3，++j得j=1，所以得到我们的第四个next值即nextval[3] = 1（由下文的第4小节，你将看到，求出的next数组之所以有误，问题就是出在这里。正确的解决办法是，如下文的第4小节所述，++i，++j之后，还得判断patn[i]与patn[j]是否相等，即杜绝出现P[j]=P[next[j]]这样的情况）；
    自此，我们得到了 nextval[i]数组的4个元素值，分别为-1，0,0,1。如下图3-8所示：

        图3-8 第四个next数组元素值1
    求得了相应的next数组（本文约定，next数组是指一般意义的next数组，而nextval[i]则代表具体求解next数组各数值的意义）各值之后，接下来的一切工作就好办多了。
    第一步：主串和模式串如下，由下图可以看到，我们在p[3]处匹配失败（即p[3]！=s[3]）。

                 图3-9 第一步，在p[3]处匹配失败
    第二步：接下来要用p[next[3]]（看到了没，是该我们上面求得的next数组各值大显神通的时候了），即p[1]与s[3]匹配（不要忘了，上面我们已经求得的nextval[i]数组的4个元素值，分别为-1，0,0,1）。但在p[1]处还是匹配失败（即p[1]！=s[3]）。

                 图3-10 第二步，p[1]处还是匹配失败

    第三步：接下来模式串指针指向下一位置next[1]=0处（注意此过程中主串指针是不动的），即模式串指针指向p[0]，即用p[0]与s[3]匹配（看起来，好像是k步步减小，这就是咱们开头所讲到的怎么求最大的数k使得P[0…k-1] = [j-k…j-1]）。而p[0]与s[3]还是不匹配。

                 图3-11 第三步，p[0]与s[3]还是不匹配

    第四步：由于上述第三步中，P[0]与S[3]还是不匹配。此时i=3,j=nextval[0]=-1,由于满足条件j==-1，所以进入循环的if部分,++i=4,++j=0,即主串指针下移一个位置，从p[0]与s[4]处开始匹配。最后j==plen，跳出循环，输出结果i-plen=4(即字串第一次出现的位置）

                 图3-12 第四步，跳出循环，输出结果i-plen=4

所以，综上，总结上述四步为：

P[3]！=S[3]，匹配失败；
nextval[3]=1，所以P[1]继续与S[3]匹配，匹配失败；
nextval[1]=0，所以P[0]继续与S[3]匹配，再次匹配失败；
nextval[0]=-1，满足循环if部分条件j==-1，所以，++i，++j，主串指针下移一个位置，从P[0]与S[4]处开始匹配，最后j==plen，跳出循环，输出结果i-plen=4，算法结束。

    不知，读者是否已看出，上面的匹配过程隐藏着一个不容忽略的问题，即有一个完全可以改进的地方。对的，问题就出现在上述过程的第二步。
    观察上面的匹配过程，看匹配的第二步，在第一步的时候已有P[3]=b与S[3]=c不匹配，而下一步如果还是要让P[next[3]]=P[1]=b与s[3]=c匹配的话，那么结果很明显，还是肯定会匹配失败的。由此可以看出我们的next值还不是最优的，也就是说是不能允许P[j]=P[next[j]]出现的，即上面的求next值的算法需要修正。
    也就是说上面求得的nextval[i]数组的4个元素值，分别为-1，0,0,1是有问题的。有什么问题呢?就是不容许出现这种情况P[j]=P[next[j]]。为什么?
    好比上面的例子。请容许我再次引用上面例子中的两张图。在上面的第一步匹配中，我们已经得出P[3]=b是不等于S[3]=c的。而在上面的第二步匹配中，根据求得的nextval[i]数组值中的nextval[3]=1，即让P[1]重新与S[3]再次匹配。这不是明摆着有问题么?因为P[1]也等于b阿，而在第一步匹配中，我们已经事先得知b是不可能等于S[3]的。所以，第二步匹配之前就已注定是失败的。

图3-13/14 求next数组各值的错误解法

4、求解next数组各值的方法修正

那么，上面求解next数组各值的问题到底出现在哪儿呢？我们怎么才能摆脱掉这种情况呢?：即不能让P[j]=P[next[j]]成立成立。不能再出现上面那样的情况啊！即不能有这种情况出现：P[3]=b，而竟也有P[next[3]]=P[1]=b。
让我们再次回顾一下之前求next数组的函数代码：

//引用之前上文第3小节中的有错误的求next的代码3-1。 void get_next(char const* ptrn, int plen, int* nextval) { int i = 0; nextval[i] = -1; int j = -1; while( i < plen-1 ) { if( j == -1 || ptrn[i] == ptrn[j] ) //循环的if部分 { ++i; ++j; nextval[i] = j; //这里有问题 } else //循环的else部分 j = nextval[j]; //递推 } }

由上面之前的代码，我们看到，在求next值的时候采用的是递推。这里的求法是有问题的。因为在s[i]!=p[j]的时候，如果p[j]=p[k]（k=nextval[j]，为之前的错误方法求得的next值），那么P[k]!=S[i]，用之前的求法求得的next[j]==k，下一步直接导致匹配(S[i]与P[k]匹配）失败。

根据上面的分析，我们知道求next值的时候还要考虑P[j]与P[k]是否相等。当有P[j]=P[k]的时候，只能向前递推出一个p[j]!=p[k'],其中k'=next[next[j]]。修正的求next数组的get_nextval函数代码如下：

//代码4-1 //修正后的求next数组各值的函数代码 void get_nextval(char const* ptrn, int plen, int* nextval) { int i = 0; nextval[i] = -1; int j = -1; while( i < plen-1 ) { if( j == -1 || ptrn[i] == ptrn[j] ) //循环的if部分 { ++i; ++j; //修正的地方就发生下面这4行 if( ptrn[i] != ptrn[j] ) //++i，++j之后，再次判断ptrn[i]与ptrn[j]的关系 nextval[i] = j; //之前的错误解法就在于整个判断只有这一句。 else nextval[i] = nextval[j]; } else //循环的else部分 j = nextval[j]; } }

    举个例子，举例说明下上述求next数组的方法。
S a b a b a b c
P a b a b c
S[4] != P[4]
    那么下一个和S[4]匹配的位置是k=2(也即P[next[4]])。此处的k=2也再次佐证了上文第3节开头处关于为了找到下一个匹配的位置时k的求法。上面的主串与模式串开头4个字符都是“abab”，所以，匹配失效后下一个匹配的位置直接跳两步继续进行匹配。
S a b a b a b c
P     a b a b c
匹配成功

P的next数组值分别为-1 0 -1 0 2

    next数组各值怎么求出来的呢?分以下五步：

初始化：i=0，j=-1；

i=1，j=0，进入循环esle部分，j=nextval[j]=nextval[0]=-1；

进入循环的if部分，++i，++j，i=2，j=0，因为ptrn[i]=ptrn[j]=a,所以nextval[2]=nextval[0]=-1；

i=2, j=0, 由于ptrn[i]=ptrn[j],再次进入循环if部分，所以++i=3，++j=1,因为ptrn[i]=ptrn[j]=b,所以nextval[3]=nextval[1]=0；

i=3,j=1,由于ptrn[i]=ptrn[j]=b,所以++i=4，++j=2,因为ptrn[i]!=ptrn[j],所以nextval[4]=2。

这样上例中模式串的next数组各值最终应该为:

图4-1 正确的next数组各值
next数组求解的具体过程如下：
初始化：nextval[0] = -1，我们得到第一个next值即-1.

图4-2 第一个next值即-1

i = 0，j = -1，由于j == -1，进入上述循环的if部分，++i得i=1，++j得j=0，且ptrn[i] != ptrn[j]（即a！=b）），所以得到第二个next值即nextval[1] = 0；

图4-3 第二个next值0

上面我们已经得到，i= 1，j = 0，由于不满足条件j == -1 || ptrn[i] == ptrn[j]，所以进入循环的esle部分，得j = nextval[j] = -1；此时，仍满足循环条件，由于i = 1，j = -1，因为j == -1，再次进入循环的if部分，++i得i=2，++j得j=0，由于ptrn[i] == ptrn[j]（即ptrn[2]=ptrn[0]，也就是说第1个元素和第三个元素都是a），所以进入循环if部分内嵌的else部分，得到nextval[2] = nextval[0] = -1；

图4-4 第三个next数组元素值-1

i = 2，j = 0，由于ptrn[i] == ptrn[j]，进入if部分，++i得i=3，++j得j=1，所以ptrn[i] == ptrn[j]（ptrn[3]==ptrn[1]，也就是说第2个元素和第4个元素都是b），所以进入循环if部分内嵌的else部分，得到nextval[3] = nextval[1] = 0；

         图4-5 第四个数组元素值0
    如果你还是没有弄懂上述过程是怎么一回事，请现在拿出一张纸和一支笔出来，一步一步的画下上述过程。相信我，把图画出来了之后，你一定能明白它的。
    然后，我留一个问题给读者，为什么上述的next数组要那么求?有什么原理么?

5、利用求得的next数组各值运用Kmp算法

Ok，next数组各值已经求得，万事俱备，东风也不欠了。接下来，咱们就要应用求得的next值，应用KMP算法来匹配字符串了。还记得KMP算法是怎么一回事吗?容我再次引用下之前的KMP算法的代码，如下：
//代码5-1 //int kmp_seach(char const*, int, char const*, int, int const*, int pos) KMP模式匹配函数 //输入：src, slen主串 //输入：patn, plen模式串 //输入：nextval KMP算法中的next函数值数组 int kmp_search(char const* src, int slen, char const* patn, int plen, int const* nextval, int pos) { int i = pos; int j = 0; while ( i < slen && j < plen ) { if( j == -1 || src[i] == patn[j] ) { ++i; ++j; } else { j = nextval[j]; //当匹配失败的时候直接用p[j_next]与s[i]比较， //下面阐述怎么求这个值，即匹配失效后下一次匹配的位置 } } if( j >= plen ) return i-plen; else return -1; } 我们上面已经求得的next值，如下：

图5-1 求得的正确的next数组元素各值

以下是匹配过程，分三步：
第一步：主串和模式串如下，S[3]与P[3]匹配失败。

图5-2 第一步，S[3]与P[3]匹配失败
第二步：S[3]保持不变，P的下一个匹配位置是P[next[3]]，而next[3]=0,所以P[next[3]]=P[0]，即P[0]与S[3]匹配。在P[0]与S[3]处匹配失败。

图5-3 第二步，在P[0]与S[3]处匹配失败

第三步：与上文中第3小节末的情况一致。由于上述第三步中，P[0]与S[3]还是不匹配。此时i=3,j=nextval[0]=-1,由于满足条件j==-1，所以进入循环的if部分,++i=4,++j=0,即主串指针下移一个位置，从P[0]与S[4]处开始匹配。最后j==plen，跳出循环，输出结果i-plen=4(即字串第一次出现的位置），匹配成功，算法结束。

图5-4 第三步，匹配成功，算法结束
所以，综上，总结上述三步为：

开始匹配，直到P[3]！=S[3]，匹配失败；
nextval[3]=0，所以P[0]继续与S[3]匹配，再次匹配失败；
nextval[0]=-1，满足循环if部分条件j==-1，所以，++i，++j，主串指针下移一个位置，从P[0]与S[4]处开始匹配，最后j==plen，跳出循环，输出结果i-plen=4，算法结束。

与上文中第3小节的四步匹配相比，本节运用修正过后的next数组，去掉了第3小节的第2个多余步骤的nextval[3]=1，所以P[1]继续与S[3]匹配，匹配失败（缘由何在?因为与第3小节的next数组相比，此时的next数组中nextval[3]已等于0）。所以，才只需要三个匹配步骤了。

ok，KMP算法已宣告完结，希望已经了却了心中的一块结石。毕竟，这个KMP算法此前也困扰了我很长一段时间。耐心点，慢慢来，总会搞懂的。闲不多说，接下来，咱们开始介绍BM算法。

第二部分、BM算法

1、简单的后比对算法

为了更好的理解BM算法，我分三步引入BM算法。首先看看下面的一个字符串匹配算法，它与前面的回溯法差不多，看看差别在哪儿。

/*! int search_reverse(char const*, int, char const*, int) */bref 查找出模式串patn在主串src中第一次出现的位置 */return patn在src中出现的位置，当src中并没有patn时，返回-1 */ int search_reverse(char const* src, int slen, char const* patn, int plen) { int s_idx = plen, p_idx; if (plen == 0) return -1; while (s_idx <= slen)//计算字符串是否匹配到了尽头 { p_idx = plen; while (src[--s_idx] == patn[--p_idx])//开始匹配 { //if (s_idx < 0) //return -1; if (p_idx == 0) { return s_idx; } } s_idx += (plen - p_idx)+1; } return -1 }

仔细分析上面的代码，可以看出该算法的思路是从模式串的后面向前面匹配的，如果后面的几个都不匹配了，就可以直接往前面跳了，直觉上这样匹配更快些。是否真是如此呢?请先看下面的例子。

上面是详细的算法流程，接下来我们就用上面的例子，来引出坏2、字符规则，3、最好后缀规则，最终引出4、BM算法。

2、坏字符规则

在上面的例子里面，第一步的时候，S[3] = ‘c’ != P[3]，下一步应该当整个模式串移过S[3]即可，因为S[3]已经不可能与P中的任何一个部分相匹配了。那是不是只是对于P中不存在的字符就这样直接跳过呢，如果P中存在的字符该怎么定位呢？

如模式串为P=”acab”，基于坏字符规则匹配步骤分解图如下：

从上面的例子可以看出，我们需要建一张表，表示P中字符存在的情况，不存在，则s_idx直接加上plen跳过该字符，如果存在，则需要找到从后往前最近的一个字符对齐匹配，如上面的例子便已经说明了坏字符规则匹配方法.

再看下面的例子：

由此可见，第一个匹配失败的时候S[i]=’c’，主串指针需要+2才有可能在下一次匹配成功，同理第二次匹配失败的时候，S[i]=’a’，主串指针需要+3直接跳过’a’才能下一次匹本成功。

对于S[i]字符，有256种可能，所以需要对于模式串建立一张长度为256的坏字符表，其中当P中没出现的字符，表值为plen，如果出现了，则设置为最近的一个对齐的值。具体算法比较简单如下：

/* 函数：void BuildBadCharacterShift(char *, int, int*) 目的：根据好后缀规则做预处理，建立一张好后缀表参数： pattern => 模式串P plen => 模式串P长度 shift => 存放坏字符规则表,长度为的int数组返回：void */ void BuildBadCharacterShift(char const* pattern, int plen, int* shift) { for( int i = 0; i < 256; i++ ) *(shift+i) = plen; while ( plen >0 ) { *(shift+(unsigned char)*pattern++) = --plen; } } 这个时候整个算法的匹配算法该是怎么样的呢，是将上面的search_reverse函数中的s_idx+=(plen-p_idx)+1改成s_idx+= shift[(unsigned char)patn[p_idx]] +1吗？不是的，代码给出如下，具体原因读者可自行分析。

/*! int search_badcharacter(char const*, int, char const*, int) */bref 查找出模式串patn在主串src中第一次出现的位置 */return patn在src中出现的位置，当src中并没有patn时，返回-1 */ int search_badcharacter(char const* src, int slen, char const* patn, int plen, int* shift) { int s_idx = plen, p_idx; int skip_stride; if (plen == 0) return -1; while (s_idx <= slen)//计算字符串是否匹配到了尽头 { p_idx = plen; while (src[--s_idx] == patn[--p_idx])//开始匹配 { //if (s_idx < 0) //Return -1; if (p_idx == 0) { return s_idx; } } skip_stride = shift[(unsigned char)src[s_idx]]; s_idx += (skip_stride>plen-p_idx ? skip_stride: plen-p_idx)+1; } return -1; }

3、最好后缀规则

在讲最好后缀规则之前，我们先回顾一下本部分第1小节中所举的一个简单后比对算法的例子：

上面倒数第二步匹配是没必要的。为什么呢？在倒数第三步匹配过程中，已有最后两个字符与模式串P中匹配，而模式串中有前两个与后两个字符相同的，所以可以直接在接下来将P中的前两个与主串中匹配过的’ab’对齐，做为下一次匹配的开始。

其实思路与本文第一部分讲过的KMP算法差不多，也是利用主串与模式串已匹配成功的部分来找一个合适的位置方便下一次最有效的匹配。只是这里是需要寻找一个位置，让已匹配过的后缀与模式串中从后往前最近的一个相同的子串对齐。（理解这句话就理解了BM算法的原理）这里就不做数学描述了。

ok，主体思想有了，怎么具体点呢？下面，直接再给一个例子，说明这种匹配过程。看下图吧。

由图可以goodsuffixshift[5] = 5

下面看goodsuffixshift [3]的求解

求解最好后缀数组是BM算法之所以难的根本，所以建议多花时间理清思路。网上有很多方法，我也试过两个，一经测试，很多都不算准确，最好后缀码的求解不像KMP的“最好前缀数组”那样可以用递推的方式求解，而是有很多细节。

代码如下： /* 函数：void BuildGoodSuffixShift(char *, int, int*) 目的：根据最好后缀规则做预处理，建立一张好后缀表参数： pattern => 模式串P plen => 模式串P长度 shift => 存放最好后缀表数组返回：void */ void BuildGoodSuffixShift(char const* pattern, int plen, int* shift) { shift[plen-1] = 1; // 右移动一位 char end_val = pattern[plen-1]; char const* p_prev, const* p_next, const* p_temp; char const* p_now = pattern + plen - 2; // 当前配匹不相符字符,求其对应的shift bool isgoodsuffixfind = false; // 指示是否找到了最好后缀子串,修正shift值 for( int i = plen -2; i >=0; --i, --p_now) { p_temp = pattern + plen -1; isgoodsuffixfind = false; while ( true ) { while (p_temp >= pattern && *p_temp-- != end_val); // 从p_temp从右往左寻找和end_val相同的字符子串 p_prev = p_temp; // 指向与end_val相同的字符的前一个 p_next = pattern + plen -2; // 指向end_val的前一个 // 开始向前匹配有以下三种情况 //第一：p_prev已经指向pattern的前方,即没有找到可以满足条件的最好后缀子串 //第二：向前匹配最好后缀子串的时候,p_next开始的子串先到达目的地p_now, //需要判断p_next与p_prev是否相等,如果相等,则继续住前找最好后缀子串 //第三：向前匹配最好后缀子串的时候,p_prev开始的子串先到达端点pattern, 这个可以算是最好的子串 if( p_prev < pattern && *(p_temp+1) != end_val ) // 没有找到与end_val相同字符 break; bool match_flag = true; //连续匹配失败标志 while( p_prev >= pattern && p_next > p_now ) { if( *p_prev --!= *p_next-- ) { match_flag = false; //匹配失败 break; } } if( !match_flag ) continue; //继续向前寻找最好后缀子串 else { //匹配没有问题, 是边界问题 if( p_prev < pattern || *p_prev != *p_next) { // 找到最好后缀子串 isgoodsuffixfind = true; break; } // *p_prev == * p_next 则继续向前找 } } shift[i] = plen - i + p_next - p_prev; if( isgoodsuffixfind ) shift[i]--; // 如果找到最好后缀码，则对齐，需减修正 } }

注：代码里求得到的goodsuffixshift值与上述图解中有点不同，这也是我看网上代码时做的一个小的改进。请注意。另外，如上述代码的注释里所述，开始向前匹配有以下三种情况：

第一： p_prev 已经指向pattern的前方,即没有找到可以满足条件的最好后缀子串
第二：向前匹配最好后缀子串的时候,p_next开始的子串先到达目的地p_now, 需要判断p_next与p_prev是否相等,如果相等,则继续住前找最好后缀子串
第三：向前匹配最好后缀子串的时候,p_prev开始的子串先到达端点pattern, 这个可以算是最好的子串。下面，咱们分析这个例子：

从图中可以看出，在模式串P中，P[2]=P[6]但P[1]也等于P[5]，所以如果只移5位让P[2]与S[6]对齐是没必要的，因为P[1]不可能与S[5]相等（如红体字符表示），对于这种情况，P[2]=P[6]就不算最好后缀码了，所以应该直接将整个P滑过S[6]，所以goodsuffixshift[5]=8而不是5。也就是说，在匹配过程中已经得出P[1]是不可能等于S[5]的，所以，就算为了达到P[2]与S[6]匹配的效果，让模式串P右移5位，但在P[1]处与S[5]处还是会导致匹配失败。所以，必定会匹配失败的事，我们又何必多次一举呢?

那么，我们到底该怎么做呢?如果我现在直接给出代码的话，可能比较难懂，为了进一步说明，以下图解是将BM算法的好后缀表数组shift（不匹配时直接跳转长度数组）的求解过程。其中第一行为src数组，第二行为patn数组，第三行为匹配失败时下一次匹配时的patn数组（粉色框的元素实际不存在）。

1、i = 5时不匹配的情况

ok，现在咱们定位于P[5]处，当i = 5时src[5] != patn[5]，p_now指向patn[5]，而p_prev指向patn[1]，即情况二。由于此时*p_prev == *p_now，则继续往前找最好后缀子串。循环直到p_prev指向patn[0]的前一个位置（实际不存在，为了好理解加上去的）。此时p_prev指向patn[0]的前方，即情况一。此时条件p_prev < pattern && *(p_temp+1) != end_val满足，所以跳出循环。计算shift[5]= plen - i + p_next - p_prev =8（实际上是第三行的长度）。

2、i = 4时不匹配的情况

i= 4时，src[4] != patn[4]，此时p_prev指向patn[0]，p_now指向patn[4]，即情况二。由于此时*p_prev == *p_now，则继续往前找最好后缀子串。循环直到p_prev指向patn[0]的前一个位置。此时p_prev指向patn[0]的前方，即情况一。此时条件p_prev < pattern && *(p_temp+1) != end_val满足，所以跳出循环。计算shift[4]= plen - i + p_next - p_prev =9（实际上是第三行的长度）。

3、i = 3时不匹配的情况

同样的过程可以得到，i = 3时shift[3]也为第三行的长度7。

4、i = 2时不匹配的情况

同样的过程可以得到，i = 2时shift[2]也为第三行的长度8。

5、i = 1时不匹配的情况

同样的过程可以得到，i = 1时shift[1]也为第三行的长度9。

6、i = 0时不匹配的情况

同样的过程可以得到，i = 0时shift[0]也为第三行的长度10。

计算好后缀表数组后，这种情况下的字模式匹配算法为：/*! int search_goodsuffix(char const*, int, char const*, int) */bref 查找出模式串patn在主串src中第一次出现的位置 */return patn在src中出现的位置，当src中并没有patn时，返回-1 */ int search_goodsuffix(char const* src, int slen, char const* patn, int plen, int* shift) { int s_idx = plen, p_idx; int skip_stride; if (plen == 0) return -1; while (s_idx <= slen)//计算字符串是否匹配到了尽头 { p_idx = plen; while (src[--s_idx] == patn[--p_idx])//开始匹配 { //if (s_idx < 0) //return -1; if (p_idx == 0) { return s_idx; } } skip_stride = shift[p_idx]; s_idx += skip_stride +1; } return -1; }

4、BM算法

有了前面的三个步骤的算法的基础，BM算法就比较容易理解了，其实BM算法就是将坏字符规则与最好后缀规则的综合具体代码如下，相信一看就会明白。/* 函数：int* BMSearch(char *, int , char *, int, int *, int *) 目的：判断文本串T中是否包含模式串P 参数： src => 文本串T slen => 文本串T长度 ptrn => 模式串P pLen => 模式串P长度 bad_shift => 坏字符表 good_shift => 最好后缀表返回： int - 1表示匹配失败，否则反回 */ int BMSearch(char const*src, int slen, char const*ptrn, int plen, int const*bad_shift, int const*good_shift) { int s_idx = plen; if (plen == 0) return 1; while (s_idx <= slen)//计算字符串是否匹配到了尽头 { int p_idx = plen, bad_stride, good_stride; while (src[--s_idx] == ptrn[--p_idx])//开始匹配 { //if (s_idx < 0) //return -1; if (p_idx == 0) { return s_idx; } } // 当匹配失败的时候，向前滑动 bad_stride = bad_shift[(unsigned char)src[s_idx]]; //根据坏字符规则计算跳跃的距离 good_stride = good_shift[p_idx]; //根据好后缀规则计算跳跃的距离 s_idx += ((good_stride > bad_stride) ? good_stride : bad_stride )+1;//取大者 } return -1; }

作者：v_JULY_v 发表于2011-6-15 1:28:00 原文链接

阅读：3410 评论：52 查看评论

你可能感兴趣的:(数据结构与算法)

数据结构与算法-09贪心算法&动态规划阿诚学java 数据结构与算法学习记录贪心算法动态规划 ios
贪心算法&动态规划1贪心算法介绍贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取在当前状态下最好或最优（即最有利）的选择，从而希望导致结果是全局最好或最优的算法。贪心算法通常用于解决优化问题，如最小化成本、最大化收益等。然而，贪心算法并不总是能够得到全局最优解，但它具有直观、高效、易于实现等优点，因此在许多实际问题中得到了广泛应用。基本思想贪心算法总是从问题的某一个初始解出发。
数据结构与算法----贪心王嘉俊925 算法算法数据结构 C++贪心算法
##贪心算法1.核心思想贪心算法通过每一步的局部最优选择，逐步推导出全局最优解。它的特点是不回溯，即一旦做出选择，就不再修改。2.适用条件贪心算法适用于满足以下两个条件的问题：贪心选择性质：每一步的局部最优选择能够导致全局最优解。最优子结构：问题的最优解包含子问题的最优解。3.贪心算法的证明方法贪心算法的正确性通常需要通过以下方法证明：归纳法：证明每一步的贪心选择都能导致全局最优。交换论证：假设存
零基础数据结构与算法——第五章：高级算法-贪心算法-基础&示例
5.2贪心算法（GreedyAlgorithm）5.2.1贪心算法的基本概念什么是贪心算法？贪心算法是一种在每一步选择中都采取当前状态下最好或最优的选择，从而希望导致结果是最好或最优的算法。生活例子：想象你在超市购物，手里有100元钱，想买尽可能多的零食。如果你采用贪心策略，你会怎么做？你可能会先选择最便宜的零食，然后是第二便宜的，以此类推，直到钱用完。这就是一种贪心策略——每次都选择当前看起来最
swift5分钟语法速记开发之家 iOS iOS
如果你依然在编程的世界里迷茫，不知道自己的未来规划，小编给大家推荐一个IOS高级交流群：458839238里面可以与大神一起交流并走出迷茫。小白可进群免费领取学习资料，看看前辈们是如何在编程的世界里傲然前行！群内提供数据结构与算法、底层进阶、swift、逆向、整合面试题等免费资料附上一份收集的各大厂面试题（附答案）!群文件直接获取各大厂面试题又把swift相关语法部分看了一遍，并整理了swift语
大学专业科普 | 计算智能、信息学与大数据鸭鸭鸭进京赶烤大数据
一、专业背景随着信息技术的飞速发展，数据的产生速度呈爆炸式增长，传统数据处理技术已经无法满足如此庞大的数据量和复杂的数据类型，大数据专业应运而生，旨在培养能够应对大数据挑战的专业人才。二、主要课程内容数学基础课程高等数学、概率论与数理统计、线性代数是大数据分析的核心数学基础，为数据处理、算法优化和模型构建提供必要的理论支持。计算机基础课程数据结构与算法、计算机网络、操作系统是大数据技术的重要支撑，
深入理解Mysql索引底层数据结构与算法桑翔
一.索引的本质索引是帮助MySQL高效获取数据的排好序的数据结构二.索引数据结构1.二叉树2.红黑树3.Hash表4.B-Tree1.叶节点具有相同的深度,叶节点的指针为空2.所有索引元素不重复3.节点中的数据索引从左到右递增排序B-Tree5.B+Tree1.非叶子节点不存储data,可以放更多的索引2.叶子节点包含所有索引字段3.叶子节点用指针连接,提高区间访问的性能(体现在做范围查询的时候)
Java数据结构与算法(爬楼梯动态规划) 盘门 java数据结构与算法实战 java 动态规划开发语言
前言爬楼梯就是一个斐波那契数列问题，采用动态规划是最合适不过的。实现原理初始化:dp[0]=1;dp[1]=2;转移方程：dp[i]=dp[i-1]+d[i-2];边界条件:无具体代码实现classSolution{publicintclimbStairs(intn){if(n==1){return1;}int[]dp=newint[n];dp[0]=1;dp[1]=2;for(inti=2;i<
【数据结构与算法-Day 4】从O(1)到O(n²)，全面掌握空间复杂度分析吴师兄大模型数据结构与算法数据结构与算法 python 时间复杂度大模型人工智能数据结构深度学习
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
数据结构与算法里散列表的算法优化技巧数据结构与算法学习散列表算法数据结构 ai
数据结构与算法里散列表的算法优化技巧关键词：散列表、哈希冲突、负载因子、开放寻址法、链地址法、动态扩容、哈希函数优化摘要：本文将深入探讨散列表的核心原理与优化技巧，通过图书馆管理员的比喻揭示哈希冲突的本质，结合Python代码演示动态扩容策略与哈希函数优化方法，最后通过实际案例展示如何将查询速度提升300%。文章包含5个可视化流程图和3个完整代码实现。背景介绍目的和范围本文面向已掌握基础数据结构知
数据结构与算法学习 (08)字符串匹配--BF算法/RK算法暱稱已被使用
BF算法也就是串的模式匹配算法，在主串中查找与模式T（副串）相匹配的子串，如果匹配成功，找到该子串在主串出现的第一个字符。模式匹配不一定是从主串第一个字符开始，可以在主串中指定起始位置。算法思想：将目标串S的第一个字符与模式串T的第一个字符进行匹配，若相等，则继续比较S的第二个字符和T的第二个字符；若不相等，则比较S的第二个字符和T的第一个字符，依次比较下去，直到得出最后的匹配结果。BF算法是一种
PTA数据结构与算法-第一章——褚论 ?Suki PTA习题算法数据结构 c++
文章目录第一章——褚论第二章——线性表第三章——栈与队列第四章——字符串第五章——树与二叉树第六章——图第七章——排序第八章——检索判断题单选题程序填空题第一章——褚论第二章——线性表第三章——栈与队列第四章——字符串第五章——树与二叉树第六章——图第七章——排序第八章——检索判断题(neuDS)数据的物理结构是指数据在计算机中的实际存储形式。T(neuDS)数据的物理结构是指数据在计算机中的实际
C++数据结构————二叉树 Гений.大天才 C++语言入门以及基础算法 c++数据结构开发语言
【前言】在数据结构与算法的世界里，二叉树（BinaryTree）始终占据着核心地位。它既是众多高级树形结构（B+树、红黑树、线段树、字典树……）的“基因”，又是面试、竞赛与工程实战中绕不开的考点。本文将用大约2万字的篇幅，从“零”开始，把C++二叉树的所有常见形态、常见算法、常见坑点与常见优化一次性讲透。全文配套可编译运行的C++17/20代码2000余行，所有示例均在GCC13/Clang17/
【数据结构与算法】力扣 88. 合并两个有序数组秀秀_heo 数据结构与算法 leetcode 算法职场和发展
题目描述88.合并两个有序数组给你两个按非递减顺序排列的整数数组nums1**和nums2，另有两个整数m和n，分别表示nums1和nums2中的元素数目。请你合并nums2**到nums1中，使合并后的数组同样按非递减顺序排列。注意：最终，合并后数组不应由函数返回，而是存储在数组nums1中。为了应对这种情况，nums1的初始长度为m+n，其中前m个元素表示应合并的元素，后n个元素为0，应忽略。
项目开发日记
框架整理学习UIMgr：一、数据结构与算法1.1关键数据结构成员变量类型说明m_CtrlsList当前正在显示的所有UI页面m_CachesList已打开过、但现在不显示的页面（缓存池）1.2算法逻辑查找缓存页面：从m_Caches中倒序查找是否已有对应ePageType页面，找到则重用。页面加载：从资源管理器ResMgr加载prefab并绑定控制器/视图组件。页面关闭：从m_Ctrls移除，添加
2025秋招优秀项目推荐微凉的衣柜人工智能深度学习算法 gpt
01.多个优异的数据结构与算法项目推荐良心推荐hello-algo包含多个通用的代码框架，一个框架完成多道题目，更详细请查阅labuladong02.大模型岗位面试总结：共24家，9个offer大模型岗位面试总结：共24家，9个offer03.视觉检测分割一切源码及在线DemoGrounded-Segment-Anything项目源码
数据结构课程设计秋悠然深度优先算法图论
项目名称：图的遍历课程设计主要目的：1.了解并掌握数据结构与算法的设计方法。2.通过应用数据结构的基本理论和方法来解决实际问题。3.初步掌握软件开发过程中的问题分析、系统设计、程序编码、调试、数据测试等基本方法和技能。4.学习编写课程设计报告，软件开发文档。课程设计任务要求：任务：实现图的深度遍历（递归和非递归两种方法）以及实现图的广度遍历（队列）要求：1.程序能够正确运行，实现图的深度遍历和广度
零基础数据结构与算法——第四章：基础算法-排序（总） qqxhb 零基础数据结构与算法算法小学生编程算法排序算法数据结构插入桶归并
排序上（冒泡/选择/插入）排序中（归并/堆排/快排）排序下（计数/基数/桶）4.1.10排序算法的比较性能比较下表总结了我们学习的排序算法的性能特点：排序算法平均时间复杂度最坏时间复杂度最好时间复杂度空间复杂度稳定性是否基于比较冒泡排序O(n²)O(n²)O(n)O(1)稳定是选择排序O(n²)O(n²)O(n²)O(1)不稳定是插入排序O(n²)O(n²)O(n)O(1)稳定是归并排序O(nlo
【算法专题】双指针算法之18. 四数之和（力扣） CILMY23 算法专题算法 leetcode 双指针算法 c++四数之和
欢迎来到CILMY23的博客本篇主题为：双指针算法之18.四数之和（力扣）个人主页：CILMY23-CSDN博客系列专栏：Python|C++|C语言|数据结构与算法|贪心算法|Linux|算法专题|代码训练营感谢观看，支持的可以给个一键三连，点赞收藏+评论。如果你觉得有帮助，还可以点点关注题目：18.四数之和-力扣（LeetCode）给你一个由n个整数组成的数组nums，和一个目标值target
揭秘 LeetCode 数据结构与算法的高效学习方法数据结构与算法学习 leetcode 学习方法算法 ai
揭秘LeetCode数据结构与算法的高效学习方法关键词：LeetCode、数据结构、算法、高效学习、解题技巧、知识体系、面试准备摘要：本文以“如何高效通过LeetCode学习数据结构与算法”为核心，结合新手常见痛点（如刷题没方向、刷完就忘、无法举一反三），通过生活化类比、具体案例拆解和可操作的学习方法，系统讲解从“入门到精通”的全流程。无论是求职准备的程序员，还是想提升编程能力的学习者，都能从中找
LeetCode 刷题：数据结构与算法的实战经验分享
LeetCode刷题：数据结构与算法的实战经验分享关键词：LeetCode、数据结构、算法、刷题经验、实战摘要：本文将围绕LeetCode刷题展开，深入探讨数据结构与算法在实际刷题过程中的应用。通过分享实战经验，帮助读者更好地理解和掌握数据结构与算法知识，提升解题能力。文章将从背景介绍入手，阐述刷题的目的和意义，接着详细解释核心概念，分析它们之间的关系，然后介绍核心算法原理和具体操作步骤，结合数学
数据结构与算法PTA 6-1【顺序表】（C语言）页面正在加载中数据结构与算法入门记录算法数据结构链表 c语言
题目：要求根据顺序表定义和已有操作，编码完成其他的10个操作。顺序表的定义和已有操作：#defineN10typedefintElemType;typedefstruct{ElemTypedata[N];intlast;}SeqList;SeqList*InitList();voidTraverseList(SeqList*list);需要你来编写的其他操作：//插入成功则返回0。如果pos非法则
【C语言】学习过程教训与经验杂谈：思想准备、知识回顾（五）
个人主页：艾莉丝努力练剑❄专栏传送门：《C语言》、《数据结构与算法》、C语言刷题12天IO强训、LeetCode代码强化刷题学习方向：C/C++方向⭐️人生格言：为天地立心，为生民立命，为往圣继绝学，为万世开太平前言：我们在学习过程中会碰到很多很多问题，本系列文章不会博主不会额外再创建一个新的专栏来收录，因为这一系列文章创作的初心主要是针对回顾知识点（遵循遗忘曲线并且根据自身的实际情况可以做出一些
python进阶之数据结构与算法--入门-二叉树小白piao 数据结构与算法python篇数据结构算法二叉树 python
二叉树概念：之前已经提及了关于树的概念，要想知道之前讲了什么请关注，前边文章里都有提及。这里不做赘述。二叉树是具有以下属性的有序树：1、每个节点最多有两个孩子节点2、每个孩子节点被命名为左子节点和右子节点3、对于每个节点的孩子节点，在顺序上，左子节点优先于右子节点4、若子树的根为内部节点v的左子节点或者右子节点，则该子树相应地被称为节点v的左子树或者右子树5、若每个节点都有零个或者两个节点，则这样
C语言数据结构与算法专栏目录 CodeAllen嵌入式嵌入式 C语言数据结构算法
后序会开一个《嵌入式数据结构专栏》主要为了学习嵌入式的同学，软件能力提升和大厂面试能力，感谢大家关注！直达专栏：https://blog.csdn.net/super828/category_11083370.html《C语言数据结构与算法》专栏已经更新完毕，共计72篇分享，后期会逐渐修改错误并添加内容0数据之间的关系有哪些？1如何度量一个算法的好坏？2常见的时间复杂度实例
零基础数据结构与算法—— 第三章：高级数据结构-总结 qqxhb 零基础数据结构与算法小学生编程算法数据结构算法树堆哈希表图
3.1树（上）3.1树（下）3.2堆（Heap）3.3哈希表（HashTable）3.4图（Graph）3.5高级树结构3.6本章小结在本章中，我们深入学习了几种重要的高级数据结构，这些数据结构在解决复杂问题时具有强大的能力。让我们回顾一下本章的主要内容：1.堆（Heap）堆是一种特殊的完全二叉树，具有堆序性质。我们学习了：最大堆和最小堆的概念和性质堆的基本操作（插入、删除堆顶、获取堆顶、构建堆）
数据结构与算法：贪心（二）
前言要加快速度啊！！一、最短无序连续子数组classSolution{public:intfindUnsortedSubarray(vector&nums){intn=nums.size();intMax=-1e9;intright=-1;//最右不符合的位置for(inti=0;inums[i])//遇到不符合递增规律的数{right=i;}Max=max(Max,nums[i]);}intMi
数据结构与算法：贪心算法的优化案例展示
数据结构与算法：贪心算法的优化案例展示关键词：贪心算法、局部最优、全局最优、活动选择问题、霍夫曼编码、硬币找零、算法优化摘要：贪心算法是计算机科学中最“接地气”的算法思想之一——它像极了我们日常生活中“走一步看一步，每次选当前最好”的决策方式。但这种“短视”的策略为何能在某些问题中得到全局最优解？它的优化边界在哪里？本文将通过5个经典案例，从生活场景到代码实现，一步步拆解贪心算法的核心逻辑与优化技
C++ 智能指针随意023 C++重构 c++开发语言
STL和智能指针关系1.STL是标准库的子集：专注于数据结构与算法。2.智能指针属于“通用工具库”：与std::thread、std::future等工具同属一类，不隶属于STL的核心组件。1.智能指针智能指针是一个类模板，通过RAII（资源获取即初始化）技术封装原始指针，自动管理对象生命周期。1.核心功能避免内存泄漏：无需手动调用delete。2.RAII（资源获取即初始化）RAII（Resou
数据结构与算法中外部排序的详细剖析数据结构与算法学习网络 ai
数据结构与算法中外部排序的详细剖析关键词：外部排序、归并排序、多路归并、置换选择排序、败者树、磁盘I/O优化、大数据处理摘要：本文将深入探讨外部排序技术，这是处理大规模数据时不可或缺的算法。我们将从基本概念出发，逐步解析多路归并、置换选择排序等核心技术，并通过实际代码示例展示如何实现高效的外部排序。文章还将分析外部排序在现代大数据处理中的应用场景和优化策略。背景介绍目的和范围本文旨在全面介绍外部排
数据结构与算法领域线性探测的性能分析数据结构与算法学习哈希算法散列表数据结构 ai
数据结构与算法领域线性探测的性能分析关键词：哈希表、线性探测、冲突解决、时间复杂度、负载因子、性能分析、散列函数摘要：本文深入探讨哈希表中线性探测冲突解决方法的性能特点。我们将从基本概念出发，通过生活化的比喻解释线性探测的工作原理，分析其在不同场景下的时间复杂度表现，并通过Python代码实现和实验数据展示其实际性能。文章还将讨论线性探测的优缺点、适用场景以及优化策略，帮助读者全面理解这一经典算法
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号

六之续、由KMP算法谈到BM算法

第二部分、BM算法

1、简单的后比对算法

2、坏字符规则

4、BM算法

你可能感兴趣的:(数据结构与算法)