suxinpingtao51

教你初步了解KMP算法、updated

本文参考：数据结构（c语言版）李云清等编著、算法导论

引言：
在文本编辑中，我们经常要在一段文本中某个特定的位置找出某个特定的字符或模式。
由此，便产生了字符串的匹配问题。
本文由简单的字符串匹配算法开始，再到KMP算法，由浅入深，教你从头到尾彻底理解KMP算法。

来看算法导论一书上关于此字符串问题的定义：
假设文本是一个长度为n的数组T[1...n]，模式是一个长度为m<=n的数组P[1....m]。
进一步假设P和T的元素都是属于有限字母表Σ.中的字符。

依据上图，再来解释下字符串匹配问题。目标是找出所有在文本T=abcabaabcaabac中的模式P=abaa所有出现。
该模式仅在文本中出现了一次，在位移s=3处。位移s=3是有效位移。

第一节、简单的字符串匹配算法

简单的字符串匹配算法用一个循环来找出所有有效位移，
该循环对n-m+1个可能的每一个s值检查条件P[1....m]=T[s+1....s+m]。

NAIVE-STRING-MATCHER(T, P)
1 n ← length[T]
2 m ← length[P]
3 for s ← 0 to n - m
4     do if P[1 ‥ m] = T[s + 1 ‥ s + m]
      //对n-m+1个可能的位移s中的每一个值，比较相应的字符的循环必须执行m次。
5           then print "Pattern occurs with shift" s

简单字符串匹配算法，上图针对文本T=acaabc 和模式P=aab。
上述第4行代码，n-m+1个可能的位移s中的每一个值，比较相应的字符的循环必须执行m次。
所以，在最坏情况下，此简单模式匹配算法的运行时间为O（(n-m+1)m）。

--------------------------------

下面我再来举个具体例子，并给出一具体运行程序：
对于目的字串target是banananobano,要匹配的字串pattern是nano,的情况，

下面是匹配过程，原理很简单，只要先和target字串的第一个字符比较，
如果相同就比较下一个，如果不同就把pattern右移一下，
之后再从pattern的每一个字符比较，这个算法的运行过程如下图。
//index表示的每n次匹配的情形。

#include<iostream>
#include<string>
using namespace std;
int match(const string& target,const string& pattern)
{
    int target_length = target.size();
    int pattern_length = pattern.size();
    int target_index = 0;
    int pattern_index = 0;
    while(target_index < target_length && pattern_index < pattern_length)
    {
        if(target[target_index]==pattern[pattern_index])
        {
            ++target_index;
            ++pattern_index;
        }
        else
        {
            target_index -= (pattern_index-1);
            pattern_index = 0;
        }
    }
    if(pattern_index == pattern_length)
    {
        return target_index - pattern_length;
    }
    else
    {
        return -1;
    }
}
int main()
{
    cout<<match("banananobano","nano")<<endl;
    return 0;
}

//运行结果为4。

上面的算法进间复杂度是O(pattern_length*target_length),
我们主要把时间浪费在什么地方呢？
观查index =2那一步，我们已经匹配了3个字符，而第4个字符是不匹配的，这时我们已经匹配的字符序列是nan,

此时如果向右移动一位，那么nan最先匹配的字符序列将是an,这肯定是不能匹配的，
之后再右移一位，匹配的是nan最先匹配的序列是n,这是可以匹配的。

如果我们事先知道pattern本身的这些信息就不用每次匹配失败后都把target_index回退回去，
这种回退就浪费了很多不必要的时间，如果能事先计算出pattern本身的这些性质，
那么就可以在失配时直接把pattern移动到下一个可能的位置，
把其中根本不可能匹配的过程省略掉，
如上表所示我们在index=2时失配，此时就可以直接把pattern移动到index=4的状态，
kmp算法就是从此出发。

第二节、KMP算法

2.1、覆盖函数(overlay_function)

覆盖函数所表征的是pattern本身的性质，可以让为其表征的是pattern从左开始的所有连续子串的自我覆盖程度。
比如如下的字串，abaabcaba

由于计数是从0始的，因此覆盖函数的值为0说明有1个匹配，对于从0还是从来开始计数是偏好问题，

具体请自行调整，其中-1表示没有覆盖，那么何为覆盖呢，下面比较数学的来看一下定义，比如对于序列

a0a1...aj-1 aj

要找到一个K，使它满足

a0a1...ak-1ak=aj-kaj-k+1...aj-1aj

而没有更大的k满足这个条件，就是说要找到尽可能大k,使pattern前k字符与后k字符相匹配，k要尽可能的大。
原因是如果有比较大的k存在，而我们选择了较小的满足条件的k，那么当失配时，我们就会使pattern向右移动的位置变大，而较少的移动位置是存在匹配的，这样我们就会把可能匹配的结果丢失。

比如下面的序列，

在红色部分失配，正确的结果是k=1的情况，把pattern右移4位，如果选择k=0,右移5位则会产生错误。
计算这个overlay函数的方法可以采用递推，可以想象如果对于pattern的前j个字符，如果覆盖函数值为k

a0a1...ak-1ak=aj-kaj-k+1...aj-1aj
则对于pattern的前j+1序列字符，则有如下可能
⑴ pattern[k+1]==pattern[j+1] 此时overlay(j+1)=k+1=overlay(j)+1
⑵ pattern[k+1]≠pattern[j+1] 此时只能在pattern前k+1个子符组所的子串中找到相应的overlay函数，h=overlay(k),如果此时pattern[h+1]==pattern[j+1],则overlay(j+1)=h+1否则重复(2)过程.

下面给出一段计算覆盖函数的代码：

#include<iostream>
#include<string>
using namespace std;
void compute_overlay(const string& pattern)
{
    const int pattern_length = pattern.size();
    int *overlay_function = new int[pattern_length];
    int index;
    overlay_function[0] = -1;
    for(int i=1;i<pattern_length;++i)
    {
        index = overlay_function[i-1];
        //store previous fail position k to index;

        while(index>=0 && pattern[i]!=pattern[index+1])
        {
            index = overlay_function[index];
        }
        if(pattern[i]==pattern[index+1])
        {
            overlay_function[i] = index + 1;
        }
        else
        {
            overlay_function[i] = -1;
        }
    }
    for(i=0;i<pattern_length;++i)
    {
        cout<<overlay_function[i]<<endl;
    }
    delete[] overlay_function;
}
int main()
{
    string pattern = "abaabcaba";
    compute_overlay(pattern);
    return 0;
}

运行结果为：

-1
-1
0
0
1
-1
0
1
2
Press any key to continue

-------------------------------------

2.2、kmp算法
有了覆盖函数，那么实现kmp算法就是很简单的了，我们的原则还是从左向右匹配，但是当失配发生时，我们不用把target_index向回移动，target_index前面已经匹配过的部分在pattern自身就能体现出来，只要动pattern_index就可以了。

当发生在j长度失配时，只要把pattern向右移动j-overlay(j)长度就可以了。

如果失配时pattern_index==0，相当于pattern第一个字符就不匹配，
这时就应该把target_index加1，向右移动1位就可以了。

ok，下图就是KMP算法的过程（红色即是采用KMP算法的执行过程）：

另一作者saturnman发现，在上述KMP匹配过程图中，index=8和index=11处画错了。还有，anaven也早已发现，index=3处也画错了。非常感谢。但图已无法修改，见谅。

KMP 算法可在O（n+m）时间内完成全部的字串模式匹配工作。

ok，最后给出KMP算法实现的c++代码：

#include<iostream>
#include<string>
#include<vector>
using namespace std;

int kmp_find(const string& target,const string& pattern)
{
    const int target_length = target.size();
    const int pattern_length = pattern.size();
    int * overlay_value = new int[pattern_length];
    overlay_value[0] = -1;
    int index = 0;
    for(int i=1;i<pattern_length;++i)
    {
        index = overlay_value[i-1];
        while(index>=0 && pattern[index+1]!=pattern[i])
        {
            index = overlay_value[index];
        }
        if(pattern[index+1]==pattern[i])
        {
            overlay_value[i] = index +1;
        }
        else
        {
            overlay_value[i] = -1;
        }
    }
    //match algorithm start
    int pattern_index = 0;
    int target_index = 0;
    while(pattern_index<pattern_length&&target_index<target_length)
    {
        if(target[target_index]==pattern[pattern_index])
        {
            ++target_index;
            ++pattern_index;
        }
        else if(pattern_index==0)
        {
            ++target_index;
        }
        else
        {
            pattern_index = overlay_value[pattern_index-1]+1;
        }
    }
    if(pattern_index==pattern_length)
    {
        return target_index-pattern_index;
    }
    else
    {
        return -1;
    }
    delete [] overlay_value;
}

int main()
{
    string source = " annbcdanacadsannannabnna";
    string pattern = " annacanna";
    cout<<kmp_find(source,pattern)<<endl;
    return 0;
}
//运行结果为 -1.

第三节、kmp算法的来源
kmp如此精巧，那么它是怎么来的呢，为什么要三个人合力才能想出来。其实就算没有kmp算法，人们在字符匹配中也能找到相同高效的算法。这种算法,最终相当于kmp算法，只是这种算法的出发点不是覆盖函数，不是直接从匹配的内在原理出发，而使用此方法的计算的覆盖函数过程复杂且不易被理解，但是一但找到这个覆盖函数，那以后使用同一pattern匹配时的效率就和kmp一样了，其实这种算法找到的函数不应叫做覆盖函数，因为在寻找过程中根本没有考虑是否覆盖的问题。

说了这么半天那么这种方法是什么呢，这种方法是就大名鼎鼎的确定的有限自动机(Deterministic finite state automaton DFA)，DFA可识别的文法是3型文法，又叫正规文法或是正则文法，既然可以识别正则文法，那么识别确定的字串肯定不是问题(确定字串是正则式的一个子集)。对于如何构造DFA,是有一个完整的算法，这里不做介绍了。在识别确定的字串时使用DFA实在是大材小用，DFA可以识别更加通用的正则表达式，而用通用的构建DFA的方法来识别确定的字串，那这个overhead就显得太大了。

kmp算法的可贵之处是从字符匹配的问题本身特点出发，巧妙使用覆盖函数这一表征pattern自身特点的这一概念来快速直接生成识别字串的DFA，因此对于kmp这种算法，理解这种算法高中数学就可以了，但是如果想从无到有设计出这种算法是要求有比较深的数学功底的。

第四节、精确字符匹配的常见算法的解析

KMP算法：

KMP就是串匹配算法

运用自动机原理

比如说

我们在S中找P

设P＝{ababbaaba}

我们将P对自己匹配

下面是求的过程:{依次记下匹配失败的那一位}

[2]ababbaaba

.......ababbaaba[1]

[3]ababbaaba

.........ababbaaba[1]

[4]ababbaaba

.........ababbaaba[2]

[5]ababbaaba

.........ababbaaba[3]

[6]ababbaaba

................ababbaaba[1]

[7]ababbaaba

................ababbaaba[2]

[8]ababbaaba

..................ababbaaba[2]

[9]ababbaaba

..................ababbaaba[3]

得到Next数组『0,1,1,2,3,1,2,2,3』

主过程：

[1]i:=1 j:=1

[2]若(j>m)或(i>n)转[4]否则转[3]

[3]若j=0或a[i]=b[j]则【inc(i)inc(j)转[2]】否则【j:=next[j]转2】

[4]若j>m则return(i-m)否则return -1;

若返回－1表示失败，否则表示在i-m处成功

BM算法也是一种快速串匹配算法，与KMP算法的主要区别是匹配操作的方向不同。虽然T右移的计算方法却发生了较大的变化。

为方便讨论，T＝＂dist ：ｃ－＞｛dist称为滑动距离函数，它给出了正文中可能出现的任意字符在模式中的位置。函数                                                    m – j j为                                   dist（m+1     若c = tm

例如，pattern＂，则p）a）t）dist（= 2，r）n）BM算法的基本思想是：假设将主串中自位置i + dist(si)位置开始重新进行新一轮的匹配，其效果相当于把模式和主串向右滑过一段距离si），即跳过si）个字符而无需进行比较。

下面是一个S =＂T=＂BM算法可以大大加快串匹配的速度。

下面是KMP算法部分，把调用BM函数便可。

[cpp] view plain copy print ?

#include <iostream>

using namespace std;



int Dist(char *t,char ch)

{

    int len = strlen(t);

    int i = len - 1;

    if(ch == t[i])

        return len;

    i--;

    while(i >= 0)

    {

        if(ch == t[i])

            return len - 1 - i;

        else

            i--;

    }

    return len;

}



int BM(char *s,char *t)

{

    int n = strlen(s);

    int m = strlen(t);

    int i = m-1;

    int j = m-1;

    while(j>=0 && i<n)

    {

        if(s[i] == t[j])

        {

            i--;

            j--;

        }

        else

        {

            i += Dist(t,s[i]);

            j = m-1;

        }

    }

    if(j < 0)

    {

        return i+1;

    }

    return -1;

}

<textarea style="DISPLAY: none" class="cpp" rows="15" cols="50" name="code">#include <iostream> using namespace std; int Dist(char *t,char ch) { int len = strlen(t); int i = len - 1; if(ch == t[i]) return len; i--; while(i >= 0) { if(ch == t[i]) return len - 1 - i; else i--; } return len; } int BM(char *s,char *t) { int n = strlen(s); int m = strlen(t); int i = m-1; int j = m-1; while(j>=0 && i<n) { if(s[i] == t[j]) { i--; j--; } else { i += Dist(t,s[i]); j = m-1; } } if(j < 0) { return i+1; } return -1; }</textarea>

Horspool算法
这个算法是由R.Nigel Horspool在1980年提出的。其滑动思想非常简单，就是从后往前匹配模式串，若在某一位失去匹配，此位对应的文本串字符为c，那就将模式串向右滑动，使模式
串之前最近的c对准这一位，再从新从后往前检查。那如果之前找不到c怎么办？那好极了，直接将整个模式串滑过这一位。
例如：

文本串：abdabaca
模式串：baca

倒数第2位失去匹配，模式串之前又没有d，那模式串就可以整个滑过，变成这样：

文本串：abdabaca
模式串：   baca

发现倒数第1位就失去匹配，之前1位有c，那就向右滑动1位：

文本串：abdabaca
模式串：    baca

实现代码：

[cpp] view plain copy print ?

#include <iostream>

#include <vector>

#include <string>

#include <cstdlib>

using namespace std;



int  Horspool_match(const string & S,const string & M,int pos)

{

    int  S_len = S.size();

    int  M_len = M.size();

    int  Mi = M_len-1,Si= pos+Mi;  //这里的串的第1个元素下标是0

    if( (S_len-pos) < M_len )

        return -1;

    while ( (Mi>-1) && (Si<S_len) )

    {

        if (S[Si] == M[Mi])

        {

            --Mi;

            --Si;

        }

        else

        {

            do

            {

                Mi--;

            }

            while( (S[Si]!=M[Mi]) || (Mi>-1) );

            Mi = M_len - 1;

            Si += M_len - 1;

        }

    }

    if(Si < S_len)

        return(Si + 1);

    else

        return -1;

}



int main( )

{

    string S="abcdefghabcdefghhiijiklmabc";

    string T="hhiij";

    int    pos = Horspool_match(S,T,3);



    cout<<"/n"<<pos<<endl;

    system("pause");

    return 0;

}

<textarea style="DISPLAY: none" class="cpp" rows="15" cols="50" name="code">#include <iostream> #include <vector> #include <string> #include <cstdlib> using namespace std; int Horspool_match(const string & S,const string & M,int pos) { int S_len = S.size(); int M_len = M.size(); int Mi = M_len-1,Si= pos+Mi; //这里的串的第1个元素下标是0 if( (S_len-pos) < M_len ) return -1; while ( (Mi>-1) && (Si<S_len) ) { if (S[Si] == M[Mi]) { --Mi; --Si; } else { do { Mi--; } while( (S[Si]!=M[Mi]) || (Mi>-1) ); Mi = M_len - 1; Si += M_len - 1; } } if(Si < S_len) return(Si + 1); else return -1; } int main( ) { string S="abcdefghabcdefghhiijiklmabc"; string T="hhiij"; int pos = Horspool_match(S,T,3); cout<<"/n"<<pos<<endl; system("pause"); return 0; }</textarea>

SUNDAY算法：
BM算法的改进的算法SUNDAY--Boyer-Moore-Horspool-Sunday Aglorithm

BM算法优于KMP

SUNDAY 算法描述：

字符串查找算法中，最著名的两个是KMP算法（Knuth-Morris-Pratt)和BM算法（Boyer-Moore)。两个算法在最坏情况下均具有线性的查找时间。但是在实用上，KMP算法并不比最简单的c库函数strstr()快多少，而BM算法则往往比KMP算法快上3－5倍。但是BM算法还不是最快的算法，这里介绍一种比BM算法更快一些的查找算法即Sunday算法。

例如我们要在"substring searching algorithm"查找"search"，刚开始时，把子串与文本左边对齐：

substring searching algorithm
search
^
结果在第二个字符处发现不匹配，于是要把子串往后移动。但是该移动多少呢？这就是各种算法各显神通的地方了，最简单的做法是移动一个字符位置；KMP是利用已经匹配部分的信息来移动；BM算法是做反向比较，并根据已经匹配的部分来确定移动量。这里要介绍的方法是看紧跟在当前子串之后的那个字符（上图中的 'i')。

显然，不管移动多少，这个字符是肯定要参加下一步的比较的，也就是说，如果下一步匹配到了，这个字符必须在子串内。所以，可以移动子串，使子串中的最右边的这个字符与它对齐。现在子串'search'中并不存在'i'，则说明可以直接跳过一大片，从'i'之后的那个字符开始作下一步的比较，如下图：

substring searching algorithm
　　　 search
　　　　^

比较的结果，第一个字符就不匹配，再看子串后面的那个字符，是'r',它在子串中出现在倒数第三位，于是把子串向前移动三位，使两个'r'对齐，如下：

substring searching algorithm
　　　　  search
　　　　　　　^

哈！这次匹配成功了！回顾整个过程，我们只移动了两次子串就找到了匹配位置，可以证明，用这个算法，每一步的移动量都比BM算法要大，所以肯定比BM算法更快。

[cpp] view plain copy print ?

#include<iostream>

#include<fstream>

#include<vector>

#include<algorithm>

#include<string>

#include<list>

#include<functional>



using namespace std;



int main()

{

    char *text=new char[100];

    text="substring searching algorithm search";

    char *patt=new char[10];

    patt="search";

    size_t temp[256];

    size_t *shift=temp;



    size_t patt_size=strlen(patt);

    cout<<"size : "<<patt_size<<endl;

    for(size_t i=0;i<256;i++)

        *(shift+i)=patt_size+1;//所有值赋于7，对这题而言



    for(i=0;i<patt_size;i++)

        *(shift+unsigned char(*(patt+i) ) )=patt_size-i;

        /* //       移动3步-->shift['r']=6-3=3;移动三步

        //shift['s']=6步,shitf['e']=5以此类推

    */



    size_t text_size=strlen(text);

    size_t limit=text_size-i+1;



    for(i=0;i<limit;i+=shift[text[i+patt_size] ] )

        if(text[i]==*patt)

        {

        /*       ^13--这个r是位，从0开始算

        substring searching algorithm

        search

        searching-->这个s为第10位，从0开始算

        如果第一个字节匹配，那么继续匹配剩下的

            */



            char* match_text=text+i+1;

            size_t     match_size=1;

            do{

                if(match_size==patt_size)



                    cout<<"the no is "<<i<<endl;

            }while( (*match_text++)==patt[match_size++] );

        }



        cout<<endl;

    }

    delete []text;

    delete []patt;

    return 0;

}



//运行结果如下：

/*

size : 6

the no is 10

the no is 30

Press any key to continue

*/

转载：点击打开链接

【加密算法基础——对称加密和非对称加密】 XWWW668899 网络安全服务器笔记
对称加密与非对称加密对称加密和非对称加密是两种基本的加密方法，各自有不同的特点和用途。以下是详细比较：1.对称加密特点密钥:使用相同的密钥进行加密和解密。发送方和接收方必须共享这个密钥。速度:通常速度较快，适合处理大量数据。实现:算法相对简单，计算效率高。常见算法AES(高级加密标准)DES(数据加密标准)3DES(三重数据加密标准)RC4(流密码)应用场景文件加密磁盘加密传输大量数据时的加密2.
KMP-看毛片算法无休居士数据结构
#include#includevoidinsert(int*arr,inta,intn){/*0到n-1都已排好序*/inti;intkey=a;for(i=0;i=i;j--){arr[j+1]=arr[j];}arr[i]=key;return;}}arr[n]=key;return;}voidsort(int*arr,intsize){if(size<2)return;inti;for(i
【HarmonyOS】- 常见算法简单写法数的羊都睡了 HarmonyOS ArkTS 鸿蒙
文章目录知识回顾前言源码分析1.冒泡排序2.二分法查找拓展知识时间、空间复杂度总结知识回顾前言常见算法简单写法源码分析1.冒泡排序functionbubbleSort(arr:number[]):number[]{constn=arr.length;for(leti=0;iarr[j+1]){//交换元素consttemp=arr[j];arr[j]=arr[j+1];arr[j+1]=temp;
KMP模式匹配的java实现星月梦瑾 code java 算法开发语言
importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){try(Scanners=newScanner(System.in)){Stringt=s.nextLine();Stringp=s.nextLine();solveMethod(t,p);}}privatestaticvoidsolveMethod
大模型LLM面试常见算法题-包括Attention和Transformer常见面试题剑圣土豆算法面试大模型学习自然语言处理 transformer 算法 nlp 自然语言处理面试深度学习人工智能
大模型：位置编码有哪些？介绍LoRA与QLoRARAG和微调的区别是什么？哪些因素会导致LLM的偏见？什么是思维链（CoT）提示？Tokenizer的实现方法及原理解释一下大模型的涌现能力？解释langchainAgent的概念langchain有哪些替代方案？RLHF完整训练过程是什么？为什么RLHF的效果这么好?RLHF使用的训练数据是什么样的?RAG和微调的区别是什么？有了解过什么是稀疏微调
正则表达式的匹配（py编程） py编程正则表达式 python 开发语言
1.匹配单个字符在上一小节中，了解到通过re模块能够完成使用正则表达式来匹配字符串本小节，将要讲解正则表达式的单字符匹配代码功能.匹配任意1个字符（除了\n）[]匹配[]中列举的字符\d匹配数字，即0-9\D匹配非数字，即不是数字\s匹配空白，即空格，tab键\S匹配非空白\w匹配非特殊字符，即a-z、A-Z、0-9、_、汉字\W匹配特殊字符，即非字母、非数字、非汉字示例1：.importrere
Milvus 核心设计（4） ---- metric及index原理详解与示例(2) PhoenixAI8 RAG Milvus Chroma 源码及实践 milvus python 机器学习 vector db 人工智能
目录背景BinaryEmbedding定义与特点常见算法应用场景距离丈量的方式JaccardHamming代码实现IndexBIN_FLATBIN_IVF_FLATSparseembeddings定义应用场景优点实现方式距离丈量方式IPIndexSPARSE_INVERTED_INDEX应用场景优势SPARSE_WAND工作原理性能特点应用场景小结背景接着上面的Milvusmetric及index
Java实战：分布式ID生成方案拥抱AI java 分布式开发语言
在分布式系统的设计与开发过程中，如何生成全局唯一、有序且高可用的ID是一个绕不开的核心问题。尤其是在电商、社交网络、金融交易等领域，ID不仅是业务数据的重要标识，还可能直接影响系统的稳定性和扩展性。本文将深入剖析分布式ID生成方案的设计原则、常见算法，并通过Java示例展示一种可行的实现方式。一、分布式ID生成的需求分析全局唯一性：在分布式环境下，必须保证生成的ID在全球范围内不重复，避免数据冲突
5 - Shell编程之正则表达式与文本处理工具活老鬼 Shell脚本正则表达式 linux 服务器运维
目录一、正则表达式1.概述2.基本正则表达式2.1元字符（字符匹配）2.2表示匹配次数2.3位置锚定3.扩展正则表达式二、文本处理器1.sort命令-对文本文件进行排序，默认以字母排序2.uniq命令-找出或删除文本文件中连续出现的重复行3.tr命令-用于字符转换4.cut命令-对字段进行截取和剪裁一、正则表达式1.概述由一类特殊字符及文本字符所编写的模式，其中有些字符（元字符）不表示字符字面意义
正则表达式 ·云扬· Java 正则表达式
文章目录1正则表达式基本介绍2正则表达式语法2.1元字符-转义号\\\2.2元字符-字符匹配符2.3元字符-选择匹配符2.4元字符-限定符2.5元字符-定位符2.6分组3正则表达式三个常用类3.1Pattern类的Matches方法3.2Matcher类的常用方法4分组、捕获、反向引用5String类中使用正则表达式5.1替换功能5.2判断功能5.3分割功能6正则表达式使用案例6.1验证电子邮箱格
数据结构（邓俊辉）学习笔记】串 09——BM_BC算法：以终为始诸葛悠闲数据结构学习笔记
文章目录1.不对称性2.善待教训3.前轻后重4.以终为始1.不对称性上一节所介绍的KMP算法计算时间，在最坏情况下也可以保证不超过线性。这的确是一个好消息。然而，倘若我们因此就停下继续优化的脚步，那就大错特错了。实际上，串匹配问题与一般的搜索问题的确有着本质的区别。在我们此前所讨论的所有搜索算法中，每次比对都是一种一对一的模式，也就是一个目标与另一个候选者判定二者是否相等，的确只需常数的时间。而现
【图论简介】 WA-自动机图论深度优先算法架构后端前端面试
图论简介图论是一门数学分支，主要研究图（Graph）的性质、结构和应用。图论在计算机科学、网络理论、优化问题、生物信息学等多个领域都有广泛的应用。本文将简要介绍图论的基本概念、常见算法及其在实际中的应用。一、图的基本概念图（Graph）：图是由一组顶点（Vertices）和连接顶点的边（Edges）组成的结构。可以表示为(G=(V,E))，其中(V)是顶点的集合，(E)是边的集合。根据边的不同属性
面试中需要熟知的字符串知识华南溜达虎数据结构与算法面试算法数据结构职场和发展
面试中需要熟知的字符串知识字符串介绍字符串是一串字符组成的序列，跟数组类似，处理数组的一些方法同样适用于字符串，建议读本文前先读一下面试中需要熟知的数组知识。查找字符串常用的数据结构有：前缀树后缀树常用的字符串算法：KMP算法，在字符串匹配时特别高效。时间复杂度字符串实际上就是一个字符数组，字符串操作和数组操作类似，所以复杂度也基本类似。操作时间复杂度访问O(1)搜索O(n)插入O(n)删除O(n
6-正则表达式详细+数组note 娶个村姑当大妾 javascript JS数组 JS正则表达式正则表达式
1.正则表达式是一个描述字符模式的对象.1.创建方式1)正则表达式直接量varpattern=/s$/;2)RegExp()构造函数varpattern=newRegExp("s$");2.直接量字符正则表达式中所有字母和数字都是按照字面含义进行匹配的。字符匹配-----------------------字母和数字自身\t制表符\n换行符\v垂直制表符\f换页符\r回车符\xnn由十六进制数nn
代码随想录算法训练营第九天 | LeetCode 28 Bingjiaokong 随想录刷题 leetcode 算法职场和发展
文章目录前言一、LeetCode28总结前言LeetCode题目：LeetCode28Takeaway：KMP算法。一、LeetCode28经典KMP算法题，理解很重要。我自己的理解是KMP其实用了回溯+动态规划的思路来减少无用功，让已经匹配过的字符串可以复用。classSolution{public:voidgetNext(int*next,conststring&s){//j就是前缀串的末尾i
JavaScript数组的常用算法小五丶_
版权声明：本文为博主原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接和本声明。欢迎大家去我的个人技术博客看看，点赞收藏注册的都是好人哦~https://xiaowu.xyz一、数组的常见算法由于算法的性能要从时间复杂度和空间复杂度两个方面考虑，所以这里不做性能的研究，仅仅为了理解1、冒泡排序：假设有数组[54,68,46,75,36,20,65,11,79,45]varlist=
Java常见算法纣王家子迎新排序算法贪心算法图搜索算法广度优先深度优先回溯算法动态规划
Java作为一种广泛使用的编程语言，支持实现多种算法。这些算法可以根据其用途、复杂度、数据结构和应用领域进行分类。以下是一些Java中常见的算法示例：排序算法：冒泡排序：通过重复地遍历要排序的数列，一次比较两个元素，如果它们的顺序错误就把它们交换过来。遍历数列的工作是重复地进行直到没有再需要交换，也就是说该数列已经排序完成。publicclassBubbleSort{publicstaticvoi
高等数学精解【12】未来之蓝基础数学与应用数学线性代数数值优化数据压缩高等数学算法
文章目录无损压缩算法常见算法概述1.**霍夫曼编码（HuffmanCoding）**2.**Lempel-Ziv-Welch(LZW)**3.**游程编码（Run-LengthEncoding,RLE）**4.**算术编码（ArithmeticCoding）**5.**DEFLATE**6.转换编码（TransformCoding）7.预测编码（PredictiveCoding）转换编码的无损压缩
【数据结构】BF和KMP算法小南知更鸟数据结构算法数据结构 c++
BF算法#includeusingnamespacestd;//#include//字符串处理#defineMAXSIZE255//串的定长顺序存储结构typedefstruct{charch[MAXSIZE+1];intlength;}SString;//bf算法intIndexBF(SStringS,SStringT){//从主串和模式串的第一个开始比较，因为第一个字符下标是0，所以i=0，j
vowfi中IPSEC port 500、4500端口解释 qq_25467441 网络
https://zhuanlan.zhihu.com/p/46495201关于IPSEC500、4500端口的问题，经过查阅相关RFC，做以下澄清1.port500是InternetSecurityAssociationandKeyManagementProtocol(ISAKMP）端口号2.UDPPORT4500是UDP-encapsulatedESPandIKE端口号刚开始用500，后面对方监
KMP算法（java、C#）以明志、 c#算法 java
文章目录kmp中的nextVal（代码用next数组表示）获取匹配成功的主串下标程序入口（示例）kmp中的nextVal（代码用next数组表示）namespaceTestmain{publicclassGetNext{int[]next;publicint[]getNextArray(char[]ch){next=newint[ch.Length];inti=0,j=-1;next[0]=-1;
算法学习07：KMP算法 Lhz326568 学习打卡算法学习笔记 c++开发语言
算法学习07：KMP算法文章目录算法学习07：KMP算法前言一、KMP算法1.kmp匹配过程：2.求解next数组（kmp算法重点）3.代码总结前言提示：以下是本篇文章正文内容：一、KMP算法1.kmp匹配过程：2.求解next数组（kmp算法重点）3.代码#includeusingnamespacestd;constintN=10000+10,m=100000+10;intn,m;intp[N]
KMP?next数组？前缀表？菜鸟重拾C++之算法阿卡西番茄酱 C++算法算法 c++leetcode
实现strStr（）知识点KMP（Knuth-Morris-Pratt）算法是一种用于字符串匹配的高效算法。其原理基于字符串匹配时的特性，通过预处理模式字符串（待匹配字符串）的信息，避免在匹配过程中重复比较已经匹配过的部分。前缀表记录了模式字符串中最长相同前后缀的长度前缀是指不包含最后一个字符的所有以第一个字符开头的连续子串。后缀是指不包含第一个字符的所有以最后一个字符结尾的连续子串。最长相同前后
28. Find the Index of the First Occurrence in a String(找出字符串中第一个匹配项的下标) apprentice_eye leetcode刷题日记算法数据结构开发语言 leetcode
问题描述给你两个字符串haystack和needle，请你在haystack字符串中找出needle字符串的第一个匹配项的下标（下标从0开始）。如果needle不是haystack的一部分，则返回-1。问题分析此问题时模式匹配问题可以采用暴力算法去查找，也可以使用kmp算法来进行查找。代码暴力算法：intstrStr(char*haystack,char*needle){inti,j;for(i=
KMPC++（Acwing） shady1972 c++算法数据结构
代码：#includeusingnamespacestd;constintN=100010,M=1000010;intn,m;intne[N];chars[M],p[N];intmain(){cin>>n>>p+1>>m>>s+1;for(inti=2,j=0;i<=n;i++){while(j&&p[i]!=p[j+1])j=ne[j];if(p[i]==p[j+1])j++;ne[i]=j;}
代码随想录算法训练营day09 羊角问蕊算法
题目：28.实现strStr()、459.重复的子字符串参考链接：代码随想录28.实现strStr()思路：KMP算法，这个比较复杂，主要是需要理解一个前缀表，即储存模式串needle的最长相等前后缀，注意前缀不包含末尾，后缀不包含开头。我们的第一步就是根据needle，计算出前缀表，这里可以先不用理解为什么，先记住前缀表的求法。前缀表就是一个长度和needle相同的数组，对于needle的每个字
车牌识别-基于模板匹配勇敢歪歪 matlab 开发语言
基于模板匹配的车牌识别一、设计思路二、功能模块1、GUI界面创建2、图片选择3、车牌粗定位4、灰度化5、倾斜矫正6、二值化和第一次形态学处理7、精确定位8、第二次形态学处理9、字符分割10、归一化切割后的字符以及模板11、字符匹配12、语音播报13、退出系统和关于按钮三、总的操作图一、设计思路车牌识别程序的设计主要基于车牌的固有特点，这些特点指导算法的设计。在一个识别系统中首先选择某一个或几个车牌
OpenCV（项目）车牌识别3 -- 模板匹配 _(*^▽^*)_ 项目 #OpenCV opencv 人工智能计算机视觉视觉检测图像处理
目录一、基础理论1、思想2、大致过程二、详细过程1、首先需要模板库2、得到模板3、原图限定大小4、模板匹配5、匹配所有子文件夹，保存最佳得分（最匹配项）三、大致过程（细分类，节省时间）1、汉字匹配2、英文字符匹配3、数字/英文匹配4、显示模板匹配总代码参考资料一、基础理论1、思想把提取到的每一张字符，和模板库中的所有字符进行对比。2、大致过程先拿到模板库，把模板和待匹配的图像大小限制一致，匹配每一
KMP算法 Psycho social 字符串算法信息学竞赛 C++
目录KMP算法字符串匹配问题朴素算法简介思想做法例题KMP算法字符串匹配问题字符串匹配是一种计算机会频繁使用的算法。，例如有一个字符串主串S：knocktheheaven'sdoor，现在需要知道S中是否包含子串P：heaven。这是一个十分常见的问题，由于使用次数很多，所以算法的效率是十分重要的。朴素算法首先来讲，最朴素的方法莫过于是顺次比较，假定主串S的长度为n，子串P的长度是m，我们依次从主
【字符串算法】刷题总结一米の阳光算法字符串
文章目录字符串一、c++字符串基本操作二、字符串hash三、字典树四、KMP算法字符串笔记参考《算法竞赛从入门到进阶》《算法竞赛进阶指南》一、c++字符串基本操作相关博客输入与输出chars1[100],s2[1001000];intl1,l2;scanf("%s",s1);//输入遇到回车结束l1=strlen(s1);//获取长度strings1;cin>>s1;//遇到换行或者回车结束cin
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

教你初步了解KMP算法、updated

你可能感兴趣的:(KMP,字符匹配,常见算法)