KMP算法实现

在KMP算法原理中,我们简要分析了KMP算法的原理,在直观上了解了算法流程,并分析了KMP算法之于暴力算法的效率提升之处。这里我们就从暴力算法出发,根据算法基本流程一步步实现典型的KMP算法。


文中出现的名词:

模式串(pattern,P),长度为m,当前字符指针i

文本串(text,T),长度为n,当前字符指针j


1.暴力算法(BF)

暴力算法的是最直接的匹配算法,分别给模式串P和文本串T两个指针j和i,从文本串第一个字符开始匹配模式串,直到匹配成功或者指针i越界为止。

int match(char* P, char* T)
{
    int n = (int)strlen(T), i = 0;    //文本串长度n,当前接受比较字符位置i
    int m = (int)strlen(P), j = 0;    //模式串长度m,当前接受比较字符位置j

    while (j < m && i < n)  //自左向右逐个比较字符
    {
        if (T[i] == P[j])   //若当前字符匹配成功,则跳到下一个字符
        {
            i++;
            j++;
        }
        else                //若当前字符匹配失败,则文本串回退、模式串复位
        {
            i -= j - 1;
            j = 0;
        }
    }
    return i - j;   //如果匹配成功,i-j为P相对于T的对齐位置;如果匹配失败,i-j必然>n-m
}

暴力算法的正确性是显而易见的,但在最坏情况下时间复杂度为文本串长度与模式串长度乘积,稍大规模的应用环境就难以接受了。


2.KMP算法

暴力算法的低效率在于存在大量的重复匹配。每轮匹配失败后,文本串和模式串的指针都要回退并从头开始下一轮比较。实际上,上一轮匹配的信息我们已经掌握,如果能利用这些信息就能提高算法的效率。通过利用以往成功比较所获得的信息,不仅可以避免文本串指针回退,并且可以使模式串尽可能大跨度右移。KMP算法的核心思想就是将信息转化为预知。

考虑一般情况,某轮比较匹配失败在 P[j] != T[i],则说明P[0, j) 和 T[i-j, i)已经完全匹配成功了,而下一轮比较中应与T[i]对齐的P[j]完全由子串P[0, j)决定。上文中每次匹配所获得的信息正是来自于子串P[0, j)。因此我们为模式串的每个字符构造一个 查询表(next table),即 前缀表(prefix table),就能将信息转化为对下次匹配起始位置的预知。具体原理请见 KMP算法原理。

int* buildNext(char* P) //构造模式串P的next表
{
    size_t m = strlen(P), j = 0;
    int* N = new int[m];//next表
    int t = N[0] = -1;//模式串指针
    while (j < m - 1)
    {
        if (0 > t || P[j] == P[t])//匹配
        {
            j++; t++;
            N[j] = t;
        }
        else //匹配失败
            t = N[t];
    }
}

int match(char* P, char* T)
{
    int* next = buildNext(P);         //构造next表
    int n = (int)strlen(T), i = 0;    //文本串长度n,文本串指针i
    int m = (int)strlen(P), j = 0;    //模式串长度m,文本串指针j

    while (j < m && i < n)            //自左向右逐个比较字符
    {
        if(0 > j || T[i] == P[j])     //若匹配成功,或P已经移出最左侧(即j==-1),(注:两个判断顺序不能交换)
        {
            i++; j++;                 //移到下一字符
        }
        else
            j = next[j];              //模式串根据next表右移,而文本串不必回退

    }

    delete []next;  //释放next表
    return i - j;   //如果匹配成功,i-j为P相对于T的对齐位置;如果匹配失败,i-j必然>n-m
}


你可能感兴趣的:(KMP,algorithm,and,data,structure)