字符串匹配算法 之 基于DFA(确定性有限自动机)的字符串模式匹配算法

理论不再赘述,请参考算法导论一书,第32章32.3节利用有限自动机进行字符串匹配,本文主要给出了C语言的具体实现,关键地方都加上了注释。

该程序在CodeBlocks 10.05下调试通过

#include<stdio.h>
#include<string.h>
#include<stdlib.h>
#define ALPHABETLENGTH 53
#define GETMIN(x,y) ((x)<=(y)?(x):(y))
 
//判定pattern的前k个字符是不是(pattern的前q个字符加上字符a组成的)字符串的后缀
int IsSuffix(char *pattern,int k,int q,char a);
//创建自动机(二维数组),并且根据给定的pattern完成自动机的初始化
void Create(int*** array,char *pattern);
//根据创建的自动机进行模式匹配,并返回模式在给定文本中第一次出现的结束位置
int DFAMatcher(char* T,int** array,char *pattern);
//在程序结束时,将创建的自动机(二维数组)进行销毁
void Delete(int*** array,char *pattern);
//一个小函数,用来查找给定的字符a在预先设定的字母表中的位置
int SearchChar(char a);
//预先设定的字母表,包括26个大小写的字母以及一个空格,共53个字符
char alphabet[ALPHABETLENGTH]="abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ ";
 
/*
*通过函数来进行二维数组的分配,需要用到三重指针,传进去的是一个指针数组的地址,
*直接传指针数组的话会造成悬垂指针,数组的构建需要根据pattern来构建
*二维数组实际上就相当于自动机(DFA)了
*/
void Create(int*** array,char *pattern)
{
    //临时变量
    int i,j,k;
    //pattern的长度
    int patternlength=strlen(pattern);
    //二位数组的行数等于pattern中字符数加1
    int x=strlen(pattern)+1;
    //二维数组的列数等于字母表中所有的字符个数,这里我采用的是26个小写字母加上26个大写字母
    int y=ALPHABETLENGTH;
    //开始分配二维数组的空间,如果分配失败的话则要撤销已分配的单元。这里分两种情况,
    //一种是一开始就没有空间可分配,另一种是分配了一部分以后空间不足。
    *array=(int**)malloc(sizeof(int)*x);
    if(NULL==array)
    {
        fprintf(stderr,"\nspace is not enough!\n");
        return;
    }
    for(i=0; i<x; i++)
    {
        if(((*array)[i]=(int*)malloc(sizeof(int)*y))==NULL)
        {
            while(--i>=0)
            {
                free((*array)[i]);
            }
            free(*array);
            fprintf(stderr,"\nspace is not enough!\n");
            return;
        }
    }
    //下面开始初始化二维数组的自动机表了
    for(i=0; i<=patternlength; i++)
    {
        for(j=0; j<ALPHABETLENGTH; j++)
        {
            k=GETMIN(patternlength+1,i+2);
            do
            {
                --k;
 
            }
            while(k>0 && !IsSuffix(pattern,k,i,alphabet[j]));
            (*array)[i][j]=k;
        }
    }
    for(i=0; i<patternlength+1; i++)
    {
        for(j=0; j<ALPHABETLENGTH; j++)
        {
            printf("%d ",(*array)[i][j]);
        }
        printf("\n");
    }
}
 
//为了实现Pk是Pqa的后缀,k和q是字符数组P的下标表示数组P的前k和前q个字符,a是一个字符表示连接在字符串Pq后面
int IsSuffix(char *pattern,int k,int q,char a)
{
    int cmp;
    char Q[q+1];
    Q[q]=a;
    strncpy(Q,pattern,q);
    cmp=strncmp(pattern,Q+q-(k-1),k);
    if(cmp==0)
    {
        return 1;
    }
    else
    {
        return 0;
    }
}
 
//查找字符变量a在字母表中的位置
int SearchChar(char a)
{
    int i=0;
    while(alphabet[i]!=a)
    {
        ++i;
    }
    if(i>(ALPHABETLENGTH-1))
    {
        i=-1;
    }
    return i;
}
//利用自动机进行匹配
int DFAMatcher(char* T,int** array,char *pattern)
{
    int i;
    int n=strlen(T);
    int m=strlen(pattern);
    int q=0;
    int position=0;
 
    for(i=0; i<n; i++)
    {
        position=SearchChar(T[i]);
        if(position<0)
        {
            fprintf(stderr,"字符[%c]不存在\n",T[i]);
            return -1;
        }
        q=array[q][position];
        if(q==m)
        {
            printf("find!\n");
            break;
        }
    }
    if(q!=m)
    {
        printf("unfind\n");
        i=-1;
    }
    return i;//如果匹配成功返回pattern在字符串的结束位置,否则返回-1;
}
//程序结束进行销毁二维数组
void Delete(int*** array,char *pattern)
{
    int i;
    int m=strlen(pattern);
    for(i=m; i>=0; i--)
    {
        free((*array)[i]);
    }
    free((*array));
}
 
int main(void)
{
    char a[100]="defabcababacaghijkl";
    char b[10]="ababaca";
    int **array;
    int i;
    printf("开始构建自动机:\n");
    Create(&array,b);
    printf("自动机构建完毕!\n");
    int end=DFAMatcher(a,array,b);
    int first=end-strlen(b)+1;
    if(end>=0)
    {
        printf("输入字符串:%s\n",a);
        printf("模式:%s\n",b);
        printf("结果:\n");
        printf("%s\n",a);
        for(i=0; i<strlen(a); i++)
        {
            if(i==end || i==first)
            {
                printf("|");
            }
            else
            {
                printf(" ");
            }
        }
        printf("\nEnd Position:%d",end);
    }
    else
    {
        printf("结果出错了!");
    }
    Delete(&array,b);
    return 1;
}

注:上面代码是《算法导论》P565-P567的实现

转载来源:http://www.cnblogs.com/alexqdh/archive/2011/05/23/2047015.html


例子:

目标:在目标串中查找另一个模式串
 实现:用DFA实现
 例子:
P=ababaca
T=abababacaba
              a  b  a  b  a  b  a  c  a  b  a
状态   0  1  2  3  4  5  4  5  6  7  2  3


实现步骤:
利用要查找的串就是模式串P,构建DFA,如下:

字符串匹配算法 之 基于DFA(确定性有限自动机)的字符串模式匹配算法_第1张图片

注意:DFA图未实现的转移默认是转移到状态0


对应的状态转移表格如下:


2. 查找过程:
P=ababaca
T=abababacaba
            a  b  a  b  a  b  a  c  a  b  a
状态   0  1  2  3  4  5  4  5  6  7  2  3

出现结束状态7就表示到目前为止已经匹配了7个字符,而P的长度为7,故到达状态7就表示查找成功了

关键问题:如何利用模式串构造DFA



字符串匹配算法 之 基于DFA(确定性有限自动机)的字符串模式匹配算法_第2张图片


你可能感兴趣的:(字符串匹配算法 之 基于DFA(确定性有限自动机)的字符串模式匹配算法)