利用有限自动机进行字符串匹配

原理我简单说两句,详细原理大家请参考《算法导论》第32章P563-P567,至于自动机原理,请参考其他编译原理书籍。

说明:Pk=P[1..k],表示模式P的前缀,也就是其前k个字符。k=0时,P0表示空串,空串为任何串(包括空串)的前缀和后缀。

初始状态下q=0,Pq=ε(空串,也就是匹配长度为0),这时给定字母表中的一个输入,状态就可能发生转换,比如说给定模式P的第一个字符,就会转移到状态1,q=1;如果给定其他字符,状态不变。依次类推,当处于状态q时,表示现在已经匹配了模式P的前q个字符,现在再给定一个字符a,状态转移到k,其中k为满足Pk为串Pqa的后缀的最大k值。0<=k<=q+1。下面通过函数Expect_Prefix()来判断给定的k是否满足条件。

该算法的预处理时间为O(m|∑|),匹配时间为O(n)。算法的关键在于求转移函数。下面给出求转移函数的伪代码:

Compute-Transition-Function(P, ∑)
{
	m = length[P];
	for q=0 to m
	{
	    for each character A∈∑
        {
	        k = min(m,q+1);
	        while(Pk is not a prefix of PqA)
		        k--;
	        δ(q,a)=k;
         }													
	}
}

在求出转移函数后,就可以利用它来进行字符串匹配了,伪代码如下:

Finite-Automation-Matcher(T, δ,m)
{
	n = length[T];
	q = 0;
	for i=1 to n
    {
        q =δ(q,a);
        if(q==m)
           print ”Pattern occurs with shift ”i-m
    }
}


在我们的实现中,可以用一个map来存放状态q下对字母表中各种输入对应的转移状态的映射。而每个状态下的映射表可以放入一个vector中。

算法完整实现及测试代码如下:

#include 
#include 
#include 
#include 
#include 
#include 
using namespace std;

/*
  Description: 判断Pk是否为Pqa的后缀 
  k==0,Pk==ε,k>0时,Pk==P[0..k-1],
  Pq==[0..q-1],取其后k-1个字符为P[q-k+1..q-1] 
*/

bool Expect_Prefix(const char *P, int k, int q, char a)
{
	if(k == 0)
		return true;
	if(k == 1)//q==0时k==1,因为k = min(m,q+1); 
	{
		return P[k-1] == a;
	}
	return P[k-1]==a && (strncmp(P,P+q-k+1,k-1)==0);//此处q>=1,k>=2
}

//计算转移函数对应的映射表
//P为模式,a为字母表
vector > Compute_Transition_Function(const char *P, const char *a)	
{
	int m = strlen(P);
	int j =0;
	int k =0;
	vector > transition_map(m+1);//一定要加参数 
	
	for(int q=0; q<=m; q++)
	{		
		j =0;
		while(a[j]!='\0')
		{
			k = min(m,q+1);//此处1<=k<=m,k==0时P0==ε 
			while(!Expect_Prefix(P,k,q,a[j]))
			{
				k--;//总是会找到合适的k值,至少k==0符合要求 
			}	
			transition_map[q][a[j]] = k;	
			j++;				
		}
	}
//	输出状态转移表
//	typedef vector >::const_iterator VCI;
//	typedef map::const_iterator MCI;
//	for(VCI iter=transition_map.begin(); iter!=transition_map.end();iter++ )
//	{
//		map m = *iter;
//		for(MCI p=m.begin();p!=m.end();p++)
//		{
//			cout<first<<" "<second< > transition_map;//状态转移表 
	
	transition_map = Compute_Transition_Function(P, a);// 构造状态转移表 
	
	for(int i=0; i

最后说两句,该算法计算转移函数可能开销较大,预处理时间也较长,实际中可能不如KMP算法更常用,但是它的思想很值得借鉴,后面要说的KMP算法,其思想就源于有限自动机原理。




  

你可能感兴趣的:(Algorithm)