对称字符串的最大长度 — 曼彻斯特算法

题目:输入一个字符串,输出该字符串中对称的子字符串的最大长度。比如输入字符串“google”,由于该字符串里最长的对称子字符串是“goog”,因此输出4。

以下分析参考:http://blog.csdn.net/hackbuteer1/article/details/6686263

回文串定义:“回文串”是一个正读和反读都一样的字符串,比如“level”或者“noon”等等就是回文串。
回文子串,顾名思义,即字符串中满足回文性质的子串。
经常有一些题目围绕回文子串进行讨论,比如 HDOJ_3068_最长回文,求最长回文子串的长度。朴素算法是依次以每一个字符为中心向两侧进行扩展,显然这个复杂度是O(N^2)的,关于字符串的题目常用的算法有KMP、后缀数组、AC自动机,这道题目利用扩展KMP可以解答,其时间复杂度也很快O(N*logN)。但是,今天笔者介绍一个专门针对回文子串的算法,其时间复杂度为O(n),这就是manacher算法。
大家都知道,求回文串时需要判断其奇偶性,也就是求aba和abba的算法略有差距。然而,这个算法做了一个简单的处理,很巧妙地把奇数长度回文串与偶数长度回文串统一考虑,也就是在每个相邻的字符之间插入一个分隔符,串的首尾也要加,当然这个分隔符不能再原串中出现,一般可以用‘#’或者‘$’等字符。例如:
原串:abaab
新串:#a#b#a#a#b#
这样一来,原来的奇数长度回文串还是奇数长度,偶数长度的也变成以‘#’为中心的奇数回文串了。
接下来就是算法的中心思想,用一个辅助数组P记录以每个字符为中心的最长回文半径,也就是P[i]记录以Str[i]字符为中心的最长回文串半径。P[i]最小为1,此时回文串为Str[i]本身。
我们可以对上述例子写出其P数组,如下
新串: # a # b # a # a # b #
P[]  :  1 2 1 4 1 2 5 2 1 2 1
我们可以证明P[i]-1就是以Str[i]为中心的回文串在原串当中的长度。
证明:
1、显然L=2*P[i]-1即为新串中以Str[i]为中心最长回文串长度。
2、以Str[i]为中心的回文串一定是以#开头和结尾的,例如“#b#b#”或“#b#a#b#”所以L减去最前或者最后的‘#’字符就是原串中长度的二倍,即原串长度为(L-1)/2,化简的P[i]-1。得证。
依次从前往后求得P数组就可以了,这里用到了DP(动态规划)的思想,也就是求P[i]的时候,前面的P[]值已经得到了,我们利用回文串的特殊性质可以进行一个大大的优化。我先把核心代码贴上:

for(i=1;i<n;i++)
{
	if(MaxId>i)
	{
		p[i]=Min(p[2*id-i],MaxId-i);
	}
	else
	{
		p[i]=1;
	}
	while(Str[i+p[i]]==Str[i-p[i]])
	{
		p[i]++;
	}
	if(p[i]+i>MaxId)
	{
		MaxId=p[i]+i;
		id=i;
	}
}


为了防止求P[i]向两边扩展时可能数组越界,我们需要在数组最前面和最后面加一个特殊字符,令P[0]=‘$’最后位置默认为‘\0’不需要特殊处理。此外,我们用MaxId变量记录在求i之前的回文串中,延伸至最右端的位置,同时用id记录取这个MaxId的id值。通过下面这句话,算法避免了很多没必要的重复匹配。

if(MaxId>i)
{
    p[i]=Min(p[2*id-i],MaxId-i);
}


那么这句话是怎么得来的呢,其实就是利用了回文串的对称性,如下图:
对称字符串的最大长度 — 曼彻斯特算法_第1张图片
j=2*id-1即为i关于id的对称点,根据对称性,P[j]的回文串也是可以对称到i这边的,但是如果P[j]的回文串对称过来以后超过MaxId的话,超出部分就不能对称过来了,如下图,所以这里P[i]为的下限为两者中的较小者,p[i]=Min(p[2*id-i],MaxId-i)。
对称字符串的最大长度 — 曼彻斯特算法_第2张图片
算法的有效比较次数为MaxId次,所以说这个算法的时间复杂度为O(n)。

 


 

这是我自己写的程序,增加了打印回文字符串的功能,其中最后那块写的有点儿乱,大家可以拿google和gooogle这两个例子自己模拟一下就明白了。

#include <stdio.h>
#include <string.h>

#define min(a,b) a<b?a:b

int main()
{
	char a[50],b[100];
	int len,i;
	int p[100];
	int mx=0,id,max_len=0,max_id;
	printf("请输入字符串:");
	scanf("%s",a);
	len = strlen(a);
	b[0] = '$';
	b[1] = '#';
	for(i=0;i<len;i++)
	{
		b[2*i+2] = a[i];
		b[2*i+3] = '#';
	}
	b[2*len+2] = '\0';
	for(i=1;i<=2*len+1;i++)
	{
		if(mx > i)
			p[i] = min(p[2*id-i],mx-i);
		else
			p[i] = 1;
		while(b[i+p[i]] == b[i-p[i]])
			p[i]++;
		if(i+p[i] > mx)
		{
			mx = i + p[i];
			id = i;
		}
		if(p[i] > max_len)
		{
			max_len = p[i]-1;
			max_id = i;
		}
	}
	printf("最大回文字符串为:\n");
	if(max_id%2==1)//坐标是奇数说明此时的max_id指向的是'#',回文字符串长度必为偶数
	{
		max_id = (max_id-3)/2;//还原坐标
		for(i=max_id-max_len/2+1;i<=max_id+max_len/2;i++)
			printf("%c",a[i]);
		printf("\n");
	}
	else
	{
		max_id = (max_id-2)/2;//坐标是偶数说明此时的max_id指向的是原字符串中的字符,回文字符串长度必为奇数
		for(i=max_id-max_len/2;i<=max_id+max_len/2;i++)
			printf("%c",a[i]);
		printf("\n");
	}
	printf("最大回文串长度为:%d\n",max_len);
	return 0;
}


对称字符串的最大长度 — 曼彻斯特算法_第3张图片

对称字符串的最大长度 — 曼彻斯特算法_第4张图片

 

你可能感兴趣的:(对称字符串的最大长度 — 曼彻斯特算法)