百度之星之H:用户请求中的品牌

H:用户请求中的品牌

时间限制:

1000ms

内存限制:

65536kB

描述

馅饼同学是一个在百度工作,做用户请求(query)分析的同学,他在用户请求中经常会遇到一些很奇葩的词汇。在比方说“johnsonjohnson”、“duckduck”,这些词汇虽然看起来是一些词汇的单纯重复,但是往往都是一些特殊品牌的词汇,不能被拆分开。为了侦测出这种词的存在,你今天需要完成我给出的这个任务——“找出用户请求中循环节最多的子串”。

输入

输入数据包括多组,每组为一个全部由小写字母组成的不含空格的用户请求(字符串),占一行。用户请求的长度不大于100,000。
最后一行输入为#,作为结束的标志。

输出

对于每组输入,先输出这个组的编号(第n组就是输出“Case n:”);然后输出这组用户请求中循环节最多的子串。如果一个用户请求中有两个循环节数相同的子串,请选择那个字典序最小的

样例输入

ilovejohnsonjohnsonverymuch

duckduckgo

aaabbbcccisagoodcompany

#

样例输出

Case 1: johnsonjohnson

Case 2: duckduck

Case 3: aaa

【答案】

#include 
#include 
#include 
#include 
#include 
using namespace std;


pair fun(const string& str)
{
	vector substrs;
	int maxcount = 1;
	int count = 1;
	string substr;
	
	int i = 0;
	int j = 0;
	int k = 0;
	int len = str.length();
	
	string tempStr;
	int iLen = 0;
	int iCnt = 0;

	char chTmp;
	
	for(i = 0; i < len; ++i)
	{
		substrs.push_back(str.substr(i,len-i));
	}
	
	for(i = 0; i < len; ++i)
	{
		for( j = i+1; j < len; ++j)
		{
			count = 1;
			if(substrs[i].substr(0,j-i) == substrs[j].substr(0,j-i))
			{
				++count;
				for(k = j + (j-i); k < len; k+=(j-i))
				{
					if(substrs[i].substr(0,j-i) == substrs[k].substr(0,j-i))
					{
						++count;
					}
					else
					{
						break;
					}
				}
				
			}
			if(count > maxcount)
			{
				maxcount = count;
				substr = substrs[i].substr(0,j-i);
				tempStr = substr;	
				iLen = substr.length();
				iCnt = maxcount;
				while(iCnt > 1)
				{
					substr.insert(iLen,tempStr);
					iCnt--;
				}
			}
		}
	}
	if(substr.length() == 0)
	{
		chTmp = (char)str[0];
		for( int i = 1; i < len; i++ )
		{
			if( str[i] < chTmp )
			{
				chTmp = str[i];
			}
		}
		substr = chTmp;
	}
	return make_pair(maxcount,substr);
}

int main(void)
{
	string str;
	pair rs;
	int iGroup = 0;
	
	while(cin >> str)
	{
		if(str == "#")
		{
			break;
		}
		rs = fun(str);
		cout << "Case " << ++iGroup  << ": "<< rs.second << "\n"; 	
	}

	return 0;
}

注:

0.题目的本质还是求最大子串问题,只是在输出方面有所变动,但“换汤不换药”

1.此题一致显示Wrong Answer,但对于测试数据都是能通过的。不知道何故,求网友指出原因。

2.此题参考了《程序员面试baodian》里面字符串处理部分的代码,做了相应修正。(源代码有错误!)

3.感觉比下面网友提供的要精炼不少:

#include  
#include  
using namespace std;  
#include  
#include  
  
int wa[200000],wb[200000],wv[200000],wsum[200000];  
int height[200000],sa[200000],rank[200000];  
int n,ans,len,pos;  
char str[200000];  
int R[200000];  
int f[200000][20];  
int a[200000],num;  
int cmp(int *r,int a,int b,int l)  
{  
    return r[a]==r[b] && r[a+l]==r[b+l];  
}  
void da(int *r,int *sa,int n,int m)   //倍增算法 r为待匹配数组  n为总长度 m为字符范围  
{  
    int i,j,p,*x=wa,*y=wb,*t;  
    for(i=0;i=0;--i)  
        sa[--wsum[x[i]]]=i;  
    for(j=1,p=1;p=j)  
                y[p++]=sa[i]-j;  
        for(i=0;i=0;--i)  
            sa[--wsum[wv[i]]]=y[i];  
        for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i=1;--j)   
        {   
            f[j][i]=f[j][i-1];   
            k=1<<(i-1);   
            if(j+k<=n)   
                f[j][i]=mmin(f[j][i],f[j+k][i-1]);   
        }   
}  
int get_rmq(int x , int y)    //询问x、y后缀的最长公共前缀    
{   
    int m,t;   
    x=rank[x] , y=rank[y];   
    if(x>y)     
        t=x,x=y,y=t;     
    ++x;     
    m=(int)(log(1.0*(y-x+1))/log(2.0));     
    return mmin(f[x][m],f[y-(1<=0 && j>i-l && str[j]==str[j+l];j--)  
                {  
                    ++cnt;  
                    if(cnt==t)  
                        s++ , p=j;  
                    else if(rank[j]rank[p])  
                {  
                    pos=p;  
                    len=s*l;  
                }  
  
            }  
        }  
        printf("Case %d: ",++ca);  
        if(ans<2)  
        {  
            c='z';  
             for(i=0;i


你可能感兴趣的:(百度之星之H:用户请求中的品牌)