给定一个字符串,输出最长的重复子串
举例:ask not what your country can do for you,but what youcan do for your country
最长的重复子串:can do for you
思路:使用后缀数组解决
分析:
1、由于要求最长公共子序列,则需要找到字符串的所有子串,即通过产生字符串的后缀数组实现。
2、由于要求最长的重复子串,则需要对所有子串进行排序,这样可以把相同的字符串排在一起。
3、比较相邻字符串,找出两个子串中,相同的字符的个数。
注意,对于一个子串,一个与其重复最多的字符串肯定是紧挨着自己的两个字符串。
步骤:
1、对待处理的字符串产生后缀数组
2、对后缀数组排序
3、依次检测相邻两个后缀的公共长度
4、取出最大公共长度的前缀
举例:输入字符串 banana
1、字符串产生的后缀数组:
a[0]:banana
a[1]:anana
a[2]:nana
a[3]:ana
a[4]:na
a[5]:a
2、对后缀数组进行快速排序,以将后缀相近的(变位词)子串集中在一起
a[0]:a
a[1]:ana
a[2]:anana
a[3]:banana
a[4]:na
a[5]:nana
之后可以依次检测相邻两个后缀的公共长度并取出最大公共的前缀
代码:
-
- #include <iostream>
- #include <algorithm>
- #include <string>
- using namespace std;
- const int MaxCharNum = 5000000;
-
- bool StrCmp(char* str1,char* str2);
- void GenSuffixArray(char* str,char* suffixStr[]);
- int ComStrLen(char* str1,char* str2);
- void GenMaxReStr(char* str);
-
- int main()
- {
- char str[MaxCharNum];
- cin.getline(str,MaxCharNum);
- GenMaxReStr(str);
- system("pause");
- return 1;
- }
-
- void GenMaxReStr(char* str)
- {
- int len = strlen(str);
- int comReStrLen = 0;
- int maxLoc = 0;
- int maxLen = 0;
- char* suffixStr[MaxCharNum];
- GenSuffixArray(str,suffixStr);
-
- sort(suffixStr,suffixStr+len,StrCmp);
-
-
- for (int i = 0;i < len-1;i++ )
- {
- comReStrLen = ComStrLen(suffixStr[i],suffixStr[i+1]);
- if (comReStrLen > maxLen)
- {
- maxLoc = i;
- maxLen = comReStrLen;
- }
- }
-
- for (int i = 0;i < maxLen;i++)
- {
- cout<<suffixStr[maxLoc][i];
- }
- cout<<endl;
- }
-
- void GenSuffixArray(char* str,char* suffixStr[])
- {
- int len = strlen(str);
- for (int i = 0;i < len;i++)
- {
- suffixStr[i] = &str[i];
- }
- }
-
- int ComStrLen(char* str1,char* str2)
- {
- int comLen = 0;
- while(*str1 && *str2)
- {
- if (*str1 == *str2)
- {
- comLen++;
- }
- str1++;
- str2++;
- }
- return comLen;
- }
-
-
- bool StrCmp(char* str1,char* str2)
- {
- if (strcmp(str1,str2) >=0 )
- {
- return false;
- }
- return true;
- }
程序输入:ask not what your country can do for you,but what you can do for your country
输出:can do for you
时间复杂度分析:产生后缀数组-时间复杂度O(N)、对后缀数组排序是O(N*NlogN),第一个N表示字符串的比较,后面NlogN使用快排排序。依次检测相邻两个后缀的公共长度-时间复杂度O(N*N)、取出最大公共长度的前缀-时间复杂度O(N)。
总的时间复杂度是O(N*NlogN)