给定字符串S,判定S是否存在子串S’满足”aa…abb…bcc…c”的形式。其中abc为连续的三个字母,且a,b,c的数量相同。
原题目中数量相等的连续n(n>3)个字母也是可行的,而实际上当n>3时一定包含有n=3的情况。比如”abcd”就包含有”abc”和”bcd”两个合法子串。
最基本的思路为对S的每一个子串进行判定是否满足要求。枚举子串的起点、终点以及检查是否合法。
假设S的长度为N,则时间复杂度为O(N^3)。
For i = 0..N-1
For j = 0..N-1
check(S[i..j])
End For
End For
这样的做法对于N稍大的数据来说就会超过时限。
进一步考虑,由于合法子串中相同的字母总是连续的,我们不妨用(c,n)来表示一串连续相同的字母,比如”aaa”表示(a,3),”bb”表示为(b,2)。
我们将整个字符串S用(c,n)表示,得到{(c[1], n[1]),(c[2],n[2]),…,(c[t],n[t])}的序列。其中我们合法的子串也可以表示为{(a,n),(b,n),(c,n)}。
则算法改变为在序列{(c[1], n[1]),(c[2],n[2]),…,(c[t],n[t])}中判定是否存在连续的3个元素满足c[i],c[i+1],c[i+2]连续且n[i] == n[i+1] == n[i+2]。
预处理时间为O(N),得到的序列长度最大为N,所以整体的时间复杂度降低为O(N)。
For i = 1 .. t-2
If (c[i]+1 == c[i+1] and c[i+1]+1 == c[i+2]) and (n[i] == n[i+1] == n[i+2])
Return True
End If
End For
然而实际运行会发现,这个算法是不正确的。比如:”aaaabbccc”,其对应的序列为{(a,4),(b,2),(c,3)},根据我们上面的算法并不能找到合法子串。但实际上存在合法子串”aabbcc”。
很显然,问题出在我们对于n[i],n[i+1],n[i+2]的判定上。通过上面的反例我们可以发现,在子串中n[i],n[i+2]的值其实是可以变动的,唯一固定的是n[i+1]的值。当n[i]>n[i+1]时,我们只要删去前面的若干个字母,就能够使得n[i]==n[i+1]。同理对于n[i+2]>n[i+1]时,我们删去后面的字母。因此只要有n[i]>=n[i+1],n[i+2]>=n[i+1],就一定能够通过变换使得n[i] == n[i+1] == n[i+2]。
改正后我们的算法代码为:
For i = 1 .. t-2
If (c[i]+1 == c[i+1] and c[i+1]+1 == c[i+2]) and (n[i] >= n[i+1] and n[i+1] <= n[i+2])
Return True
End If
End For
在实际的比赛中,该题目的通过率仅为26%。
但根据赛后的统计结果,大部分的选手都使用了朴素的算法通过了规模较小的数据点。在该题目上获取了10~60不等的分数。
其中比较有意思的是有一位选手仅仅判定连续3个字母是否连续,也获得了60的分数。
而分布在70~90分数段的程序,随机抽取了若干样本,发现大多数都是想到了正确算法的。而导致他们丢分的主要原因则是多组数据产生的初始化问题。
#include <cstdio>
int main() {
int T;
scanf("%d%*c", &T);
while (T--) {
int len;
scanf("%d%*c", &len);
char pre = getchar(), cur;
int cnt = 1, num[3] = {0};
bool flag = false;
for (int i = 1; i <= len; i++) {
cur = getchar();
if (cur == pre) {
cnt++;
} else {
num[0] = num[1];
num[1] = num[2];
num[2] = cnt;
cnt = 1;
if (num[0] >= num[1] && num[1] <= num[2] && num[1])
flag = true;
if (cur - pre != 1)
num[0] = num[1] = num[2]= 0;
}
pre = cur;
}
flag ? puts("YES") : puts("NO");
}
return 0;
}