题目:数组中有一个数字出现的次数超过数组长度的一半,请找出这个数字。例如输入一个长度为9的数组{1,2,3,2,2,2,5,4,2}。由于数字2在数组中出现了5次,超过数组长度的一半,因此输出2。
思路:如果数组是已排序的,可以很容易实现次数的统计,排序的算法时间复杂度至少是O(nlogn)。这题注意到题目的特殊性,出现次数超过一半,那么排序后中位数肯定就是这个数,我们只要求出最小的n/2个数,不关心这n个数是否排序,所以问题转化为求TOP K问题,k = n/2。top K问题我们有很多种解法,例如建堆的方法,时间复杂度O(nlogk);半快速排序的方法,时间复杂度O(n)。下面是半快速排序的实现:
void Swap(int& a, int& b) { int temp = a; a = b; b = temp; } void TopK(int* array, int start, int end, int k) { if(start < end) { int pivot = array[start]; int l = start + 1; int r = end; while(l <= r) { while(l <= r && array[r] >= pivot) --r; while(l <= r && array[l] < pivot) ++l; if(l < r) Swap(array[l], array[r]); } Swap(array[start], array[r]); if(r > k - 1) TopK(array, start, r - 1, k); else if(r < k - 1) TopK(array, r + 1, end, k); else return; } } int FindMoreThanHalf(int* a, int length) { if(a == NULL || length <= 0) { return -1; cout << "Invalid array" << endl; } TopK(a, 0, length - 1, length/2); return a[length/2]; }
书的作者用全局变量的方式来处理输入无效的情况,再复习一下三种错误处理方式:返回值,全局变量,异常。
bool g_bInputInvalid = false; bool CheckInvalidArray(int* numbers, int length) { g_bInputInvalid = false; if(numbers == NULL || length <= 0) g_bInputInvalid = true; return g_bInputInvalid; } bool CheckMoreThanHalf(int* numbers, int length, int number) { int times = 0; for(int i = 0; i < length; ++i) { if(numbers[i] == number) times++; } bool isMoreThanHalf = true; if(times * 2 <= length) { g_bInputInvalid = true; isMoreThanHalf = false; } return isMoreThanHalf; }另一种O(n)的算法:
数组中有一个数字出现次数超过数组长度的一半,也就是说它出现的次数比其他所有出现的次数的和还多。因此我们可以考虑在遍历数组的时候保存两个值:一个是数组中的一个数字,一个是次数。当我们遍历到下一个数字的时候,如果下一个数字和我们之前保存的数字相同,则次数加1;如果下一个数字和我们之前保存的数字不同,则次数减1.如果次数为零,我们需要保存下一个数字,并把次数设为1.由于我们要找的数字出现的次数比其他所有数字出现的次数之和还要多,那么要找的数字肯定是最后一次把次数设为1对应的数字。
//数组解法 int FindMoreThanHalf(int* a, int length) { if(CheckInvalidArray(a, length)) return 0; int result = a[0]; int times = 1; for(int i = 1; i < length; ++i) { if(times == 0) { result = a[i]; times = 1; } else if(a[i] == result) ++times; else --times; } if(!CheckMoreThanHalf(a, length, result)) result = 0; return result; }