题目描述:
输入n个整数,找出其中最小的k个数。例如输入4,5,1,6,2,7,3,8这8个数字,则最小的4个数字是1,2,3,4。
这道题最简单的思路莫过于把输入的n个整数排序,排序之后位于最前面的k个数就是最小的k个数。这种思路的时间复杂度是O(nlogn),面试官会提示我们还有更快的算法。
分析1:O(n)的算法,只有当我们可以修改输入的数组时可用
我们可以基于Partition函数来解决这个问题。可以基于数组的第k个数字来调整,使得比第k个数字小的所有数字都位于数组的左边,比第k个数字大的所有数字都位于数组的右边。这样调整之后,位于数组中左边的k个数字就是最小的k个数字。
代码如下:
/**
* 查找数组中最小的k个数,使用快速排序的思想
*/
public class LeastNumbersInArray {
public int[] getLeastNumbers(int[] arr, int k){
if(arr == null || arr.length == 0)
return null;
int[] result = new int[k];
int low = 0;
int high = arr.length - 1;
int index = partition(arr, low, high);
while(index != k-1){
if(index > k-1){
high = index - 1;
index = partition(arr, low, high);
}
else{
low = index + 1;
index = partition(arr, low, high);
}
}
for(int i = 0; i <= k-1; i++){
result[i] = arr[i];
}
return result;
}
public int partition(int[] arr, int low, int high){
//基准数
int base = arr[low];
while(low < high){
while(arr[high] >= base && low < high){
high--;
}
if(low < high){
arr[low] = arr[high];
low++;
}
while(arr[low] <= base && low < high){
low++;
}
if(low < high){
arr[high] = arr[low];
high--;
}
}
arr[low] = base;
return low;
}
public static void main(String[] args) {
LeastNumbersInArray test = new LeastNumbersInArray();
int[] arr = {4,21,4,6,7,3,11,6,3,5,2,1};
int[] result = test.getLeastNumbers(arr, 4);
for(int num : result){
System.out.print(num + " ");
}
}
}
采用这种思路是有限制的。我们需要修改输入的数组,因为函数Partition会调整数组中数字的顺序。如果面试官要求不能修改输入的数组,我们该怎么办的呢?
分析2:O(nlogk)的算法,特别适用处理海量数据
我们可以先创建一个大小为k的数据容器来存储最小的k个数字,接下来我们每次从输入的n个整数中读入一个数。如果容器中已有数字少于k个,则直接把这次读入的整数放入容器中;如果容器中已有k个数字了,也就是容器已满,此时我们不能再插入新的数字了而只能替换已有的数字。找出这已有的k个数中的最大值,然后拿这次待插入的整数和最大值进行比较。如果待插入的值比当前已有的最小值小,则用这个数替换当前已有的最大值;如果待插入的值比当前已有的最大值还大,那么这个数不可能是最小的k个整数之一,于是我们可以抛弃这个整数。
因此当容器满了之后,我们要做3件事;一是在k个整数中找到最大数;二是有可能在这个容器中删除最大数;三是有可能要插入一个新的数字。如果用一个二叉树来实现这个容器,那么我们能在O(logk)时间内实现这三步操作。因此对于n个输入的数字而言,总的时间效率是O(nlogk).
我们可以选择用不同的二叉树来实现这个数据容器。由于每次都需要找到k个整数中的最大数字,我们很容易想到用最大堆。在最大堆中,根节点的值总是大于它的子树中的任意结点的值。于是我们每次可以在O(1)得到已有的k个数字中的最大值,但需要O(logk)时间完成删除及插入操作。
代码如下:
/**
* 查找数组中最小的k个数,使用堆的思想
*/
public class LeastNumbersInArray2 {
public int[] leastNumbers(int[] data, int k){
if(data == null || data.length == 0)
return null;
if(data.length < k)
return null;
int[] result = new int[k];
for(int i = 0; i < k; i++){
result[i] = data[i];
}
initMaxHeap(result, k-1);
for(int i = k; i < data.length; i++){
if(data[i] < result[0]){
result[0] = data[i];
adjustHeap(result, k-1);
}
}
return result;
}
//初始化大顶推
public void initMaxHeap(int[] data, int lastIndex){
//(lastIndex-1)/2 表示最后一个非叶子节点
for(int i = (lastIndex-1)/2; i >= 0; i--){
int k = i;
while(k*2+1 <= lastIndex){
int biggerIndex = k*2+1;
if(biggerIndex < lastIndex){
if(data[biggerIndex] < data[biggerIndex + 1]){
biggerIndex = biggerIndex + 1;
}
}
if(data[biggerIndex] > data[k]){
swap(data, k ,biggerIndex);
k = biggerIndex;
}else{
break;
}
}
}
}
//调整堆
public void adjustHeap(int[] data,int lastIndex){
int k = 0;
while(k*2+1 <= lastIndex){
int biggerIndex = k*2+1;
if(biggerIndex < lastIndex){
if(data[biggerIndex] < data[biggerIndex + 1])
biggerIndex = biggerIndex + 1;
}
if(data[k] < data[biggerIndex]){
swap(data,k,biggerIndex);
k = biggerIndex;
}else{
break;
}
}
}
//交换数组中的两个元素
public void swap(int[] data, int i ,int j){
int temp = data[i];
data[i] = data[j];
data[j] = temp;
}
public static void main(String[] args) {
LeastNumbersInArray2 test = new LeastNumbersInArray2();
int[] data = {9,8,7,6,5,4,3,2,1};
int[] result = test.leastNumbers(data, 6);
for(int num : result){
System.out.print(num + " ");
}
}
}