007-寻找第k小元素-分治法-《算法设计技巧与分析》M.H.A学习笔记

n个元素的数组中查找第k小的元素。Θ(n

 

显然先排序的话,复杂度为Onlogn)。

 

但我们还有一个很漂亮的Θ(n)的算法。

 

先说一下分治法的阈值:我们有一种吊炸天的分治算法,可以用很好的效率求解出某个问题,分治算法当然在达到一个非常小的规模时,会能直接或用很简单的方法得出结论,但是,其实,问题规模在达到某个阈值的时候,用直接朴素的方法解决这个规模的问题的效率,已经比继续分治的算法高了。这个时候,我们在这个阈值就开始选择朴素的方法才是最明智的选择。

 

在寻找第k小元素的分治算法中,这个阈值是44。为什么是44看下面分析。

 

基本思路:

(1) 当规模小于阈值时,直接用排序算法返回结果。

(2) n大于阈值时,把n元素划分为5个元素一组的n/5组,排除剩余元素(不会有影响,这里只是为了求中项mm,分别排序,然后挑出每一组元素的中间值,再在所有的中间值中,递归调用本算法,挑出中间值mm

(3) 把元素划分为A1A2A3三组,分别包含小于、等于、大于mm的元素。

(4)分三种情况:

若A1的元素数量大于等于K,即第K个元素在第一组内:在A1中递归查找第k小元素。

若A1A2元素个数之和大于等于K,即中项mm为第K个元素:返回mm

否则,第K个元素在第三组:在A3中递归寻找第(k-|A1A2元素数量之和|)小元素。

 

伪代码:

[plain]  view plain  copy
 
  1. 输入  n 个元素的数组 A[1...n] 和整数 k,1 ≤ k ≤ n  
  2. 输出  A 中的第 k 小元素  
  3.    
  4. 算法描述 select(A, low, high, k)  
  5. 1. n ← high - low + 1----(Θ(1))  
  6. 2. if  n < 44 then 将 A 排序 return (A[k])----(Θ(1))  
  7. 3. 令 q =  ⌊n/5⌋。将 A 分成 q 组,每组5个元素。如果5不整除 n ,则排除剩余的元素。----(Θ(n))  
  8. 4. 将 q 组中的每一组单独排序,找出中项。所有中项的集合为 M。----(Θ(n))  
  9. 5. mm ← select(M, 1, q,  ⌈q/2⌉)   { mm 为中项集合的中项 } ----T(n/5)  
  10. 6. 将 A[low...high] 分成三组----(Θ(n))  
  11.     A1 = { a | a < mm }  
  12.     A2 = { a | a = mm }  
  13.     A3 = { a | a > mm }  
  14. 7. case  
  15.     |A1| ≥ k : return select(A1, 1, |A1|, k)  
  16.     |A1| + |A2| ≥ k : return mm  
  17.     |A1| + |A2| < k : return select(A3, 1, |A3|, k - |A1| - |A2|)  
  18. 8. end case  
  19.    


算法分析:

1-6步的复杂度都很容易理解,我们着重讨论第7步的算法复杂度。

 007-寻找第k小元素-分治法-《算法设计技巧与分析》M.H.A学习笔记_第1张图片

上图是处理到第5步后的元素,从左到右按各组中项升序排列,每组5个元素从下到上按升序排列。

我们需要知道的是第7步时候问题的规模,即A1A3这两个数组的规模。

上图中我们可以看到W区的元素都是小于或等于mm的,令A1’表示小于或等于mm的元素的集合,显然W会是A1’的子集,即A1’的元素数量大于等于W的元素数量。

于是我们有下面这个式子:

 

A3的数量=n-A1’的数量,于是我们可以等到下面的式子:

 

由对称性,可得:

 

至此,我们知道A1A3的上界是0.7n+1.2,步骤7耗费的时间是T0.7n+1.2)。

到这里还没说到44阈值的由来,好,要开始说了。

我们希望去掉1.2这个常数,于是引入底函数帮忙:

 

 

这条式子什么时候成立呢?解不等式可得n>=44

阈值44诞生了!!!

现在我们还有了算法运行时间的递推式:

 

可以算出来T(n)=Θ(n)

 

对于求中项的题目也是同样的解法,就是找第(n+1/2个元素(奇数)和第n/2n/2+1个元素(偶数)。

 

需要注意,这个算法的常数倍数(比如c)都是很大的。

对于这个问题,还存在一个具有Θ(n)期望运行时间和较小常数倍数的随机选择算法,请多关注这个专栏,有机会再介绍(挖坑)。

 

Java代码:

贴一个找到的Java代码,C++代码以后再写一个补上(再挖坑):

[java]  view plain  copy
 
  1. public static int select(int[] A, int k){  
  2.         return selectDo(A, 0, A.length-1, k);  
  3.     }  
  4.       
  5.     private static int selectDo(int[] A, int low, int high, int k){  
  6.         //select k min number  
  7.         int p = high - low + 1;  
  8.         if(p < 44){  
  9.             Arrays.sort(A, low, high+1);  
  10.             return A[low+k];  
  11.         }  
  12.         //A divided into q groups, each group 5 elements, and sort them  
  13.         int q = p/5;  
  14.         int[] M = new int[q];  
  15.         for(int i = 0; i < q; i ++){  
  16.             Arrays.sort(A, low + 5*i, low + 5*i + 5);  
  17.             M[i] = A[low+5*i+2];  
  18.         }  
  19.         //select mid in M  
  20.         int mid = selectDo(A, 0, q-1, (q-1)/2);  
  21.         //A divided into 3 groups  
  22.         int[] A1 = new int[p];  
  23.         int[] A2 = new int[p];  
  24.         int[] A3 = new int[p];  
  25.         int count1, count2, count3;  
  26.         count1 = count2 = count3 = 0;  
  27.         for(int i = low; i <= high; i ++){  
  28.             if(A[i] < mid)  
  29.                 A1[count1++] = A[i];  
  30.             else if(A[i] == mid)  
  31.                 A2[count2++] = A[i];  
  32.             else  
  33.                 A3[count3++] = A[i];  
  34.         }  
  35.         if(count1 >= k)  
  36.             return selectDo(A1, 0, count1-1, k);  
  37.         if(count1 + count2 >= k)  
  38.             return mid;  
  39.         return selectDo(A3, 0, count3-1, k-count1-count2);  
  40.     }  

你可能感兴趣的:(算法设计技巧与分析)