【数据结构与算法分析】07:堆排序

    • 1.堆
    • 2.保持堆的性质
      • 2.1算法
      • 2.2算法分析
    • 3.建堆
      • 3.1算法
      • 3.2算法分析
    • 4.堆排序算法
      • 4.1算法
      • 4.2算法分析

1.堆

(二叉)堆数据结构是一种数组对象,可以被视为一颗完全二叉树。表示堆的数组A是一个具有两个属性的对象:length[A]是数组中元素个数,heap-size[A]是存放在A中的堆的元素个数,heap-size[A]<=length[A]。树的根表示为A[1],给定某结点下标i,其父节点PARENT(i) = i/2(向下取整),LEFT[i] = 2i,RIGHT[i] = 2i+1。

2.保持堆的性质

二叉堆有两种:最大堆和最小堆,最大堆是本文讨论的主要类型,最大堆的性质就是,堆中最大元素存放在根结点中,且,以任意一个结点为根的子树中,各结点的值都不大于该子树根结点的值。

2.1算法

MAX-HEAPIFY是对最大堆操作的重要子程序,其输入为一个数组A和下标i,当A[i]小于其子女时可能违背最大堆性质,为了保持堆的性质,调用MAX-HEAPIFY,MAX-HEAPIFY让A[i]在最大堆中“下降”,使以i为根的子树成为最大堆。具体的伪代码如下所示:

MAX_HEAPIFY(A,i)
1 l ← LEFT(i)
2 r ← RIGHT(i)
3 if l <= heap-size[A] and A[l] > A[i]
4   then largest ← l
5   else largest ← i
6 if r <= heap-size[A] and A[r] > A[largest]
7   then largest ← r
8 if largest ≠ i
9   then exchange A[i] ‹-› A[largest]
10      MAX_HEAPIFY(A,largest)  

下图描述了MAX_HEAPIFY的过程:
【数据结构与算法分析】07:堆排序_第1张图片

在算法中,每一步,从元素A[i],A[LEFT(i)]和A[RIGHT(i)]中找出最大的,将下标存在largest中,如果A[i]是最大的,即i=largest,则以i为根的子树已经是最大堆,如果A[i]不是最大的,则交换A[i]与A[largest],将i“下降”,堆该子树递归调用MAX-HEAPIFY。

2.2算法分析

当MAX-HEAPIFY作用在一棵以结点i为根、大小为n的子树上时,其运行时间为调整元素A[i]、A[LEFT(i)]和A[RIGHT(i)]的关系所用时间为θ(1)的常数时间,再加上对以i的某个子节点为根的子树递归调用MAX-HEAPIFY所需的时间。i结点的子树大小至多为2n/3(最坏情况发生在底层恰好半满的时候),那么MAX-HEAPIFY的运行时间如下:

T(n)T(2n/3)+θ(1) T ( n ) ≤ T ( 2 n / 3 ) + θ ( 1 )

根据主定理的情况2,该递归式的解为
T(n)=O(lgn) T ( n ) = O ( l g n )

可以说,MAX-HEAPIFY作用于一个高度为h的结点所需的运行时间为O(h)。

3.建堆

3.1算法

有了上述的MAX-HEAPIFY方法来保持堆的性质,我们就可以自底向上的用MAX-HEAPIFY来将一个数组A[1,2,…n]变成一个最大堆。由完全二叉树的性质可知,子数组A[(n/2+1)..n]中的元素都是树中的叶子,因此每个都可以看做是只含一个元素的堆。过程BUILD-MAX-HEAP对树中每一个其他结点都调用一次MAX-HEAPIFY。具体算法如下:

BUILD-MAX-HEAP(A)
1 heap-size[A] ← length[A]
2 for i ← [length[A]/2] downto 1
3   do MAX-HEAPIFY(A,i)

下图给出建堆过程的一个例子:
【数据结构与算法分析】07:堆排序_第2张图片

3.2算法分析

很简单的能得到BUILD-MAX-HEAP运行时间的一个上界:每次调用MAX-HEAPIFY的时间为O(lgn),共有n次调用,故运行时间为O(nlgn)。这个界虽然正确,但是并不紧确,我们可以得到一个更紧确的界。在树中,不同高度的结点处运行MAX-HEAPIFY的时间不同,而大部分结点的高度较小。我们可以知道这样一个性质:一个n元素堆的高度为[lgn],并且在任意高度h上,至多有[n/2^(h+1)]个结点,于是我们可以将BUILD-MAX-HEAP的代表表达为:

h=0[lgn][n2h]O(h)=O(nh=0[lgn][n2h]) ∑ h = 0 [ l g n ] [ n 2 h ] O ( h ) = O ( n ∑ h = 0 [ l g n ] [ n 2 h ] )

根据公式
k=0kxk=x(1x)2 ∑ k = 0 ∞ k x k = x ( 1 − x ) 2

带入x=1/2,可得
O(nh=0[lgn][n2h])=O(n) O ( n ∑ h = 0 [ l g n ] [ n 2 h ] ) = O ( n )

这说明,可以在线性时间内,将一个无序数组建成一个最大堆。

4.堆排序算法

4.1算法

开始时,堆排序算法先用BUILD-MAX-HEAP将输入数组A[1..n]构造成一个最大堆,因为数组中最大元素在根A[1],所以可以通过将A[1]与A[n]互换,此时从堆中“去掉”结点n,可以很容易的将A[1..(n-1)]建造成最大堆。堆排序算法重复这个过程,堆的大小从n-1降到2,即可获得最终的排序结果,具体算法如下:

HEAPSORT(A)
1 BUILD-MAX-HEAP(A)
2 for i ← length[A] downto2
3   do exchange A[1] <-> A[i]
4       heap-size[A] ← heap-size[A-1]
5       MAX-HEAPIFY(A,1)

下图给出一个排序的例子:
【数据结构与算法分析】07:堆排序_第3张图片

4.2算法分析

HEAPSORT过程的时间代价为O(nlgn)。其中调用BUILD-MAX-HEAP的时间为O(n),n-1次MAX-HEAPIFY调用中每一次的时间代价为O(lgn)。

你可能感兴趣的:(数据结构与算法分析)