(二叉)堆数据结构是一种数组对象,可以被视为一颗完全二叉树。表示堆的数组A是一个具有两个属性的对象:length[A]是数组中元素个数,heap-size[A]是存放在A中的堆的元素个数,heap-size[A]<=length[A]。树的根表示为A[1],给定某结点下标i,其父节点PARENT(i) = i/2(向下取整),LEFT[i] = 2i,RIGHT[i] = 2i+1。
二叉堆有两种:最大堆和最小堆,最大堆是本文讨论的主要类型,最大堆的性质就是,堆中最大元素存放在根结点中,且,以任意一个结点为根的子树中,各结点的值都不大于该子树根结点的值。
MAX-HEAPIFY是对最大堆操作的重要子程序,其输入为一个数组A和下标i,当A[i]小于其子女时可能违背最大堆性质,为了保持堆的性质,调用MAX-HEAPIFY,MAX-HEAPIFY让A[i]在最大堆中“下降”,使以i为根的子树成为最大堆。具体的伪代码如下所示:
MAX_HEAPIFY(A,i)
1 l ← LEFT(i)
2 r ← RIGHT(i)
3 if l <= heap-size[A] and A[l] > A[i]
4 then largest ← l
5 else largest ← i
6 if r <= heap-size[A] and A[r] > A[largest]
7 then largest ← r
8 if largest ≠ i
9 then exchange A[i] ‹-› A[largest]
10 MAX_HEAPIFY(A,largest)
在算法中,每一步,从元素A[i],A[LEFT(i)]和A[RIGHT(i)]中找出最大的,将下标存在largest中,如果A[i]是最大的,即i=largest,则以i为根的子树已经是最大堆,如果A[i]不是最大的,则交换A[i]与A[largest],将i“下降”,堆该子树递归调用MAX-HEAPIFY。
当MAX-HEAPIFY作用在一棵以结点i为根、大小为n的子树上时,其运行时间为调整元素A[i]、A[LEFT(i)]和A[RIGHT(i)]的关系所用时间为θ(1)的常数时间,再加上对以i的某个子节点为根的子树递归调用MAX-HEAPIFY所需的时间。i结点的子树大小至多为2n/3(最坏情况发生在底层恰好半满的时候),那么MAX-HEAPIFY的运行时间如下:
可以说,MAX-HEAPIFY作用于一个高度为h的结点所需的运行时间为O(h)。
有了上述的MAX-HEAPIFY方法来保持堆的性质,我们就可以自底向上的用MAX-HEAPIFY来将一个数组A[1,2,…n]变成一个最大堆。由完全二叉树的性质可知,子数组A[(n/2+1)..n]中的元素都是树中的叶子,因此每个都可以看做是只含一个元素的堆。过程BUILD-MAX-HEAP对树中每一个其他结点都调用一次MAX-HEAPIFY。具体算法如下:
BUILD-MAX-HEAP(A)
1 heap-size[A] ← length[A]
2 for i ← [length[A]/2] downto 1
3 do MAX-HEAPIFY(A,i)
很简单的能得到BUILD-MAX-HEAP运行时间的一个上界:每次调用MAX-HEAPIFY的时间为O(lgn),共有n次调用,故运行时间为O(nlgn)。这个界虽然正确,但是并不紧确,我们可以得到一个更紧确的界。在树中,不同高度的结点处运行MAX-HEAPIFY的时间不同,而大部分结点的高度较小。我们可以知道这样一个性质:一个n元素堆的高度为[lgn],并且在任意高度h上,至多有[n/2^(h+1)]个结点,于是我们可以将BUILD-MAX-HEAP的代表表达为:
开始时,堆排序算法先用BUILD-MAX-HEAP将输入数组A[1..n]构造成一个最大堆,因为数组中最大元素在根A[1],所以可以通过将A[1]与A[n]互换,此时从堆中“去掉”结点n,可以很容易的将A[1..(n-1)]建造成最大堆。堆排序算法重复这个过程,堆的大小从n-1降到2,即可获得最终的排序结果,具体算法如下:
HEAPSORT(A)
1 BUILD-MAX-HEAP(A)
2 for i ← length[A] downto2
3 do exchange A[1] <-> A[i]
4 heap-size[A] ← heap-size[A-1]
5 MAX-HEAPIFY(A,1)
HEAPSORT过程的时间代价为O(nlgn)。其中调用BUILD-MAX-HEAP的时间为O(n),n-1次MAX-HEAPIFY调用中每一次的时间代价为O(lgn)。