本文的主要内容包括 二叉堆 以及 堆排序,视频课程中还有关于事件驱动模拟(event-driven simulation)的介绍,本文不详细展开,感兴趣的朋友建议移步视频自行学习总结。
注1:下面引用内容如无注明出处,均是书中摘录。
注2:所有 demo 演示均为视频 PPT demo 截图。
为了展示优先队列的抽象模型的价值,考虑以下问题:输入N个字符串,每个字符串都对应着一个整数,你的任务就是从中找出最大的(或是最小的)M个整数(及其关联的字符串)。
edu.princeton.cs.algs4.TopM
UnorderedArrayMaxPQ
源码里面没有这个类,给出官网的 传送门。
Sedgewick 教授的评价:
(这是一个)“作弊”的版本:该方式要求用户提供数组初始空间。
OrderedArrayMaxPQ
源码里面没有这个类,给出官网的 传送门。
二叉堆的概念基于完全二叉树。
来简单汉化一下:
Binary tree.Empty or node with links to left and right binary trees.
二叉树。要么为空,要么为一个带有指向左右子二叉树链接的节点。
Complete tree.Perfectly balanced,except for bottom level.
完全树(Complete Tree)。除了最底层外,完美平衡。
进一步理解一下:
Property.Height of complete tree with N nodes is [lg N].
性质:具有 N 个节点的完全二叉树的高度是 [lg N]。
Pf.Height only increases when N is a power of 2.
证明:高度仅在 N 是 2 的幂时增加。
这里的证明有点随意……我个人感觉这个证明有点类似 1.5 章节中的 加权 quick-union 方法中的证明,可以回头看下。
本节中的二叉堆都是以 max-heap 进行说明,与之相对应的是 min-heap。
这两者的区别可以看下这个图:
来简单汉化一下:
Binary heap.Array representation of a heap-ordered complete binary tree.
二叉堆。一种使用数组表示的堆排序完全二叉树。
Heap-ordered binary tree.
- Keys in nodes.
- Parent’s key no smaller than children’s keys.
堆序二叉树。
Array representation.
- Indices start at 1.
- Take nodes in level order.
- No explicit links needed!
数组表示。
进一步说明:
没有截图教授的 PPT 内容,不过还是将关键的内容汉化一下。
Proposition.Largest key is a[1],which is root of binary tree.
最大的键是a[1],这是二叉树的根节点。
Proposition.Can use array indices to move through tree.
- Parent of node at k is at k/2.
- Children of node at k are at 2k and 2k+1.
命题:可以使用数组索引遍历二叉树节点。
进一步解释:
这个命题描述了如何通过数组来实现堆序完全二叉树的逻辑结构。当完全二叉树采用数组表示时,可以通过简单的算术运算快速定位任意节点的父节点和子节点:
这种数组表示方法省去了显式维护指针链接的需要,极大地简化了算法实现,并提高了存储和操作效率。
场景:子节点比父节点大。
消除违例:
edu.princeton.cs.algs4.MaxPQ#swim
插入节点:在末尾加入元素,然后让其swim到相应的位置。
开销:最多 1 + lgN 次交换。
edu.princeton.cs.algs4.MaxPQ#insert
初始状态:
将新的节点加入到数组末尾(打破了堆顺序,swim):
与父级进行交换,直到顺序正确。
第一次交换:
第二次交换:
S比T小,交换结束。
最终堆有序状态:
场景:父节点比它的两个子结点或是其中之一更小。
消除违例:
edu.princeton.cs.algs4.MaxPQ#sink
删除最大节点:交换根节点与末尾的元素,然后让新的根节点sink到相应的位置。
开销:最多 2lgN 次交换。
edu.princeton.cs.algs4.MaxPQ#delMax
初始状态:
与末尾的节点交换:
删除末尾的元素,并得到新的根节点(打破了堆顺序,sink):
与较大的子节点进行交换,直到顺序正确。
第一次交换:
第二次交换:
H比G大,交换结束。
最终堆有序状态:
堆的构造。使用自底向上的方法构建大顶堆。(假设数组元素下标是1到N)
初始状态:任意排序的数组
第一步:单节点堆
开始时我们只需要扫描数组中的一半元素,因为我们可以跳过大小为1的子堆。
第二步:3节点堆(数组从右往左扫描)
依次扫描E(5)、T(4)、R(3):
第三步:7节点堆
7节点堆下沉完成。
第四步:11节点堆(完全二叉树:15节点堆)
11节点堆下沉完成。
堆构造阶段结束。
下沉排序(降序排序)。重复删除数组中最大的剩余元素项。
即持续交换下标1与末尾的元素,并使用 sink 方法重新排序。参考前文 2.4.5 demo。
最终得到的结果:
edu.princeton.cs.algs4.Heap#sort
汉化:
定理:构建一个堆需要 <= 2N 次比较和交换操作。
定理:堆排序需要 <= 2NlgN 次比较和交换操作。
重要性。最坏情况为NlogN的原地排序算法。
底线。堆排序在时间和空间上都是最优的。但是:
做成表格简单汉化一下:
原地? | 稳定? | 最坏 | 平均 | 最好 | 备注 | |
---|---|---|---|---|---|---|
选择排序 | × | N2/2 | N2/2 | N2/2 | N次交换 | |
插入排序 | × | × | N2/2 | N2/4 | N | N较小或者是部分排序时使用 |
希尔排序 | × | ? | ? | N | 编码紧凑,次平方时间复杂度 (次平方:指其运行时间的增长速度低于问题规模(通常是输入大小)的平方) |
|
快速排序 | × | N2/2 | 2NlnN | NlgN | NlogN概率保证,在实践中最快 | |
三向切分快速排序 | × | N2/2 | 2NlnN | N | 改进存在重复键时的快排 | |
归并排序 | × | NlgN | NlgN | NlgN | NlogN保证,稳定 | |
堆排序 | × | 2NlgN | 2NlgN | NlgN | NlogN保证,原地排序 | |
??? | × | × | NlgN | NlgN | NlgN | 排序的圣杯 (在计算机编程中,“Holy Sorting Grail”这个表达通常用来比喻一种理想化的排序算法。) |
(完)