8-13外部排序-败者树

败者树是树形选择排序的一种变体,可视为一棵完全二叉树。通过败者树,可以在k个归并段中选出最小关键字所需要的关键字对比次数更少。

绿色为叶子结点,存放初始数据
黑色为失败结点
蓝色为胜出结点
8-13外部排序-败者树_第1张图片
一.基本过程
以下按从小到大的方式构建
8-13外部排序-败者树_第2张图片

1.从8个归并段中选择第一个元素放入绿色结点,进行第一次比较
8-13外部排序-败者树_第3张图片

两两比较,输的(大的)留下,赢的(小的)上去

8-13外部排序-败者树_第4张图片

右边同样

8-13外部排序-败者树_第5张图片
但结点中标记的不是关键字的值,而是来自哪个归并段

如图,1是最小的,来自归并段3,因此最上面的结点记录的是3
8-13外部排序-败者树_第6张图片
至此,一共8个归并段,通过8-1=7次关键字的对比找到的最小的元素

将1拿出,归并段3的下一个关键字6上绿色结点
8-13外部排序-败者树_第7张图片
只需进行3次关键字的对比即可选出下一个最小元素

可以看出,从第二次起,对比关键字的次数从(归并段数-1)变为了黑色的层数(分支节点层数)(3层)
8-13外部排序-败者树_第8张图片

选出第二个元素,归并段5的元素2

8-13外部排序-败者树_第9张图片

因此,对于k路归并,第一次构造败者树需要对比关键字k-1次,后续选最小元素至多需要对比关键字⌈ l o g 2 k log_2k log2k⌉次

理由:将黑色和绿色结点看成一棵树(不包括蓝色结点),树高h,第h层的结点数等于归并段数k,而第h层结点最多为 2 h − 1 2^{h-1} 2h1,因此有k≤ 2 h − 1 2^{h-1} 2h1。当k= 2 h − 1 2^{h-1} 2h1时有h-1=⌈ l o g 2 k log_2k log2k⌉,则分支节点(黑色)层数=h-1=⌈ l o g 2 k log_2k log2k⌉=从第二轮起的最大关键字对比次数

此外,叶子结点的虚拟的
8-13外部排序-败者树_第10张图片

(下图)
ls数组按层序遍历,从根节点开始依次编号,ls[0]为胜出结点,ls[1-4]对应失败结点,数组中不包括待比较的叶子结点bi

b0所在归并段0,b1所在归并段1,以此类推。如ls[3]:1号归并段的9和2号归并段的20比较,2号归并段的20失败,ls[3]记录为2号归并段

8-13外部排序-败者树_第11张图片

失败层数⌈ l o g 2 k log_2k log2k⌉=⌈ l o g 2 5 log_25 log25⌉=3,即选出一个最小元素最多需要进行3次关键字对比。
8-13外部排序-败者树_第12张图片
败者树使用多路平衡归并,大大减少了归并趟数

败者树总结:
①败者树可视为一棵完全二叉树
②k个叶结点分别对应k个归并段中当前参加比较的元素,非叶子结点用来记录左右子树中的失败者,而让胜者往上继续进行比较,一直到根结点
③第一次选出最小需要对比关键字k-1次,第二次起最多需要⌈ l o g 2 k log_2k log2k⌉次。或者说:对于k路归并,第一次构造败者树需要对比关键字k-1次,有了败者树,选出最小元素最多需要对比关键字⌈ l o g 2 k log_2k log2k⌉次

回顾:
多路平衡归并
每次选出最小/最大元素都需要k-1次
①最多只能有k个段归并为一个
②每一趟归并中,若有m个归并段参与归并,则经过一趟处理得到⌈m/k⌉个新的归并段

你可能感兴趣的:(数据结构,数据结构,算法,排序算法)