算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)

算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第1张图片
top2.jpg

1. 游戏规则

1.1 排序问题

举例: 大学中学生的信息


算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第2张图片
学生信息.JPG

排序: 对N个数组中的记录重新组合,让其按递增顺序排列。

算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第3张图片
学生信息-排序后.jpg

我们的目标: 能对任意类型的数据排序。

下图是分别对DoubleStringFile类型的数组进行排序。

算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第4张图片
sorttype1.jpg

Double数组排序

算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第5张图片
sorttype2.jpg

String数组排序

算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第6张图片
sorttype3.jpg

File类型排序

1.2 函数回调(Callback)

问题来了:我们并不知道这三种类型的具体内容,sort()为什么可以进行排序?

这里需要引入一个概念:函数回调(Callback)。
函数回调就是可执行代码的一个引用,什么意思呢?

  • 客户端将数组作为参数传给sort()方法
  • sort()方法在需要时,回调数组的元素类compareTo()方法

这就是回调的意思。

下面是回调的过程


算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第7张图片
callback.jpg

1.3 全序关系(Total Order)

全序关系就是 二元关系 <= 满足以下条件:

  • 反对称性(Antisymmetry): 如果 v ≤ ww ≤ v, 那么 v = w
  • 传递性(Transitivity): 如果 v ≤ ww ≤ x, 那么 v ≤ x
  • 总体性(Totality): 要么 v ≤ w 成立, 要么 w ≤ v 成立, 要么二者都成立(即v = w

满足全序关系的例子有很多,例如:

  • 自然数或者实数的顺序
  • 时间或者日期按照发生先后排序
  • string按照字母表排序
  • ...

当然,不满足全序关系的例子也存在:

  • 猜拳(违反了传递性)
  • <= 对Double类型不是全序关系(违反了总体性, Double.NaN <= Double.NaNfalse
算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第8张图片
scissors.jpg

1.4 Comparable接口

参见Java中的Comparable接口和Comparator接口 。

2. 选择排序(Selection Sort)

2.1 步骤

选择排序的步骤:

  • 设定一个变量i,然后对数组下标为 i + 1N - 1的元素进行寻找,找到其中最小值的下标min
  • 交换a[i]a[min]
  • i增加1,重复上述过程,直到 i == N - 1

可以看下图,下图满足的条件是:

  • 在箭头 左边的元素(包括箭头 )是有序而且递增
  • 所有在箭头 右边的元素都比在箭头 的元素小
算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第9张图片
selection - sort1.jpg

2.2 内部循环

算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第10张图片
selection - inner loop.jpg

图中是内部循环,分三步

  1. 将指针往右移动一步
  2. 找出指针右面最小元素的下标
  3. 指针所指的元素和最小元素交换

2.3 Java实现

算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第11张图片
selection - java impl.jpg

2.4 数学分析

通过上面的分析和代码,我们发现

  • 选择排序的比较次数为 (N – 1) + (N – 2) + ... + 1 + 0~~N2/ 2) ,交换次数为N
  • 对输入不敏感:运行时间为平方级(Quadratic),即使数组是已经经过排序的
  • 交换次数是最少的:只需要交换N
    算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第12张图片
    selection - analysis.jpg

3. 插入排序(Insertion Sort)

3.1 步骤

插入排序的步骤:

  • 设定一个变量i,默认i下标之前的元素全部是已经排好序的,i0开始
  • i - 1开始,a[i]不断向前比较,如果下标i - 1的数比它大,则a[i]和它交换
  • 之后不断向前比较,如果前面的元素比a[i]大,则a[i]和它交换。 i - 2, i - 3, ..., i - k。直到i - k == 0或者下标为i - k的元素比a[i]小,此时停止交换
  • i自增,直到遍历数组所有下标

可以看下图,下图满足的条件是:

  • 在箭头 左边的元素(包括箭头 )是有序而且递增
  • 所有在箭头 右边的元素都还没有被检验,处于无序状态
算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第13张图片
insertion 1.jpg

3.2 内部循环

算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第14张图片
insertion - sort inner loop.jpg

图中是内部循环,分两步

  1. 将指针往右移动一步
  2. 不断和指针前面的元素比较,如果比指针所指元素大就交换

3.3 Java实现

算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第15张图片
insertion sort - java impl.jpg

3.4 数学分析

通过上面的分析和代码,我们发现

  • 对一个随机分布而且没有重复的数组来说,插入排序比较次数为~N2/ 4, 交换次数为~N2/ 4
    算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第16张图片
    insertion sort - analysis.jpg

简单证明:如果数组随机分布,那么每次平均要比较和交换的次数都应该是前面所有数个数的一半。


算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第17张图片
insertion sort analysis2.jpg

3.5 最优情况和最劣情况

最优: 如果数组已经排好序了,插入排序比较次数为 N - 1, 交换次数为0(这是一个十分惊人的成绩)

最劣: 如果数组逆序排列,而且没有重复的话,插入排序比较次数为 ~N2/ 2, 交换次数为~N2/ 2

3.6 部分有序(partially - sorted)的数组

定义: 逆序对(inversion), 即为序列中没有按顺序排列的数据对,如图所示其中有6个逆序对。


算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第18张图片
inversion.jpg

定义: 一个数组,如果它内部的逆序对数为c N ,则它是部分有序的。

命题: 对于部分有序的数组来说,插入排序运行时间是线性的。

简单证明:事实上,交换次数就是逆序对的次数。(比较次数为交换次数 + (N - 1))

4. 小结

选择排序和插入排序相比:

  • 如果按照比较次数来计算性能(数组访问次数),插入排序的性能平均为选择排序的2倍
  • 如果要排序的数组部分有序,插入排序能达到线性时间的性能
  • 如果要排序的数组倒序,插入排序的性能会很差,而选择排序不受影响

5. 希尔排序(Shell Sort)

插入排序中,有时候我们知道当前元素要比较的次数可能不止一个,但是它仍然会和之前所有比它大的元素进行比较,性能上其实是有提升空间的,我们希望它可以每次“跳着比”,每次和前面隔几个元素的元素进行比较,但是如何保证正确性呢?有人也想到了这个问题,这就是有名的 h - sorting
每次当前元素和之前相隔h距离的元素进行比较,并进行“插入排序”,如图所示。

算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第19张图片
h-sorting1.jpg

5.1 希尔排序

希尔排序(Shell - Sort),由希尔(Shell)在1959年发现。它的基本思想是:对数组进行h - sort,并逐渐减小h的值,这样就能保证排序的正确性。

算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第20张图片
shell sort1.jpg

5.2 h -sorting

h-sort,就是插入排序的改进版,只不过跨度为h,如图为3 - sort

算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第21张图片
3 - sorting.jpg

为什么使用插入排序?

  • 大跨度的话 => 子数组很小,每次排序的次数很少
  • **小跨度的话 => 数组经过大跨度排序,已经基本有序 **

下图是一个Shell Sort增量分别为7,3,1的例子


算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第22张图片
shell sort increments7 3 1.jpg

命题: 一个g- sort之后的数组,在经历过h -sort之后,仍然是g - sort的。

算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第23张图片
h sorting g sorting.jpg

5.3 跨度选择

选择有很多种

  • 2的幂:1, 2, 4, 8,16,32...
    不好,因为它会导致奇数项和偶数项得不到充分交换,实际操作中性能不高

  • 3x + 1: 1, 4, 13, 40, 121, 364...
    可以使用。计算很简单,这也是高德纳(Donald Knuth)使用的方式

  • Sedgewick: 1, 5, 19, 41, 109, 209, 505, 929, 2161, 3905, …
    (9 * 4i) – (9 * 2i) + 14i – (3 * 2i) + 1的合并,性能很好,在实证研究中很难被超越

5.4 Java实现

算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第24张图片
shell sort java impl.jpg

5.4 分析

命题: 最差情况中,跨度为3x + 1 的希尔排序的比较次数为 O(N3 / 2)。

如图是经过大量实践得出的近似表格。可以看出希尔排序的性能近似于N1.289或者2.5 N log2N。

算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)_第25张图片
shell sort analysis.jpg

最后要说明的一点是:到现在还没有精确的数组模型描述希尔排序!

5.5 小结

希尔排序证明了,简单的想法也能实现困难的问题。

希尔排序在实践中十分常用

  • 如果数组不大,则非常快(常用于子数组,使用在linux内核中)
  • 很简洁,代码逻辑也相对简单(常用于嵌入式系统中)
  • 硬件中排序的原型

希尔排序中还有很多疑问:

  • 渐进式的增长率
  • 最好的跨度?
  • 平均性能?

从希尔排序中我们可以看出,有许多好的算法还等待我们去发现。

你可能感兴趣的:(算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts))