(1)排序的定义:对一序列对象根据某个关键字进行排序;
输入:n个数:a1,a2,a3,…,an
输出:n个数的排列:a1’,a2’,a3’,…,an’,使得a1’<=a2’<=a3’<=…<=an’。
再讲的形象点就是排排坐,调座位,高的站在后面,矮的站在前面咯。
(3)对于评述算法优劣术语的说明
稳定:如果a原本在b前面,而a=b,排序之后a仍然在b的前面;
不稳定:如果a原本在b的前面,而a=b,排序之后a可能会出现在b的后面;
内排序:所有排序操作都在内存中完成;
外排序:由于数据太大,因此把数据放在磁盘中,而排序通过磁盘和内存的数据传输才能进行;
时间复杂度: 一个算法执行所耗费的时间。
空间复杂度: 运行完一个程序所需内存的大小。
关于时间空间复杂度的更多了解请戳这里,或是看书程杰大大编写的《大话数据结构》还是很赞的,通俗易懂。
(4)排序算法图片总结:
排序对比:
图片名词解释:
n: 数据规模
k:“桶”的个数
In-place: 占用常数内存,不占用额外内存
Out-place: 占用额外内存
排序分类:
冒泡排序是一种简单的排序算法。它重复地走访过要排序的数列,一次比较两个元素,如果它们的顺序错误就把它们交换过来。走访数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端。
具体算法描述如下:
Java代码实现:
public static void bubbleSort(int[] array) {
long start = System.nanoTime();
int len = array.length;
for (int i = 0; i < len - 1; i++) {
for (int j = 0; j < len - i - 1; j++) {
if (array[j] > array[j + 1]) {
int tmp = array[j];
array[j] = array[j + 1];
array[j + 1] = tmp;
}
}
}
long end = System.nanoTime();
System.out.println((end - start)/1000.0 + "ms");
}
改进冒泡排序: 设置一标志性变量pos,用于记录每趟排序中最后一次进行交换的位置。由于pos位置之后的记录均已交换到位,故在进行下一趟排序时只要扫描到pos位置即可。
改进后算法如下:
public static void bubbleSort2(int[] array) {
long start = System.nanoTime();
int len = array.length;
int i = len - 1;
while (i > 0) {
int pos = 0;
for (int j = 0; j < i; j++) {
if (array[j] > array[j + 1]) {
pos = j;
int tmp = array[j];
array[j] = array[j + 1];
array[j + 1] = tmp;
}
}
i = pos;
}
long end = System.nanoTime();
System.out.println((end - start)/1000.0 + "ms");
}
冒泡排序动图演示:
(3)算法分析
时间复杂度:
当输入的数据已经是正序时
当输入的数据是反序时
表现最稳定的排序算法之一(这个稳定不是指算法层面上的稳定哈,相信聪明的你能明白我说的意思2333),因为无论什么数据进去都是O(n²)的时间复杂度…..所以用到它的时候,数据规模越小越好。唯一的好处可能就是不占用额外的内存空间了吧。理论上讲,选择排序可能也是平时排序一般人想到的最多的排序方法了吧。
选择排序(Selection-sort)是一种简单直观的排序算法。它的工作原理:首先在未排序序列中找到最小(大)元素,存放到排序序列的起始位置,然后,再从剩余未排序元素中继续寻找最小(大)元素,然后放到已排序序列的末尾。以此类推,直到所有元素均排序完毕。
n个记录的直接选择排序可经过n-1趟直接选择排序得到有序结果。具体算法描述如下:
Java代码实现:
public static void selectSort(int[] array) {
long start = System.nanoTime();
int len = array.length;
int minIndex = 0;
for(int i = 0; i < len - 1 ; i++) {
minIndex = i;
for(int j = i + 1; j < len; j++) {
if(array[j] < array[minIndex]) {
minIndex = j;
}
}
int tmp = array[minIndex];
array[minIndex] = array[i];
array[i] = tmp;
}
long end = System.nanoTime();
System.out.println((end - start)/1000.0 + "ms");
}
选择排序动图演示:
插入排序的代码实现虽然没有冒泡排序和选择排序那么简单粗暴,但它的原理应该是最容易理解的了,因为只要打过扑克牌的人都应该能够秒懂。
插入排序(Insertion-Sort)的算法描述是一种简单直观的排序算法。它的工作原理是通过构建有序序列,对于未排序数据,在已排序序列中从后向前扫描,找到相应位置并插入。插入排序在实现上,通常采用in-place排序(即只需用到O(1)的额外空间的排序),因而在从后向前扫描过程中,需要反复把已排序元素逐步向后挪位,为最新元素提供插入空间。
一般来说,插入排序都采用in-place在数组上实现。具体算法描述如下:
Java代码实现:
public static void insertSort(int[] array) {
long start = System.nanoTime();
int len = array.length;
for (int i = 1; i < len; i++) {
for (int j = i; j > 0 && array[j - 1] > array[j]; j--) {
int tmp = array[j - 1];
array[j - 1] = array[j];
array[j] = tmp;
}
}
long end = System.nanoTime();
System.out.println((end - start) / 1000.0 + "ms");
}
改进插入排序: 查找插入位置时使用二分查找的方式。相比与上面简单插入排序,他针对每一批已排好序的序列,采用了二分查找的方式提高定位效率。
public static void insertSort2(int[] array) {
long start = System.nanoTime();
int len = array.length;
for (int i = 1; i < len; i++) {
int current = array[i];
int st = 0;
int en = i - 1;
while (st <= en) {
int mid = (st + en) >> 1;
if (array[mid] < array[i]) {
st = mid + 1;
} else {
en = mid - 1;
}
}
for (int j = i - 1; j >= st; j--) {
array[j + 1] = array[j];
}
array[st] = current;
}
long end = System.nanoTime();
System.out.println((end - start) / 1000.0 + "ms");
}
插入排序动图演示:
1959年Shell发明;
第一个突破O(n^2)的排序算法;是简单插入排序的改进版;它与插入排序的不同之处在于,它会优先比较距离较远的元素。希尔排序又叫缩小增量排序
希尔排序的核心在于间隔序列的设定。既可以提前设定好间隔序列,也可以动态的定义间隔序列。动态定义间隔序列的算法是《算法(第4版》的合著者Robert Sedgewick提出的。
先将整个待排序的记录序列分割成为若干子序列分别进行直接插入排序,具体算法描述:
Java代码实现:
public static void shellSort(int[] array) {
long start = System.nanoTime();
int len = array.length;
int gap = len/2;
//while(gap < len / 3) gap = 3 * gap + 1; //目前比较高效的gap
while(gap >= 1){
for(int i = gap; i < len; i++) {
for(int j = i; j - gap > 0 && array[j - gap] > array[j]; j -= gap) {
int tmp = array[j - gap];
array[j - gap] = array[j];
array[j] = tmp;
}
}
gap /= 2;
//gap /= 3;
}
long end = System.nanoTime();
System.out.println((end - start) / 1000.0 + "ms");
}
希尔排序图示(图片来源网络):
和选择排序一样,归并排序的性能不受输入数据的影响,但表现比选择排序好的多,因为始终都是O(n log n)的时间复杂度。代价是需要额外的内存空间。
归并排序是建立在归并操作上的一种有效的排序算法。该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。归并排序是一种稳定的排序方法。将已有序的子序列合并,得到完全有序的序列;即先使每个子序列有序,再使子序列段间有序。若将两个有序表合并成一个有序表,称为2-路归并。
具体算法描述如下:
Java代码实现:
public static void mergeSort(int[] array, int start, int end) {
int len = end - start + 1;
if (len < 2) {
return;
}
int middle = end + (start - end) / 2; //防止溢出
mergeSort(array, start, middle);
mergeSort(array, middle + 1, end);
merge(array, start, end);
}
private static void merge(int[] array, int start, int end) {
int[] tmp = new int[end - start + 1];
int mid = (start + end) / 2;
int left = start;
int right = mid + 1;
int point = 0;
while (left <= mid && right <= end) {
if (array[left] < array[right]) {
tmp[point++] = array[left++];
} else {
tmp[point++] = array[right++];
}
}
while (left <= mid) {
tmp[point++] = array[left++];
}
while (right <= end) {
tmp[point++] = array[right++];
}
for (int i = 0; i < tmp.length; i++) {
array[i + start] = tmp[i];
}
}
归并排序动图演示:
快速排序的名字起的是简单粗暴,因为一听到这个名字你就知道它存在的意义,就是快,而且效率高! 它是处理大数据最快的排序算法之一了。
快速排序的基本思想:通过一趟排序将待排记录分隔成独立的两部分,其中一部分记录的关键字均比另一部分的关键字小,则可分别对这两部分记录继续进行排序,以达到整个序列有序。
快速排序使用分治法来把一个串(list)分为两个子串(sub-lists)。具体算法描述如下:
Java代码实现:
public static void quickSort(int[] array, int st, int en) {
int start = st;
int end = en;
if (start >= en)
return;
int index = partition(array, start, end);
quickSort(array, st, index - 1);
quickSort(array, index + 1, end);
}
private static int partition(int[] array, int st, int en) {
int reserve = array[st];
int start = st;
int end = en;
if (start >= end)
return start;
while (start < end) {
while (start < end && reserve <= array[end]) {
end--;
}
if (start < end) {
array[start++] = array[end];
}
while (start < end && array[start] <= reserve) {
start++;
}
if (start < end) {
array[end--] = array[start];
}
}
array[start] = reserve;
return start;
}
快速排序动图演示:
快速排序算法优化——三向切分快速排序
在上面的快速排序中,当有很多重复元素存在的时候,会大大的增加无谓的切分耗时:比如当前切分块中若全部是相同的元素,则在当前块中的递归切分就是无意义也没有必要的。所以在三向切分中,用了lt和gt两个“指针”来分隔小于当前“基准元素”和大于当前“基准元素”的值。
public static void quickSort3ways(int[] array, int low, int high) {
if (low >= high)
return;
int lt = low;
int i = low + 1;
int gt = high + 1;
while (i < gt) {
if (array[i] < array[lt]) {
swap(array, i++, lt++);
} else if (array[i] > array[lt]) {
swap(array, i, --gt);
} else {
i++;
}
}
quickSort3ways(array, low, lt);
quickSort3ways(array, gt, high);
}
上面这幅图是三向切分的一个例子,为字母进行排序。每次迭代都不会包含和当前基准重复的元素。可以在下图中看到,三向的效率还是有优势的:
令:n = n/2 = 2 { 2 T[n/4] + (n/2) } + n ----------------第二次递归
= 2^2 T[ n/ (2^2) ] + 2n
令:n = n/(2^2) = 2^2 { 2 T[n/ (2^3) ] + n/(2^2)} + 2n ----------------第三次递归
= 2^3 T[ n/ (2^3) ] + 3n
......................................................................................
令:n = n/( 2^(m-1) ) = 2^m T[1] + mn ----------------第m次递归(m次后结束)
当最后平分的不能再平分时,也就是说把公式一直往下跌倒,到最后得到T[1]时,说明这个公式已经迭代完了(T[1]是常量了)。
得到:T[n/ (2^m) ] = T[1] ===>> n = 2^m ====>> m = logn;
T[n] = 2^m T[1] + mn ;其中m = logn;
T[n] = 2^(logn) T[1] + nlogn = n T[1] + nlogn = n + nlogn ;其中n为元素个数
又因为当n >= 2时:nlogn >= n (也就是logn > 1),所以取后面的 nlogn;
综上所述:快速排序最优的情况下时间复杂度为:O( nlogn )
最差的情况就是每一次取到的元素就是数组中最小/最大的,这种情况其实就是冒泡排序了(每一次都排好一个元素的顺序)
这种情况时间复杂度就好计算了,就是冒泡排序的时间复杂度:T[n] = n * (n-1) = n^2 + n;
综上所述:快速排序最差的情况下时间复杂度为:O( n^2 )
堆排序可以说是一种利用堆的概念来排序的选择排序。
堆排序(Heapsort)是指利用堆这种数据结构所设计的一种排序算法。堆积是一个近似完全二叉树的结构,并同时满足堆积的性质:即子结点的键值或索引总是小于(或者大于)它的父节点。
具体算法描述如下:
Java代码实现:
public static void heapSort(int[] array) {
buildHeap(array);
int n = array.length;
int i = 0;
// 取出该最大堆的根节点,同时,取最末尾的叶子节点来作为根节点,从此根节点开始调整堆,使其满足最大堆的特性
// 直到堆的大小由n个元素降到2个
for (i = n - 1; i >= 1; i--) {
swap(array, 0, i);
heapify(array, 0, i);
for (int j = 0; j < array.length; j++) {
System.out.print(array[j]);
System.out.print(",");
}
System.out.println();
}
}
// 构建堆
public static void buildHeap(int[] array) {
for (int i = array.length / 2 - 1; i >= 0; i--) {
heapify(array, i, array.length);
}
}
// 调整堆
public static void heapify(int[] data, int parentNode, int heapSize) {
int leftChild = 2 * parentNode + 1;// 左子树的下标
int rightChild = 2 * parentNode + 2;// 右子树的下标(如果存在的话)
int largest = parentNode;
// 寻找3个节点中最大值节点的下标
if (leftChild < heapSize && data[leftChild] > data[parentNode]) {
largest = leftChild;
}
if (rightChild < heapSize && data[rightChild] > data[largest]) {
largest = rightChild;
}
// 如果最大值不是父节点,那么交换,并继续调整堆
if (largest != parentNode) {
swap(data, largest, parentNode);
heapify(data, largest, heapSize);
}
}
// 交换函数
public static void swap(int[] array, int i, int j) {
int temp = 0;
temp = array[i];
array[i] = array[j];
array[j] = temp;
}
堆排序动图演示:
计数排序的核心在于将输入的数据值转化为键存储在额外开辟的数组空间中。
作为一种线性时间复杂度的排序,计数排序要求输入的数据必须是有确定范围的整数。
计数排序(Counting sort)是一种稳定的排序算法。计数排序使用一个额外的数组C,其中第i个元素是待排序数组A中值等于i的元素的个数。然后根据数组C来将A中的元素排到正确的位置。它只能对整数进行排序。
具体算法描述如下:
Java代码实现:
public static void countSort(int[] array, int downBound, int upperBound) {
int[] countArray = new int[upperBound - downBound + 1];
if (upperBound < downBound)
return;
for (int i = 0; i < array.length; i++) {
countArray[array[i] - downBound]++;
}
int posSum = 0;
for (int i = 0; i < upperBound - downBound + 1; i++) {
posSum += countArray[i];
countArray[i] = posSum;
}
int[] result = new int[array.length];
for (int i = array.length - 1; i >= 0; i--) {
result[countArray[array[i] - downBound] - 1] = array[i];
countArray[array[i] - downBound]--;
}
for (int i = 0; i < array.length; i++) {
array[i] = result[i];
}
}
动图演示:、
当输入的元素是n 个0到k之间的整数时,它的运行时间是 O(n + k)。计数排序不是比较排序,排序的速度快于任何比较排序算法。由于用来计数的数组C的长度取决于待排序数组中数据的范围(等于待排序数组的最大值与最小值的差加上1),这使得计数排序对于数据范围很大的数组,需要大量时间和内存(如果数据比较分散,则在countArray中其实是有大量0的,占用很多空间)。
桶排序是计数排序的升级版。它利用了函数的映射关系,高效与否的关键就在于这个映射函数的确定。
桶排序 (Bucket sort)的工作的原理:假设输入数据服从均匀分布,将数据分到有限数量的桶里,每个桶再分别排序(有可能再使用别的排序算法或是以递归方式继续使用桶排序进行排
具体算法描述如下:
Java代码实现:
public static void bucketSort(int[] arr){
int max = Integer.MIN_VALUE;
int min = Integer.MAX_VALUE;
for(int i = 0; i < arr.length; i++){
max = Math.max(max, arr[i]);
min = Math.min(min, arr[i]);
}
//桶数
int bucketNum = (max - min) / arr.length + 1;
ArrayList> bucketArr = new ArrayList<>(bucketNum);
for(int i = 0; i < bucketNum; i++){
bucketArr.add(new ArrayList());
}
//将每个元素放入桶
for(int i = 0; i < arr.length; i++){
int num = (arr[i] - min) / (arr.length);
bucketArr.get(num).add(arr[i]);
}
//对每个桶进行排序
for(int i = 0; i < bucketArr.size(); i++){
Collections.sort(bucketArr.get(i));
}
}
桶排序图示(图片来源网络):
关于桶排序更多
桶排序最好情况下使用线性时间O(n),桶排序的时间复杂度,取决与对各个桶之间数据进行排序的时间复杂度,因为其它部分的时间复杂度都为O(n)。很显然,桶划分的越小,各个桶之间的数据越少,排序所用的时间也会越少。但相应的空间消耗就会增大。
基数排序也是非比较的排序算法,对每一位进行排序,从最低位开始排序,复杂度为O(kn),为数组长度,k为数组中的数的最大的位数;
基数排序是按照低位先排序,然后收集;再按照高位排序,然后再收集;依次类推,直到最高位。有时候有些属性是有优先级顺序的,先按低优先级排序,再按高优先级排序。最后的次序就是高优先级高的在前,高优先级相同的低优先级高的在前。基数排序基于分别排序,分别收集,所以是稳定的。
具体算法描述如下:
Java代码实现:
public static void radixSort(int[] array, int maxDigit) {
int len = array.length;
int digitCount = 1;
int digitDev = 1;
int[] tmp = new int[len];
int[] count = new int[10];
while (digitCount <= maxDigit) {
Arrays.fill(count, 0);
Arrays.fill(count, 0);
for (int i = 0; i < len; i++) {
count[(array[i] / digitDev) % 10]++;
}
int sum = 0;
for (int i = 1; i < 10; i++) {
count[i] = count[i] + count[i - 1];
}
for (int i = len - 1; i >= 0; i--) {
tmp[count[(array[i] / digitDev) % 10] - 1] = array[i];
count[(array[i] / digitDev) % 10]--;
}
for (int i = 0; i < len; i++) {
array[i] = tmp[i];
}
digitDev *= 10;
digitCount++;
}
}
基数排序LSD动图演示:
基数排序有两种方法:
基数排序 vs 计数排序 vs 桶排序
这三种排序算法都利用了桶的概念,但对桶的使用方法上有明显差异: