[toc]
前言
声明:参考来源互联网,有任何争议可以留言。站在前人的肩上,我们才能看的更远。本教程纯手打,致力于最实用教程,不需要什么奖励,只希望多多转发支持。
欢迎来我公众号,希望可以结识你,也可以催更,微信搜索:JavaPub有任何问题都可以来谈谈 !
堆排序在常用排序算法中属于比较难理解的,本篇就以最简单的方式讲解。如果还有什么疑问,
1.什么是堆?
- 弄清楚堆排序以前,我们先要知道什么是堆?
堆是具有以下性质的 完全二叉树:每个结点的值都大于或等于其左右孩子结点的值,称为大顶堆;或者每个结点的值都小于或等于其左右孩子结点的值,称为小顶堆。
下图:
简单用公式描述一下就是:
大顶堆:arr[i] >= arr[2i+1] && arr[i] >= arr[2i+2]
小顶堆:arr[i] <= arr[2i+1] && arr[i] <= arr[2i+2]
问题二:什么是完全二叉树?
百度百科:
一棵深度为k的有n个结点的二叉树,对树中的结点按从上至下、从左到右的顺序进行编号,如果编号为i(1≤i≤n)的结点与满二叉树中编号为i的结点在二叉树中的位置相同,则这棵二叉树称为完全二叉树。
2.堆排序
百度百科
:
堆排序(英语:Heapsort)是指利用堆这种数据结构所设计的一种排序算法。堆是一个近似完全二叉树的结构,并同时满足堆积的性质:即子结点的键值或索引总是小于(或者大于)它的父节点。
堆排序是利用堆这种数据结构而设计的一种排序算法,堆排序是一种选择排序,它的最坏,最好,平均时间复杂度均为O(nlogn),它也是不稳定排序。
3.原理
堆排序的基本思想是:将待排序序列构造成一个大顶堆,此时,整个序列的最大值就是堆顶的根节点。将其与末尾元素进行交换,此时末尾就为最大值。然后将剩余n-1个元素重新构造成一个堆,这样会得到n个元素的次小值。如此反复执行,便能得到一个有序序列了
步骤一 构造初始堆。将给定无序序列构造成一个大顶堆(一般升序采用大顶堆,降序采用小顶堆)。
a.假设给定无序序列结构如下
b.此时我们从最后一个非叶子结点开始(叶结点自然不用调整,第一个非叶子结点 arr.length/2-1=5/2-1=1,也就是下面的6结点),从左至右,从下至上进行调整。
c.找到第二个非叶节点4,由于[4,9,8]中9元素最大,4和9交换。
d.这时,交换导致了子根[4,5,6]结构混乱,继续调整,[4,5,6]中6最大,交换4和6。
此时,就将一个无需序列构造成了一个大顶堆。
步骤二 将堆顶元素与末尾元素进行交换,使末尾元素最大。然后继续调整堆,再将堆顶元素与末尾元素交换,得到第二大元素。如此反复进行交换、重建、交换。
a.将堆顶元素9和末尾元素4进行交。
b.重新调整结构,使其继续满足堆定义。
c.再将堆顶元素8与末尾元素5进行交换,得到第二大元素8。
后续过程,继续进行调整,交换,如此反复进行,最终使得整个序列有序。
- 再简单总结下堆排序的基本思路:
a.将无需序列构建成一个堆,根据升序降序需求选择大顶堆或小顶堆;
b.将堆顶元素与末尾元素交换,将最大元素"沉"到数组末端;
c.重新调整结构,使其满足堆定义,然后继续交换堆顶元素与当前末尾元素,反复执行调整+交换步骤,直到整个序列有序。
4.代码
代码是基于
Java
语言。
package cn.javapub;
import java.util.Arrays;
public class HeapSort {
public int[] sort(int[] sourceArray) throws Exception {
// 对 arr 进行拷贝,不改变参数内容
int[] arr = Arrays.copyOf(sourceArray, sourceArray.length);
int len = arr.length;
//构建大顶堆
buildMaxHeap(arr, len);
//调整堆结构+交换堆顶元素与末尾元素
for (int i = len - 1; i > 0; i--) {
swap(arr, 0, i);//将堆顶元素与末尾元素进行交换
len--;
heapify(arr, 0, len);//重新对堆进行调整
}
return arr;
}
private void buildMaxHeap(int[] arr, int len) {
for (int i = (int) Math.floor(len / 2); i >= 0; i--) {
//从第一个非叶子结点从下至上,从右至左调整结构
heapify(arr, i, len);
}
}
//调整大顶堆
private void heapify(int[] arr, int i, int len) {
int left = 2 * i + 1;
int right = 2 * i + 2;
int largest = i;
if (left < len && arr[left] > arr[largest]) {
largest = left;
}
if (right < len && arr[right] > arr[largest]) {
largest = right;
}
if (largest != i) {
swap(arr, i, largest);
heapify(arr, largest, len);
}
}
//交换元素
private void swap(int[] arr, int i, int j) {
int temp = arr[i];
arr[i] = arr[j];
arr[j] = temp;
}
public static void main(String[] args) throws Exception {
int[] arr = {5, 1, 4, 2, 3};
HeapSort heapSort = new HeapSort();
int[] sort = heapSort.sort(arr);
System.out.println(Arrays.toString(sort));
}
}
返回结果:
[1, 2, 3, 3, 5]
5.最后
堆排序是一种选择排序,整体主要由构建初始堆+交换堆顶元素和末尾元素并重建堆两部分组成。其中构建初始堆经推导复杂度为O(n),在交换并重建堆的过程中,需交换n-1次,而重建堆的过程中,根据完全二叉树的性质,[log2(n-1),log2(n-2)...1]逐步递减,近似为nlogn。所以堆排序时间复杂度一般认为就是O(nlogn)级。
6.扩展阅读
光说不练假把式,看看下面题目。
题目:1亿
数据中找出k
大的数据(内存不够的情境,磁盘足够大)
- 方法一:在内存中新建一个
k
的小顶锥,如果插入的元素比锥顶大,则把锥顶的元素扔掉,然后重新调整使其变成小顶锥,重复该过程,最后剩下的k
个元素就是最大的。
同理,当找出k个最小数字的话,意味着剩下的这k个数组元素为最小的,这就要确保每次排序要把大的都扔掉,因此要新建大顶堆。
- 方法二:采用分治法,划分为若干个小文件(通常利用hash(x)%M,m是划分的大小,来进行划分),每个文件依次找出前k大个,然后放在一起再找出k大个。每次文件找出k大个,可以利用快速排序,每次 快速排序 分为两部分(一边是小的,一边是大的),如果大的部分长度大于k,接着利用快速排序,直到大的部分小于k(假设为n)(说明这些肯定是这么多数中最大的),然后对剩下的部分进行快排,找出前(k-n)个最大的,然后在对剩下的进行快排,最后会发现递归到最后,只需要找到最大的那个数就行了。这种思想是分治思想,一直分下去。
- 方法三:hash,采用hash主要是先去重,然后再利用分治或者是堆排序进行查找。
这个题目受限于内存不够情况,当足够大内存和多核情况,我们可以划分成一个个小任务单独执行,最后一个线程再合并。
(1)单机+单核+足够大内存
如果需要查找10亿个查询次(每个占8B)中出现频率最高的10个,考虑到每个查询词占8B,则10亿个查询次所需的内存大约是10^9 * 8B=8GB内存。如果有这么大内存,直接在内存中对查询次进行排序,顺序遍历找出10个出现频率最大的即可。这种方法简单快速,使用。然后,也可以先用HashMap求出每个词出现的频率,然后求出频率最大的10个词。
(2)单机+多核+足够大内存
这时可以直接在内存总使用Hash方法将数据划分成n个partition,每个partition交给一个线程处理,线程的处理逻辑同(1)类似,最后一个线程将结果归并。
该方法存在一个瓶颈会明显影响效率,即数据倾斜。每个线程的处理速度可能不同,快的线程需要等待慢的线程,最终的处理速度取决于慢的线程。而针对此问题,解决的方法是,将数据划分成c×n个partition(c>1),每个线程处理完当前partition后主动取下一个partition继续处理,知道所有数据处理完毕,最后由一个线程进行归并。
(3)单机+单核+受限内存
这种情况下,需要将原数据文件切割成一个一个小文件,如次啊用hash(x)%M,将原文件中的数据切割成M小文件,如果小文件仍大于内存大小,继续采用Hash的方法对数据文件进行分割,知道每个小文件小于内存大小,这样每个文件可放到内存中处理。采用(1)的方法依次处理每个小文件。
(4)多机+受限内存
这种情况,为了合理利用多台机器的资源,可将数据分发到多台机器上,每台机器采用(3)中的策略解决本地的数据。可采用hash+socket方法进行数据分发。
对于这类问题,更好解决方案是使用 MapReduce
处理任务。