PS:本篇博客默认升序
排序:所谓排序,就是使一串记录,按照其中的某个或某些关键字的大小,递增或递减的排列起来的操作。
稳定性:假定在待排序的记录序列中,存在多个具有相同的关键字的记录,若经过排序,这些记录的相对次序保持不变,即在原序列中,r[i]=r[j],且r[i]在r[j]之前,而在排序后的序列中,r[i]仍在r[j]之前,则称这种排序算法是稳定的;否则称为不稳定的。
关于排序的稳定性可能有的兄弟还未能感受到其重要性
比如高考成绩的排名吧,规定是先看总分排名,若有人总分分数相同,则比较两人的语文成绩
总分是最重要关键的排序条件吧,所以要放在最后,那么就只能先根据众人的语文成绩进行排序,排序后再根据总分完成最终的排序
假如用于排序的算法稳定的话那么就能按要求完成排序,而假如排序的算法不稳定的话,那么就会造成排名的紊乱因此排序算法的稳定性也是我们需要重点关注的一个方面
内部排序:数据元素全部放在内存中的排序。
外部排序:数据元素太多不能同时放在内存中,根据排序过程的要求不能在内外存之间移动数据的排序。
排序在我们的日常生活十分常见,比如我们在京东上购买物品时我们可以选择销量排序、价格排序、评论数排序…又比如世界500强企业,中国前50所高校等,这些都需要用到排序。
直接插入排序是一种简单的插入排序法,其基本思想是:把待排序的记录按其关键码值的大小逐个插入到一个已经排序好的有序序列中,直到所有的记录都插入完毕为止,这样就得到了一个新的有序序列。
实际中我们在玩扑克牌时对扑克牌的排序,就用了插入排序的思想
当插入第i(i>=1)个元素时,前面的array[0],array[1],…,array[i-1]已经排好序,此时用array[i]的排序码与array[i-1],array[i-2],…的排序码顺序进行比较,找到插入位置即将array[i]插入,原来位置上的元素顺序后移。
直接插入排序的思想我相信兄弟们都不难理解吧,再结合动图更是清晰明了。那如何通过代码实现呢?
【TIP】我们在用代码实现排序时应该有一个很重要的思想步骤:先实现单次,再实现循环。不论是什么排序,都无法实现一次性同时实现多个数字排序吧,都是根据不同的算法排序部分数字,然后根据循环条件实现所有数字的排序。
好比现在有一串数组array:[2,5,4,7,3],我们按顺序进行插入排序,此时数组下标为[0]和[1]的数字已经有序,所以就用array[2]往前进行比较,若符合交换条件便进行交换。
所以直接插入排序的单次排序情况:有一个无序的数组a,但其前end个元素是有序的,即是下标为[0 - end]的部分为有序,然后我们需要从a[end+1]的数组元素开始排序
✏️代码展示(单趟排序):
int end;
int tmp = a[end + 1];
while (end >= 0)
{
if (a[end] > tmp)
{
a[end + 1] = a[end];
end--;
}
else
break;
}
a[end + 1] = tmp;
以上是单次排序的代码
[0,end]是有序的,我们插入a[end+1]进行排序。由于排序是要交换值,所以我们需要创建一个临时变量来存储a[end+1]的值,然后向前依次比较,若符合交换条件则交换。当我们画图模拟时会发现,假如end需要走到下标为0的数字呢?那么end就会出现-1的时候,而这时也正好将所有数字都比较交换完了。所以结束比较交换,插入数据的条件有:
- 已经找到合适的位置:a[end]不比tmp大
- end<0:将[0,end]都向后交换挪动了一位,tmp为目前的最小,放在数组首位
实现好了单次排序之后便需要实现循环,完成整个排序。编译器不像我们人能够一眼判断出数组的前end个是有序,使用第end+1个数字开始插入排序,所以我们只能从头开始遍历循环
✏️✏️最终代码展示:
void InsertSort(int* a, int n)
{
for (int i = 1; i < n - 1; i++)
{
//单趟排序
int end = i;
int tmp = a[end + 1];
while (end >= 0)
{
if (a[end] > tmp)
{
a[end + 1] = a[end];
end--;
}
else
break;
}
a[end + 1] = tmp;
}
}
1.时间复杂度:O( N 2 N^2 N2)
最坏情况:当待排序的数组为逆序时,我们第一次需要挪动1个数据,第二次需要挪动2个数据…第n次需要挪动n-1个数据,所以需要挪动数据的次数形成了一个等差数列,时间复杂度为O( N 2 N^2 N2)
最好情况:当待排序的数组已经有序时,每一次插入都不需要挪动数据,最终只进行了一次数组的遍历,时间复杂度为:O(N)2.空间复杂度:O(1)
3.稳定性:稳定
当我们在比较待插入数据和已存在有序序列中的数据时,假如两者大小相同,则将待插入数据置之其后即可使得排序算法稳定
希尔排序法又称缩小增量法。希尔排序法的基本思想是:先选定一个整数,把待排序文件中所有记录分成个组,所有距离为的记录分在同一组内,并对每一组内的记录进行排序。然后取重复上述分组和排序的工作。当到达=1时,所有记录在统一组内排好序。
在前文分析了直接插入排序后发现,对于插入排序,若待排序越接近有序,使用插入排序的效率就越高,反之亦然。所以在使用直接插入排序之前,我们可以先进行“预排序”使待排序的数组先接近有序一些,再进行高效地插入排序
所以希尔排序可分为两部分:
✏️代码展示(单趟排序):
for (int i = 0; i < n - gap; i += gap)
{
// [0,end] 插入 end+gap [0, end+gap]有序 -- 间隔为gap的数据
int end = i;
int tmp = a[end + gap];
while (end >= 0)
{
if (a[end] > tmp)
{
a[end + gap] = a[end];
end -= gap;
}
else
{
break;
}
}
a[end + gap] = tmp;
}
希尔排序的预排序就是让大的数尽量偏后,小的数字尽量偏前,使得在使用直接插入排序之前,待排序的数组尽量接近有序。
对于gap的值:
- gap越大:大的数字可以更快地跳到后面,小的数字可以更快地跳到前面,但是总体数组没有那么接近有序
- gap越小:数据跳的越慢,但是数据越接近有序
- gap = 1:直接插入排序
所以我们在使用循环条件时,需要让gap逐渐减小到1,也就是希尔排序的最后一步:直接插入排序
✏️✏️最终代码展示:
void ShellSort(int* a, int n)
{
int gap = n;
while (gap > 1)
{
//gap = gap / 2;
gap = gap / 3 + 1;
// [0,end] 插入 end+gap [0, end+gap]有序 -- 间隔为gap的数据
for (int j = 0; j < gap; ++j)
{
for (int i = j; i < n - gap; i += gap)
{
int end = i;
int tmp = a[end + gap];
while (end >= 0)
{
if (a[end] > tmp)
{
a[end + gap] = a[end];
end -= gap;
}
else
{
break;
}
}
a[end + gap] = tmp;
}
}
}
}
以上代码实现了希尔排序,但是我们套了三层循环,可以考虑对其进行优化
多组并列预排序
上面的代码我们是进行完一组预排序之后再进行下一组,我们可以考虑排序时不用那么严格地按照分组,可以遍历数组数据,依次作为预排序的开头,然后预排序过程中进行比较排序的对象就用gap控制
✏️✏️✏️最终优化代码展示:
void ShellSort(int* a, int n)
{
// gap > 1 预排序
// gap == 1 直接插入排序
int gap = n;
while (gap > 1)
{
//gap = gap / 2; 只要能使得gap最后为1即可
gap = gap / 3 + 1;
for (int i = 0; i < n - gap; ++i)
{
int end = i;
int tmp = a[end + gap];
while (end >= 0)
{
if (a[end] > tmp)
{
a[end + gap] = a[end];
end -= gap;
}
else
{
break;
}
}
a[end + gap] = tmp;
}
}
}
每一次从待排序的数据元素中选出最小(或最大)的一个元素,存放在序列的起始位置,直到全部待排序的数据元素排完。
️动图演示:
✏️代码实现
void SelectSort(int* a, int n)
{
int cur = 0;
int findmin = 0;
for (cur = 0; cur < n - 1; cur++)
{
int min = cur;
for (findmin = cur + 1; findmin < n; findmin++)
{
if (a[findmin] < a[min])
min = findmin;
}
if (min != cur)
Swap(&a[cur], &a[min]);
}
}
虽然实现了排序,但是效率极低,能否怎么优化?
✏️✏️优化版代码实现
void SelectSort(int* a, int n)
{
int begin = 0, end = n - 1;
while (begin < end)
{
int mini = begin, maxi = begin;
for (int i = begin + 1; i <= end; i++)
{
if (a[i] < a[mini])
mini = i;
if (a[i] > a[maxi])
maxi = i;
}
Swap(&a[begin], &a[mini]);
if (maxi == begin)
maxi = mini;
Swap(&a[end], &a[maxi]);
begin++;
end--;
}
}
- 直接选择排序思考非常好理解,但是效率不是很好。实际中很少使用
- 时间复杂度:O(N^2)
- 空间复杂度:O(1)
- 稳定性:不稳定
此排序有些书籍会认定为稳定,其实不然,比如此特殊情况
虽然5的位置仍然稳定,但是8却不稳定了
堆排序(Heapsort)是指利用堆这种数据结构所设计的一种排序算法,它是选择排序的一种。它是通过堆来进行选择数据。需要注意的是排升序要建大堆,排降序建小堆。堆排序在之前二叉树博客的堆应用有详细分享,这里就不再过多赘述。
✏️代码实现
void Swap(int* a1, int* a2)
{
int tmp = *a1;
*a1 = *a2;
*a2 = tmp;
}
void AdjustDown(int* a, int n, int parent)
{
assert(a);
int minChild = parent * 2 + 1;
while (minChild < n)//孩子的范围必须在数组内
{
//找出小孩子
if ((minChild + 1 < n) && (a[minChild + 1] > a[minChild]))
minChild++;
//判断父亲和小孩子是否需要交换
if (a[minChild] > a[parent])
{
Swap(&a[minChild], &a[parent]);
//迭代交换下标
parent = minChild;
minChild = parent * 2 + 1;
}
else
break;
}
}
void HeapSort(int* a, int n)
{
//首先将数据建堆
for (int i = (n - 2) / 2; i >= 0; i--)//出于效率选择向下调整
AdjustDown(a, n, i);
//选数
int i = 1;
while (i < n)
{
Swap(&a[0], &a[n - i]);
AdjustDown(a, n - i, 0);
i++;
}
}
- 堆排序使用堆来选数,效率就高了很多。
- 时间复杂度:O(N*logN)
- 空间复杂度:O(1)
- 稳定性:不稳定
在排序前的建堆以及选数时的交换,都是十分不稳定的算法
排序到这已经实现了4大排序了,我们可以写一个TestOP函数来比较以下各排序算法的效率
void TestOP()
{
srand(time(0));
const int N = 10000000;
int* a1 = (int*)malloc(sizeof(int)*N);
int* a2 = (int*)malloc(sizeof(int)*N);
int* a3 = (int*)malloc(sizeof(int)*N);
int* a4 = (int*)malloc(sizeof(int)*N);
int* a5 = (int*)malloc(sizeof(int)*N);
int* a6 = (int*)malloc(sizeof(int)*N);
int* a7 = (int*)malloc(sizeof(int)*N);
for (int i = 0; i < N; ++i)
{
a1[i] = rand();
a2[i] = a1[i];
a3[i] = a1[i];
a4[i] = a1[i];
a5[i] = a1[i];
a6[i] = a1[i];
a7[i] = a1[i];
}
int begin1 = clock();
InsertSort(a1, N);
int end1 = clock();
int begin2 = clock();
ShellSort(a2, N);
int end2 = clock();
int begin3 = clock();
SelectSort(a3, N);
int end3 = clock();
int begin4 = clock();
HeapSort(a4, N);
int end4 = clock();
int begin5 = clock();
QuickSort(a5, 0, N - 1);
int end5 = clock();
int begin6 = clock();
MergeSort(a6, N);
int end6 = clock();
int begin7 = clock();
BubbleSort(a7, N);
int end7 = clock();
printf("InsertSort:%d\n", end1 - begin1);
printf("ShellSort:%d\n", end2 - begin2);
printf("SelectSort:%d\n", end3 - begin3);
printf("HeapSort:%d\n", end4 - begin4);
printf("BubbleSort:%d\n", end7 - begin7);
printf("QuickSort:%d\n", end5 - begin5);
printf("MergeSort:%d\n", end6 - begin6);
free(a1);
free(a2);
free(a3);
free(a4);
free(a5);
free(a6);
free(a7);
}
运行结果
交换排序基本思想:所谓交换,就是根据序列中两个记录键值的比较结果来对换这两个记录在序列中的位置,交换排序的特点是:将键值较大的记录向序列的尾部移动,键值较小的记录向序列的前部移动。
冒泡排序基本思想:
冒泡排序(Bubble Sort)是一种交换排序,他的基本思想是:它重复地遍历待排序的元素列,依次比较相邻两个元素,如果顺序错误则把这两个元素进行交换。每走一轮即能使得这一轮中最大的元素待到后面正确的位置上,就像气泡从底浮升至水面一样,冒泡排序因此得名。
排序步骤:
️动图演示:
✏️代码展示:
//交换
void Swap(int* p1, int* p2)
{
int tmp = *p1;
*p1 = *p2;
*p2 = tmp;
}
//冒泡排序
void BubbleSort(int* a, int n)
{
for (int j = 0; j < n; ++j)
{
//单趟
for (int i = 1; i < n - j; ++i)
{
if (a[i - 1] > a[i])
Swap(&a[i - 1], &a[i]);
}
}
}
冒泡排序的优化:
我们对冒泡排序的复杂度进行简单分析一下,冒泡排序的时间复杂度是
O( N 2 N^2 N2)
那假如待排序的数组接近有序或者已经有序呢?冒泡排序仍然会像对待无序序列一样完整的走一遍。为此我们可以定义一个变量,通过变量的值来反映剩下的待排序的元素是否已经有序,从而决定是否要继续排序。这样假如待排序的数组已经有序,那么冒泡排序的最优情况时间复杂度为O(N)。
✏️✏️优化代码展示:
void BubbleSort(int* a, int n)
{
for (int j = 0; j < n; ++j)
{
int exchange = 0;
for (int i = 1; i < n - j; ++i)
{
if (a[i - 1] > a[i])
{
Swap(&a[i - 1], &a[i]);
exchange = 1;
}
}
if (exchange == 0)
{
break;
}
}
}
- 冒泡排序是一种非常容易理解的排序
- 时间复杂度:O( N 2 N^2 N2)
- 空间复杂度:O(1)
- 稳定性:稳定
在冒泡每趟排序挪动时,如果两者大小相同则不交换即可
快速排序是Hoare于1962年提出的一种二叉树结构的交换排序方法,其基本思想为:任取待排序元素序列中的某元素作为基准值(key),按照该排序码将待排序集合分割成两子序列,左子序列中所有元素均小于基准值,右子序列中所有元素均大于基准值,然后最左右子序列重复该过程,直到所有元素都排列在相应位置上为止。
将区间按照基准值划分为左右两半部分的常见方式有:
- hoare法
- 挖坑法
- 前后指针法
而且快速排序还能通过递归和非递归实现。能在八大排序中直接命名为“快速排序”的算法,可想而知其有多快!多厉害!接下来我们依次讲解:
️动图演示:
如图所示,hore法分为几个步骤:
key
,一般是第一个数或者最后一个数key
定义的是第一个数则R先走,反之亦然key
小的值就停下,再让L向后走,找到比key
大的值就停下key
位置的值交换,结束排序完一趟的结果:
✏️代码展示:
int PartSort1(int* a, int left, int right)
{
int keyi = left;
while (left < right)
{
while (left < right && a[right] >= a[keyi])
{
right--;
}
while (left < right && a[left] <= a[keyi])
{
left++;
}
Swap(&a[left], &a[right]);
}
int meet = left;
Swap(&a[keyi], &a[meet]);
return meet;
}
注意事项:
hore法比起其他两个方法的缺点就是有点难证明以及代码实现时很容易有bug
- 我们要注意我们是在修改数组的数据,所以是应该使用keyi,在操作的过程中用下标对数组元素进行操作。假如我们是使用一个变量key存放数组的值,那这只是一个临时变量的临时拷贝而已,交换其值并不会改变数组。
- 在跟key比较时,left和right在移动的条件务必加上left
- 当left和right有等于key的值时也不要停留继续移动,否则会出现死循环(比如:数组为 6 6 6 6 6)
当实现完单趟排序后,key已经在正确的位置,并且左边的值均小于key,右边的值均大于key。那如果我们对key的左序列和右序列也同样进行hore法排序,使用递归的思想重复调用则能完成排序。
✏️代码展示:
// 假设按照升序对array数组中[left, right)区间中的元素进行排序
void QuickSort(int* a, int left, int right)
{
if (left >= right)
return;
// 按照基准值对array数组的 [left, right)区间中的元素进行划分
int div = PartSort1(a, left, right);
// 划分成功后以div为边界形成了左右两部分 [left, div) 和 [div+1, right)
// 递归排[left, div-1)
QuickSort(a, left, div-1);
// 递归排[div+1, right)
QuickSort(a, div + 1, right);
}
️动图演示:
如图所示,挖坑法分为几个步骤:
key
保存起来(把值挖走),此位置出现了一个坑位key
小的位置就停下key
大的位置就停下key
的值放入坑位,结束挖坑法比起hore法效率没有任何优化,只是思想更好理解,代码更好实现
✏️代码展示:
int PartSort2(int* a, int left, int right)
{
int key = a[left];
int hole = left;
while (left < right)
{
//让右边先走找比key小的值
while (left < right && a[right] >= key)
{
right--;
}
//找到后入坑并自己挖坑
a[hole] = a[right];
hole = right;
//左边走,找大于key的值
while (left < right && a[left] <= key)
{
left++;
}
//找到后入坑并自己挖坑
a[hole] = a[left];
hole = left;
}
//此时L和R相遇,将key入坑
a[hole] = key;
return hole;
}
️动图演示:
如图所示,前后指针法分为几个步骤:
key
保存起来key
时,prev不动,cur继续向后移动key
,prev先向后移一位,再交换prev和cur的的值,cur再向后移key
的值,结束✏️代码展示:
int PartSort3(int* a, int left, int right)
{
int keyi = left;//注意要对数组下标进行操作
int prev = left;
int cur = prev + 1;
while (cur <= right)
{
if (a[cur] < a[keyi] && a[++prev] != a[cur])
{
Swap(&a[prev], &a[cur]);
}
cur++;
}
Swap(&a[prev], &a[keyi]);
return prev;
}
- 快速排序整体的综合性能和使用场景都是比较好的,所以才敢叫快速排序
- 时间复杂度:O(N*logN)
- 空间复杂度:O(logN)
- 稳定性:不稳定
比如 5 5 8 3 5 6 8 在排序时要将key换到中间并且实现比key小的在左边,比key大的在右边,如举例情况排序后的5便不稳定了
快排的时间复杂度分两种情况讨论
1.最好:每次key都为中位数,当递归调用时左右的递归深度都大致相同,就像一棵完全二叉树 ------> 时间复杂度:O(N*logN)
2.最坏:每次选出的key都为最小或者最大,导致递归调用时大多数元素都在一边,递归调用深度很深 ------>时间复杂度:O( N 2 N^2 N2)
当代排序列为有序或者接近有序时就是最坏情况。而当出现最坏情况时不仅是效率慢,更大的问题是大概率会导致程序奔溃
最坏情况时的递归调用深度很大,一共要建立N层栈帧。但是栈的空间是非常小的,大约只有8mb,所以当待排序的数据量较大时,会出现栈溢出导致程序奔溃。
所以结合以上的思考,我们务必要对快排进行优化
当代排序列为有序或者接近有序时,我们希望key是取到
中位数
。当代排序列无序时,我们希望key的取值尽量接近中间,不要太小也不要太大。综合这些优化的要求我们可以使用:三数取中具体操作为:每次key要取值时,先比较一下代排序列的第一个数、中间的数、最后一个数,比较取出三数之间第二大小的值作为此趟排序的key
三数取中的优化hore法、挖坑法、前后指针法都适用,这里我们用前后指针法为例子
✏️代码展示:
int GetMidIndex(int* a, int left, int right)
{
int mid = left + (right - left) / 2;
//int mid = (left + right) / 2;
if (a[left] < a[mid])
{
if (a[left] < a[right])
{
return right;
}
else if (a[left] > a[right])
{
return left;
}
else
{
return mid;
}
}
else // (a[left] >= a[mid])
{
if (a[mid] < a[right])
{
return right;
}
else if (a[mid] > a[right])
{
return mid;
}
else
{
return left;
}
}
}
int PartSort3(int* a, int left, int right)
{
int mid = GetMidIndex(a, left, right);
Swap(&a[left], &a[mid]);
int keyi = left;//注意要对数组下标进行操作
int prev = left;
int cur = prev + 1;
while (cur <= right)
{
if (a[cur] < a[keyi] && a[++prev] != a[cur])
{
Swap(&a[prev], &a[cur]);
}
cur++;
}
Swap(&a[prev], &a[keyi]);
return prev;
}
void QuickSort(int* a, int left, int right)
{
//if (right - left <= 1)
if (left >= right)
return;
int div = PartSort3(a, left, right);
QuickSort(a, left, div-1);
QuickSort(a, div + 1, right);
}
经过优化后的快排递归的过程图会形成类似
二叉树
的图解。而当递归到后面剩几个数时,比如剩5个数,排序5个数字是一件不那么难的事,但是如果继续使用快排递归,去排序5个数还得调用3次递归才能搞定这未免有点杀鸡用牛刀的感觉了另外根据我们学过的二叉树的知识,在完全二叉树中,最后一层的节点个数约占总节点个数的
1/2
,倒数第二层的节点个数约占总节点个数的1/4
,倒数第三层占1/8
。也就意味着,在完全二叉树最后三层就已经占用了总结点数的87.5%
而回到排序这边,那就意味着最后三层占用了递归调用总次数的87.5%,但是越到后面每次递归去排序的数就越少,可以理解为后面3层花了大量的递归调用去排序很多个元素个数并不多的序列
因此我们在待排序序列的区间长度小于等于8时,改用其他排序算法从而达到提高效率的目的。
✏️代码展示:
void QuickSort(int* a, int left, int right)
{
if (left >= right)
return;
if (right - left <= 8)
{
InsertSort(a + left, right - left + 1);
}
else
{
int div = PartSort1(a, left, right);
QuickSort(a, left, div - 1);
QuickSort(a, div + 1, right);
}
}
到这快速排序的算法也大部分解决了,通过递归实现的快速排序需要建立许多栈帧,假如待排序的数据量巨大,这会消耗大量的空间。并且上文提到了,我们建立栈帧是去开辟栈的空间,而栈的空间是很有限的,即使已经努力去优化我们的算法,但是假如数据量巨大仍然会有栈溢出导致程序奔溃的可能。所以我们也要试着用非递归去实现快速排序。
到这我们之前实现过的数据结构 - 栈 就要派上用场了。我们自己实现的数据结构栈,它的使用原理(先进后出)和系统的栈是一样的,不同的是数据结构的栈占用的是堆的空间,而堆对比系统栈来说,其内存空间就要大得多,是完全可以满足我们的使用的。
实现思路:在实现非递归时我们务必要掌握递归的过程,我们只是通过数据结构栈去模拟实现了递归的过程罢了。只是在递归时的压栈出栈现在需要我们自己去通过数据结构栈实现。而在递归时压栈的其实都是一段区间,一段等着进行单趟排序的区间,而假如还未符合结束递归的条件的话,进行完一趟排序分割出一段新的区间便再次压栈…当遇到符合结束递归的条件时则return(不操作)
✏️代码展示:
//此处省略数据结构栈的实现代码
//...
void QuickSortNonR(int* a, int begin, int end)
{
ST st;
StackInit(&st);
//将待排序序列压栈
StackPush(&st, begin);
StackPush(&st, end);
while (!StackEmpty(&st))
{
int right = StackTop(&st);
StackPop(&st);
int left = StackTop(&st);
StackPop(&st);
int keyi = PartSort3(a, left, right);
//[left,keyi-1] keyi [keyi+1,right]
//要先处理左区间就先压入右区间(后进先出)
//假如不符合递归条件则无序压栈
if (keyi + 1 < right)
{
StackPush(&st, keyi + 1);
StackPush(&st, right);
}
if (keyi - 1 > left)
{
StackPush(&st, left);
StackPush(&st, keyi-1);
}
}
StackDestory(&st);
}
基本思想
归并排序(MERGE-SORT)是建立在归并操作上的一种有效的排序算法,该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。将已有序的子序列合并,得到完全有序的序列;即先使每个子序列有序,再使子序列段间有序。若将两个有序表合并成一个有序表,称为二路归并。
图解展示:
️动图演示:
根据归并排序的思路和图解我们了解到大致可分为以下步骤
- 通过递归将待排序序列层层分割到最小子序列
- 对子序列进行排序后再归并到上一层
- 最终层层返回归完成排序
凡是递归问题都会分成两部分
下面我们先来研究一下归并排序的分割
✏️代码展示:
void _MergeSort(int* a, int begin, int end, int* tmp)
{
if (begin = end)//结束递归条件
return;
int mid = (begin + end) / 2;
//将序列分成两部分: [begin,mid] [mid+1,end]
_MergeSort(a, begin, mid, tmp);//递归左半部分
_MergeSort(a, mid + 1, end, tmp);//递归右半部分
}
以上代码即使归并排序递归分割的代码,这也正对应了图解中的分割过程,我们可以借助画递归图再更进一步地领悟这一过程
以上即使归并排序分割部分的递归调用图(一部分)这也是归并排序的分治思想的最好体现。何为最小子问题?当你分割到只有一个数字的时候其实也就是一种有序了,分割到1个1个,返回后归并成有序的2个2个,再返回后归并成有序的4个4个…最终整体有序
分割的代码实现后,就剩归并的了
✏️代码展示:
void _MergeSort(int* a, int begin, int end, int* tmp)
{
if (begin == end)//结束递归条件
return;
int mid = (begin + end) / 2;
//将序列分成两部分: [begin,mid] [mid+1,end]
_MergeSort(a, begin, mid, tmp);//递归左半部分
_MergeSort(a, mid + 1, end, tmp);//递归右半部分
//归并 取小的尾插
//[begin,mid] [mid+1,end]
int begin1 = begin, end1 = mid;
int begin2 = mid + 1, end2 = end;
int i = begin;//---------1
while (begin1 <= end1 && begin2 <= end2)//---------2
{
if (a[begin1] <= a[begin2])//--------3
{
tmp[i++] = a[begin1++];
}
else
{
tmp[i++] = a[begin2++];
}
}
//如果begin2先走完,将begin1后面所剩数据继续插入
while (begin1 <= end1)//-------4
{
tmp[i++] = a[begin1++];
}
//如果begin1先走完,把begin2后面所剩数据继续插入
while (begin2 <= end2)
{
tmp[i++] = a[begin2++];
}
// 拷贝回原数组 -- 归并哪部分就拷贝哪部分回去
memcpy(a + begin, tmp + begin, (end - begin + 1) * sizeof(int));
}
void MergeSort(int* a,int n)
{
int* tmp = (int*)malloc(n * sizeof(int));
if (tmp == NULL)
{
perror("malloc fail");
return;
}
_MergeSort(a, 0, n - 1, tmp);
free(tmp);
tmp = NULL;
}
✨归并排序解决
对于代码实现,在实现过程中我把自己在写的过程中出现犹豫的地方标了出来进行一点小分享
- 首先我们归并是需要再额外开辟一个数组用于归并的,如果直接在原数组进行操作会出现覆盖的问题,所以我们开辟一个与待排序序列同等大小的数组用于每一次的排序归并
- 归并拷贝回原数组时是归并哪部分就拷贝哪部分回去,所以我们看到标注1️⃣,对临时数组的下标是初始化为begin,也即是每次要归并的两个子序列的左序列的下标开头。这样子设计是因为我们很难说每次在临时数组排序归并后整个拷贝回去,我们除了最后一次归并,其余都是在归并部分数据,所以临时数组的其他位置其实是随机值
- 关于标注2️⃣需要用
<=
是因为我们用的是左闭右闭的区间进行调用- 关于标注3️⃣我们可以用
<
也可以<=
,采用<=
是出于排序稳定性的考虑- 关于标注4️⃣,我们在归并的过程中即是对2段子序列进行整合,每次都同时遍历2段序列,取小的值尾插进临时数组。所以一定会出现一段序列先完的情况,然后剩下的那部分也需要继续尾插。所以那里的两个while循环也是必不可少的。
如果感觉还未能完全理解,建议结合前文的图解和动图再自己画图模拟实现
为什么要掌握非递归?
归并排序是二分法分割,所以不会像快速排序一样重度偏向一边导致递归深度过大,一般不会出现栈溢出程序奔溃的问题。但是毕竟要带你们手撕八大排序嘛,那就撕另外因为非递归设计到一些边界问题会有不少麻烦,有些老六公司在面试时也会用它来考察我们的编程能力,所以也有必要掌握。
思路:
归并排序的思路其实比起快速排序简单不少,就是对数据进行比较排序整合,所以我们不用利用栈或队列来模拟递归过程,可以直接用循环进行操作。在递归中我们是通过递归分割至最小单位再进行排序归并回去,既然不使用递归,我们就可以直接分割啦。
归并排序的非递归其实有不少麻烦,我们先从最理想最简单的情况切入,解决后再考虑一些特殊情况
如图这是最理想的情况,也即是待排序数据在分组的时候一切都刚刚好。那么我们继续是前文的归并思想,先1&1
排序整合再归并到2&2
排序整合再归并排序到4&4
排序整合至完成排序
✏️代码展示:
void MergeSortNonR(int* a, int n)
{
int* tmp = (int*)malloc(n * sizeof(int));
if (tmp == NULL)
{
perror("malloc fail");
return;
}
int gap = 1;
while (gap < n)
{
for (int j = 0; j < n; j += 2 * gap)
{
int begin1 = j, end1 = j + gap - 1;
int begin2 = j + gap, end2 = j + 2 * gap - 1;
int i = j;
while (begin1 <= end1 && begin2 <= end2)
{
if (a[begin1] <= a[begin2])
{
tmp[i++] = a[begin1++];
}
else
{
tmp[i++] = a[begin2++];
}
}
while (begin1 <= end1)
{
tmp[i++] = a[begin1++];
}
while (begin2 <= end2)
{
tmp[i++] = a[begin2++];
}
// 拷贝回原数组 -- 归并哪部分就拷贝哪部分回去
memcpy(a + j, tmp + j, (end2 - j + 1) * sizeof(int));
}
gap *= 2;
}
free(tmp);
tmp = NULL;
}
好的,实现完最理想的情况,接下来就是特殊情况的处理。那就是,数据的数量不是整数倍
如图,当待排序的序列数据数量不是整数倍时,就会造成数组的越界访问
所以我们需要去分析会有什么越界访问的情况,然后针对其情况而去修正在调用时的区间范围来避免越界。我们可以在循环中加入
printf("[%d,%d][%d,%d] ", begin1, end1, begin2, end2);
来看清楚会有什么特殊的情况。
由图可知,越界分为以下三种情况:
- 第一组的部分越界(end1)
- 第二组全部越界(begin2,end2)
- 第二组部分越界(end2)
分析出有什么越界的情况后我们针对其修正调用时的区间即可,让其下标不用再++并且跳过这轮的排序归并,等到最后再一起归并即可
// 第一组越界
if (end1 >= n)
{
break;
}
// 第二组全部越界
if (begin2 >= n)
{
break;
}
// 第二组部分越界
if (end2 >= n)
{
// 修正一下end2,继续归并
end2 = n - 1;
}
✏️✏️最终代码展示:
void MergeSortNonR(int* a, int n)
{
int* tmp = (int*)malloc(n * sizeof(int));
if (tmp == NULL)
{
perror("malloc fail");
return;
}
int gap = 1;
while (gap < n)
{
for (int j = 0; j < n; j += 2 * gap)
{
int begin1 = j, end1 = j + gap - 1;
int begin2 = j + gap, end2 = j + 2 * gap - 1;
// 第一组越界
if (end1 >= n)
{
break;
}
// 第二组全部越界
if (begin2 >= n)
{
break;
}
// 第二组部分越界
if (end2 >= n)
{
// 修正一下end2,继续归并
end2 = n - 1;
}
int i = j;
while (begin1 <= end1 && begin2 <= end2)
{
if (a[begin1] <= a[begin2])
{
tmp[i++] = a[begin1++];
}
else
{
tmp[i++] = a[begin2++];
}
}
while (begin1 <= end1)
{
tmp[i++] = a[begin1++];
}
while (begin2 <= end2)
{
tmp[i++] = a[begin2++];
}
// 拷贝回原数组 -- 归并哪部分就拷贝哪部分回去
memcpy(a + j, tmp + j, (end2 - j + 1) * sizeof(int));
}
gap *= 2;
}
free(tmp);
tmp = NULL;
}
- 归并的缺点在于需要O(N)的空间复杂度,归并排序的思考更多的是解决在磁盘中的外排序问题。
- 时间复杂度:O(N*logN)
- 空间复杂度:O(N)
- 稳定性:稳定
思想:计数排序又称为鸽巢原理,是对哈希直接定址法的变形应用。 操作步骤:
- 统计相同元素出现次数
- 根据统计的结果将序列回收到原来的序列中
我们将待排序的序列称为排序数组吧,然后我们需要再开辟一个新的数组称为计数数组,计数数组的下标就是排序数组的数据值,计数数组每个下标所对应的值就是排序数组中每个数据出现的次数。这是一种映射关系,而计数排序的这种映射关系又有绝对映射和相对映射。
绝对映射图解:
了解了计数排序映射的道理,那假如待排序序列中的值是成百上千呢?那岂不是在开辟计数数组时也得开辟成百上千个空间才能绝对映射排序数组中的每个值。另外还有问题就是,那负数呢?负数怎么利用数组下标来映射?于是乎就有了相对映射
相对映射图解:
✏️代码展示:
void CountSort(int* a, int n)
{
int max = a[0], min = a[0];
//找max和min
for (int i = 0; i < n; i++)
{
if (a[i] > max)
{
max = a[i];
}
if (a[i] < min)
{
min = a[i];
}
}
//定义range和开辟计数数组
int range = max - min + 1;
int* contA = (int*)calloc(sizeof(int) * range,0);//需初始化0(0次出现)
if (contA == NULL)
{
perror("calloc fail");
return;
}
for (int i = 0; i < n; i++)
{
contA[a[i] - min]++;
}
//排序
int j = 0;
for (int i = 0; i < range; i++)
{
while (contA[i]--)
{
a[j] = i + min;
j++;
}
}
free(contA);
}
- 计数排序在数据范围集中时,效率很高,但是适用范围及场景有限。
- 时间复杂度:O(MAX(n,range))
- 空间复杂度:O(range)
- 分析完时间复杂度和空间复杂度可得计数排序只适用于待排序序列中数据的分布范围较小
- 稳定性:稳定
排序算法 | 时间复杂度 | 空间复杂度 | 稳定性 |
---|---|---|---|
直接插入排序 | O(N^2) | O(1) | ✔️ |
希尔排序 | 约O(N^1.3) | O(1) | ❌ |
选择排序 | O(N^2) | O(1) | ❌ |
堆排序 | O(N*logN) | O(1) | ❌ |
冒泡排序 | O(N^2) | O(1) | ✔️ |
快速排序 | O(N*logN) | O(logN) | ❌ |
归并排序 | O(N*logN) | O(N) | ✔️ |