目录
一、树的概念及结构
二、二叉树的概念
1.什么是二叉树
2.特殊的二叉树
①满二叉树
②完全二叉树
3.二叉树的性质
4.二叉树的存储结构
三、二叉树顺序结构及实现---堆实现
1.堆的分类
2.堆的实现
1.堆数据的初始化 、销毁、打印、交换
2.堆向上调整算法
3.堆向下调整算法
4.堆的数据插入
5.堆的数据删除
6.取堆顶的数据、堆的数据个数、堆的判空
3.堆的应用
1.Top-k问题
2.堆排序 (含动图分析)
四、建堆的时间复杂度
五、源代码
Heap.h
Heap.c
test.c
树是一种非线性的数据结构,它是由n(n>=0)个有限结点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。节点的度:一个节点含有的子树的个数称为该节点的度; 如上图:A的为6叶节点或终端节点:度为0的节点称为叶节点; 如上图:B、C、H、I...等节点为叶节点非终端节点或分支节点:度不为0的节点; 如上图:D、E、F、G...等节点为分支节点双亲节点或父节点:若一个节点含有子节点,则这个节点称为其子节点的父节点; 如上图:A是B的父节点孩子节点或子节点:一个节点含有的子树的根节点称为该节点的子节点; 如上图:B是A的孩子节点兄弟节点:具有相同父节点的节点互称为兄弟节点; 如上图:B、C是兄弟节点树的度:一棵树中,最大的节点的度称为树的度; 如上图:树的度为6节点的层次:从根开始定义起,根为第1层,根的子节点为第2层,以此类推;树的高度或深度:树中节点的最大层次; 如上图:树的高度为4堂兄弟节点:双亲在同一层的节点互为堂兄弟;如上图:H、I互为兄弟节点节点的祖先:从根到该节点所经分支上的所有节点;如上图:A是所有节点的祖先子孙:以某节点为根的子树中任一节点都称为该节点的子孙。如上图:所有节点都是A的子孙森林:由m(m>0)棵互不相交的树的集合称为森林;
一棵二叉树是结点的一个有限集合,该集合:1. 或者为空2. 由一个根节点加上两棵别称为左子树和右子树的二叉树组成从上图可以看出:
1.二叉树每个结点的度都小于等于2;
2. 二叉树的子树有左右之分,次序不能颠倒,因此二叉树是有序树;
一个二叉树,如果每一个层的结点数都达到最大值,则这个二叉树就是满二叉树。也就是说,如果一个二叉树的层数为K,且结点总数是2^k-1,则它就是满二叉树。
完全二叉树是效率很高的数据结构,完全二叉树是由满二叉树而引出来的。对于深度为K 的,有n个结点的二叉树,当且仅当其每一个结点都与深度为K的满二叉树中编号从1至n的结点一一对应时称之为完全二叉树。 要注意的是满二叉树是一种特殊的完全二叉树。
完全二叉树必须满足前N-1层是满二叉树,第N层从左向右是连续的;所以满二叉树一定是完全二叉树,而完全二叉树不一定是满二叉树;
1. 若规定根节点的层数为1,则一棵非空二叉树的第i层上最多有 2^(i-1 )个结点.2. 若规定根节点的层数为1,则深度为h的二叉树的最大结点数是 2^h-1 ;3. 对任何一棵二叉树, 如果度为0其叶结点个数为 , 度为2的分支结点个数为 ,则有 n0=n2+14. 若规定根节点的层数为1,具有n个结点的满二叉树的深度,h=log2(n+1)5. 对于具有n个结点的完全二叉树,如果按照从上至下从左至右的数组顺序对所有节点从0开始编号,则对 于序号为i的结点有:① 若i>0,i位置节点的双亲序号:(i-1)/2;i=0,i为根节点编号,无双亲节点
二叉树一般可以使用两种结构存储,一种顺序结构,一种链式结构。1. 顺序存储顺序结构存储就是使用数组来存储,一般使用数组 只适合表示完全二叉树 ,因为不是完全二叉树会有空 间的浪费。而现实中使用中只有堆才会使用数组来存储,关于堆我们后面的章节会专门讲解。二叉树顺序存储在物理上是一个数组,在逻辑上是一颗二叉树。2. 链式存储二叉树的链式存储结构是指,用链表来表示一棵二叉树,即用链来指示元素的逻辑关系。 通常的方法是 链表中每个结点由三个域组成,数据域和左右指针域,左右指针分别用来给出该结点左孩子和右孩子所 在的链结点的存储地址 。链式结构又分为二叉链和三叉链;三叉链暂时不做介绍,在后期更新进阶数据结构时,再细讲;
普通的二叉树是不适合用数组来存储的,因为可能会存在大量的空间浪费。而完全二叉树更适合使用顺序结 构存储。现实中我们通常把堆(一种二叉树)使用顺序结构的数组来存储,需要注意的是这里的堆和操作系统虚拟进程地址空间中的堆是两回事,一个是数据结构,一个是操作系统中管理内存的一块区域分段。
堆可以分为大根堆和小根堆 :
大根堆:所有父亲结点都大于等于孩子结点;
小根堆:所有父亲结点都小于等于孩子结点;
这里以大堆为例
//堆的初始化
void HeapInit(HP* hp)
{
assert(hp);
hp->a = NULL;
hp->size = hp->capacity = 0;
}
//堆的销毁
void HeapDestroy(HP* hp)
{
assert(hp);
free(hp->a);
hp->capacity = hp->size = 0;
}
//堆的数据打印
void HeapPrint(HP* hp)
{
assert(hp);
for (int i = 0; i < hp->size; i++)
{
printf("%d ", hp->a[i]);
}
printf("\n");
}
//堆的数据交换
void Swap(HPDataType* px, HPDataType* py)
{
HPDataType tmp = *px;
*px = *py;
*py = tmp;
}
以大堆为例,应该是大的数据在上,每一层都比下一层数据要大;当数据插入时,如果插入了一个较大的数,我们需要把这个数据向上调整,如果插入的数据比上一层的数据大就调整(即孩子大于父亲),知道调整到根结束;如果是小堆,只需要把符号改变即可;
//向上调整函数(大堆用大于,小堆用小于)
void AdjustUp(int* a,int child)
{
assert(a);
int parent = (child - 1) / 2;
while (child > 0)
{
if (a[child] > a[parent])
{
Swap(&a[child], &a[parent]);
child = parent;
parent = (child - 1) / 2;
}
else
{
break;
}
}
}
以大堆为例,当我们要删除堆顶的数据时:
思路:我们将堆顶的数据和堆最后一个数据进行交换,元素个数减去1,那么就不会访问到我们要删除的数据了,交换上来的堆顶的数据(大堆为例)是一个较小值,把这个较小值进行向下调整,直至满足大根堆;
//向下调整函数(大堆用大于,小堆用小于)
void AdjustDown(int* a, int n, int parent)
{
assert(a);
int child = parent * 2 + 1;
while (child < n)
{
//选出左右孩子中大的那个
if (child + 1 < n && a[child + 1] > a[child])
{
++child;
}
//如果大的孩子大于父亲,则交换,并继续向下调整
if (a[child] > a[parent])
{
Swap(&a[child], &a[parent]);
parent = child;
child = parent * 2 + 1;
}
else
{
break;
}
}
}
参考向上调整算法
//堆的数据插入
void HeapPush(HP* hp, HPDataType x)
{
assert(hp);
if (hp->size == hp->capacity)
{
size_t newcapacity = hp->capacity == 0 ? 4 : hp->capacity * 2;
HPDataType* tmp = realloc(hp->a, sizeof(HPDataType) * newcapacity);
if (tmp == NULL)
{
printf("realloc fail\n");
exit(-1);
}
hp->a = tmp;
hp->capacity = newcapacity;
}
hp->a[hp->size] = x;
hp->size++;
AdjustUp(hp->a, hp->size - 1);
}
参考向下调整算法
//堆的数据删除
void HeapPop(HP* hp)
{
assert(hp);
assert(!HeapEmpty(hp));
Swap(&hp->a[0], &hp->a[hp->size - 1]);
hp->size--;
AdjustDown(hp->a, hp->size, 0);
}
//取堆顶的数据
HPDataType HeapTop(HP* hp)
{
assert(hp);
assert(!HeapEmpty(hp));
return hp->a[0];
}
//堆的数据个数
int HeapSize(HP* hp)
{
assert(hp);
return hp->size;
}
//堆的判空
bool HeapEmpty(HP* hp)
{
assert(hp);
return hp->size == 0;
TOP-K问题:即求数据结合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大。比如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能 数据都不能一下子全部加载到内存中)。最佳的方式就是用堆来解决;基本思路如下:1. 用数据集合中前K个元素来建堆前k个最大的元素,则建小堆;前k个最小的元素,则建大堆;2. 用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素;将剩余N-K个元素依次与堆顶元素比完之后,堆中剩余的K个元素就是所求的前K个最小或者最大的元素;
void PrintTopK(int* a, int n, int k)
{
// 1. 建堆--用a中前k个元素建堆
// 2. 将剩余n-k个元素依次与堆顶元素交换,不满足则替换
HP hp;
HeapInit(&hp);
for (int i = 0; i < k; i++)
{
HeapPush(&hp, a[i]);
}
//剩下的N-K个数跟堆顶的数据比较,比他大就替换他进堆
for (int i = k; i < n; i++)
{
if (a[i] > HeapTop(&hp))
{
//方法1:
HeapPop(&hp);
HeapPush(&hp, a[i]);
//方法2:
//hp.a[0] = a[i];
//AdjustDown(hp.a, hp.size, 0);
}
}
HeapPrint(&hp);
HeapDestroy(&hp);
}
//在N个数中找出最大的前k个 or 在N个数中找出最小的前k个
void TestTopk()
{
int n = 10000;
int* a = (int*)malloc(sizeof(int) * n);
srand(time(0));
for (size_t i = 0; i < n; ++i)
{
a[i] = rand() % 1000000;
}
//再去设置10个比100w大的数
a[5] = 1000000 + 1;
a[1231] = 1000000 + 2;
a[531] = 1000000 + 3;
a[5121] = 1000000 + 4;
a[115] = 1000000 + 5;
a[2335] = 1000000 + 6;
a[9999] = 1000000 + 7;
a[76] = 1000000 + 8;
a[423] = 1000000 + 9;
a[3144] = 1000000 + 10;
PrintTopK(a, n, 10);
}
int main()
{
TestTopk();
return 0;
}
堆排序即利用堆的思想来进行排序,总共分为两个步骤:1. 建堆升序:建 大 堆降序:建 小 堆2. 利用堆删除思想来进行排序建堆和堆删除中都用到了向下调整,因此掌握了向下调整,就可以完成堆排序。
代码1:
利用向上调整构建大堆,然后进行向下调整进行排序;
//排升序建大堆 排降序建小堆
//堆排序
void HeapSort(int* a, int n)
{
assert(a);
//把a数组构建成堆(假设构建成小堆)
//方法1
for (int i = 1; i < n; i++)
{
AdjustUp(a, i);
}
//移除选数,调堆
//O(N*logN)
for (int end = n - 1; end > 0; --end)
{
Swap(&a[end], &a[0]);
//再调堆,选出次小的数
AdjustDown(a, end, 0);
}
}
int main()
{
int a[] = { 70,56,30,25,15,10,75 };
for (int i = 0; i < sizeof(a) / sizeof(a[0]); ++i)
{
printf("%d ", a[i]);
}
printf("\n");
HeapSort(a, sizeof(a) / sizeof(a[0]));
for (int i = 0; i < sizeof(a) / sizeof(a[0]); ++i)
{
printf("%d ", a[i]);
}
printf("\n");
return 0;
}
上面的动图是在利用for循环把数组中的进行了向上 调整,利用循环相当于就是在堆上插入数据,然后通过下标的访问,交换首尾的数据,然后对其交换上来的数据进行向下调整,以此类推;
向下调整的前提:
大堆向下调整,采用向下调整必须左子树和又子树都是大堆;
小堆向下调整,采用向下调整必须左子树和又子树都是小堆;
代码二:
利用向下调整构建大堆,然后再次向下调整进行排序;
考虑一个问题:
如何解决:
最后进行排序和上面的动图一样;
//排升序建大堆 排降序建小堆
//堆排序
void HeapSort(int* a, int n)
{
assert(a);
//方法2 --O(N)
for (int i = (n - 1 - 1) / 2; i >= 0; i--)
{
AdjustDown(a, n, i);
}
//移除选数,调堆---O(N*logN)
for (int end = n - 1; end > 0; --end)
{
Swap(&a[end], &a[0]);
//再调堆,选出次小的数
AdjustDown(a, end, 0);
}
}
建堆的时间复杂度如下:
通过上图的分析及推算,建堆的时间复杂度为O(N)
#include
#include
#include
#include
#include
typedef int HPDataType;
typedef struct Heap
{
HPDataType* a;
int size;
int capacity;
}HP;
//堆的初始化
void HeapInit(HP* hp);
//堆的销毁
void HeapDestroy(HP* hp);
//堆的数据打印
void HeapPrint(HP* hp);
//堆的数据交换
void Swap(HPDataType* px, HPDataType* py);
//向上调整
void AdjustUp(int* a, int child);
//向下调整
void AdjustDown(int* a, int n, int parent);
//堆的数据插入
void HeapPush(HP* hp, HPDataType x);
//堆的数据删除
void HeapPop(HP* hp);
//取堆顶的数据
HPDataType HeapTop(HP* hp);
//堆的数据个数
int HeapSize(HP* hp);
//堆的判空
bool HeapEmpty(HP* hp);
#include "Heap.h"
//堆的初始化
void HeapInit(HP* hp)
{
assert(hp);
hp->a = NULL;
hp->capacity = hp->size = 0;
}
//堆的销毁
void HeapDestroy(HP* hp)
{
assert(hp);
free(hp->a);
hp->capacity = hp->size = 0;
}
//堆的数据打印
void HeapPrint(HP* hp)
{
assert(hp);
for (int i = 0; i < hp->size; i++)
{
printf("%d ", hp->a[i]);
}
printf("\n");
}
//堆的数据交换
void Swap(HPDataType* px, HPDataType* py)
{
HPDataType tmp = *px;
*px = *py;
*py = tmp;
}
//向上调整(大堆用大于,小堆用小于)
void AdjustUp(int* a, int child)
{
assert(a);
int parent = (child - 1) / 2;
while (child > 0)
{
if (a[child] > a[parent])
{
Swap(&a[child], &a[parent]);
child = parent;
parent = (child - 1) / 2;
}
else
{
break;
}
}
}
//向下调整(大堆用大于,小堆用小于)
void AdjustDown(int* a, int n, int parent)
{
assert(a);
int child = parent * 2 + 1;
while (child < n)
{
//选出左右孩子中小的那个
if (child + 1 < n && a[child + 1] > a[child])
{
++child;
}
//如果小的孩子小于父亲,则交换,并继续向下调整
if (a[child] > a[parent])
{
Swap(&a[child], &a[parent]);
parent = child;
child = parent * 2 + 1;
}
else
{
break;
}
}
}
//堆的数据插入
void HeapPush(HP* hp, HPDataType x)
{
assert(hp);
if (hp->size == hp->capacity)
{
size_t newcapacity = hp->capacity == 0 ? 4 : hp->capacity * 2;
HPDataType* tmp = realloc(hp->a, sizeof(HPDataType) * newcapacity);
if (tmp == NULL)
{
printf("realloc fail\n");
exit(-1);
}
hp->a = tmp;
hp->capacity = newcapacity;
}
hp->a[hp->size] = x;
hp->size++;
AdjustUp(hp->a, hp->size - 1);
}
//堆的数据删除
void HeapPop(HP* hp)
{
assert(hp);
assert(!HeapEmpty(hp));
Swap(&hp->a[0], &hp->a[hp->size - 1]);
hp->size--;
AdjustDown(hp->a, hp->size, 0);
}
//取堆顶的数据
HPDataType HeapTop(HP* hp)
{
assert(hp);
assert(!HeapEmpty(hp));
return hp->a[0];
}
//堆的数据个数
int HeapSize(HP* hp)
{
assert(hp);
return hp->size;
}
//堆的判空
bool HeapEmpty(HP* hp)
{
assert(hp);
return hp->size == 0;
}
#include "Heap.h"
void PrintTopK(int* a, int n, int k)
{
// 1. 建堆--用a中前k个元素建堆
// 2. 将剩余n-k个元素依次与堆顶元素交换,不满足则替换
HP hp;
HeapInit(&hp);
//创建一个k个数的小堆
for (int i = 0; i < k; ++i)
{
HeapPush(&hp,a[i]);
}
//剩下的N-K个数跟堆顶的数据比较,比他大就替换他进堆
for (int i = k; i < n; ++i)
{
if (a[i] > HeapTop(&hp))
{
/*HeapPop(&hp);
HeapPush(&hp, a[i]);*/
hp.a[0] = a[i];
AdjustDown(hp.a, hp.size, 0);
}
}
HeapPrint(&hp);
HeapDestroy(&hp);
}
//在N个数中找出最大的前k个 or 在N个数中找出最小的前k个
void TestTopk()
{
int n = 10000;
int* a = (int*)malloc(sizeof(int) * n);
srand(time(0));
for (size_t i = 0; i < n; ++i)
{
a[i] = rand() % 1000000;
}
//再去设置10个比100w大的数
a[5] = 1000000 + 1;
a[1231] = 1000000 + 2;
a[531] = 1000000 + 3;
a[5121] = 1000000 + 4;
a[115] = 1000000 + 5;
a[2335] = 1000000 + 6;
a[9999] = 1000000 + 7;
a[76] = 1000000 + 8;
a[423] = 1000000 + 9;
a[3144] = 1000000 + 10;
PrintTopK( a, n, 10);
}
void TestHeap()
{
int a[] = { 70,56,30,25,15,10,75 };
HP hp;
HeapInit(&hp);
for (int i = 0; i < sizeof(a) / sizeof(a[0]); i++)
{
HeapPush(&hp, a[i]);
}
HeapPrint(&hp);
HeapPop(&hp);
HeapPrint(&hp);
HeapDestroy(&hp);
}
//排升序建大堆 排降序建小堆
//堆排序
void HeapSort(int* a, int n)
{
assert(a);
//把a数组构建成堆(假设构建成小堆)
//方法1
//
//for (int i = 1; i < n; i++)
//{
// AdjustUp(a, i);
//}
//方法2
//O(N)
for (int i = (n - 1 - 1) / 2; i >= 0; i--)
{
AdjustDown(a, n, i);
}
for (int i = 0; i < 7; ++i)
{
printf("%d ", a[i]);
}
printf("\n");
//移除选数,调堆
//O(N*logN)
for (int end = n - 1; end > 0; --end)
{
Swap(&a[end], &a[0]);
//再调堆,选出次小的数
AdjustDown(a, end, 0);
}
}
int main()
{
//TestHeap();
//TestTopk();
int a[] = { 70,56,30,25,15,10,75 };
for (int i = 0; i < sizeof(a) / sizeof(a[0]); ++i)
{
printf("%d ", a[i]);
}
printf("\n");
HeapSort(a, sizeof(a) / sizeof(a[0]));
for (int i = 0; i < sizeof(a) / sizeof(a[0]); ++i)
{
printf("%d ", a[i]);
}
printf("\n");
return 0;
}