目录
文章目录
前言
一、树的概念及结构
1.1 树的概念
1.2 树的相关概念
1.3 树的表示
1.4 树在实际中的运用
二、二叉树的概念及结构
2.1 二叉树的概念
2.2 二叉树的基本形态
编辑2.3 特殊的二叉树
2.4 二叉树的性质
2.5 二叉树的存储结构
三、二叉树的顺序结构及实现
3.1 二叉树的顺序结构
3.2 堆的概念及结构
3.3 堆的实现
3.3.1 堆的调整算法
3.3.2 堆的创建及时间复杂度
3.3.3 堆的初始化
3.3.4 堆中元素的插入
3.3.5 堆中元素的删除
3.3.6 获取堆顶元素
3.3.7 堆的数据个数
3.3.8 判断堆是否为空
3.3.9 堆的销毁
3.4 堆的应用
3.4.1 堆排序
3.4.2 TopK问题
四、二叉树链式结构及实现
4.1 前置说明
4.2 二叉树的遍历
4.2.1 前序,中序及后序遍历
4.2.2 层序遍历
4.3 结点个数以及高度等
4.3.1 二叉树结点个数
4.3.2 二叉树叶子结点个数
4.3.3 二叉树第k层结点个数
4.3.4 二叉树的高度
4.3.5 二叉树查找值为x的结点
4.4 二叉树的创建和销毁
4.4.1 二叉树的创建
4.4.2 二叉树的销毁
总结
树和二叉树是数据结构中重要的概念。树是一种的树形结构,可以表示一系列有序的数据,这些数据可以被组织成层次化的结构。树由结点和边组成,每个结点代表一个数据元素,而边则表示结点之间的关系。二叉树是另一种的树形结构,其每个结点最多有两个子结点,通常用于表示非线性的数据结构。
本文将详细讲解树和二叉树的概念、性质和应用。我们将介绍树和二叉树的定义、性质、存储结构等,将深入探讨二叉树的存储结构,遍历算法等。
树是一种树形结构,它是一种非线性的数据结构,它是由n(n>=0)个有限结点组成一个具有层次关系的集合。把它叫做树是因 为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。
树结构相对线性表就比较复杂了,要存储表示起来就比较麻烦了,既然保存值域,也要保存结点和结点之间的关系,实际中树有很多种表示方式如:双亲表示法,孩子表示法、孩子双亲表示法以及孩子兄弟表示法等。我们这里就简单的了解其中最常用的孩子兄弟表示法。
代码如下:
typedef int DataType;
struct Node
{
struct Node* _firstChild1; // 第一个孩子结点
struct Node* _pNextBrother; // 指向其下一个兄弟结点
DataType _data; // 结点中的数据域
};
表示文件系统的目录树结构:
二叉树(Binary Tree)是另一种树形结构,数和二叉树是两种不同的树形结构,二叉树不是树的特殊形式,它的特点是每个结点至多有两棵子树(即二叉树中不存在度大于2的结点),并且,二叉树的子树有左右之分,其次序不能任意颠倒。
二叉树有五种基本形态,具体如下:
除此之外,还有其他一些特殊的二叉树形态,如斜二叉树、满二叉树和完美二叉树。这些形态通常是在对二叉树进行某些操作或转换后得到的。然而,根据定义,二叉树的这五种基本形态构成了所有可能的不同二叉树实例。
二叉树有多种形态,具体取决于节点的排列方式以及节点的度数。以下是二叉树常见的几种形态:
满二叉树(Full Binary Tree):满二叉树是一种特殊的二叉树,其中除了叶子节点外,每个节点都有两个子节点。即每个节点的度数都为2,并且所有叶子节点在同一层级上。
完全二叉树(Complete Binary Tree):完全二叉树是一种二叉树,其中除了最后一层外,其他层的节点都是满的,并且最后一层的节点从左到右连续排列。在完全二叉树中,叶子节点只能出现在最后两层,并且最后一层的叶子节点都靠左排列。
二叉搜索树(Binary Search Tree):二叉搜索树是一种有序二叉树,其中每个节点的值大于其左子树中的所有节点的值,且小于其右子树中的所有节点的值。在二叉搜索树中,左子树的值都小于根节点的值,右子树的值都大于根节点的值。
斜二叉树(Skewed Binary Tree):斜二叉树是一种特殊的二叉树,其中所有节点都只有一个子节点。如果所有节点都只有右子节点,则称为右斜二叉树;如果所有节点都只有左子节点,则称为左斜二叉树。
以上是一些常见的二叉树形态,根据具体的应用场景和需求,还可以有其他形态的二叉树。
1. 若i>0,i位置节点的双亲序号:(i-1)/2;i=0,i为根节点编号,无双亲节点
2. 若2i+1
3. 若2i+2
二叉树一般可以使用两种结构存储,一种顺序结构,一种链式结构。
1. 顺序存储
顺序结构存储就是使用数组来存储,一般使用数组只适合表示完全二叉树,因为不是完全二叉树会有空间的浪费。而现实中使用中只有堆才会使用数组来存储,关于堆本文后面会专门讲解。二叉树顺序存储在物理上是一个数组,在逻辑上是一颗二叉树。
2. 链式存储
二叉树的链式存储结构是指,用链表来表示一棵二叉树,即用链来指示元素的逻辑关系。 通常的方法是链表中每个结点由三个域组成,数据域和左右指针域,左右指针分别用来给出该结点左孩子和右孩子所在的链结点的存储地址 。链式结构又分为二叉链和三叉链,本文中学习的是二叉链,但高阶数据结构如红黑树等会用到三叉链。
代码实现:
typedef int BTDataType;
// 二叉链
struct BinaryTreeNode
{
struct BinTreeNode* _pLeft; // 指向当前节点左孩子
struct BinTreeNode* _pRight; // 指向当前节点右孩子
BTDataType _data; // 当前节点值域
}
// 三叉链
struct BinaryTreeNode
{
struct BinTreeNode* _pParent; // 指向当前节点的双亲
struct BinTreeNode* _pLeft; // 指向当前节点左孩子
struct BinTreeNode* _pRight; // 指向当前节点右孩子
BTDataType _data; // 当前节点值域
};
普通的二叉树是不适合用数组来存储的,因为可能会存在大量的空间浪费。而完全二叉树更适合使用顺序结构存储。现实中我们通常把堆(一种二叉树)使用顺序结构的数组来存储,需要注意的是这里的堆和操作系统虚拟进程地址空间中的堆是两回事,一个是数据结构,一个是操作系统中管理内存的一块区域分段。
如果有一个集合,把它的所有元素按完全二叉树的顺序存储方式存储在一个一维数组中,并满足:且 ( 且 ),i = 0, 1, 2…,则称为小堆(或大堆)。将根节点最大的堆叫做最大堆或大根堆,根节点最小的堆叫做最小堆或小根堆。
堆的性质:
在学习堆的各种操作之前,我们需要先学习两个算法:向上调整算法和向下调整算法。
堆向上调整(Heapify Up)算法用于在向堆中插入一个新元素后维护堆的特性,即父节点的键值总是大于(或小于)它的子节点的键值。它通常在插入元素到堆的末尾后调用,以保持堆的特性。
堆向上调整的具体步骤如下:
堆向上调整操作的时间复杂度为O(logn),其中n是堆的大小。因为在每一次调整中,当前节点最多与其父节点进行比较和交换位置。
堆向上调整算法也可以用于构建堆。从堆的第一个元素开始,依次向后对每个元素执行堆向上调整操作,直到堆的最后一个元素为止。这样可以保证每个子树都满足堆的特性。该过程的时间复杂度为O(n*logn),其中n是堆的大小。
堆向上调整算法在堆排序和优先队列等应用中也是非常常见的,它能够高效地维护堆的特性,使得对堆的操作更加方便。
代码实现(假设实现的是小根堆):
void AdjustUp(HpDataType* a, int child)
{
int parent = (child - 1) / 2;
while (child > 0 && a[child] < a[parent])
{
Swap(&a[child], &a[parent]);
child = parent;
parent = (child - 1) / 2;
}
}
堆向下调整(Heapify Down)算法用于维护堆的特性,即父节点的键值总是大于(或小于)它的子节点的键值。它通常在删除堆的根节点后调用,以保持堆的特性。
堆向下调整的具体步骤如下:
堆向下调整操作的时间复杂度为O(logn),其中n是堆的大小。因为在每一次调整中,当前节点最多与其两个子节点进行比较和交换位置。
堆向下调整算法也可以用于构建堆。从堆的最后一个非叶子节点开始,依次向上对每个节点执行堆向下调整操作,直到根节点为止。这样可以保证每个子树都满足堆的特性。该过程的时间复杂度为O(n),其中n是堆的大小。
堆向下调整算法在堆排序和优先队列等应用中非常常见,它能够高效地维护堆的特性,使得对堆的操作更加方便。
代码实现(假设实现的是小根堆):
void AdjustDown(HpDataType* a, int size, int parent)
{
int child = parent * 2 + 1;
while (child < size)
{
if (child + 1 < size && a[child + 1] < a[child])
{
child++;
}
if (a[parent] > a[child])
{
Swap(&a[parent], &a[child]);
parent = child;
child = parent * 2 + 1;
}
else
{
break;
}
}
}
假设我们有一个数组,这个数组逻辑上可以看做一颗完全二叉树,但是还不是一个堆,现在我们通过算法,把它构建成一个堆。根节点左右子树不是堆,我们怎么调整呢?有了刚刚介绍的两个算法,创建堆就变得非常容易了,这里我们分别使用向上调整算法和向下调整算法创建堆,并分别计算它们的时间复杂度。
使用向上调整算法创建堆:这里我们从数组的第二个元素开始,到最后一个元素,每次使用一次向上调整算法,就可以调整成堆。
代码实现:
for (int i = 1; i < n; i++)
{
AdjustUp(a, i);
}
向上调整算法创建堆的时间复杂度:
使用向下调整算法创建堆:这里我们从倒数的第一个非叶子节点的子树开始调整,一直调整到根节点的树,就可以调整成堆。
代码实现:
for (int i = (n - 1 - 1) / 2; i >= 0; i--)
{
AdjustDown(a, n, i);
}
向下调整算法创建堆的时间复杂度:
由此可以看出,向下调整算法建堆比向上调整算法建堆性能更优
为了方便以下堆的操作,这里先声明一个堆的结构体,一个成员为指针a,用来存放开辟空间的首地址(即动态数组),一个成员size用来存放堆的元素个数,还有一个成员capacity用来存放开辟的空间大小,方便数组扩容。
代码如下:
typedef int HpDataType;
typedef struct Heap
{
HpDataType* a;
int size;
int capacity;
}Hp;
初始化就是将指针指向空,其余变量赋值为0。
代码如下:
void HeapInit(Hp* php)
{
assert(php);
php->a = NULL;
php->size = php->capacity = 0;
}
插入之前要先判断开辟的空间满了没,如果满了,可以使用realloc()函数重新分配数组大小,然后再将元素插入数组的末尾,即堆尾元素的下一个位置,并要使size++,最后再对插入的元素使用一次向上调整算法,以保持堆的特性。
代码如下:
void HeapPush(Hp* php, HpDataType x)
{
assert(php);
if (php->size == php->capacity)
{
int newCapacity = php->capacity == 0 ? 4 : php->capacity * 2;
HpDataType* tmp = (HpDataType*)realloc(php->a, sizeof(HpDataType) * newCapacity);
if (tmp == NULL)
{
perror("realloc fail");
exit(-1);
}
php->a = tmp;
php->capacity = newCapacity;
}
php->a[php->size] = x;
php->size++;
AdjustUp(php->a, php->size - 1);
}
堆中元素的删除是指删除堆顶元素,因为删除堆尾元素没有任何意义,操作如下:要先确保堆中有元素,再将堆顶元素和堆尾元素交换,然后将size--,最后使用调用一次向下调整算法,以保持堆的特性。
代码如下:
void HeapPop(Hp* php)
{
assert(php);
assert(php->size > 0);
Swap(&php->a[0], &php->a[php->size - 1]);
php->size--;
AdjustDown(php->a, php->size, 0);
}
先要判断以下堆中有没有元素,有的话再返回下标为0的元素。
代码如下:
HpDataType HeapTop(Hp* php)
{
assert(php);
assert(php->size > 0);
return php->a[0];
}
因为声明的结构中有size,所以直接返回size就行。
代码如下:
int HeapSize(Hp* php)
{
assert(php);
return php->size;
}
判断size是否为0,为0即为空。
代码如下:
bool HeapEmpty(Hp* php)
{
assert(php);
return php->size == 0;
}
先将动态分配的内存释放了,再将结构体中的成员赋值为初始化堆时所赋值的值就行。
代码如下:
void HeapDestrory(Hp* php)
{
assert(php);
free(php->a);
php->a = NULL;
php->size = php->capacity = 0;
}
堆排序是一种基于堆数据结构的排序算法,它将待排序的数据依次构建成一个大根堆(或小根堆),然后将堆顶元素与堆尾元素交换,并逐步减小堆的大小,再对新的堆进行调整,直到堆的大小为1,最终得到有序序列。
堆排序的思想总共分为两个步骤:
1. 建堆
2. 利用堆删除思想来进行排序
建堆和堆删除中都用到了向下调整,因此掌握了向下调整,就可以完成堆排序,由于前面已经介绍了向下调整算法,这里就不再赘述。(当然建堆也可以用向上调整算法,但这就吃力不讨好了)
代码如下:
void HeapSort(int* a, int n)
{
//建大堆
/*for (int i = 1; i < n; i++)
{
AdjustUp(a, i);
}*/
for (int i = (n - 1 - 1) / 2; i >= 0; i--)
{
AdjustDown(a, n, i);
}
int end = n - 1;
while (end > 0)
{
Swap(&a[0], &a[end]);
AdjustDown(a, end, 0);
end--;
}
}
TOP-K问题:即求数据结合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大。
比如:世界500强、富豪榜、游戏中前100的活跃玩家等。
对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能数据都不能一下子全部加载到内存中)。最佳的方式就是用堆来解决,基本思路如下:
1. 用数据集合中前K个元素来建堆
2. 用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素
将剩余N-K个元素依次与堆顶元素比完之后,堆中剩余的K个元素就是所求的前K个最小或者最大的元素。
这里实现一个模拟数据量非常大,需要在文件中读取找最大的几个数的场景的代码。
代码如下:
void CreateNDate()
{
int n = 1000000;
srand((unsigned int)time(0));
const char* file = "data.txt";
FILE* fin = fopen(file, "w");
if (fin == NULL)
{
perror("fopen error");
exit(-1);
}
for (int i = 0; i < n; i++)
{
int x = (rand() + i) % 1000000;
fprintf(fin, "%d\n", x);
}
fclose(fin);
}
void PrintTopK(const char* file, int k)
{
FILE* fout = fopen(file, "r");
if (fout == NULL)
{
perror("fopen error");
exit(-1);
}
//建一个k个数的小堆
int* heap = (int*)malloc(sizeof(int) * k);
if (heap == NULL)
{
perror("malloc error");
exit(-1);
}
for (int i = 0; i < k; i++)
{
fscanf(fout, "%d", &heap[i]);
AdjustUp(heap, i);
}
int x = 0;
while (fscanf(fout, "%d", &x) != EOF)
{
if (x > heap[0])
{
heap[0] = x;
AdjustDown(heap, k, 0);
}
}
for (int i = 0; i < k; i++)
{
printf("%d ", heap[i]);
}
printf("\n");
free(heap);
fclose(fout);
}
在学习二叉树的基本操作前,需先要创建一棵二叉树,然后才能学习其相关的基本操作。由于现在大家对二叉树结构掌握还不够深入,为了降低难度,此处手动快速创建一棵简单的二叉树,快速进入二叉树操作学习,等二叉树结构了解的差不多时,我们反过头再来研究二叉树真正的创建方式。
我们先创建一个如下图所示的二叉树
代码如下:
typedef int BTDataType;
typedef struct BinaryTreeNode
{
BTDataType val;
struct BinaryTreeNode* left;
struct BinaryTreeNode* right;
}BTNode;
BTNode* BuyTreeNode(int x)
{
BTNode* node = (BTNode*)malloc(sizeof(BTNode));
assert(node);
node->val = x;
node->left = NULL;
node->right = NULL;
return node;
}
BTNode* CreateTree()
{
BTNode* node1 = BuyTreeNode(1);
BTNode* node2 = BuyTreeNode(2);
BTNode* node3 = BuyTreeNode(3);
BTNode* node4 = BuyTreeNode(4);
BTNode* node5 = BuyTreeNode(5);
BTNode* node6 = BuyTreeNode(6);
node1->left = node2;
node2->left = node3;
node1->right = node4;
node4->left = node5;
node4->right = node6;
return node1;
}
学习二叉树结构,最简单的方式就是遍历。所谓二叉树遍历(Traversal)是按照某种特定的规则,依次对二叉树中的节点进行相应的操作,并且每个节点只操作一次。访问结点所做的操作依赖于具体的应用问题。 遍历是二叉树上最重要的运算之一,也是二叉树上进行其它运算的基础。
按照规则,二叉树的遍历有:前序/中序/后序的递归结构遍历:
由于被访问的结点必是某子树的根,所以N(Node)、L(Left subtree)和R(Right subtree)又可解释为根、根的左子树和根的右子树。NLR、LNR和LRN分别又称为先根遍历、中根遍历和后根遍历。
下面主要分析前序递归遍历,中序与后序图解类似,各位读者可自己动手绘制。
前序遍历递归图解:
代码如下:
void Preorder(BTNode* root)
{
if (root == NULL)
{
printf("N ");
return;
}
printf("%d ", root->val);
Preorder(root->left);
Preorder(root->right);
}
void Inorder(BTNode* root)
{
if (root == NULL)
{
printf("N ");
return;
}
Inorder(root->left);
printf("%d ", root->val);
Inorder(root->right);
}
void Postorder(BTNode* root)
{
if (root == NULL)
{
printf("N ");
return;
}
Postorder(root->left);
Postorder(root->right);
printf("%d ", root->val);
}
除了先序遍历、中序遍历、后序遍历外,还可以对二叉树进行层序遍历。设二叉树的根节点所在层数为1,层序遍历就是从所在二叉树的根节点出发,首先访问第一层的树根节点,然后从左到右访问第2层上的节点,接着是第3层的节点,以此类推,自上而下,自左至右逐层访问树的结点的过程就是层序遍历。
代码如下(其中队列的操作的实现可以参考前几篇文章中的队列):
void Levelorder(BTNode* root)
{
Queue q;
QueueInit(&q);
if (root == NULL)
{
return;
}
QueuePush(&q, root);
while (!QueueEmpty(&q))
{
BTNode* front = QueueFront(&q);
QueuePop(&q);
printf("%d ", front->val);
if (front->left)
{
QueuePush(&q, front->left);
}
if (front->right)
{
QueuePush(&q, front->right);
}
}
QueueDestroy(&q);
}
以下几个都是二叉树中基本的操作,都是围绕着递归进行,比较简单,这里直接给出代码,读者可自行画递归展开图进行理解。
int TreeSize(BTNode* root)
{
return root == NULL ? 0 : TreeSize(root->left) + TreeSize(root->right) + 1;
}
int TreeLeafSize(BTNode* root)
{
//空 返回0
if (root == NULL)
{
return 0;
}
//不是空,是叶子 返回1
if (!root->left && !root->right)
{
return 1;
}
//不是空,也不是叶子 分治=左右子树叶子之和
return TreeLeafSize(root->left) + TreeLeafSize(root->right);
}
int TreeLevelKSize(BTNode* root, int k)
{
assert(k > 0);
if (root == 0)
{
return 0;
}
if (k == 1)
{
return 1;
}
return TreeLevelKSize(root->left, k - 1) + TreeLevelKSize(root->right, k - 1);
}
int TreeHeight(BTNode* root)
{
if (root == NULL)
{
return 0;
}
return fmax(TreeHeight(root->left), TreeHeight(root->right)) + 1;
}
BTNode* TreeFind(BTNode* root, BTDataType x)
{
if (root == NULL)
{
return NULL;
}
if (root->val == x)
{
return root;
}
BTNode* ret1 = TreeFind(root->left, x);
if (ret1)
{
return ret1;
}
BTNode* ret2 = TreeFind(root->right, x);
if (ret2)
{
return ret2;
}
return NULL;
}
到这里,我们就可以学习二叉树的创建方式。
前序遍历创建二叉树的步骤如下:
下面是一个示例代码来说明如何通过前序遍历创建二叉树的过程:
代码如下:
BTNode* TreeCreate(BTDataType* a, int* pi)
{
if (a[*pi] == '#')//这里使用'#'表示空
{
(*pi)++;
return NULL;
}
BTNode* root = (BTNode*)malloc(sizeof(BTNode));
if (root == NULL)
{
perror("malloc fail");
exit(-1);
}
root->val = a[(*pi)++];
root->left = TreeCreate(a, pi);
root->right = TreeCreate(a, pi);
return root;
}
二叉树的销毁也不仅仅只是释放根节点的空间,而是同样需要递归先销毁左右子树。
代码如下:
void TreeDestroy(BTNode* root)
{
if (root == NULL)
{
return;
}
TreeDestroy(root->left);
TreeDestroy(root->right);
free(root);
}
树和二叉树是数据结构中重要的概念,它们可以用于表示和管理各种类型的数据。树和二叉树在许多应用领域都有广泛的应用,如操作系统、数据库系统、编译器设计、网络协议等。通过对树和二叉树的学习,我们可以更好地理解和处理复杂的数据结构和算法,提高我们解决问题的能力。