树的定义
树是一种抽象数据类型,用来模拟具有树状结构性质的数据集合。树的专业术语比较多,需要了解一下:
- 树的结点:包含一个数据元素及若干指向子树分支的信息
- 结点的度:一个结点含有的子树的数目称为该结点的度
- 树的度:树中最大的结点度称为树的度
- 叶子结点:也称终端结点,结点度为零的结点
- 分支结点:也称非终端结点,结点度不为零的结点
- 子结点:一个结点含有的子树的根结点称为该结点的子结点
- 父结点:若一个结点含有子结点,则这个结点称为其子结点的父结点
- 兄弟结点:具有相同父结点的结点互称为兄弟结点
- 堂兄弟结点:父结点在同一层的结点互为堂兄弟结点
- 结点的祖先:从根到该结点所经分支上的所有结点
- 子孙:以某结点为根的子树中任一结点都称为该结点的子孙
- 结点的层次:从根开始定义起,根为第 1 层,根的子结点为第 2 层,以此类推
- 深度:对于任意结点 n,n 的深度为从根到 n 的唯一路径长,根的深度为 0
- 高度:对于任意结点 n,n 的高度为从 n 到叶子结点的最长路径长,所有叶子结点的高度为 0
- 森林:由 m(m>=0) 棵互不相交的树组成的集合称为森林
二叉树
树的结构多种多样,不过最常用的还是二叉树。
顾名思义,二叉是指每个结点最多只有两个子结点,分别称为左子结点和右子结点。但是,二叉树并不要求所有结点必须拥有两个子结点,有的结点只有左子结点,有的结点只有右子结点。
满二叉树
如图 a 所示,除叶子结点以外,其余的结点每个都有 2 个子结点,这种二叉树被称为满二叉树。
完全二叉树
如图 b 所示,除最后一层外,每一层的结点数均达到最大值,而且最后一层的叶子结点都靠左排列,只缺少右边的若干结点,这种二叉树被称为完全二叉树。
可以看得出,满二叉树是一种特殊的完全二叉树。
二叉查找树
二叉查找树是一种特殊的二叉树,常用作搜索使用,也被称为二叉搜索树、二叉排序树。
它有可能是一棵空树,也可能是具有以下性质的二叉树:
- 若它的左子树不空,则左子树上所有结点的值均小于它的根结点的值
- 若它的右子树不空,则右子树上所有结点的值均大于等于它的根结点的值
- 它的左、右子树也分别为二叉查找树
二叉查找树是一种经典的数据结构,它既具有链表快速插入、删除的特点,又具有数组快速查找的优势。
存储结构
链式存储
使用链表存储树的结构是一种比较简单、直观的方法。
二叉树中每个结点最多只有两个子结点,因此,可以给结点设计一个数据域和两个指针域,这两个指针域分别指向左子结点和右子结点。
这种情况下,使用链表作为存储方式,只要拎住根结点,就可以通过左右子结点的指针,把整棵树都串起来。
这种方式比较常用,大部分二叉树代码都是通过这种方式实现的。
顺序存储
二叉树的顺序存储结构是基于数组实现的,用一维数组存储二叉树中的结点,并且数组的下标能够体现出二叉树结点之间的逻辑关系。
在这个存储二叉树结点的数组中,为了使得后续的结点逻辑关系易于理解,下标为 0 的存储位置是不使用的。一般是把根结点存储在 i = 1 的位置上,它的左子结点存储在 2i = 2 的位置上、右子结点存储在 2i + 1 = 3 的位置上。以此类推,左子结点的左子结点存储在 2i = 4 的位置,它的右子结点存储在 2i + 1 = 5 的位置。
总结二叉树结点在数组中的逻辑关系:如果结点 x 存储在数组中下标为 i 的位置,则结点 x 的左子结点存储在数组中下标为 2i 的位置,右子结点存储在数组中下标为 2i+1 的位置。
可以发现,上述展示的是一个完全二叉树,使用数组存储完全二叉树时,会发现除了下标为 0 的位置没有存储数据之外,其他的位置都被填满了。
而如果是非完全二叉树,则会出现浪费数组中内存空间的情况。如下图所示:
因此,一般使用顺序存储结构存储完全二叉树,在这种情况下,相比较链式存储结构会更节省内存。
堆其实就是一种完全二叉树,最常用的存储方式就是数组。
二叉树的遍历
二叉树的遍历是指从根结点出发,按照某种次序依次访问二叉树中的所有结点,使得某个结点仅且被访问一次。
深度优先遍历
深度优先遍历方式是指尽可能深地搜索树的分支,即先遍历到叶子结点再更改搜索路径。二叉树经典的深度优先遍历方式有三种:前序遍历、中序遍历、后序遍历。
其中,前、中、后序,表示的是结点与它的左右子树结点遍历打印的先后顺序:
- 前序遍历是指,对于树中的任意结点来说,先打印这个结点,然后再打印它的左子树,最后打印它的右子树
- 中序遍历是指,对于树中的任意结点来说,先打印它的左子树,然后再打印它本身,最后打印它的右子树
- 后序遍历是指,对于树中的任意结点来说,先打印它的左子树,然后再打印它的右子树,最后打印这个结点本身
其实,二叉树的前、中、后序遍历就是一个递归的过程。比如,前序遍历就是先打印根结点,然后再递归地打印左子树,最后递归地打印右子树。
下述是递归实现前、中、后序遍历的伪代码展示:
void preOrder(Node* root) {
if (root == null) return;
// 打印根结点
print root;
// 递归打印左子树
preOrder(root->left);
// 递归打印右子树
preOrder(root->right);
}
void inOrder(Node* root) {
if (root == null) return;
// 递归打印左子树
inOrder(root->left);
// 打印根结点
print root;
// 递归打印右子树
inOrder(root->right);
}
void postOrder(Node* root) {
if (root == null) return;
// 递归打印左子树
postOrder(root->left);
// 递归打印右子树
postOrder(root->right);
// 打印根结点
print root;
}
除了使用递归的方式实现深度优先遍历外,可以使用栈这种数据结构以非递归方式实现,前序遍历方式如下:
- 将 A 结点压入栈中,栈的结构是 [A];
- 将 A 结点弹出,然后将 A 结点的子结点 B、C 压入栈中,栈的结构是 [C, B];
- 将 B 结点弹出,然后将 B 结点的子结点 D、E 压入栈中,栈的结构是 [C, E, D];
- 将 D 结点弹出,D 结点没有子结点,无需做处理,栈的结构是 [C, E];
- 将 E 结点弹出,E 结点没有子结点,无需做处理,栈的结构是 [C];
- 将 C 结点弹出,依次类推,最终遍历完成。
广度优先遍历
广度优先遍历又称为层次遍历,从上往下对每一层依次访问,在每一层中,从左往右(也可以从右往左)访问结点,访问完一层再访问下一层。
层次遍历需要使用到队列这种数据结构,队列的特点是先进先出。整个遍历过程如下:
- 将 A 结点入队,队列的结构是 [A];
- 将 A 结点出队,然后将 A 结点的子结点 B、C 入队,队列的结构是 [B, C];
- 将 B 结点出队,然后将 B 结点的子结点 D、E 入队,队列的结构是 [C、D、E];
- 将 C 结点出队,然后将 C 结点的子结点 F、G 入队,队列的结构是 [D、E、F、G];
- 将 D 结点出队,D 结点没有子结点,无需做处理,栈的结构是 [E、F、G];
- 以此类推,最终遍历完成。
优缺点
对于深度优先遍历算法,都是优先搜索完一颗子树,有着内存占用相对较小的优点,通常存储结点数是数的深度;非递归的深度优先遍历方式会进行回溯,相对效率比较低。
对于广度优先遍历算法,对于解决最短或最小问题特别有效,而且结点只访问一遍,效率相对较高;使用广度优先算法需要存储一层结点的状态,内存占用相对较高。