分治,全称分而治之,是一种非常重要且常见的算法策略。
分治通常基于递归实现,包括 分 和 治 两个步骤:
如图所示, 归并排序 是分治策略的典型应用之一
一个问题是否适合使用分治解决,通常可以参考以下几个判断依据:
显然,归并排序是满足以上三条判断依据的:
分治不仅可以有效地解决算法问题,往往还可以带来算法效率的提升。
在排序算法中,快速排序、归并排序、堆排序相较于选择、冒泡、插入排序更快,就是因为它们应用了分治策略。
那么,我们不禁发问:为什么分治可以提升算法效率,其底层逻辑是什么?
换句话说,将大问题分解为多个子问题、解决子问题、将子问题的解合并为原问题的解,这几步的效率为什么比直接解决原问题的效率更高?
这个问题可以从操作数量和并行计算两方面来讨论。
以 冒泡排序 为例,其处理一个长度为 的数组需要 (2) 时间。
假设我们按照图所示的方式,将数组从中点分为两个子数组,则划分需要 () 时间,排序每个子数组需要 ((/2)2) 时间,合并两个子数组需要 () 时间,总体时间复杂度为:
接下来,我们计算以下不等式,其左边和右边分别为划分前和划分后的操作总数:
这意味着当 > 4 时,划分后的操作数量更少,排序效率应该更高。
请注意,划分后的时间复杂度仍然是平方阶 (2) ,只是复杂度中的常数项变小了。
进一步想,如果我们把子数组不断地再从中点划分为两个子数组,直至子数组只剩一个元素时停止划分呢?这种思路实际上就是 归并排序 ,时间复杂度为 ( log ) 。
再思考,如果我们多设置几个划分点,将原数组平均划分为 个子数组呢?
这种情况与 桶排序 非常类似,它非常适合排序海量数据,理论上时间复杂度可以达到 ( + ) 。
我们知道,分治生成的子问题是相互独立的,因此通常可以并行解决。
也就是说,分治不仅可以降低算法的时间复杂度,还有利于操作系统的并行优化。
并行优化在多核或多处理器的环境中尤其有效,因为系统可以同时处理多个子问题,更加充分地利用计算资源,从而显著减少总体的运行时间。
比如在图所示的 桶排序 中,我们将海量的数据平均分配到各个桶中,则可所有桶的排序任务分散到各个计算单元,完成后再进行结果合并。
一方面,分治可以用来解决许多经典算法问题:
另一方面,分治在算法和数据结构的设计中应用非常广泛:
可以看出,分治是一种润物细无声的算法思想,隐含在各种算法与数据结构之中。
我们已经学过,搜索算法分为两大类:
实际上,时间复杂度为 (log ) 的搜索算法通常都是基于分治策略实现的,例如二分查找和树。
二分查找的分治策略如下所示:
分治能够提升搜索效率,本质上是因为暴力搜索每轮只能排除一个选项,而分治搜索每轮可以排除一半选项
在之前的章节中,二分查找是基于递推(迭代)实现的。现在我们基于分治(递归)来实现它。
给定一个长度为 的有序数组 nums ,数组中所有元素都是唯一的,请查找元素 target 。
从分治角度,我们将搜索区间 [, ] 对应的子问题记为 (, ) 。
从原问题 (0, − 1) 为起始点,通过以下步骤进行二分查找。
下图展示了在数组中二分查找元素 6 的分治过程:
在实现代码中,我们声明一个递归函数 dfs() 来求解问题 (, ) 。
/* 二分查找:问题 f(i, j) */
int dfs(int[] nums, int target, int i, int j) {
// 若区间为空,代表无目标元素,则返回 -1
if (i > j) {
return -1;
}
// 计算中点索引 m
int m = (i + j) / 2;
if (nums[m] < target) {
// 递归子问题 f(m+1, j)
return dfs(nums, target, m + 1, j);
} else if (nums[m] > target) {
// 递归子问题 f(i, m-1)
return dfs(nums, target, i, m - 1);
} else {
// 找到目标元素,返回其索引
return m;
}
}
/* 二分查找 */
int binarySearch(int[] nums, int target) {
int n = nums.length;
// 求解问题 f(0, n-1)
return dfs(nums, target, 0, n - 1);
}
给定一个二叉树的前序遍历 preorder 和中序遍历 inorder ,请从中构建二叉树,返回二叉树的根节点。假设二叉树中没有值重复的节点。
原问题定义为从 preorder 和 inorder 构建二叉树,其是一个典型的分治问题
根据以上分析,这道题是可以使用分治来求解的,但如何通过前序遍历 preorder 和中序遍历 inorder 来划分左子树和右子树呢?
根据定义,preorder 和 inorder 都可以被划分为三个部分:
以上图数据为例,我们可以通过下图所示的步骤得到划分结果:
根据以上划分方法,我们已经得到根节点、左子树、右子树在 preorder 和 inorder 中的索引区间。
而为了描述这些索引区间,我们需要借助几个指针变量。
如表所示,通过以上变量即可表示根节点在 preorder 中的索引,以及子树在 inorder 中的索引区间。
请注意,右子树根节点索引中的 ( − ) 的含义是 左子树的节点数量 ,建议配合下图理解。
/* 构建二叉树:分治 */
TreeNode dfs(int[] preorder, Map<Integer, Integer> inorderMap, int i, int l, int r) {
// 子树区间为空时终止
if (r - l < 0)
return null;
// 初始化根节点
TreeNode root = new TreeNode(preorder[i]);
// 查询 m ,从而划分左右子树
int m = inorderMap.get(preorder[i]);
// 子问题:构建左子树
root.left = dfs(preorder, inorderMap, i + 1, l, m - 1);
// 子问题:构建右子树
root.right = dfs(preorder, inorderMap, i + 1 + m - l, m + 1, r);
// 返回根节点
return root;
}
/* 构建二叉树 */
TreeNode buildTree(int[] preorder, int[] inorder) {
// 初始化哈希表,存储 inorder 元素到索引的映射
Map<Integer, Integer> inorderMap = new HashMap<>();
for (int i = 0; i < inorder.length; i++) {
inorderMap.put(inorder[i], i);
}
TreeNode root = dfs(preorder, inorderMap, 0, 0, inorder.length - 1);
return root;
}
下图展示了构建二叉树的递归过程,各个节点是在向下 递 的过程中建立的,而各条边(即引用)是在向上 归 的过程中建立的。
每个递归函数内的前序遍历 preorder 和中序遍历 inorder 的划分结果如图所示
设树的节点数量为 ,初始化每一个节点(执行一个递归函数 dfs() )使用 (1) 时间。因此总体时间复杂度为 () 。
哈希表存储 inorder 元素到索引的映射,空间复杂度为 () 。最差情况下,即二叉树退化为链表时,递归深度达到 ,使用 () 的栈帧空间。因此总体空间复杂度为 () 。
在归并排序和构建二叉树中,我们都是将原问题分解为两个规模为原问题一半的子问题。然而对于汉诺塔问题,我们采用不同的分解策略。
给定三根柱子,记为 A、B 和 C 。起始状态下,柱子 A 上套着 个圆盘,它们从上到下按照从小到大的顺序排列。我们的任务是要把这 个圆盘移到柱子 C 上,并保持它们的原有顺序不变。在移动圆盘的过程中,需要遵守以下规则:
我们将规模为 的汉诺塔问题记做 () 。
例如 (3) 代表将 3 个圆盘从 A 移动至 C 的汉诺塔问题。
如图所示,对于问题 (1) ,即当只有一个圆盘时,我们将它直接从 A 移动至 C 即可
如图所示,对于问题 (2) ,即当有两个圆盘时,由于要时刻满足小圆盘在大圆盘之上,因此需要借助B 来完成移动。
解决问题 (2) 的过程可总结为:将两个圆盘借助 B 从 A 移至 C 。其中,C 称为目标柱、B 称为缓冲柱。
对于问题 (3) ,即当有三个圆盘时,情况变得稍微复杂了一些。
因为已知 (1) 和 (2) 的解,所以我们可从分治角度思考,将 A 顶部的两个圆盘看做一个整体,执行下图所示的步骤。这样三个圆盘就被顺利地从 A 移动至 C 了。
本质上看,我们将问题 (3) 划分为两个子问题 (2) 和子问题 (1) 。
按顺序解决这三个子问题之后,原问题随之得到解决。这说明子问题是独立的,而且解是可以合并的。
至此,我们可总结出图 12‑14 所示的汉诺塔问题的分治策略:将原问题 () 划分为两个子问题 ( − 1)和一个子问题 (1) ,并按照以下顺序解决这三个子问题:
对于这两个子问题 ( − 1) ,可以通过相同的方式进行递归划分,直至达到最小子问题 (1) 。而 (1) 的解是已知的,只需一次移动操作即可。
在代码中,我们声明一个递归函数 dfs(i, src, buf, tar) ,它的作用是将柱 src 顶部的 个圆盘借助缓冲柱 buf 移动至目标柱 tar 。
/* 移动一个圆盘 */
void move(List<Integer> src, List<Integer> tar) {
// 从 src 顶部拿出一个圆盘
Integer pan = src.remove(src.size() - 1);
// 将圆盘放入 tar 顶部
tar.add(pan);
}
/* 求解汉诺塔:问题 f(i) */
void dfs(int i, List<Integer> src, List<Integer> buf, List<Integer> tar) {
// 若 src 只剩下一个圆盘,则直接将其移到 tar
if (i == 1) {
move(src, tar);
return;
}
// 子问题 f(i-1) :将 src 顶部 i-1 个圆盘借助 tar 移到 buf
dfs(i - 1, src, tar, buf);
// 子问题 f(1) :将 src 剩余一个圆盘移到 tar
move(src, tar);
// 子问题 f(i-1) :将 buf 顶部 i-1 个圆盘借助 src 移到 tar
dfs(i - 1, buf, src, tar);
}
/* 求解汉诺塔 */
void solveHanota(List<Integer> A, List<Integer> B, List<Integer> C) {
int n = A.size();
// 将 A 顶部 n 个圆盘借助 B 移到 C
dfs(n, A, B, C);
}
如图所示,汉诺塔问题形成一个高度为 的递归树,每个节点代表一个子问题、对应一个开启的 dfs()函数 ,因此时间复杂度为 (2) ,空间复杂度为 () 。
汉诺塔问题源自一种古老的传说故事。
所以,倘若这个传说是真的,我们应该不需要担心世界末日的到来。