数据结构与算法(图论系列)------并查集详解

并查集被很多OIer认为是最简洁而优雅的数据结构之一,主要用于解决一些元素分组的问题。它管理一系列不相交的集合,并支持两种操作:

  • 合并(Union):把两个不相交的集合合并为一个集合。
  • 查询(Find):查询两个元素是否在同一个集合中。

当然,图论相关的问题,可以用并查集解决时,一般也可以用BFS或DFS来解决,此处不再展开,BFS和DFS相关算法可见此篇 文章。

基本概念

  • 并查集是一种数据结构
  • 并查集这三个字,一个字代表一个意思:
    1. 并(Union),代表合并
    2. 查(Find),代表查找
    3. 集(Set),代表这是一个以字典(数组也可以)为基础的数据结构,它的基本功能是合并集合中的元素,查找集合中的元素
  • 并查集的典型应用是有关连通分量的问题
  • 并查集解决单个问题(添加,合并,查找)的时间复杂度都是O(1) 。因此,并查集可以应用到在线算法
  • 并查集跟树有些类似,只不过她跟树是相反的。在树这个数据结构里面,每个节点会记录它的子节点。在并查集里,每个节点会记录它的父节点

并查集的引入

并查集的重要思想在于,用集合中的一个元素代表集合。我曾看过一个有趣的比喻,把集合比喻成帮派,而代表元素则是帮主。接下来我们利用这个比喻,看看并查集是如何运作的。
数据结构与算法(图论系列)------并查集详解_第1张图片
最开始,所有大侠各自为战。他们各自的帮主自然就是自己。(对于只有一个元素的集合,代表元素自然是唯一的那个元素)

现在1号和3号比武,假设1号赢了(这里具体谁赢暂时不重要),那么3号就认1号作帮主(合并1号和3号所在的集合,1号为代表元素)。
数据结构与算法(图论系列)------并查集详解_第2张图片
现在2号想和3号比武(合并3号和2号所在的集合),但3号表示,别跟我打,让我帮主来收拾你(合并代表元素)。不妨设这次又是1号赢了,那么2号也认1号做帮主。
数据结构与算法(图论系列)------并查集详解_第3张图片
现在我们假设4、5、6号也进行了一番帮派合并,江湖局势变成下面这样:
数据结构与算法(图论系列)------并查集详解_第4张图片
现在假设2号想与6号比,跟刚刚说的一样,喊帮主1号和4号出来打一架(帮主真辛苦啊)。1号胜利后,4号认1号为帮主,当然他的手下也都是跟着投降了。
数据结构与算法(图论系列)------并查集详解_第5张图片
好了,比喻结束了。如果你有一点图论基础,相信你已经觉察到,这是一个树状的结构,要寻找集合的代表元素,只需要一层一层往上访问父节点(图中箭头所指的圆),直达树的根节点(图中橙色的圆)即可。根节点的父节点是它自己。我们可以直接把它画成一棵树:
数据结构与算法(图论系列)------并查集详解_第6张图片
用这种方法,我们可以写出最简单版本的并查集代码。

代码实现

初始化

int fa[MAXN];
inline void init(int n)
{
    for (int i = 1; i <= n; ++i)
        fa[i] = i;
}

假如有编号为1, 2, 3, …, n的n个元素,我们用一个数组fa[]来存储每个元素的父节点(因为每个元素有且只有一个父节点,所以这是可行的)。一开始,我们先将它们的父节点设为自己。

查询

int find(int x)
{
    if(fa[x] == x)
        return x;
    else
        return find(fa[x]);
}

我们用递归的写法实现对代表元素的查询:一层一层访问父节点,直至根节点(根节点的标志就是父节点是本身)。要判断两个元素是否属于同一个集合,只需要看它们的根节点是否相同即可。

合并

inline void merge(int i, int j)
{
    fa[find(i)] = find(j);
}

合并操作也是很简单的,先找到两个集合的代表元素,然后将前者的父节点设为后者即可。当然也可以将后者的父节点设为前者,这里暂时不重要。本文末尾会给出一个更合理的比较方法。

并查集实现的优化

1.路径压缩

最简单的并查集效率是比较低的。例如,来看下面这个场景:
数据结构与算法(图论系列)------并查集详解_第7张图片
现在我们要merge(2,3),于是从2找到1,fa[1]=3,于是变成了这样:
数据结构与算法(图论系列)------并查集详解_第8张图片
然后我们又找来一个元素4,并需要执行merge(2,4):

数据结构与算法(图论系列)------并查集详解_第9张图片
从2找到1,再找到3,然后fa[3]=4,于是变成了这样:
数据结构与算法(图论系列)------并查集详解_第10张图片
大家应该有感觉了,这样可能会形成一条长长的链,随着链越来越长,我们想要从底部找到根节点会变得越来越难。

怎么解决呢?我们可以使用路径压缩的方法。既然我们只关心一个元素对应的根节点,那我们希望每个元素到根节点的路径尽可能短,最好只需要一步,像这样:
数据结构与算法(图论系列)------并查集详解_第11张图片
其实这说来也很好实现。只要我们在查询的过程中把沿途的每个节点的父节点都设为根节点即可。下一次再查询时,我们就可以省很多事。这用递归的写法很容易实现:

寻找时(路径压缩)
int find(int x)
{
    if(x == fa[x])
        return x;
    else{
        fa[x] = find(fa[x]);  //父节点设为根节点
        return fa[x];         //返回父节点
    }
}

以上代码常常简写成一行:

int find(int x)
{
	return fa[x] == x ? x : (fa[x] = find(fa[x]));
}

注意赋值运算符=的优先级没有三元运算符?:高,这里要加括号

路径压缩优化后,并查集的时间复杂度已经比较低了,绝大多数不相交集合的合并查询问题都能够解决。然而,对于某些时间卡得很紧的题目,我们还可以进一步优化。

2.按秩合并

有些人可能有一个误解,以为路径压缩优化后,并查集始终都是一个菊花图(只有两层的树的俗称)。但其实,由于路径压缩只在查询时进行也只压缩一条路径,所以并查集最终的结构仍然可能是比较复杂的。例如,现在我们有一棵较复杂的树需要与一个单元素的集合合并:
数据结构与算法(图论系列)------并查集详解_第12张图片
假如这时我们要merge(7,8),如果我们可以选择的话,是把7的父节点设为8好,还是把8的父节点设为7好呢?

当然是后者。因为如果把7的父节点设为8,会使树的深度(树中最长链的长度)加深,原来的树中每个元素到根节点的距离都变长了,之后我们寻找根节点的路径也就会相应变长。虽然我们有路径压缩,但路径压缩也是会消耗时间的。而把8的父节点设为7,则不会有这个问题,因为它没有影响到不相关的节点。
数据结构与算法(图论系列)------并查集详解_第13张图片
这启发我们:我们应该把简单的树往复杂的树上合并,而不是相反。因为这样合并后,到根节点距离变长的节点个数比较少。

我们用一个数组rank[ ] 记录 每个根节点对应的树的深度(如果不是根节点,其rank相当于以它作为根节点的子树的深度)。
一开始,把所有元素的rank(秩)设为1。合并时比较两个根节点,把rank较小者往较大者上合并。路径压缩和按秩合并如果一起使用,时间复杂度接近O(n) ,但是很可能会破坏rank的准确性。

值得注意的是,按秩合并会带来额外的空间复杂度,可能被一些卡空间的毒瘤题卡掉。

初始化(按秩合并)
inline void init(int n)
{
    for (int i = 1; i <= n; ++i)
    {
        fa[i] = i;
        rank[i] = 1;
    }
}
合并(按秩合并)
inline void merge(int i, int j)
{
    int x = find(i), y = find(j);    //先找到两个根节点
    if (rank[x] <= rank[y])
        fa[x] = y;
    else
        fa[y] = x;
    if (rank[x] == rank[y] && x != y)
        rank[y]++;                   //如果深度相同且根节点不同,则新的根节点的深度+1
}

为什么深度相同,新的根节点深度要+1?如下图,我们有两个深度均为2的树,现在要merge(2,5):
数据结构与算法(图论系列)------并查集详解_第14张图片
这里把2的父节点设为5,或者把5的父节点设为2,其实没有太大区别。我们选择前者,于是变成这样:
数据结构与算法(图论系列)------并查集详解_第15张图片
显然树的深度增加了1。另一种合并方式同样会让树的深度+1。

并查集完整实现

class UnionFindSet{
private: //其他类中需要使用下面成员,记得改为public
	vector<int> fa, rank;
public:
	//初始化:构造并查集
	UnionFindSet(int n){
		fa.resize(n);
		rank.resize(n);//容量个数别忘了初始化,不然下面不好直接赋值
		for(int i = 0; i < n; i++){
			fa[i] = i;//根为自身
			rank[i] = 1;//秩为1
	}
	//构造并查集,同上(另一种写法,两者都可以)
    UnionFindSet(int n){
        for(int i = 0; i < n; i++){
            fa.push_back(i);
            rank.push_back(1);
        }
    }
======================================================
	//查(路径压缩)
	int find(int x){
		return fa[x] == x ? x : (fa[x] = find(fa[x]));
	}
======================================================
	//并(按秩合并)
	void merge(int x, int y){
		int fx = find(x), fy = find(y);//先找各自根节点
		if(rank[fx] <= rank[fy]){//秩小的连在秩大的上
			fa[fx] = fy;
		}else{
			fa[fy] = fx;
		}
		//更新秩的大小
		if(rank[fx] == rank[fy] && fx != fy){
			rank[fy]++;//如果深度相同且根节点不同,则新的根节点的深度+1
		}
	}
};

相关实战例题 参见 此博客

你可能感兴趣的:(【算法与数据结构】,数据结构,图论,算法)