union-find算法是用来解决动态连通性问题的。
问题的输入是一列整数对。一个整数对可以被理解成这个整数对的两个整数相连。
eg:我们输入整数对 p,q,那么"p和q是相连的"。
相连:我们假设相连是一种对等的关系,就意味着它有
自反性:p和p是相连的
对称性:如果p和q相连,那么q和p也是相连的
传递性:如果p和q是相连的,q和r是相连的,那么p和r而是相连的
问题:我们已知一些整数对(即所有点的相连关系),那么如何得知某两个点是否相连?
大型网络中的计算机
是否其中的两台已经相互连接,还是需要架设新的连接来进行通讯?
社交网络中的人
两个人之间是否有潜在的朋友关系?
电路中的触点
两个触点是否彼此连通?
变量名的等价性:在某些编程环境中允许两个等价的变量名(指向同一个对象的多个引用)。在声明后,系统需要能判别两个变量名是否等价。(如FORTRAN语言)推动了如下我们要讲到的算法的发展。
从数学上的抽象讲,在处理一个输入的整数对p,q时,我们判断它们是否已经属于同一个集合,如果是则忽略,如果不是,我们将p所属的集合和q所属的集合归并成一个集合。
* 术语
对象(一个整数):触点
整数对: 连接
等价类:分量或连通分量
那么我们可以用0到N-1个整数表示N个触点
public class | UF | |
---|---|---|
UF(int N) | 用整数标识初始化N个触点 | |
void | union(int p,int q) | 在p和q中间添加一条连接 |
int | find(int p) | p所在分量的标识符(0到N-1) |
boolean | connected(int p,int q) | 如果p和q在同一个分量中则返回true |
int | count() | 连通分量的数量 |
从而:我们的任务转化为了实现此API即可。
实现此API:
1.定义一种数据结构表示已知的连接
API已经说明触点和分量都可以用int表示,所以我们可以使用id[]
2.基于此数据结构实现高效的union(),find(),connected()和count()方法
public class UF(){
public int id[];
public int count;
public void UF(int N){
id =new int[N];
count=N;
for(int i=0;i<N;i++){
id[i]=i;
}
}
public boolean connected(int p,int q){
return find(p)==find(q0);
}
public int count(){
return count;
}
public int find(int p)
public void union(int p,int q)
public static void main(String[] args){
int N=StdIn.readInt();
UF uf=new UF(N);
while(!StdIn.isEmpty()){
int p=StdIn.readInt();
int q=StdIn.readInt();
if(!uf.connected(p, q))
{
uf.union(p,q);
StdOut.println(p+""+q);
}
}
StdOut.println(uf.count()+"components");
}
}
至此,我们只需要实现核心的union和find方法即可。
在研究union-find算法时,我们统计的是数组的访问次数。
public int find(int q)
{
return id[q];}
public void union(int p, int q){
int pID=id[p];
int qID=id[q];
if(pID=qID) return;
for(int i=0;i<N;i++){
if(id[i]=pID) id[i]=qID;
}
count--;
}
复杂度计算:在union之前,使用了connect(从而调用了find()两次,进行两次数组访问),union中使用了find()两次,改变数组进行数组(访问数组N次),改变值(1至(N-1))个。所以每调用一次union访问了((N+3)至(2N+1))次数组假设最后剩余一个连通分量,那么至少union访问了数组(N+3)(N-1)次~N2次。所以在N变大时效率较低
这里我们使用一种加快union的算法,同时find变得复杂。
我们使用同样的数据结构id[]。索引代表触点,但值代表着和它是同一分量的其他触点。即形成树结构,union时只需把根节点的值改变。
public void union(int p, int q){
int rootq=find(q);
int rootp=find(p);
id[rootq]=id[rootp];
count--;
}
public int find(int p){
while(id[p]!=p){
p=id[p];
}
return p;
}
复杂度计算
find()需要访问的数组次数:1到2N,当最后的分量是1的时候,运行了union()方法N次。
即最好情况是线性复杂度,最坏时候是平方复杂度。可以看做是quick-find算法的一种改进。
再对此方法进行改进
我们的树高度是不平均的,才导致了从N~N2的效率。
代码如下
public class UF(){
public int id[];
public int size[]; //新加入的代码,表示每个分量的节点数
public int count;
public void UF(int N){
id =new int[N];
count=N;
for(int i=0;i<N;i++){
id[i]=i;
}
size =new int[N];
for(int i=0;i<N;i++){
size[i]=1;
}
}
public boolean connected(int p,int q){
return find(p)==find(q);
}
public int count(){
return count;
}
public void union(int p, int q){
int rootq=find(q);
int rootp=find(p);
if(rootq<rootp){
//每次将把小树放到大树上以减小树高以提高find()的效率(logN)
id[rootq]=id[rootp];
size[rootq]+=size[rootp];}
else{
id[rootp]=id[rootq];
size[rootp]+=size[rootq];}
count--;
}
public int find(int p){
while(id[p]!=p){
p=id[p];
}
return p;
}
public static void main(String[] args){
int N=StdIn.readInt();
UF uf=new UF(N);
while(!StdIn.isEmpty()){
int p=StdIn.readInt();
int q=StdIn.readInt();
if(!uf.connected(p, q))
{
uf.union(p,q);
StdOut.println(p+""+q);
}
}
StdOut.println(uf.count()+"components");
}
}
即在find()中加入一个循环,使得树扁平化,然而也并非所有时候都可以保证时间是线性的。
public int find(int p){
int a=p;
while(id[p]!=p){
p=id[p];
}
while(id[a]!=p){
//新加入的循环,把每个在这条路径的节点都移动到根节点
a=id[a];
id[a]=p;
}
return p;
}
我们解决问题的时候
引用:Sedgewick, R. (2003). Algorithmen. München: Addison-Wesley.