这篇文章讲无权二分图(unweighted bipartite graph)的最大匹配(maximum matching)和完美匹配(perfect matching),以及用于求解匹配的匈牙利算法(Hungarian Algorithm)。不讲带权二分图的最佳匹配。
二分图:简单来说,假设图中点能够被分为两组,而且使得全部边都跨越组的边界,则这就是一个二分图。准确地说:把一个图的顶点划分为两个不相交集
匹配:在图论中,一个「匹配」(matching)是一个边的集合。当中随意两条边都没有公共顶点。
比如,图 3、图 4 中红色的边就是图 2 的匹配。
我们定义匹配点、匹配边、未匹配点、非匹配边。它们的含义很显然。比如图 3 中 1、4、5、7 为匹配点,其它顶点为未匹配点;1-5、4-7为匹配边。其它边为非匹配边。
最大匹配:一个图全部匹配中,所含匹配边数最多的匹配。称为这个图的最大匹配。
图 4 是一个最大匹配。它包括 4 条匹配边。
完美匹配:假设一个图的某个匹配中,全部的顶点都是匹配点,那么它就是一个完美匹配。图 4 是一个完美匹配。
显然,完美匹配一定是最大匹配(完美匹配的不论什么一个点都已经匹配,加入一条新的匹配边一定会与已有的匹配边冲突)。但并不是每一个图都存在完美匹配。
举例来说:例如以下图所看到的,假设在某一对男孩和女孩之间存在相连的边,就意味着他们彼此喜欢。
是否可能让全部男孩和女孩两两配对,使得每对儿都互相喜欢呢?图论中,这就是完美匹配问题。假设换一个说法:最多有多少互相喜欢的男孩/女孩能够配对儿?这就是最大匹配问题。
基本概念讲完了。求解最大匹配问题的一个算法是匈牙利算法。以下讲的概念都为这个算法服务。
交替路:从一个未匹配点出发,依次经过非匹配边、匹配边、非匹配边...形成的路径叫交替路。
增广路:从一个未匹配点出发,走交替路,假设途径还有一个未匹配点(出发的点不算)。则这条交替路称为增广路(agumenting path)。比如,图 5 中的一条增广路如图 6 所看到的(图中的匹配点均用红色标出):
增广路有一个重要特点:非匹配边比匹配边多一条。因此。研究增广路的意义是改进匹配。仅仅要把增广路中的匹配边和非匹配边的身份交换就可以。因为中间的匹配节点不存在其它相连的匹配边,所以这样做不会破坏匹配的性质。
交换后,图中的匹配边数目比原来多了 1 条。
我们能够通过不停地找增广路来添加匹配中的匹配边和匹配点。
找不到增广路时,达到最大匹配(这是增广路定理)。
匈牙利算法正是这么做的。
在给出匈牙利算法 DFS 和 BFS 版本号的代码之前,先讲一下匈牙利树。
匈牙利树一般由 BFS 构造(类似于 BFS 树)。从一个未匹配点出发执行 BFS(唯一的限制是,必须走交替路)。直到不能再扩展为止。
比如。由图 7,能够得到如图 8 的一棵 BFS 树:
这棵树存在一个叶子节点为非匹配点(7 号),可是匈牙利树要求全部叶子节点均为匹配点,因此这不是一棵匈牙利树。
假设原图中根本不含 7 号节点,那么从 2 号节点出发就会得到一棵匈牙利树。这样的情况如图 9 所看到的(顺便说一句,图 8 中根节点 2 到非匹配叶子节点 7 显然是一条增广路,沿这条增广路扩充后将得到一个完美匹配)。
以下给出匈牙利算法的 DFS 和 BFS 版本号的代码:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
|
// 顶点、边的编号均从 0 開始
// 邻接表储存
struct
Edge
{
int
from
;
int
to
;
int
weight
;
Edge
(
int
f
,
int
t
,
int
w
)
:
from
(
f
)
,
to
(
t
)
,
weight
(
w
)
{
}
}
;
vector
<
int
>
G
[
__maxNodes
]
;
/* G[i] 存储顶点 i 出发的边的编号 */
vector
<
Edge
>
edges
;
typedef
vector
<
int
>
::
iterator
iterator_t
;
int
num_nodes
;
int
num_left
;
int
num_right
;
int
num_edges
;
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
|
int
matching
[
__maxNodes
]
;
/* 存储求解结果 */
int
check
[
__maxNodes
]
;
bool
dfs
(
int
u
)
{
for
(
iterator_t
i
=
G
[
u
]
.
begin
(
)
;
i
!=
G
[
u
]
.
end
(
)
;
++
i
)
{
// 对 u 的每一个邻接点
int
v
=
edges
[
*
i
]
.
to
;
if
(
!
check
[
v
]
)
{
// 要求不在交替路中
check
[
v
]
=
true
;
// 放入交替路
if
(
matching
[
v
]
==
-
1
||
dfs
(
matching
[
v
]
)
)
{
// 假设是未盖点,说明交替路为增广路,则交换路径,并返回成功
matching
[
v
]
=
u
;
matching
[
u
]
=
v
;
return
true
;
}
}
}
return
false
;
// 不存在增广路,返回失败
}
int
hungarian
(
)
{
int
ans
=
0
;
memset
(
matching
,
-
1
,
sizeof
(
matching
)
)
;
for
(
int
u
=
0
;
u
<
num_left
;
++
u
)
{
if
(
matching
[
u
]
==
-
1
)
{
memset
(
check
,
0
,
sizeof
(
check
)
)
;
if
(
dfs
(
u
)
)
++
ans
;
}
}
return
ans
;
}
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
|
queue
<
int
>
Q
;
int
prev
[
__maxNodes
]
;
int
Hungarian
(
)
{
int
ans
=
0
;
memset
(
matching
,
-
1
,
sizeof
(
matching
)
)
;
memset
(
check
,
-
1
,
sizeof
(
check
)
)
;
for
(
int
i
=
0
;
i
<
num_left
;
++
i
)
{
if
(
matching
[
i
]
==
-
1
)
{
while
(
!
Q
.
empty
(
)
)
Q
.
pop
(
)
;
Q
.
push
(
i
)
;
prev
[
i
]
=
-
1
;
// 设 i 为路径起点
bool
flag
=
false
;
// 尚未找到增广路
while
(
!
Q
.
empty
(
)
&&
!
flag
)
{
int
u
=
Q
.
front
(
)
;
for
(
iterator_t
ix
=
G
[
u
]
.
begin
(
)
;
ix
!=
G
[
u
]
.
end
(
)
&&
!
flag
;
++
ix
)
{
int
v
=
edges
[
*
ix
]
.
to
;
if
(
check
[
v
]
!=
i
)
{
check
[
v
]
=
i
;
Q
.
push
(
matching
[
v
]
)
;
if
(
matching
[
v
]
>=
0
)
{
// 此点为匹配点
prev
[
matching
[
v
]
]
=
u
;
}
else
{
// 找到未匹配点,交替路变为增广路
flag
=
true
;
int
d
=
u
,
e
=
v
;
while
(
d
!=
-
1
)
{
int
t
=
matching
[
d
]
;
matching
[
d
]
=
e
;
matching
[
e
]
=
d
;
d
=
prev
[
d
]
;
e
=
t
;
}
}
}
}
Q
.
pop
(
)
;
}
if
(
matching
[
i
]
!=
-
1
)
++
ans
;
}
}
return
ans
;
}
|
匈牙利算法的要点例如以下
- 从左边第 1 个顶点開始。挑选未匹配点进行搜索,寻找增广路。
- 假设经过一个未匹配点,说明寻找成功。更新路径信息,匹配边数 +1。停止搜索。
- 假设一直没有找到增广路。则不再从这个点開始搜索。
其实,此时搜索后会形成一棵匈牙利树。我们能够永久性地把它从图中删去。而不影响结果。
- 因为找到增广路之后须要沿着路径更新匹配,所以我们须要一个结构来记录路径上的点。DFS 版本号通过函数调用隐式地使用一个栈,而 BFS 版本号使用
prev
数组。
性能比較
两个版本号的时间复杂度均为
我測试了两种算法的性能。
对于稀疏图,BFS 版本号明显快于 DFS 版本号。而对于稠密图两者则不相上下。在全然随机数据 9000 个顶点 4,0000 条边时前者率先后者大约 97.6%,9000 个顶点 100,0000 条边时前者率先后者 8.6%, 而达到 500,0000 条边时 BFS 仅率先 0.85%。
补充定义和定理:
最大匹配数:最大匹配的匹配边的数目
最小点覆盖数:选取最少的点,使随意一条边至少有一个端点被选择
最大独立数:选取最多的点,使随意所选两点均不相连
最小路径覆盖数:对于一个 DAG(有向无环图),选取最少条路径,使得每一个顶点属于且仅属于一条路径。路径长能够为 0(即单个点)。
定理1:最大匹配数 = 最小点覆盖数(这是 Konig 定理)
定理2:最大匹配数 = 最大独立数
定理3:最小路径覆盖数 = 顶点数 - 最大匹配数