图挖掘的基本概述 以后写文献综述

图挖掘基本概念
近年来,图挖掘作为,数据挖掘的重要组成部分引起了社会各界的极大关注。图挖掘(Graph Mining)是指利用图模型从海量数据中发现和提起有用知识和信息的过程。通过图挖掘所获取的知识和信息已广泛应用于各种领域,如商务管理、市场分析、生产控制、科学探索和工程设计;

关于图编辑距离GED的总结,来源于A Partition-Based Approach to Structure Search 2013文后的总结:

在讨论图相似度时,我们经常用最大公共子图(MCS)[25]来进行测量。【25】中基于标签图定义了所谓的“图距离”:
在这里插入图片描述
这种测度防止那些在顶点个数上太大或者太小的图成为候选图,类似于图编辑距离的下界GED>=俩个图顶点的差绝对值+俩个图边的差的绝对值。但是,这种测度在现实中很难应用

通过下面的例子,来理解为什么GED比最大公共子图的测定的相似度更加准确。
图挖掘的基本概述 以后写文献综述_第1张图片
上图中左边俩个图作为数据图g1 g2,右边的图作为查询图q.根据公共子图,DIST(g1,q)=8+8-26=4,DIST(g2,q)=8+8-26=4,因此g1和g2到q的距离是相等的。但是,从直观上看并不是这样,因为公共子图的测度并没有考虑到基于公共子图的结构的差异。也就是说,如示例所示,所谓的图形距离无法区分差异程度。相反的是,图编辑距离能够捕捉到这种不同。GED(g1,q)=2,GED(g2,q)=5.因此,GED具有比上述图距离更加丰富的语义来进行图的相似度搜索。即,通过公共子图的测度,左边俩个图和右边的图到右边图的距离相等,是相似的;而GED可以测出这种不相似之处。

在最大公共子图MCS的基础上,提出了边放松距离edge relaxiation distance[7 12 14 17],
在这里插入图片描述
边放松距离这个定义有个缺点:仅仅从查询图的角度参考,没有考虑到数据图。解释如下:

下面考虑到下面的情形:一个查询图q,一个比q大很多的数据图g,并且MCS(g,q)=q.可以很直接地根据上述公式验证DIST(q,g)=|Eq|-|Eq|=0.从这个角度来讲,因为俩个图之间的距离仅仅是0,即使不是完全相同,那么也是非常相似的。但是,这个解释不正确,因为g是比q大很多的图。因此,边的放松距离不能作为一个好的测度。即,边放松距离完全忽略了数据图的各种信息,只考虑了查询图的信息。

还有一种测度叫做基于最大联通公共子图(MCCS)度量方法。
图挖掘的基本概述 以后写文献综述_第2张图片
上面俩种分子的结构相似,功能也相似[22]。如果使用基于MCCS的最大联通公共子图的方法,计算结果为DIST(g1,g2)=14-6,但是使用图编辑距离GED(g1,g2)=1(O变为S)

另外还有一种度量方案:边的编辑距离。它定义为将g转变为q所添加的最小边的数量。它是让图编辑距离GED有更加严格的限制。在匹配图时候,只有俩个图之间顶点完全匹配时才可以用这种测量。因此,那些没有完全相同顶点的标签的图就被丢弃了。很显然,这个定义的条件太苛刻。它的语义也没有GED丰富。

总结:
我们注意到,GED是具有优雅属性的最通用度量之一,可以将其应用于任何类型的图,以精确捕获顶点和边缘上的结构差异。 GED可用于纠错图形匹配,尤其是在模式分析中。GED和其他的度量标准相比,可以表示丰富的语义(结构相似),感知整体结构的大小。
图挖掘的基本概述 以后写文献综述_第3张图片
化学数据被用来举例说明本文中的思想,并证明我们解决方案的有效性。我们在图C.3中提供了另一个示例,以展示基于GED的相似性度量在识别化学异构体中的有用性。三嗪的分子式为C3H3N3,存在三个异构体,C和N原子位于不同的位置。基于GED的相似性度量可以轻松发现异构体之间的这种重要关系,尽管这些异构体的合成不是通过直接的相互转化,即将C更新为N,反之亦然。相反,这些异构体只共享一小部分共同的子图,因此很难基于MCCS的相似性

你可能感兴趣的:(论文阅读)