RunningBComeOn

利用公共子图同构计算图编辑距离相似度（CSI_GED:An Efficient Approach for Graph Edit Similarity Computation ICDE2016）

文章介绍：

文章标题：CSI_GED:An Efficient Approach for Graph Edit Similarity Computation
文章来源：ICDE 2016
作者单位：
单位：埃及-本哈大学计算机与信息学院
作者：卡拉姆·古达(经常研究图相似度搜索)
原文链接
百度文库链接

图1

文章目录

- 摘要
- 第一节介绍
- 第二节前言
- - A.问题定义
  - 定义1：（子）图同构
  - 定义2：图形编辑距离
  - 定义3：(最大)公共子结构
  - 例1：
  - B. GED计算：A *方法
- 第三节 CSI_GED：使用公共子图同构计算图编辑距离
- - 定义4: 顶点映射的保留边
  - 例2：
  - 定理1：映射 $f$ 的的编辑成本 $g (f)$
  - 例3：
  - 定理2：（完整性）
  - A. 枚举公共子图同构
  - 引理1：
  - 定理3：CSI_GED的搜索空间
  - 例4：
- 第四节优化CSI_GED
- - 定义5：边匹配成本
  - A.给目标边排序
  - 定义6：星图 (这边不想看了，好恶心啊！)
  - 定义7：星边匹配费用
  - 定义8：余星图
  - 例5：
  - B.最大化初始公共子图同构（CSI）成本
  - 定理4：扩展 $f$ 删除源边成本
  - C.基于预测（look-ahead）的修剪
  - 定义9：子图的内部和外部邻居
  - 定理5：
  - 例6：
- 第五节应用：图编辑距离相似度搜索问题（GESS）20191115
- 第六节实验结果
- - 基准数据集:
  - 1）[艾滋病数据](https://dtp.cancer.gov/docs/aids/aidsdata.html)
  - 2）[Linux (好像不能访问了https://www.comp.nus.edu.sg/%E2%88%BCxiaoli10/data/segos/linux%20segos.zip)](https://www.comp.nus.edu.sg/%E2%88%BCxiaoli10/data/segos/linux%20segos.zip)
  - 3）[Pubchem](http://pubchem.ncbi.nlm.nih.gov)
  - 4）[蛋白质](http://www.fki.inf.unibe.ch/databases/iam-graph-database/%20download-theiam-graph-database)
  - 5）[合成的 10](https://www.cse.ust.hk/graphgen/)
  - 查询集
  - A.根据图顺序图序（图的顶点大小）进行评估
  - B.启发式算法的影响
  - C.使用CSI_GED进行图相似度搜索的的比对
  - D.评估可伸缩性
- 第七节相关工作
- 第八节总结
文章总结
- 1. 解决问题
- 2. 解决方法
- 3. 文章工作不足、缺点

利用公共子图同构计算图编辑距离相似度（CSI_GED:An Efficient Approach for Graph Edit Similarity Computation ICDE2016）_第1张图片

摘要

图相似度是许多应用程序中的基本操作。在本文中，我们主要讨论基于编辑距离的图相似度计算。现有的图编辑距离计算方法采用最佳优先的A * 搜索算法。这些方法受时间和空间限制。实际上，A* 算法只可以计算最多包含12个顶点的图的编辑距离。为了在较大和较远的图上实现图编辑相似性计算，我们提出了CSI_GED，这是一种新颖的基于边的映射方法，用于通过常见子结构同构枚举来计算图编辑距离。CSI_GED将回溯搜索与许多启发式技术结合使用，以减少内存需求并快速减少大部分映射搜索空间。实验表明，CSI_GED在计算小图，大图和编辑距离比较远的图上的编辑距离都非常有效。此外，我们将CSI_GED评估为独立的图编辑相似性搜索查询方法。实验表明，CSI_GED是有效且可扩展的，并且比基于最新索引的方法要高出两个数量级。

原文链接

文章简介

发表于：2016 IEEE第32届国际数据工程会议（ICDE）

第一节介绍

当前，大规模图形数据在诸如模式识别，生物信息学，化学信息学，社交网络，语义网，软件工程等领域中很普遍。由于图形模型的广泛应用，最近已经投入了大量的研究工作。在管理和分析图形数据时遇到的各种问题。
计算图形对象的相似度是许多应用中的基本且必不可少的操作，包括图形分类和聚类[1]，[2]，化学中的分子比较[3]，计算机视觉中的对象识别[4]，图形相似性搜索和连接[5] – [6] [7] [8]等等。在本文中，我们讨论基于编辑距离的图相似度计算。与其他距离或相似性度量相比，图形编辑距离（GED）作为相似性度量更为可取，因为它具有公共性和广泛的适用性。它几乎适用于所有类型的数据图，其节点和边的标签字母不受限制，并且可以精确捕获结构差异。更有趣的是，随附的编辑序列为编辑距离值提供了解释，这对用户来说是非常有价值的功能。

不幸的是，图编辑距离的吸引人的特性是以高计算复杂性为代价的。计算图形编辑距离已知是NP难题[6]。与其他难以解决的图匹配问题（例如，子图同构和最大公共子图同构）不同，为了计算图编辑距离，一个图的顶点可以映射到另一图的任何顶点，而不管它们的标签和度数如何。因此，搜索空间相对于所涉及图的顶点数是指数的。

为解决图形编辑距离计算的高复杂性，目前(2016年)仅进行了很少的工作。大多数现有方法[9] – [10] [11] [12] 都采用最有限搜索策略A∗ 。A∗基本思想就是要找到从一个图的顶点到另一个图的顶点的映射，这会推算出最低的编辑成本。为了达到目标，A∗使用诸如遍历有序树一样的方法探索潜在的顶点映射空间，其中中间树节点代表局部（partial）映射，叶节点代表完整（complete）映射。在每一次的搜索状态下，A* 选择最佳的局部映射进行扩展，在这些拓展的时候，这些映射是当前具有最小induced编辑成本。继续此过程，直到选定的映射是一个完整的。

A* 算法的方法主要问题是，局部映射的数量变得非常大，尤其是在比较大图和编辑距离比较远的图时。这些映射大多数都不能丢弃，必须一直维护到搜索的最后阶段，结果需要巨大的内存。另一个瓶颈是选择最小成本的局部映射以及为每个可能的映射扩展更新该成本所需的昂贵计算。内存和计算开销使A*算法的方法无法计算具有12个以上顶点的图形的编辑距离。实际上，较大的图并不少见。考虑例如药物开发领域。为了研究新化合物的性质，药物设计人员首先向化合物数据库查询与新化合物具有相似性编辑阈值的那些化合物。此步骤称为化合物筛选[13]，因为相似的化合物可能具有相似的生物活性，因此可以帮助药物设计者初步了解化合物。化学化合物数据库包含的图的平均顺序（average order）至少是A ∗可以处理的顺序的两倍。

在本文中，我们提出了一种用于图编辑距离计算的新颖方法，称为CSI_GED，它可以最小化内存需求，并缩放到更大和更远的图。CSI_GED使用完全不同的方法来获取编辑距离。CSI_GED会先映射边，然后再直接从其最终顶点上计算编辑成本，而不是先映射顶点，然后再推断出边的编辑成本。虽然边的映射空间看起来相对较大，但是也只有在其组成顶点与先前匹配的顶点一致时才允许边匹配，这种匹配方法称为公共子结构同构限制。这种限制大大减少了搜索空间。此外，计算部分边映射所推断出的编辑距离很容易计算，因为它是直接从导出的公共子结构中计算出来的。相反， A* 的方法相当昂贵，因为针对每个可能的映射扩展倒要在单独的阶段中完成。

CSI_GED利用回溯来探索边映射空间。最重要的好处是，对A* 算法是一个很重的负担的内存开销，将会被大大减小，因为 A* 使用深度优先，枚举了边的映射。此外，CSI_GED的框架允许实施多种启发式方法，以快速修剪掉大部分毫无希望的公共子结构同构。这些启发式方法是基于以下事实而开发的：先前已经探索完图的编辑成本是图编辑距离上的有效上限（即到目前为止在搜索中看到的）。因此，这些启发式方法的主要目标是强制执行搜索状态，这些状态相应的编辑成本超过了要先前遇到的最小上限值。¹

因此节省了很大的空间。为了实现这一目标，第一个启发式方法是能够快速找到更严格的上界，而第二个最大化分配给每个映射的初始成本。文章最后的启发式搜索实现了搜索的预测(look-head)功能。

实验表明，CSI_GED在计算小图，大图和编辑距离比较远的图上的编辑距离都非常有效。此外，我们将CSI_GED评估为独立²

的图编辑相似性搜索查询方法。实验表明，CSI_GED是有效且可扩展的，并且比基于最新索引的方法要高出两个数量级。

本文的其余部分安排如下。

在第2部分介绍图编辑相似度计算和最新针对此问题的方法。
第3部分介绍了CSI_GED的框架及其构建的原因。
第4节提出了用于优化CSI_GED不同试探法。
在第5节CSI_GED在图形编辑相似性搜索问题的应用。
在第6节分析实验结果报告。
第7节讨论了相关工作。
第8节总结全文。

第二节前言

A.问题定义

图 G 被定义为点对 $(V, E)$ 的集合，其中 $V=\{v_1,v_2,v_3,...,v_{|V|}\}$ 是一组顶点，并且 $E \subseteq V \times V$ 是一组边（有向或无向）。 $∣ V ∣$ 和 $∣ E ∣$ 是G顶点和边的数量，以及同时分别称为G的顺序（order）和大小(size)。给定一组离散值标签Σ，带标签的图 G 是三元组 $（ V ， E ， l ）$ ，期中 $l$ 是标签函数：V∪ E→ Σ。让 $L_V$ 和 $L_E$ 表示分配给G的顶点和边的标签。本文着重于研究简单（无自环，无重复边），无向和标记图。在下面的描述中，标记图G的未标记版本，即G的结构，称为 $S (G)$ ，除非另有说明，否则带标签的图简称为图。
如果图 $G$ 和另外一个图 $G^{'}$ 存在包含关系，用 $G\sqsubseteq G^{'}$ 表示，则称图 $G$ 是图 $G^{'}$ 的子图，或者图 $G^{'}$ 是图 $G$ 的超图。

定义1：（子）图同构

如果俩个图 $G$ 和 $G^{'}$ 之间存在以下条件，则称俩个图是同构的：存在一个单射函数 $f$ ，

使得

(1){\forall}_{u\in V},l(u)=l^{'}(f(u))

(2){\forall}_{(u,v)\in E},(f(u,v)\in E^{'}),且l((u,v))=l^{'}((f(u),f(v)).

如果 $G\sqsubseteq{G^{'}},并且G^{'}\sqsubseteq{G}$ ，则俩个图是同构的，用 $G≅G^{'}$ 表示。
图编辑操作[14]是对图进行的将其转换为另一图的操作。编辑操作包括插入或删除顶点或边，或更改顶点或边标签（称为重新标记）。给定两个图形 $G_1$ 和 $G_2$ ，对其中一个进行操作以获取另一个的顺序称为编辑路径。如果用数学记号则表示如下，令 $p_i$ 为编辑操作，编辑路径 $=⟨p_i⟩^{k}_{i= 1}$ 是将 $G_1$ 转换为 $G_2$ 的一系列编辑操作 $p_1，p_2，…，p_k⟩$ ，即 $P(G_1)= G_1 →^{p_1} G^1→^{p_2}G^{2}…→^{p_k} G^k≅G_2$ 。使用 $P$ 将 $G_1$ 转换为 $G_2$ 的编辑成本定义为： $C(G^1，G^2，P)= \sum ^{k}_{ i = 1}c(p_i)$ ，其中 $c(p_i）$ 是单个编辑操作 $p_i$ 的成本。取每个编辑操作的单位成本，即 $c(p_i)= 1$ ， $\forall i$ ，最小长度的编辑路径称为最佳编辑路径。

定义2：图形编辑距离

给定两个图 $G_1$ 和 $G_2$ 。 $G_1$ 和 $G_2$ 之间的编辑距离，表示为 $GED(G_1，G_2)$ ，是将 $G_1$ 转换为 $G_2$ 的最佳编辑路径的长度。

以下是GED的两个简单但有效的下限，我们将在本文中使用它们。它们被称为全局（标签）边界。第一个是根据比较图的大小(顶点个数)和顺序（边个数）的差异得出的，由[6]给出为：
$GED（G_1，G_2）≥∥V_1| − |V_2∥+∥E_1| − |E_2∥。（1）$
第二个边界通过考虑标签和结构信息来改进前一个边界，由[8]，[12]给出为：
$GED（G_1，G_2）≥\Gamma（L_{V_1}，L_{V_2}+Γ（L_{E_1}，L_{E_2}），（2）$
其中对于任何X和Y， $\Gamma {(X，Y）}= max（| X |，| Y |）-|X∩Y|）$ 。

定义3：(最大)公共子结构

给定两个图 $G_1$ 和 $G_2$ 。如果 $H_1⊆G_1$ 和 $H_2⊆G_2$ 使得 $G≅S（H_1）≅S（H_2）$ ，则未标记图 $G = （ V ， E ）$ 被认为是 $G_1$ 和 $G_2$ 的共同子结构。如果不存在其他公共子结构 $G^{'} = （ V^{'} ， E^{'} ）$ 使得 $∣ E^{'} ∣ > ∣ E ∣$ （同理顶点也是），则公共子结构 $G$ 是最大公共边（顶点）子结构。 (即 $∣ V^{'} ∣ > ∣ V ∣$ ）。

上图是两个比较图 $G_1$ 和 $G_2$ 的例子。边上的数字是它们的id，每个边 $e_k$ 定义为： $e_k =（u_i，u_j）$ 或 $e_k =（v_i，v_j），i ek=（vi，vj），i<j$

例1：

图1显示了两个比较图 $G_1$ 和 $G_2$ . $GED（G_1，G_2）= 2$ ，因为可以用最少的两个编辑操作将 $G_1$ 转换为 $G_2$ ，
如下所示：边 $u_1，u_2）$ 的删除操作和插入标签为 $b$ 的新边 $u_1，u_4）$ 的边。根据公式2，值 $Γ（L_{V_1}，L_{V_2}+Γ（L_{E_1}，L_{E_2}）= [4-（| \{C，B，B，B\}∩\{C，B，B，B\} |）] + [ 4−（| \{a，a，b，b\}∩\{a，b，b，b\} |）] = [4-4] + [4-3] = 1$ 是 $GED（G_1 ，G_2）$ 全局标签下界. $S（G_1）$ 是边和顶点的最大公共子结构，因为它具有4个边和4个顶点。

计算图编辑距离是NP难题[6]。为解决图编辑距离计算的高复杂性，目前仅进行了很少的工作。接下来，我们概述最新的GED计算方法，并强调它们的局限性。下文中，将比较图 $G_1$ 和 $G_2$ 称为源图和目标图。它们的边（顶点）分别称为源边缘和目标边（顶点）。

B. GED计算：A *方法

基于A * 算法的方法是图编辑距离计算的最新方法，它以最佳优先方式探索源图和目标图之间所有可能的一对一顶点映射9 – [10] [11] [12]。 A * 维护一组局部顶点映射及其诱导的编辑成本。在每个搜索状态下，它都会以最小的诱发编辑代价来扩展部分映射，以进行扩展，其中未映射的目标顶点以及空顶点（带有特殊标签的虚拟顶点）可能是扩展的候选对象。为了将选择过程引导到最有希望的局部映射，然后完善与每个局部映射相关的编辑成本，以包括对其余部分（两个图的未映射边和顶点）的编辑距离的启发式估计。 A * 保证，如果启发式估计值是其余部分的编辑距离的下限，则选取的第一个完整映射是最佳的。如果源顶点和目标顶点都出现在该映射中，则该顶点映射已完成，否则为部分映射。在搜索结束并且有一些未映射目标顶点的情况下，为了完成映射，将在源图中对每个未映射目标顶点执行顶点插入。.

从数学形式上来表示，给出源图和目标图 $G_1= （V_1，E_1，l_ 1）$ 和 $G_2= （V_2，E_2，l_2）$ 。让源顶点按 $u_1，u_ 2，… ）$ 顺序处理， $f(V_1）= \{{ f（u_1），… ，f （u_{i − 1）}}\}$ 是要扩展的局部映射，并且 $c (f)$ 表示其相关的编辑成本。成本 $c (f)$ 定义为： $c (f) = g （ f ） + h (f)$ ，其中 $c (f)$ 代表对映射顶点及其隐含边编辑操作的推断出来的编辑成本， $h (f)$ 是剩余部分的编辑成本的下限。局部映射 $f$ 遍历搜索空间时，一次扩展一项。对于新扩展的每个可能值 $f(u_i)$ ，即来自值 $V_2/{f(|V_1|})）∪ \{ v^n\}$ ，其中 $v^n$ 是空顶点， $l_2(v^n)\notin\sum{}$ .构造出的新的局部映射 $f （V_1）=\{ { f（u_1），… ，f （u_{i − 1}），f （u_i ）}\}$ 以及 $c (f)$ 的计算（见下文）。如果size 为 $V_1|$ 的映射 $f$ 有一些未映射的目标顶点，为了完成映射，在源图中为每个未映射的目标顶点插入一个顶点，并且 $g (f)$ 修改为包括插入的顶点的成本及其隐含的边编辑操作。

上图解释了A*算法映射新的顶点成本更新

算法Update_PED（图2）根据最近的扩展 $f(u_i)$ 更新 $g (f)$ 。首先评估最近映射的顶点的编辑成本 $f(u_i)$ （第1–2行），然后接下来的算法评估其隐含的边（第3–10行）的成本。
隐式边(由于映射顶点 $f(u_i)$ 可能产生的边，这条边可能在图中，也可能不在)编辑操作的计算公式为：入射到 $u_i$ 的边，这条边和其他顶点已经匹配就把这条边删除。也就是说，如果 $（f(u_j,f(u_i))，j（f(uj,f(ui))，j<i$

基于A*方法的方法面临许多问题。

首先，局部映射的数量变得非常大，尤其是在比较大型图时。这些映射大多数都不能丢弃，必须一直维护到搜索的最后阶段。发生这种情况是因为当前的unpromising的局部映射（即编辑成本较高的映射）有机会在搜索的高级阶段进行扩展。结果，需要巨大的内存。

第二，寻找最小成本的局部映射来扩展是昂贵的。如果使用优先级队列，此操作需要空间复杂度 $O (l o g n)$ ，其中 $n$ 是保留的部分映射的数量。
因此，主要的挑战是当比较图较大且编辑距离较远时的图。比较图越大越远的图，需要维护和处理的局部映射的数量越大。最后，更新相关局部映射 $f$ 的编辑费用 $c (f)$ 计算上比较昂贵，并且必须在单独的阶段针对每个可能的映射完成扩展。

显然，此类问题严重阻碍了 A* 算法在实际应用程序中使用。为了解决这些问题，在本文中，我们提出了一种用于图编辑距离计算的新颖方法，称为CSI_GED，该方法可将内存需求降至最低，并缩放到较大和较远的图。接下来，我们介绍新方法的工作原理。

第三节 CSI_GED：使用公共子图同构计算图编辑距离

在开发有效的GED计算算法时，应考虑两个主要问题。

第一个是找到一种方法来利用在每个搜索状态下计算的部分编辑成本，

第二个是开发一种遍历技术，该技术可以继续搜索而不依赖于部分映射的全部信息。换句话说，确定最佳编辑路径必须尽可能避免A *方法的问题，以便缩放到大而远的图。

下面，我们将GED计算问题与比较图中枚举所有常见子结构的问题联系起来。
给定两个图 $G_1 =（V_1，E_1，l_1）$ 和 $G_2 =（V_2，E_2，l_2）$ ，我们接下来定义任何顶点映射 $f$ 下的保留边。

定义4: 顶点映射的保留边

给定一个顶点映射 $f：V_1→V_2∪{v^n}$ 。如果 $f（u），f（u'））∈E_2$ ，则未标记的源边 $u，u'）∈E_1$ 被称为在 $f$ 下保留。如果 $u，u'）∈E_1$ ，且 $v = f （ u ）和 v^{'} = f （ u^{'} ）$ ，则未标记的目标边 $v，v'）∈E_2$ 被称为 $f$ 下的保留边。

令 $E⊆E_1$ 和 $E'⊆E_2$ 表示顶点映射 $f$ 下保留的源边和目标边的集合。考虑与保留边相关的两组顶点，即 $V =⋃_{（u，u'）∈E }\{u，u'\}$ 和 $V'=⋃_{（v，v'）∈E'}\{v，v'\}$ ，称为保留的源顶点和目标顶点。显然，两个图 $G = （ V ， E ）$ 和 $G^{'} = （ V^{'} ， E^{'} ）$ 具有相同的结构。因此，由 $f$ 的未标记保留边 $E$ 及其相关的未标记顶点 $V$ 组成的未标记图 $G = （ V ， E ）$ 是由 $f$ 诱导的 $G_1$ 和 $G_2$ 的常见子结构。公共子结构G可以断开连接，即确定它不是唯一的。

例2：

考虑比较图1中 $G_1$ 和 $G_2$ 。定义三个映射
$f_1,f_2,f_3：V_1→ V_2∪ { V^{null}}，$
$f_1(V_1) = \{ v_1，v_ 2，v_ 3，v _4\} ，$
$f_2（V_1）= \{ v_1，v_ 3，v_ 4，v_ 2\}$
$f_3（V_1）= \{ v^{(null)}，v_4，v_3，v_2\}$ 。图3显示了映射 $f_3$ 。图中保留边由粗体曲线显示。虚线曲线表示未保留的。通过其保留的边及其关联的顶点，因此可以给出 $f_3$ 公共子结构，即 $G^{'''}= （{ u_2，u_ 3，u_ 4)} ，{ （u_2，u_ 3），（u_2，u_ 4），（u_3，u_ 4）} ）$ 。同时 $f_1$ 和 $f_2$ 的公共子结构也给出为 $G^{′}= S（G_1）$ 和 $G^{''}= G^{'''}$ 。 $G^{′}$ 因为它有4个边和4个顶点，所以它边和结点有最大值。

定理1：映射 $f$ 的的编辑成本 $g (f)$

给定两个图 $G_1= （V_1，E _1，l_ 1）$ 和 $G_2= （V_2，E_ 2，l _2）$ 和一个顶点映射 $f：V_1→ V_2∪ { V^{(null)}}$ 。让 $G = （ V ， E ）$ 是图 $G_1$ 和 $G_2$ 的公共子结构， $G$ 是由 $f$ 推断出的。假设 $G^{(l_1)}$ 和 $G^{（l_2）}$ 是公共子结构图 $G$ 的对应的 $G_1,G_2$ 的子图。 $G^{(l_1)}$ 和 $G^{（l_2）}$ 是通过重新覆盖标签得到的。映射 $f$ 的的编辑成本 $g (f)$ 如下定义：
$c（G^{(l_1)}，G^{（l_2）}）+ | V_2∖ f（V_1）| + λ + ∑^{2}_{i=1}（| E_i| - | E| ）（3）$
$c_f（G^{(l_1)}，G^{（l_2）}）$ 是公共子结构编辑成本， $V_2∖ f（V_1）|$ 是一组未匹配的目标顶点的集合，并且 $λ = Γ (L_{（V_1∖ V）}，L _{（f（V_1）∖ V)})$ 。

证明：
映射 $f$ 产生一个转变 $G_1$ 个进入 $G_2$ 编辑路径 $P$ 。操作 $P$ 可以分为三组编辑操作：边删除组 $D$ ，顶点/者边插入组 $I$ 和顶点/边重新标记组 $R$ 。
删除组 $D$ 包括删除所有未保留的源边。这些边在目标图中没有对应部分。有 $E_1| -| E|$ 条这样的边。
插入组 $I$ 包括在源图中将对应于不匹配目标顶点的顶点插入，即插入 $V_2∖f（V_1）|$ 个顶点。它还包含将边插入到源图中，对应于未保留的目标边，即插入 $E_2 |-| E |$ 条边缘。
重新标记操作组 $R$ 包括在 $G^{l_1}$ 和未保留的源顶点 $V_1∖V$ 上重新标记。前者计算为具有不同标签的 $G^{l_1}$ 和 $G^{l_2}$ 的相应顶点和边的数量。该数字为： $c_{f}（G^{l_1}，G^{l_2}）=|{（u，u'）∈E，l_1（u，u'）≠l_2（f（u），f（u'））} + | { u∈V，l_1（u）≠l_2（f（u））}|$ 后者被计算为具有与相应目标标签不同的标签的未保留源顶点的数量，即 $Γ(L_{(V_1∖V）}，L_{(f（V_1) /{V}）})$

基于定理1，一旦确定了其相应的公共子结构,计算完整的顶点映射 $f$ 的induced的编辑成本变得容易而直接。例3刻画了 $G_1$ 个和 $G_2$ 的一个公共的子结构可以产生低于最高成本的编辑成本。

例3：

比较图1中 $G_1$ 和 $G_2$ ，以及在例2中定义的三个映射 $f_1,f_2和f_3$ 。使用 $f_3$ 将 $G_1$ 转变为 $G_2$ 转换的编辑成本等于8; 可以根据induced的公共子结构将其计算为：

删除未保留的源边 $u_1，u _2）$ ，

插入 $v_1$ ,即插入未匹配的目标顶点，

插入 $v_1，v_ 2）$ ，即插入未保留的目标边，

4 个在公共子结构上重新标记操作。其中在源顶点上两个： $u_2$ 和 $u_3$ ，
在源边上两个： $u_2，u_ 4）$ 和 $u_3，u_ 4）$

并在未保留的源顶点 $u_1$ 上执行重新标记操作（相当于 $u_1$ 删除）。

同理可得 $g（f_1）= 5$ 和 $g（f_2）= 2$ 。因此，由 $f_2$ 是最佳选择。
请注意，在例3中，尽管 $f_2$ 和 $f_3$ 生成相同的公共子结构，它们在该结构上产生不同的编辑成本。

这样，可以提出一种计算图编辑距离的新颖方法。此方法表明枚举 $G_1$ 和 $G_2$ 所有常见的子结构同构（简称CSI）,并为每个枚举的对象计算相应的编辑成本，如公式3所示。

然后，将俩个图编辑距离计算为这些公共子结构所产生的成本的最小值。在图4中概述了名为CSI_GED的方法（CSI：下面的粗体字母：Common Substructure Isomorphism based Graph Edit Distance基于公共子结构同构的图编辑距离），定理2验证了其完整性。

定理2：（完整性）

给定两个比较图 $G_1$ 个和 $G_2$ 。 $CSI\_GED(G_1,G_2)$ 返回 $G_1$ 和 $G_2$ 之间的编辑距离。

CSI_GED方法可以减少获得编辑成本的计算开销，即每个顶点映射 $f$ 的 $g (f)$ 。不幸的是，任何基于顶点的映射去枚举CSI的方法都需要上面所示的同等计算成本。

在这些方法中，例如， 15为了构造公共子结构，如果目标顶点不违反先前匹配的顶点上的连接，则目标顶点与源顶点匹配。为了检查以前的连接，该方法所进行的计算与基于A ∗的方法中的隐式边编辑操作相同。

面对这一挑战，CSI_GED通过映射边而不是顶点来构造CSI，也就是说，考虑了边映射而不是顶点映射。映射边使构建CSI时出现的连接检查问题变得容易，下面我们会讨论这个。乍看之下，尽管边映射空间似乎相对较大，但我们接下来表明用于CSI枚举的空间比整个空间小得多。它可能小于稀疏图上基于顶点的映射空间，在许多实际应用中都是这种情况。

A. 枚举公共子图同构

为了匹配边，我们将任何目标边视为有序的顶点对。因此，对于任何目标边 $e = （v ，v ′）∈ E_2$ ，让 e^r= （v′，v ）表示其反向边， $\tilde E^{r}_2$ = { e ，e^r：e∈ E2}表示目标边的扩展集。当且仅当 v 和 v′ 与u和 u′分别匹配，我们说目标边e′= （v ，v ′）∈ $\tilde E^{r}_2$ 匹配上了源边 e = （u ，u ′）∈ E₁，符号表示为 e → e′。接下来，我们给出了任何映射在识别公共子结构时必须满足的属性。

引理1：

给定两个比较图 $G_1$ = （V₁，E₁，l₁）和 $G_2$ = （V₂，E ₂，l ₂）。映射 $f$ :E₁ $\rightarrow$ E₂∪ { eⁿ}是一个边的映射(eⁿ是空边)，当且仅当e----->f(e)，其中e属于E₁中的任何一条边。如果满足在以下情况，边映射 $f$ 定义了一个公共的子结构，
（1）仅允许将一个或多个源边映射到空边；
（2）对于任何两个相邻的源边e = （u ，u′）和 e′= （u ，w ）如果 f（e ）≠ $e^n$ 和 f（e′）≠ eⁿ 那么它们必须在匹配连接顶点时都连接顶点u 。

引理1表明，考虑用于CSI枚举的边映射的空间比原始空间小得多。在下文中，边映射f 定义为公用子结构,表示成索引边的多重集和：
$f(E_1)=\{e_{i_1},e_{i_1},...,e_{i_{|E_{1}|}}\}$
其中e_{i_j}表示e_j的匹配边，它是从有限的可能的集合中选择出来的，集合为 P_j⊆ E₂∪ { eⁿ}，其中eⁿ是唯一可以在 f（E₁）中重复的边。

为了CSIs的枚举，CSI_GED使用回溯的方去遍历边映射空间。回溯将边的映射当做是树状结构排列。其工作方式如下。:
最初边的映射f是空的; 随着遍历搜索空间，它一次扩展一个边。映射f的长度与搜索树中相应节点的深度相同。给定长度l的局部边映射 f（E_l）= { e_i₁， e_i₂… ，e_{i_l-1}}，下一个扩展的可能值 e_{i_l}来自一个子集 C_l⊆ P_l，称为组合集。如果e′∈ P_l− C_l，那么回溯算法不会考虑根节点是f_l+1= { e_i₁， e_i₂… ，e_{i_l-1},e^’}的子树中的节点。由于此类子树已从原来的搜索空间中删除，因此C_l也称为修剪。

图5概述了回溯算法。主循环尝试用当前组合集中 C_l 中的每一个边 e′，去扩展部分边映射f_l 。

图5算法循环过程（1-10）如下：
第一步（第2行）是计算f _l+1。可以简单地通过扩展目标边e′来实现。

第二步（第3行）在第二步结束后，e′ 及其相反的边 ${e^{'}}^{r}$ 标记为已经匹配。

第三步（第5行）是提取新的扩展集P _l，它是由还没有进行匹配的目标边 $e\in \tilde{E_2}$ 组成的。

第四步（第6行）是为下一个pass创建一个新的组合集，用来进行有效的扩展。如果目标边满足引理1的第二个条件，即目标顶点的端点与先前匹配的端点一致，则它是有效的扩展。
因此，组合集 $C_{l + 1}$ 由可能集合 $P_{l + 1}$ 中的那些边组成，这些边在用于扩展 $f_{l + 1}$ 时会产生一个公共子结构。不在组合集中的任何边均指修剪的子树。

第五步（第7行）是为每个扩展递归调用 $C S I - b a c k t r a c k$ 算法。

第六步（第8行），完整的映射f 找到，将其添加到 CSI，即完整的CSI的集合。

如上面所示，回溯方法执行了搜索空间的深度优先遍历，从而提供了有效的存储操作，解决了A*内存访问的主要问题。此外，通过在每个边映射 $f$ 上维护一个顶点映射 $M$ 以将映射存储在已经匹配的边的最终顶点上，可以容易地检查可能扩展的有效性。当扩展映射f时，新的目标边（v ，v ′）如果要映射源边（u_i，u_j），非空集合M（i）或M（j）必须等于v或v’，才能有效扩展。
定理3给出了CSI_GED所考虑的边映射空间大小的上限估计。

定理3：CSI_GED的搜索空间

CSI_GED决定了搜索空间大小的大小为
$O （| E_2|× (| V_2|/2− 2 )!× （d− 1)^{|E_1|-|V_1|/2})$ 其中 d 是目标图的最大顶点度。

证明：
首先，在不失一般性的前提下，假设 $G_1$ 和 $G_2$ 的顶点数均为偶数，并且 $V_1 |≥| V_2 |$ 。由于 $\tilde{E_2}∪{e^n}$ 是每个边 $e_i∈E_1$ 的匹配候选集，因此边映射搜索空间的总大小为 $∏^{ | E_1 |}_ {i = 1} |\tilde E_2 |$ 但是，由CSI_GED考虑的搜索空间的实际大小计算为 $\prod^{ | E1 |}_{ i = 1} | C（e_i）|$ ，其中 $C（e_i）⊆\tilde{E_2}$ 是搜索中的有效候选集。要匹配的第一源边具有等于 $\tilde{E_2} | = 2×| E_2 |$ 的候选数。
为了计算每个剩余源边 $e_i∈E_1$ 的有效候选者数量，我们首先在搜索时将这些边缘分类为两种类型：自由边和捆绑边。
如果一条边与至少一个先前匹配的边相邻，则该边缘被称为捆边，用 $e^t$ 表示，否则，将其称为自由边并用 $e^f$ 表示。令F和T表示自由边和捆绑边的集合。因此， $^{| F |}_{ j = 1} | C（e^f_j）| ∏ ^{| T |}_{ k = 1} | C（e^t_k）|$ 。自由边缘的数量最多为 $V_1 | /2$ ，即 $F |≤| V_1 | /2$ ，因为任何一组自由边缘 $F$ 都表示 $G_1$ 中的最大边缘匹配，最大值为 $V_1 | /2$ ——即大小最大边缘匹配。计算每个自由边的有效候选者数量为 $\frac {| V_2|}{ 2}-k$ ，其中 $k$ 是先前匹配的目标边缘的数量， $\frac {| V_2|}{ 2}$ 是 $G_2$ 中最大边缘匹配的大小。因此， $∏^{ | F |}_{ j = 1} | C（e^f_j）| = 2 | E_2 |×∏ ^{| V_1 | /2-1}_{j = 1}（| V_2 | /2-1−j）= O（| E_2 |×（| V_2 |/ 2−2)！）$ ，因为 $V_1 |≥| V_2 |$ 和 $2 | E_2 |$ 是第一个匹配的源边缘的候选数。
考虑到绑边，有两种情况。
在第一种情况下，绑边仅与一个先前匹配的边相邻。在这种情况下，最多存在 $d - 1$ 个有效候选，其中 $d =max_{v_j∈V_2}（deg（v_j））$ 。
在第二种情况下，绑边连接到两个先前匹配的边。对于每个这样的边缘，只有一个有效的候选者。因此， $∏^{ | T |}_{ k = 1} | C（e^{t}_{k}）| ≤∏^{ | T |}_{k = 1}（d-1）=（d-1）^{| T |}。$ 由于 $∣ T ∣$ 至少为 $E_1 |-| V_1 | /2$ ，则空间大小为 $S = O（| E_2 |×（| V_2 | /2--2）！×（d-1)^{| E_1 |-| V_1 | /2）}）$

从定理3可以清楚地看出，CSI_GED 所考虑的空间，比尺寸为 $O（| V_2 |^{| V_1 |})$ 的基于顶点的映射空间小得多，尤其是在比较图稀疏时。这是因为在稀疏图³

中，边的数量 $E_1 |$ 非常接近顶点数 $V_1 |$ ，且 $d≪ | V_2 |$ 。而且， $V_2 | /2-2）！≪（| V_2 | /2-2）| V_1 | /2$ 。仅当目标图是度为 $d = | V_2 | -1$ 且密度完全的完全图时，顶点空间和边空间的大小几乎相同。在两个图都非常密集的情况下，即 $E_1 |≫ | V_1 |且 k = | V_2 |$ ，则顶点映射空间较小。

例4：

考虑图1中的比较图 $G_1$ 和 $G_2$ 。图6显示了 $G_1$ 和 $G_2$ 的完整边映射搜索树的一部分，其中第i层上的节点表示可能与源边 $e_i∈E_1$ 匹配的目标边。
如图所示，源边根据给定的源边顺序每一次映射到一条目标边。因此，内部节点对应于部分边映射，而其余节点则对应于完整的边映射。回溯搜索空间可能比整个空间小得多。
例如，我们从 $f_0 =∅$ 和 $C_0 = \tilde{E}_2∪{e^n}$ 开始。在第1层，将 $C_0$ 中的每个项目依次添加到 $f_0$ 中。例如，将 $e_1 =（v_1，v_2）$ 添加以获得 $f_1 = {e_1}$ 。然后将 $e_1$ 和 $e^{r}_1$ 标记为匹配。对于 $e_1$ 的可能集合 $P_1$ 由 $\tilde{E}_2$ 中所有尚未匹配的目标边组成。但是，由于 $e_2 =（v_2，v_3）$ ， $e_4 =（v_2，v_4）$ 和 $e^n$ 是唯一有效的扩展，因此修剪以 $e^{r}_2$ ， $e_3$ ， $e^{r}_3$ 和 $e^{r}_4$ 为根的子树。
比较大型图时，CSI的数量变得很大。庞大的搜索空间是回溯的主要挑战。为了迎接这一挑战并开发有效的CSI_GED算法，需要新的启发式方法才能从回溯树中删除整个分支。下面我们描述用于优化CSI_GED的不同启发式方法。

第四节优化CSI_GED

对于最大化公共子结构同构问题，现在目前的方法是基于顶点的回溯算法，通过子结构的大小修剪搜索空间（15, 3, 16）。但是，在我们的设置中，子结构的大小不起作用，因为我们必须枚举所有常见的子结构。幸运的是，可以按如下方式使用映射的编辑成本来修剪回溯树。

由于回溯以深度优先的方式枚举CSI，因此某些CSI将在搜索中先于其他CSI可用。由这些枚举引起的编辑成本实际上是图编辑距离的上限，可用于在某些搜索状态下修剪回溯树的分支。确切地说，把那些具有（预期）较高编辑成本的树节点修剪掉。

为此，我们没有像图4那样，在CSI列举出来之后，在单独下一个阶段中计算每个CSI引起的编辑成本，而是在枚举CSI的过程中就计算每一个CSI的成本，并为每个部分CSI跟新成本值。如果该值大于当前上限值，则对于可以拓展当前部分CSI的那些公共子结构的搜索将会停止，并继续尝试扩展其他部分CSI。

在决定在枚举CSI的时候，计算其成本之前，我们需要确定每一个CSI映射 $f$ 的成本 $g (f)$ 到底是怎么组成的。定理1给出的成本值 $g (f)$ 是5个独立值的总和。

$g (f)$ 解释如下：
第一项的 $c(G^{l_{1}},G^{l_{2}})$ 表示了 $G_1,G_2$ 的公共子图 $G$ 的产生的俩个子图 $G^{l_{1}},G^{l_{2}}$ 之间的编辑成本；

第二个和第三个值计算未保留的源边和目标边的数量，分别计算为 $E_1|-|E|,|E_2|-|E|,$

最后两个值是从没有出现在 $G$ 中的源点和目标定点的的编辑操作考虑的。对于不匹配的目标顶点，需要进行 ${V_2} / f(V_1)|$ 个顶点插入，并且该数目构成了第四个值。

最后一个值来自未保留的源顶点上所需的重新标记。

将前两个成本注入CSI构建十分容易。给定搜索状态，如果找到有效的映射扩展，则扩展在该状态下标识的公共子结构；否则，它保持不变，并且源边被映射到空边 $e^{n}$ ，这意味着删除该边。因此，一方面，根据第一个成本值，在匹配用于拓展映射 $f$ 的源边和目标边所产生的的编辑成本，将会增大 $g (f)$ 。另一方面，根据第二个成本值，删除源边将增大 $g (f)$ 。第三和第四个成本也可以算进来，但需要额外的计算¹

因此，这些值有待随后进行计算（即在完成映射之后）。第四个值 $V_1|-|V_2||$ 是可以用作每个CSI的初始成本，因为它是全局的并且独立于任何CSI。

图7中给出了构建CSI过程中考虑到成本后的CSI_GED新代码。它是 $CSI\_backtrack$ 的直接扩展。主要的补充是将前俩个成本值注入到 $g (f)$ 中，以消除回溯树的分支。除了CSI枚举的主要步骤外，新代码在算法开始的时候添加了一个假设为无穷大的上界 $A=\infty$ 和为每一个 $C S I$ 映射 $f$ 分配的初始化成本 $IC=||V_1|-|V_2||$ 。
本算法在映射拓展之后添加一个步骤（ $CSI\_backtrack$ 第三行），用来更新 $g (f)$ ，同时也增加了一个步骤 $CSI\_backtrack$ 第10、11行）去更新 $A$ 。为了包含基于上界值的修剪，在 $CSI\_combine的$ 第三行修剪的地方添加新的条件。用来更新 $g (f)$ 的边匹配成本 $emc(e\rightarrow e^{'})$ 定义如下。

定义5：边匹配成本

给定源边和目标边 e = （u ，u ′）和 e′= （v ，v′）。将边 $e^{'}$ 分配给e的成本，称为边匹配成本并表示为 emc(e → e′），给出定义为： $\left\{ \begin{array}{rcl} c(u\rightarrow v)+c(v^{'}\rightarrow v^{'})+c(e\rightarrow e^{'}) & & { e\neq e^{n}}\\1 & & {e= e^{n}}\\ \end{array} \right.$
若匹配的项含有相同的标签则c=0，否则c=1⁴

显然，定义5中的两种情况会更新 $g (f)$ ⁵的前俩项的值。

为了提高基于上限的修剪，首先想到的是，不仅仅基于 $g (f)$ 这一项进行修剪，还可以考虑到未映射的边和顶点的编辑距离的下限。但是，在不断扩展的搜索树的每个树节点上计算下限是不切实际的。

在这里，采用了新的高效启发式方法来增强修剪效果。
第一种启发式方法排列目标边，以便能够快速找到更严格的上限

第二种则最大化分配给每个CSI的初始编辑成本。

第三种实现了搜索的预测功能。

这样的启发式搜索将允许在搜索前期遇到其编辑成本超过上限值的树节点。因此减少了许多分支树的考虑。接下来，我们详细介绍这些启发式方法。

A.给目标边排序

假定每个有效扩展大小为 $l$ ，部分 $C S I$ 来自相同的目标边的集合 $\tilde E_2$ （图7中的第6行）。因此，在树的第 $i$ 层( $1≤i≤| E_1 |$ )处使用的目标边 $\tilde E_2$ 可以这样排序：首先枚举产生更严格上限的那些 $C S I$ 。采用的排序法将 $\tilde E_2$ 按成本值 $C（e_l，e'）$ 的升序排列在树的第i层上，其中函数 $C$ 计算近似图编辑成本，前提是将目标边 $e^{'}$ 分配给源边缘 $e$ 。
为了定义成本函数 $C$ ，我们首先定义边星（围绕边的局部结构）和星匹配成本。

定义6：星图 (这边不想看了，好恶心啊！)

给定图 G = （V，E ，l ）和边 e ∈ E。边星e，表示图G是一个子图，它是指和e相连的边构成的子图，用s(e)表示。

定义7：星边匹配费用

给定两个边 e = （u ，u ′）和 e′= （v ，v ′），它们分别是俩个图中的源边和目标边。星边的匹配成本，可以用下面的公式表示：
$^{'} )=emc(e \longrightarrow e ^{'})+\Gamma(L_{E_u},L_{E_v})+\Gamma(L_{E_{u^{'}}},L_{E_{v^{'}}})$

其中LE_x是和顶点x相连的边的多重集合，不包括核心边的标签。

定义8：余星图

给定图 G = （V，E，l ）和边星 s(e)，e∈ E。定义余星图G^e是在原图中切除边星之后的子图。
给定源边和目标边 e_l 和 e^’.假设 $G^{e_l}_ {1}=(V^{'}_{1},E^{'}_{1},l^{'}_{1})$ 和 $G^{e_’}_ {2}=(V^{'}_{2},E^{'}_{2},l^{'}_{2})$ 分别是 $s(e_l)和s(e^{'})$ 在其原图中的余图。由此，通过星图和余图的定义，得到了俩条边映射的成本：
$C(e_l,e^{'})=smc(e_l,e^{'})+\Gamma(L_{V^{'}_{1}},L_{V^{'}_{2}})+\Gamma(L_{E^{'}_{1}},E_{V^{'}_{2}})$

例5：

下面举例通过星图和余图的定义，计算边的映射成本的例子。在图1和图2中分别给出源边 $e=（u_3,u_2）,目标边e^{'}（v_3,v_4)$ 的星图，那么可以得出余图分别为 $G^e=(({u_1,u_{4}}),\emptyset，l_1),G^{e^{'}}=(({v_1,v_{2}}),{({v_1,v_{2}})}，l_2)$ 。通过如下计算可以得出俩条边的映射成本为5：

由 $C(e_l,e^{'})=smc(e_l,e^{'})+\Gamma(L_{V^{'}_{1}},L_{V^{'}_{2}})+\Gamma(L_{E^{'}_{1}},E_{V^{'}_{2}})$ 可知，
$C(e_l,e^{'})=smc(e_l,e^{'})+\Gamma(L_{V^{'}_{1}},L_{V^{'}_{2}})+\Gamma(L_{E^{'}_{1}},E_{V^{'}_{2}})=2+1+1=4$

其中余图的顶点和边的标签的界分别计算为0和1。如果源边按照 $E=({(u_1,v_2),(u_2,v_3),(u_3,v_4),(u_4,v_5)})$ 的顺序处理，那么在树的第二层，目标边应该按照 ${{(v_3，v_4），（v_3，v_2），（v_2，v_3），（v_2，v_1），（v_4，v_3），（v_2，v_4），（v_4，v_2），（v_1，v_2）}})$ 进行排列，其中成本值C是按边星图 $s(u_2，u_3)$ 计算的，分别为： $(2, 2, 3, 4, 5, 5, 6, 6)$ 。

B.最大化初始公共子图同构（CSI）成本

可以最大化分配给每个公共子图同构CSI的初始成本值，从而包括图大小差异和图顺序差异。也就是说，分配给每个公共子图同构CSI的初始成本 $f$ 可以定义为成初始化成本 $IC= ||V_1| - | V_2| | +||E_1| - | E_2||$ 。将图大小差添加到初始成本需要修改边匹配成本 $e m c$ ，尤其是已删除的源边上。也就是说，在匹配边的过程中，我们不考虑评估源边的删除作为编辑成本（定义5），而是考虑到 $E_1| 和 | E_2|$ 可能出现的不同值情况来进行修改。以下定理涵盖了这些情况。

定理4：扩展 $f$ 删除源边成本

给定一个空的公共子图同构映射 $f$ ，且初始成本 $g(f)= ||V_1| -| V_2||+||E_1| - |E_2||$ ，在扩展 $f$ 的时候删除源边的成本如下计算：
$emc(e\longrightarrow e^{n})=\left\{ \begin{aligned} 2 ,& &&& & |E_1|\leq |E_2|;;\\ 2, & &&& & |E_1|> |E_2|\&k\geq (|E_1| - |E_2|);\\ 0, & &&& & |E_1|> |E_2|\&k< (|E_1| - |E_2|);\\ \end{aligned} \right.$
其中 ķ 是先前删除的源边的数量。

证明：
关于源边和目标边的数量，我们有两种可能的情况，即 $E_1|和 |E_2|$ 。
情形一： $|E_1|\leq |E_2|$ ,转变G₁变成同构的图 G₂，我们最初需要在G₁中添加 $E_2|-|E_1|$ 条边使两个图的边数量均等。因此，在公共子图同构CSI构造期间，对于每个删除的源边，都需要在源图中的某处添加一个新边，从而进行两次编辑操作，以保持相等数量的源边和目标边。
情形二： $E_1|> |E_2|$ 。初始化中 $g(f)=|E_1|- |E_2|$ 意味着删除多达此数量的源边不会影响编辑成本，因为初始化中已经添加了相等的成本。用尽初始成本后，即删除 $E_1|- |E_2|$ 源边后，任何后续的源边删除都需要在源图上添加另一条边，从而进行两次编辑操作，以保持相等数量的源边和目标边。

除了最大化分配给每个CSI的初始成本外，定理4还可以平滑注入未保留目标边的编辑费用 $E_1|-|E|$ ，纳入公共子图同构CSI枚举过程。相应地修改了图7中的CSI_GED伪代码，以适应边匹配成本和初始成本值的新定义。未保留目标边的数量也从CSI回溯的第10和11行的后续计算阶段中删除。

C.基于预测（look-ahead）的修剪

以图9源图和目标图 $G_1 和 G_2$ 为例。这两个图的顶点数相同，但是 $G_1$ 个有一条额外的边。因此，分配给每个公共子结构枚举 $C S I f$ 的初始成本等于1。下面考虑将粗体目标边与粗体源边匹配的部分公共子结构枚举CSI的映射 $f$ 。由于公共子结构在子图上引起的编辑成本等于零，此部分公共子结构枚举CSI的编辑费 $g （ f ）$ 等于1。对于任何大于1的上界，基于此成本值 $g （ f ）$ ，目前无法停止扩展此部分 $C S I$ 。

在本小节中，我们介绍另一个成本函数 $g^{'}（f）$ 有效修剪此类情形，除 $g （ f ）$ 之外，每个公共子结构的枚举映射 $f$ 都要维护该函数。此函数实现了前瞻性。也就是说，它能够在搜索中提前在搜索树的第 $i$ 层中计算编辑成本，并查看其是否大于当前计算的的上界，从修剪映射。

给定图 G。为其中的一个子图 $\sqsubseteq G$ 定义内部邻域和外部邻域。

定义9：子图的内部和外部邻居

给定图 G = （V，E ，l ）和一个子图 $H= （V_H，E_H，l）⊆G$ 。
子图H的内部邻居定义为： $N_{I}=\{(u,v)\in E : u,v\in V_H\}$ ,外部邻居定义为： $N_{O}=\{(u,v)\in E : u\in V_H \cap v\notin V_H\}$ 。
基于一个子图 $H \subseteq G$ 的内部和外部邻域，定义 $H$ 中顶点的内部度和外部度。用下面的符号表示：顶点的内部邻居为 $\\d_{I}(v)=|\{(u,v)\in N_{I}(V_H)\}$ 顶点的外部邻居为 $d_{O}(v)=|deg(v)-d_{I}(v)|$ 。

现在，给定源图和目标图 $G_1 和 G_2$ 以及一个部分公共子图枚举映射 $f$ 。假设 $M$ 是通过边映射 $f$ 而产生的顶点映射，新的代价函数 $g^{'}(f)$ 根据子图的内部和外部邻居产生如下定义。 $G_1和G_2$ 通过映射 $f$ 产生公共子结构 $G = (V, E)$ ,则在图 $G_1$ 中表示的子结构为 $g^{l_1}\in G_1$ ，同理在 $G_{2}$ 中公共子结构表示为 $g^{l_2}\in G_2.$ 代价函数 $g^{'}$ 中包含四项内容的和：对应顶点度的代价 $c_d$ ,对应的内部邻居边的代价 $c_e$ ，余下边的代价 $c_r$ ，还有通过公共子图枚举CSI的映射 $f$ ，进行图 $G_1和图G_2$ 重新加标签的代价 $k$ ，即 $g^{'}(f)=c_d+c_e+c_r+k$

其中的具体运算如下所示：
度成本 $c_d$ 可以表示为： $c_d=\sum_{u \in V_{G^{l_1}}}|d_o(u)-d_o(M(u))|+\frac {1}{2}|d_I(u)-d_I(M(u))|,(4)$
其中分数 $\frac 12$ 表示每一个内部的边在运算时都被用过俩次，每一个结束的端点被用过一次
内部边的成本 $c_e$ 可以表示为：
$c_e=\sum_{u,u^{'}\in{V_{G^{l_1}}}}c((u,u^{'})\rightarrow(M(u),M(u,{u^{'}}))$
其中 $(u,u^{'})\in{N_{I}(V_{G^{l_1}})}$ ， $(M(u),M(u,{u^{'}}))\in{N_{I}(V_{G^{l_2}})}$ ，若映射的边标签相同，比如原图中是a，映射的目标边是c，则标签不同返回1，否则为0。
余边成本 $c_r=|n_1-n_2|$ 表示如下
其中 $n_{i}={|\frac {E_{i}}{(N_{I}(V_{G^{l_i}}))\cup{N_O(V_{G^{l_i}})}}}|,i=1,2$
顶点重新加标签成本 $k$ 如下计算：
$\Gamma(L_{V_1},L_{V_2}),h+||V_1|-|V_{2}|)),$
其中h是在匹配顶点上重新加标签的数量。

定理5：

给定两个比较图 $G_1$ 和 $G_2$ ，以及公共子图同构 $C S I$ 的完全映射 $f$ 。对于任何公共子图同构 $C S I$ 的完全映射 $f$ ，有 $g^{'}(f)\leq{g(f)}$ 。

例6：

上图 $G_1 和 G_2$ 中，假定存在映射 $f$ ,它是公共子结构的一种情形，通过它可以构造一个公共子结构G，和一个顶点映射 $M=\{v_1,v_2,v_3,v_4\}$

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
展现思维导图魅力，不断挖掘人生宝藏思维导图讲师Mandy
第13期最强思维导图训练营已经结束一周了，但是我依旧是感觉所有学员还在努力的学习，这些学员中有教师、学生、白领、公务员、宝妈等等，只要你努力，只要你想改变自己，任何行业，任何岗位都可以参与进来，28天足以让你见成效，在这28天中，我们的学员不仅仅是收获了一枚毕业证，最重要的是让自己的思维方式得到升级，今天的你为自己投资，明天的你就会感谢你今天的付出，我们来听一听来自13期最强思维导图训练营优秀学员
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
2019-11-04复盘——飞来山上千寻塔，闻说鸡鸣见日升。那一叶秋
1、大盘篇先上老图，看习惯了，也就知道走势了图1上证指数日线图还是那张老图，自己可以在自己的相关软件上画出来，快变盘了。2、个股篇未加仓、未减仓。分析量能的时候，突然发现这么一个东西：“放量突破年线，缩量回调。”合众科技日线图其实，最近的N只个股，在技术分析上，都到了变盘的临界时候。结合这么久的走势，特别是ZJH不断放开IPO的申请，本质上说是融资难度变大，或者说是为企业的融资开创便利。但现在市场
docker igotyback eureka 云原生
Docker容器的文件系统是隔离的，但是可以通过挂载卷（Volumes）或绑定挂载（BindMounts）将宿主机的文件系统目录映射到容器内部。要查看Docker容器的映射路径，可以使用以下方法：查看容器配置：使用dockerinspect命令可以查看容器的详细配置信息，包括挂载的卷。例如：bashdockerinspect在输出的JSON格式中，查找"Mounts"部分，这里会列出所有的挂载信息
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
父母教育孩子的方式，将影响孩子一生树英教育
为什么有些孩子总是充满自信与快乐？独立、有主见又坚强？而有些孩子却自卑、胆怯，软弱又过度依赖父母？为什么有些孩子总是健康、阳光又富于创造力？而有些孩子却悲观、孤僻又思想空乏？一个孩子的行为取决于孩子的思想，思想取决于环境和自己的认知，认知取决于教育。父母是孩子人生中的第一位教育者，父母养育孩子的方式，将决定他们人生的高度，影响他们的一生。网络图，侵权即删优秀的父母就像园丁，既要浇水施肥，又要修剪杂
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
黄景瑜工作人员怒怼营销号！肖战事件就是他的前车之鉴板凳吃瓜小分队
无论社会怎样浮躁，我们自己也不可以浮躁。战胜浮躁的关键是明白自己真正的需要，保持一颗平常心，不要盲目攀比，不要羡慕别人，更不要唯利是图。一辈子很短，我们不能总是望着别人的精彩，羡慕着别人的人生，而忘记了经营自己生活，要知道，通过努力，你也能成为让人仰望的明星。如今，随着娱乐产业越来越成熟，每年的新星也是扎堆冒出。在我看来，与前几年不同的是，如今的新生代质量明显好过从前。“更专业了，更有礼貌了”也是
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
2023-06-19【感恩日记】第246篇 o泡沫o
思想日记：坚持下去，相信自己一定可以的【感恩日记】第246篇1.我真是太幸福啦！感恩孩子早起阅读，放学到学生之家完成作业，平安度过美好的一天。感恩！感恩！感恩！❤️2.我真是太幸福啦！感恩自己早起给孩子煮早餐，完成计划的工作，晚上学习。感恩！感恩！感恩！❤️3.我真是太幸福啦！感恩为我设计效果图的老师。感恩！感恩！感恩！❤️4.我真是太幸福啦！感恩父母养育了我，有妈的孩子真幸福。感恩！感恩！感恩！
摄影小白，怎么才能拍出高大上产品图片？是波妞唉
很多人以为文案只要会码字，会排版就OK了！说实话，没接触到这一行的时候，我的想法更简单，以为只要会写字就行！可是真做了文案才发现，码字只是入门级的基本功。一篇文章离不开排版、配图，说起来很简单！从头做到尾你就会发现，写文章用两个小时，找合适的配图居然要花掉半天的时间，甚至更久！图片能找到合适的就不怕，还有找不到的，比如产品图，只能亲自拍。拿着摆弄了半天，就是拍不出想要的效果，光线不好、搭出来丑破天
【Bugs】Python：“ModuleNotFoundError: No module named ‘XXX‘” 系'辞工具箱 python bug anaconda
问题描述Python使用库的前提是必须已安装了相应的库，往往利用“命令行指令”实现安装，一般安装解法类似。但，还是具有延伸问题，本博客对此作记录。【1】Nomodulenamed‘seaborn’(1.1):情况1：为Anaconda安装【图1-2】.定位Anaconda路径【图3】.Anaconda路径加入Path>&
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

利用公共子图同构计算图编辑距离相似度（CSI_GED:An Efficient Approach for Graph Edit Similarity Computation ICDE2016）

文章目录

摘要

第一节 介绍

第二节 前言

A.问题定义

定义1：（子）图同构

定义2：图形编辑距离

定义3：(最大)公共子结构

例1：

B. GED计算：A *方法

第三节 CSI_GED：使用公共子图同构计算图编辑距离

定义4: 顶点映射的保留边

例2：

定理1：映射 f f f的的编辑成本 g ( f ) g(f) g(f)

例3：

定理2：（完整性）

A. 枚举公共子图同构

引理1：

定理3：CSI_GED的搜索空间

例4：

第四节 优化CSI_GED

定义5：边匹配成本

A.给目标边排序

定义6：星图 (这边不想看了，好恶心啊！)

定义7：星边匹配费用

定义8：余星图

例5：

B.最大化初始公共子图同构（CSI）成本

定理4：扩展 f f f删除源边成本

C.基于预测（look-ahead）的修剪

定义9：子图的内部和外部邻居

定理5：

例6：

你可能感兴趣的:(论文阅读,图相似度,A*算法,映射,图编辑距离,图结构)

第一节介绍

第二节前言

定理1：映射 $f$ 的的编辑成本 $g (f)$

第四节优化CSI_GED

定理4：扩展 $f$ 删除源边成本