multi-relation Graph summarization

文章目录

  • ABSTRACT
  • 1 INTRODUCTION
    • 1.1 Background and Related Work
    • 1.2 Multi-relation Graph Summarization
    • 1.3 Why Not Keeping an Individual Summary for Each Relation?
    • 1.4 Contributions and Roadmap
  • 2 OTHER RELATED WORK
  • 3 SINGLE-RELATION GRAPH SUMMARIZATION: K-MEDIAN CLUSTERING
  • 4 MULTI-RELATION GRAPH SUMMARY: BASELINE METHODS
    • 4.1 Single-relation Graph Summarization Algorithms
    • 4.2 Summary Aggregation
    • 4.3 Limitation of Baselines Methods


ABSTRACT

大量关于图摘要的文献忽视了具有不同类型边的可能性,本文先提出两步方法,即先独立地处理每个关系,然后对生成的多个摘要聚合成一个.在此基础上,本文针对无损单关系图汇总的经典问题,提出了第一个基于k-中值聚类的多项式时间逼近算法。接着提出更全面的近似和启发式算法,可以直接计算多属性图的摘要。


1 INTRODUCTION

Graph summarization的优势与应用,多属性图的广泛应用。

1.1 Background and Related Work

介绍基于修正集的图汇总方法的背景知识,以及该方法的成本计算。
求解原图最小无损摘要的问题可以转换为求解原图的一个划分,因为这样的一个划分直接决定了摘要和修正集的结果。但是这样的可能划分非常多,Navlakha等人对此提出了一种无质量保证的简单贪婪凝聚启发式算法,此外还有关于有损摘要的方法。

1.2 Multi-relation Graph Summarization

给出了关系图的定义,还有无损关系汇总和k-无损关系汇总的问题定义

1.3 Why Not Keeping an Individual Summary for Each Relation?

介绍不单独为每个关系保留一个摘要的原因

1.4 Contributions and Roadmap

  • 多项式时间近似算法
  • “两步算法”
  • 全面算法和全面k中值算法
  • Hybrid 算法
  • 经验估计证明全面算法比两步算法更好
  • 现实中的很多应用证明我们的提议很有效

2 OTHER RELATED WORK

  • 基于汇聚的图摘要(和本文关系最大)
  • web 图和社交网络压缩
  • 基于属性的图摘要
  • 面向应用的图摘要
  • 其他相关的图计算

3 SINGLE-RELATION GRAPH SUMMARIZATION: K-MEDIAN CLUSTERING

1.介绍了k中值聚类的思想。
2.本文将无损摘要的修正集大小和有损摘要的重建误差联系起来,使得方法可以被重用。介绍了lp重建误差,主要用于衡量摘要的质量,即与原始图的差距。
3.在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
介绍了几个理论并给出了证明,建立了重建误差和修正集的边数的关系。

4 MULTI-RELATION GRAPH SUMMARY: BASELINE METHODS

介绍了“两步”算法的步骤,第一步关键是划分(包括之前提到的K中值方法,还有其他文献中提到的使用比较多的启发式算法),第二步是寻求合并

4.1 Single-relation Graph Summarization Algorithms

  • 贪心算法
    介绍贪心算法的实现步骤,以及对于指定k个超点,贪心算法如何执行
  • 随机算法
    介绍随机算法的超点合并过程
  • SWeG
    先根据shingle值对节点进行分组,在对分组的结果进行合并,合并的过程可以通过分布式来完成.
    multi-relation Graph summarization_第1张图片

上图a为原单关系图,b为贪心算法执行结果,c为k中值结果,k取2

4.2 Summary Aggregation

问题转换为求一个摘要,使得它与所有其他的摘要的分歧总和最小.(是否可以考虑关系的权重)
然后又通过推导解释这个问题可以转换为相关聚类问题,并可以用相关聚类的方法求解

  • The BEST algorithm.
  • The Balls algorithm
  • The Agglomerative algorithm
  • The Furthest algorithm
  • The LocalSearch algorithm
    接下来对上述五种方法进行了实验比较,而生成各自的摘要是通过贪心算法实现的.如下图:
    multi-relation Graph summarization_第2张图片
    最后选取相对最好的the Furthest algorithm作为默认的算法

4.3 Limitation of Baselines Methods

两步算法可能会返回低质量的解,主要原因有两个:

  • 如果输入的摘要的质量不高,则会影响聚合的摘要的质量
  • 单个的摘要如果有很大规模的超点,会给聚合阶段造成麻烦

你可能感兴趣的:(聚类,数据挖掘,算法)