Efficient Estimation of Heat Kernel PageRank for Local Clustering

Efficient Estimation of Heat Kernel PageRank for Local Clustering

给定一个无向图G和一个种子节点s,局部聚类问题旨在识别一个高质量的簇,该簇在时间上包含s,与簇的大小大致成正比,而不考虑G的大小。这个问题在大规模图上有很多应用。最近,热核PageRank (HKPR)被用于解决这一问题,它衡量图中节点的接近性,并发现与之前的方法相比,它更有效。然而,现有的计算HKPR的解决方案要么代价过高,要么对HKPR值提供了不令人满意的误差逼近,使它们变得不切实际,特别是在十亿边图上。

本文提出了两种新的基于HKPR的局部图聚类算法TEA和TEA+,以解决上述局限性。具体而言,这些算法在hkpr值的相对误差和时间复杂度方面都提供了非平凡的理论保证。其基本思想是利用确定性图遍历产生精确HKPR向量的粗略估计,然后利用MonteCarlo随机游走以一种优化和非平凡的方式细化结果。特别是,由于非平凡的优化,TEA+提供了实际的效率和效果。在真实数据集上的大量实验表明,TEA+比当前最先进的算法性能提高了4个以上

hk - relax的时间复杂度有一个很大的因子。因此,对于一些应用程序来说,它可能是低效的。

这种保证对于精确的局部聚类来说并不理想。为了优化排名的准确性,我们观察到最小化归一化HKPR值的相对误差比它们的绝对误差更有效。为了解释࿰

你可能感兴趣的:(层次聚类,DBSCAN算法,算法)