©作者 | 杨天持
单位 | 北邮GAMMA Lab博士生
来源 | 北邮GAMMA Lab
论文标题:
Co-clustering Interactions via Attentive Hypergraph Neural Network
收录会议:
SIGIR2022
论文链接:
http://shichuan.org/doc/137.pdf
代码链接:
https://github.com/ytc272098215/CIAH
引言
在社交媒体飞速发展、复杂网络激增的时代,各行各业的交互数据越来越多,比如推荐系统中的用户-商品交互网络、学术领域中的论文引文网络等。交互可以看作是发生在多个对象之间的动作。因此,研究人员通常会将对象及其中的成对关系建模为图里的节点和边 。
聚类作为一种最基本的数据挖掘任务,交互数据上的聚类(即图上的聚类)可以揭示有价值的交互聚类模式,从而作为下游任务的先验知识。早期的研究通常使用图表示方法只编码结构信息然后对对象进行聚类。然后,为了考虑属性的增益,研究人员基于属性图来探索结合结构信息和属性信息的优势以获得更好的聚类性能。
最近,逐渐有研究进一步开发了异质图方法,通过进一步考虑节点或边的不同类型来更准确地对交互进行建模和编码。除了聚类的性能,聚类结果的可释性可以帮助理解模型决策背后的原因,因此也是一个重要的问题 。具体地,大多数方法试图选择重要且简洁的属性来作为聚类结果的解释。
尽管交互数据的聚类已经得到了广泛的探索,但实际中的交互数据仍然要更加复杂得多。在实际应用中,一个完整交互通常会包含多个带有属性的交互对象和如时空上下文的交互环境。例如,在电子购物领域中,如上图所示,一个完整交互包括但不限于"什么人在什么情况下在哪个商店购买了什么商品"。
此外,完整交互的每一个部分对于发现交互模式都很必要。如上图上半部分所示,白领为了高效工作经常在下午点咖啡。如果我们忽略这种时间上下文中"下午"的条件,可能会得出一种片面的模式,从而可能导致在午夜向其推荐咖啡,而这违反了常识。然而,现有的聚类方法仅对真实交互中的部分信息进行了建模和利用,即要么将整个交互分解为了若干个成对的子交互以进行简化,要么只专注于对某些特定类型的交互对象进行聚类,而不是针对完整交互。
因此,现有的聚类方法无法全面表征和利用完整交互过程中的信息。此外,从完整交互中选择出重要属性也可对聚类结果作出更准确的解释。相反,基于交互的不完整的建模,则可能会遗漏一些有助于解释的关键信息,例如上例中的"下午"。但是到目前为止,很少有人尝试探索完整交互中的丰富属性以进行聚类解释。
在本文中,我们将首次尝试对完整交互进行聚类,而不是对传统聚类方法中的简单交互。它还可以进一步通过从完整交互的任一部分中选择出关键的属性,以此作为聚类结果的解释。但由于以下挑战,这并不是一项简单的任务:
1. 如何有效地对完整交互进行建模和编码?每个完整交互都涉及了不确定个数带有属性的交互对象和交互环境以及多个对象之间的交互关系。因此,使用前文提到的图方法是不足以对这种完整交互进行建模和编码的;
2. 如何从完整交互中选择出可解释的关键属性?使用注意力机制来选择属性是一种常见的解决方案。然而它在解释性能力上备受质疑,因为注意力权重有时会与属性的真正重要性不一致,尤其是在面对完整交互中的丰富属性时;
3. 如何同时提高对完整交互的聚类性能和可解释性?如先前工作中所研究的,在注意力机制中,聚类与属性选择的分布之间没有严格的相关性,这将导致损害聚类的性能。
为了解决上述问题,我们提出通过注意力超图神经网络对完整交互进行协同聚类。具体地,为了对完整交互进行建模,我们首先构建了一个超图,其中由于超边可以连接任意数量的节点,因此超边非常适用于表示完整交互。然后,我们提出了一个注意力超图神经网络来显式地学习完整交互(超边)的表示,其中我们采用注意力机制来选择出重要的属性以作为聚类结果的解释。
为了解决注意力权重和真实重要性之间的不一致问题,由于显著性方法在计算机视觉领域中通常被认为是重要性的真实标准,因此受显著性方法的启发,我们提出了基于显著性的一致性来使属性选择(即注意力权重)的分布与显著性方法给出的重要性保持一致。
此外,为了确保类簇和属性选择分布之间的对应关系,受现有工作启发,我们提出了基于聚类的一致性:属于同一类簇内的完整交互应具有相似的属性选择分布,而不同类簇中的属性选择分布应不同。为此,我们提出了一种新颖的协同聚类方法,它对完整交互的表示和相应的属性选择分布进行协同聚类,从而提高聚类的性能和可解释性。
综上所述,本文的主要贡献可归纳如下:
1. 据我们所知,这是对完整交互进行聚类的首次尝试,这可以从复杂的交互数据中发现更全面和可解释性更强的聚类模式;
2. 为此,我们为完整交互提出了一种基于注意力超图神经网络的协同聚类方法,称为 CIAH。通过超图建模完整交互后,我们设计了一个注意力超图神经网络,以及一个具有基于显著性和基于聚类的一致性的新颖协同聚类方法。
3. 大量实验证明了我们的方法在完整交互的聚类上的有效性。此外,离线和在线的推荐实验也验证了其在下游应用中的实用价值。
方法
在本节中,我们为完整交互提出了一种新颖的基于超图的协同聚类方法。如上所示,我们首先构建一个超图来对完整交互进行建模,其中每个完整交互都表示为连接所有相关对象的超边。然后我们设计了一个注意力超图神经网络来显式地学习完整交互(超边)的表示,同时我们通过注意力机制来选择相关的关键属性以作为聚类结果的解释。
此外,我们还提出了一种基于显著性的一致性,即通过显著性方法使属性选择的分布与属性的真实重要性保持一致,我们将引入积分梯度方法来知道注意力。最后,我们提出了一种新颖的协同聚类方法,对完整交互和相应的属性选择分布进行协同聚类,以实现基于聚类的一致性。
如上图左侧所示,我们将完整交互建模为了超图,其中每条超边代表了一个完整交互,它连接了该交互所涉及的所有类型的对象节点。具体来说,对于涉及了 5 个对象 、、 的完整交互 ,我们将构建一条超边将这些对象连接起来。此外,我们将这些对象的属性 附加到节点特征上,并将交互环境 例如时空上下文(应该被视为交互的属性而不是对象的属性)附到超边特征上。因此,这样的一条超边及其连接节点及其特征合在一起,就可以表示一个完整交互的实例。
为了促使注意力机制可以选择属性,我们将超边和节点的表示初始化为特征矩阵而不是向量。形式地,和分别表示超边 和节点 的初始 维表示,其中特征矩阵的每一行表示节点/超边的某个特定属性。
给定一个超图与其关联矩阵 ,令 、和 分别表示边的度对角矩阵,节点度对角矩阵和超边的预定义权重(默认都为 1)。根据已有的研究,谱超图卷积可以简化并形式化为:
其中 表示节点的特征矩阵,是过滤器的可训练参数。这种形式也可以理解为如下的信息聚合规则:节点特征首先通过乘以矩阵 依据超边进行聚合,形成超边特征。然后通过聚合超边特征来获得更新后的节点特征,即通过乘以 来实现。
受此计算过程的启发,我们将此信息聚合过程参数化为两阶段的基于注意力的聚合规则,以从 层到 层为例,如下所示:
以第一个公式为例,超边 的新表示 由自身及其所连接的节点 聚合而得到。为了在聚类完整交互过程中识别并选择出重要的属性,我们将这条超边及其连接的节点的特征矩阵按行拼接成一个组合特征矩阵,然后应用一个特征感知的软注意力机制。形式化地:
其中是注意力中的参数向量。通过特征感知的软注意力机制,我们可以得到超边的新表示和对于完整交互的属性选择分布。类似地,我们也可以得到节点的新表示。
由于每一层代表某个特定阶的关系,我们将每一层的表示相加作为完整交互和节点的最终表示,即 和。简单起见,我们仅使用第一层中的注意力权重 作为完整交互 的属性选择分布。
由于注意力权重和真实重要性存在不一致性,属性选择的分布可能也是存在质疑的。受计算机视觉领域中显著性解释的启发,我们引入了积分梯度来指导注意力机制的学习。形式化地:
其中使用 SoftMax 函数将梯度转换为分布,然后应用KL散度让它指导注意力权重的分布。这里 IG 表示基向量为时的积分梯度。对于的每个元素而言(表示第个属性在第个完整交互中的权重),我们有:
其中表示上中的组合特征矩阵的第行。表示哈达玛积(Hadamard product)。
考虑到聚类得到的类簇有时与对应的属性选择分布并不一致,我们提出了一种新的协同聚类方法来对完整交互及其相应的注意力权重进行协同聚类,从而确保基于聚类的一致性。
经过以上模块,我们得到了完整交互的表示与对应的属性选择分布。具体地,给定第个交互的表示和第个可训练的聚类质心,遵循现有的神经聚类方法,我们可以以学生 t 分布为核来测量它们之间的相似性,如下所示:
其中 是学生 t 分布的自由度,我们令 。可以认为是将交互分配给类簇的概率,即软分配。这里将所有交互的分配分布记作 。然后我们可以通过学得的高置信度分配来优化 ,即形如如下目标分布 :
通过最小化和之间的 KL 散度,目标分布可以帮助模型实现高内聚和低耦合的聚类要求,从而实现聚类过程。
然而,在我们的任务中,我们的目标是确保每个类簇一一对应于属性选择分布,即基于聚类的一致性。因此,对于每个完整交互的属性选择分布,我们也可以通过类似的可训练的聚类质心,为注意力权重计算分配分布和目标分布。
然而在我们的任务中,我们的目标是确保每个类簇一一对应于属性选择分布,即基于聚类的一致性。因此,对于每个完整交互的属性选择分布,我们也可以通过注意力权重类似地计算聚类分配分布和对应的目标分布。具体地,给定第个完整交互的对应属性选择分布,我们有:
其中是注意力权重的第个簇质心。最后,为了这两组分布可以相互指导直到收敛,我们开创性地提出了一种协同聚类方法,即交换它们的目标分布。形式化地,我们最小化以下公式:
通过上述目标函数,我们既可以实现分别对完整交互和注意力权重的聚类,又可以使它们相互学习和促进。
对于我们模型的自监督训练,我们通过计算出的超边和节点表示,应用基于距离的对比损失来重建超图的关联矩阵:
其中表示节点和超边之间是否存在连接关系,是间隔超参数。在本工作中,置。最后通过合并上述子目标函数,我们可以得出最终的以下损失函数:
其中和是损失系数。为简单起见,我们设置用于模型参数的正则化。
实验
表 2 报告了在公开数据集和工业数据集上的聚类结果。如表所示,我们的 CIAH 大大优于所有的基线方法,这表明了我们所提出的方法在聚类完整交互任务上的有效性。具体地,我们可以得出如下结论。
在属性较少的数据集上,即 ACM 和 IMDB,纯结构方法,尤其是经典的 node2vec,比纯属性方法 K-means 和 AE 表现更好。此外,同时考虑属性和图结构的方法,例如 HGT,通常会进一步提高集群性能,验证了同时考虑属性和结构的优势。虽然基于超图的基线方法仅获得相对较差的性能,但我们的 CIAH 仍然获得了最好的性能,这证明了并不是简单地应用超图来集成信息,就一定可以获得效果的提升。
而对于属性丰富的数据集,即 MT-4 和 MT-9,情况并非如此。仅靠属性的方法的性能,就已经远远超过了仅考虑结构的方法甚至可以超过结合属性和图结构的方法。但是,基于超图的方法可以取得明显更好的结果,这验证了将完整交互建模为超图的必要性。尤其是在推荐领域,为每一次交互引入一个汇总节点只能建模成对的交互关系,而实际上一个完整交互是一个不可分割的整体。因此强行将其拆分为若干个成对的子关系会导致信息丢失,这再次验证了我们模型的有效性。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧