标准 Transformer 可以成为强大的超图学习器 Pure Transformers Can Be Powerful Hypergraph Learners

Pure Transformers Can Be Powerful Hypergraph Learners

  • 要闻速览
  • TokenHGT: Based on TokenGT
  • 实验结果
  • 结论与局限性

这是我的硕士毕业论文,代码 Github

要闻速览

现有问题:

  • 图/超图卷积运算(消息传递方法)可能会导致过度平滑问题。
  • 改进结构的 Transformer 是为 特定任务而设计的,可能会限制模型的多功能性,从而阻碍集成到多任务和多模态通用注意力架构中。
  • Tokenized Graph Transformer(TokenGT) 已成功解决图领域中的这些问题。但未在超图领域解决。

我的贡献:

  • 本文旨在将 TokenGT 扩展到超图领域,以解决超图领域中消息传递和超图特定结构修改的限制。

  • 提供一种处理超图的可选方法。

TokenHGT: Based on TokenGT

这项工作是基于 tokenGT,而我们的模型称为 Tokenized HyperGraph Transformer(TokenHGT),由于超图与图不同,因此我们的流程中仍然有创新。

以下是 tokenGT 和 tokenHGT pipeline的比较。 tokenGT pipeline如下:

标准 Transformer 可以成为强大的超图学习器 Pure Transformers Can Be Powerful Hypergraph Learners_第1张图片

我们的 TokenHGT pipeline 如下:

标准 Transformer 可以成为强大的超图学习器 Pure Transformers Can Be Powerful Hypergraph Learners_第2张图片

一些差异如下:

  • 拉普拉斯特征分解公式不同

  • 每个图的边只包含2个节点,每个超边包含的节点数量不同,所以我们不能像图的边那样通过连接的节点数量进行特征向量对齐,所以我直接特征向量加起来进行特征融合

  • 根据实验结果,我将特征 tokens与特征向量tokens concatenate起来,而不是对它们求和…

  • 我没有使用“Type Identifier”,它会降低模型的性能(在我个人看来,这不是人造特征,而是噪音)

实验结果

现在让我们做一些实验!

tokenHGT 算法设计为在图级别(Graph-Level)运行,需要包含大量超图的数据集。理想情况下,数据集还应包括节点和超边特征,以捕获超图固有的结构和属性信息。

然而,找到满足这些要求的现成数据集具有挑战性。因此,我们探索了两种方法来创建合适的超图数据集。

我找到两个选择:

  • 使用双超图变换 (DHT) 将图转换为超图 Edge Representation Learning with Hypergraphs | 点这里看博客.
  • 将 文本文件text转为超图 Hypergraph Attention Networks for Inductive Text Classification

我在PCQM4Mv2和ogbg-molhiv数据集上尝试了DHT方法,将分子图转换为超图很有趣,但由于设备限制(Money is all you need:),我不得不放弃它。

将文本转换为超图是一个不错的选择,数据集总是很小~

有关如何将文本转换为超图的更多详细信息 how to convert a text into a hypergraph.

我所用的数据集情况:

标准 Transformer 可以成为强大的超图学习器 Pure Transformers Can Be Powerful Hypergraph Learners_第3张图片

实验结果

标准 Transformer 可以成为强大的超图学习器 Pure Transformers Can Be Powerful Hypergraph Learners_第4张图片

你会发现我使用了 5 个数据集,但只显示了 3 个数据集结果,这是因为我们的模型在 20NG 和 Ohsumed 上的性能太糟糕了 5555

结论与局限性

结论:

  • TokenHGT 模型一般将标准 Transformer 应用于超图区域。

  • TokenHGT 能够有效克服消息传递方法的局限性,从而在特定数据集上实现卓越的性能。

  • 同时,标准Transformer结构保证了模型的通用性,这有助于未来的多模态研究。

限制:

  • TokenHGT 不擅长处理大型超图。根据 Graphomer 的说法,自注意力模块表现出二次复杂度,这限制了它对大图的适用性。

  • 它需要一个合适的超图数据集,而找到这个数据集可能很困难。

代码与文档详情请移步我的Github!如果你觉得不错,请给我的Github项目点个星星 感谢~~

你可能感兴趣的:(神经网络,transformer,hypergraph,graph,图,超图)