2021-03-16(Original GAT和Dot-product,哪种注意力机制更适合图?)

Original GAT(GO)虽然借鉴了transformer的思想,但是其注意力交互方式并不是transformer里Dot-product(DP)为基础的self-attention,作为两种最常用的注意力机制,他们谁会更适合图网络结构呢?如今也涌现出了很多复现在图网络中以dp注意力机制交互的工作,下面发表在ICLR2021的一篇工作就做实验拆解分析了两种不同的注意交互方式:
How to find your friendly neighborhood graph attention design with self-supervision
结论是:
我们观察到 DP 注意力在链接预测任务上要优于GO,GO在标签一致性(label-agreement)上要优于DP。
那种图注意建模关系的重要性和节点的表达最好呢?
我们发现这取决于图的同质性和节点的平均度。
首先,当同质性很低(<=0.2)时,DP要好于GO,这是因为DP注意力更能够注意少部分邻居。
其次,即使图的同质性很低,SuperGAT对GAT的性能增益也会随着平均度增加到一定程度(10左右)提升,这意味着如果有足够多的边提供监督,关系建模可以从自我监督中受益。
第三,如果同质性以及平均度都很高,那么所有模型都没啥区别,包括GCN。
这三个结论告诉我们,GO和DP互有优势,我们要针对数据情况有机的结合他们。

你可能感兴趣的:(2021-03-16(Original GAT和Dot-product,哪种注意力机制更适合图?))